Coding Systems - studopediya
Kódolás szöveget a létrehozása közötti megfelelési táblázatot a kódoiószimbóiumhoz és kombinációs állapotbitek, vagyis a kódolási folyamat, hogy minden karakter egy egyedi kódot. Jelenleg a különböző kódolási rendszerek, a fő különbség a kettő között a szükséges bitek száma kódolásához egy szimbólum.
· ASCII (American Standard Code for Information Interchange): használt összeg információk = 7 bit kódolásához egy szimbólum. Ha figyelembe vesszük, szimbólumok, mint lehetséges események (. Lásd előadás 1), ki tudjuk számítani a karakterek számát kódolható:
Így a száma kódolt szimbólumok korlátozott, ezért hét bites kódolási rendszert nem lehet kódolt leveleket a magyar ábécé. A probléma merült fel ugyanakkor, hogy képviselje a magyar és angol karaktereket. Ways a probléma megoldására egy átírási és bővülő kódolást.
· Nyolc bites kódolási rendszer:
Ha az MSB-0-kódot, a kódolási rendszer egybeesik ASCII, ha az MSB -1 bevezeti kiegészítő kódokat-s oldalon.
Magyarországon jött létre egy ilyen rendszer KOI-8, hátránya, hogy a magyar betűket nem alfavitu.Krome hogy vannak CP-866, CP-1251, ANSI, használt Windows operációs rendszer.
· Nagy kódlapokhoz:
Coding egy szimbólum szüksége 16 bit
természetesen a kódolási rendszer nem jelent problémát az, hogy lehetetlen a kódolás egy szimbólum, mint a többlet 65535 kiterjed a különböző karakterek használt, de UNICODE van egy másik hiba a szövegek fordítása ASCII UNICODE jelentősen növeli a méretét a számítógép szöveget. Ebben a tekintetben, hogy kifejlesztett egy másik csoportját a kódolási rendszert használ, amely változó számú bitet karakterkódolást.
Ha a legnagyobb helyi értékű bit a kód nulla (bit8 = 0), a kódoló rendszer egybeesik ASCII, ahol minden egyes első 128 szimbólum van kódolva egy bájt.
Ha a vezető felel meg egy (1 = bit8, Bit7 = 0), az alábbi 16384 karakter kódolt hasonlóan a UNICODE, azaz minden karakter kódolás használ két bájt. Fennmaradó karakterek (65535-128-16384 = 49.023) által kódolt három bájt.
Példa: Tekintsük mennyi információ van egy karakterlánc „Information × - × Information”
a különböző kódolási rendszerekben. Abban az esetben, SR1251 minden karakter van kódolva egy bájtban Þ az információk mennyisége: 24 * 1 = 24 byte. A UNICODE, minden karakter van kódolva két bájt Þ az információk mennyisége: 24 * 2 = 48 byte. Az UTF-8 kódolást betűt, szóközt, kötőjelet és legyen egy bájt minden karaktert, és minden karakter a „információ” szót kódolt két bájt Þ információk: 14 * 1 + 10 * 2 = 34 byte.
Az egy dolog, számítógép szöveg - ez ábécé, amely szerint a szöveg kerül bemutatásra, mint egy karakterlánc (alphabetization). Egy másik megközelítés, hogy a számítógép szöveg már tekinteni, mint egy bonyolult szerkezet, amely egy sor karakterláncok.
t: - az egyik ilyen láncok k hosszúságú.
Ez a megközelítés lehetővé teszi, hogy megértsék az algoritmus átalakítására a szöveget, amelyet az elvet követi, funkcionális feltérképezése, azaz egyetlen karakterláncot, része a domain ezen algoritmus, társul egy másik lánc, amely az eredménye átalakítás: t1 ®t2. Ebben az esetben a domain a funkció (algoritmus) lesz a nyelvet.
A nyelvtan a nyelv - ezek a szabályok, hogy ad okot a tagok mind a lánc a nyelvet. Külön ábécé szimbólum - egy reguláris kifejezés. Nyelvtan, beépített reguláris kifejezések, írott formában egy programot, amely létrehoz egy karaktersorozatot. Kijelölése reguláris kifejezések - állítsa be a sztringek halmaza teszik ki a nyelvet.