Mi a kód táblázat
Az 1. ábra a szimbólumok szerepelnek a standard (angol) és kiterjesztett (orosz) ASCII kódolás.
Az első felében ASCII tábla szabványosított. Ez tartalmaz vezérlő kódokat (az 00h 20h 77h és). Ezek a kódok eltávolítjuk a táblázatban, mivel azok nem vonatkoznak a szöveges elemekhez. Itt kerülnek írásjeleket és a matematikai jelek: 2LH -. 26h - , 28h - (, 2Bh - + kis és nagy betűk :. 41h - A, 61H - a.
A második felében a táblázat tartalmazza a nemzeti betűtípus, rajz karakterek, amelyek építhető az asztalra, speciális matematikai szimbólumok. Az alsó része a kódtáblát lehet cserélni a megfelelő illesztőprogramok - ellenőrzési támogatási programokat. Ez a technika lehetővé teszi a használatát több betűtípust és betűtípusok.
Minden karakter kódja kijelző megjeleníti a szimbólum kép - nemcsak a digitális kód és a megfelelő képet, mint az egyes karakternek megvan a saját formáját. Leírás képez minden karakter egy memóriában tárolt a kijelző - karakter generátort. A következő a kijelzőn a szimbólum IBM PC, például útján pontok kialakítására jellegű mátrixban. Minden pixel egy ilyen mátrix egy eleme a kép, és lehet világos vagy sötét. Sötét dot van kódolva 0, fényes (világos) - 1. Ha a mátrixban jelentik területén sötét pixelek megjelöli azt a pontot, és a fény - egy csillag, akkor ábrázolják a karakter alakját grafikusan.
Az emberek különböző országok karakter rögzíti a szavakat a saját anyanyelvük van. Manapság a legtöbb alkalmazás, beleértve az e-mail rendszerek és böngészők, tisztán 8 bites, azaz meg tudják jeleníteni, és helyesen érzékelni csak 8 bites karaktereket, az ISO-8859-1 szabványnak.
Jelenleg több mint 256 karakter a világon (ha figyelembe vesszük, cirill, arab, kínai, japán, koreai és thai), és egyre több és több új karaktert. És létrehozza az alábbi hiányosságok sok felhasználó számára:
Nem tudja használni karakterek különböző kódolások ugyanabban a dokumentumban. Mivel minden szöveges dokumentumot használ saját sorozata kódolás van, akkor nagy nehézségek automatikus szöveges elismerést.
Vannak új karaktert (pl euró), ami az ISO fejleszt egy új ISO-8859-15 szabvány, amely nagyon hasonlít az ISO-8859-1 szabványnak. A különbség a következő: a ISO-8859-1 kódolás régi szabvány szimbólumokat lásd a táblázatot a régi valuták már eltávolították, ami nincs használatban, annak érdekében, hogy legyen hely az újonnan kialakuló karaktereket (például euró). Ennek eredményeként a felhasználók fekszenek a lemezeken ugyanazokat a dokumentumokat, de különböző kódolások. A megoldás ezekre a problémákra az elfogadása egy nemzetközi halmaza kódolás, ami az úgynevezett univerzális kódolási vagy Unicode.
A szabvány két fő részből áll: a Universal Character Set (angol UCS, univerzális karakterkészlet.) És a család kódolások (angol UTF, Unicode átalakítási formátum.). Az univerzális karakterkészlet meghatároz egy lehetséges jelképek kódok - kódelemtől helyet, ami nem negatív egész. A család kódolások meghatároz egy UCS gépi kód szekvenciákat.
Az Unicode szabvány lett kialakítva, hogy hozzon létre egy karakterkódolás az összes modern és sok régi írott nyelv. Minden karakter van kódolva a standard 16 bit, amely lehetővé teszi, hogy elfog sokkal több karakter, mint a korábbi 8 bites kódolás. Egy másik fontos különbség a többi Unicode kódrendszer, hogy nem csak rendel minden karakter egyedi kód, hanem meghatározza a különböző jellemzőit a karakter, például:
A típusú karakter (nagybetűk, kisbetűk, számok, írásjelek, stb);
képességeidet (kijelzőn balról jobbra vagy jobbról balra, a tér, a sortöréseket, stb);
megfelelő vagy csupa nagybetűvel (a felső és nagybetűket, rendre);
megfelelő számértéket (digitális karakter).
A teljes körű kódok 0 FFFF van osztva számos standard alcsoportok, amelyek mindegyike megfelel egy ábécé egy nyelv vagy egy csoport speciális karakterek, amelyek hasonló funkciót. Az alábbi ábra egy általános listáját részhalmazainak Unicode 3.0 (2. ábra).
Az Unicode szabvány az alapja a tárolás és a szöveg sok mai számítógépes rendszerek. Azonban ez nem kompatibilis a legtöbb internet protokoll, mert a kódok tartalmaz bájtértékeket és protokollok általánosan használt bájtok 00 - 1F és FE - FF, mint szolgáltatás. több Unicode konverziós formátumok lettek tervezve kompatibilitás (UTFs, Unicode Transformation formátumok), amelyek ma a leggyakoribb az UTF-8. Ez a formátum határozza meg a következő átalakulás szabályainak minden Unicode kódot bájtban beállítva (1-3) szállítására alkalmas Internet protokollokat.
Binary karakter kódja
1110xxxx 10yyyyyy 10zzzzzz
Itt, x, y, z jelöli a forrás bitek előhívhatók a legalacsonyabb, és belépett a byte az eredmény jobbról balra, amíg az összes ezeket a pozíciókat töltik.
Így vannak 4 alapvető kódoló eljárás byte Unicode formátumú:
UTF-8: 128 karakter van kódolva egy byte (ASCII formátumban) 1920 szimbólumot kódolva 2 bájt ((római, görög, cirill, kopt, örmény, héber, arab karakter) 63.488 szimbólumok által kódolt 3 bájt (kínai, japán et al.) A fennmaradó 2147418112 karakterek (nem használt) kódolhatja 4, 5 vagy 6 byte.
UCS-2: Minden karakter képviseli 2 bájt. Ez a kódolás magában csak az első 65.535 szimbólumokat a Unicode formátumban.
UTF-16: ez egy kiterjesztése UCS-2, beleértve 1.114.112 méret Unicode karaktereket. Az első 65.535 szimbólumok vannak ábrázolva, 2 bájt, és a többi - 4 bájt.
A USC-4: Minden karakter van kódolva 4 bájt.