Homepage » hogyan kell » Mik azok a karakterkódolások, mint az ANSI és az Unicode, és hogyan különböznek egymástól?

    Mik azok a karakterkódolások, mint az ANSI és az Unicode, és hogyan különböznek egymástól?

    ASCII, UTF-8, ISO-8859 ... Lehet, hogy láttad ezeket a furcsa monikereket, de mit jelentenek? Olvassa el olvassa el, hogy mi a karakterkódolás, és hogy ezek a rövidítések hogyan kapcsolódnak a képernyőn látható egyszerű szöveghez.

    Alapvető építőelemek

    Amikor írásos nyelvről beszélünk, akkor a betűk épületei, a mondatok, a mondatok, stb. A betűk szimbólumok, amelyek a hangokat képviselik. Amikor beszélsz a nyelvről, akkor olyan hangcsoportokról beszélsz, amelyek együttesen jönnek létre valamiféle jelentést. Minden nyelvi rendszernek van egy összetett szabályrendszere és definíciója, amely ezeket a jelentéseket szabályozza. Ha van szó, akkor haszontalan, hacsak nem tudja, hogy melyik nyelvről van szó, és azt másokkal használja, akik ezt a nyelvet beszélik.

    (Grantha, Tulu és Malayalam szkriptek összehasonlítása, Kép a Wikipédiából)

    A számítógépek világában a „karakter” kifejezést használjuk. A karakter egy olyan elvont fogalom, amelyet meghatározott paraméterek definiálnak, de ez a jelentés alapvető egysége. A latin „A” nem ugyanaz, mint egy görög „alfa” vagy egy arab „alif”, mert különböző kontextusuk van - különböző nyelvektől, és kissé eltérő kiejtéssel rendelkeznek - így azt mondhatjuk, hogy különböző karakterek. A karakter vizuális ábrázolását „glyph” -nek nevezzük, és a különböző karakterjelek betűtípusát nevezik betűtípusnak. A karaktercsoportok egy „készlet” vagy „repertoár”.

    Amikor beírja a bekezdést, és megváltoztatja a betűtípust, nem változtatja meg a betűk fonetikai értékeit, megváltoztatja a megjelenés módját. Ez csak kozmetikai (de nem lényeges!). Néhány nyelv, mint az ókori egyiptomi és kínai, ideogramokkal rendelkezik; ezek a hangok helyett egész ötleteket képviselnek, és kiejtésük idővel és távolságonként változhat. Ha egy karaktert helyettesít egy másikra, akkor helyettesít egy ötletet. Ez több, mint a betűk megváltoztatása, ez megváltoztatja az ideogramot.

    Karakterkódolás

    (Kép a Wikipédiából)

    Ha valamit ír be a billentyűzeten, vagy betölt egy fájlt, hogyan tudja a számítógép, hogy mit kell megjeleníteni? Ez a karakterkódolás. A számítógépen lévő szöveg valójában nem betűk, párosított alfanumerikus értékek sorozata. A karakterkódolás olyan kulcsként működik, amelyhez az értékek megfelelnek annak a karakternek, amely hasonlóan az ortográfia meghatározásához, melyik hangok felelnek meg a betűknek. A Morse kód egyfajta karakterkódolás. Elmagyarázza, hogy a hosszú és rövid egységek csoportjai, például a sípolás jelek, karakterek. Morse kódban a karakterek csak angol betűk, számok és teljes megállók. Számos számítógépes karakterkódolás van, amelyek betűk, számok, ékezetjelek, írásjelek, nemzetközi szimbólumok stb..

    Ezen a témakörön gyakran használják a „kódlapok” kifejezést is. Ezek alapvetően karakterkódolások, amelyeket bizonyos vállalatok használnak, gyakran kis módosításokkal. Például a Windows 1252 kódlap (korábban ANSI 1252 néven ismert) az ISO-8859-1 módosított formája. Leginkább belső rendszerként használják, hogy a szabványos és módosított karakterkódolásokra vonatkozzanak, amelyek ugyanazon rendszerekre jellemzőek. Korábban a karakterkódolás nem volt olyan fontos, mert a számítógépek nem kommunikáltak egymással. Mivel az internet egyre gyakrabban jelenik meg, és a hálózatépítés gyakori, a mindennapi életünk egyre fontosabbá vált, anélkül, hogy rájöttünk volna rá.

    Sok különböző típus

    (Kép a következőtől: sarah sosiak)

    Rengeteg különböző karakterkódolás létezik, és ennek számos oka van. A használni kívánt karakterkódolás attól függ, hogy az Ön igényei milyenek. Ha oroszul kommunikál, akkor célszerű olyan karakterkódolást használni, amely támogatja a cirillos kútot. Ha koreai nyelven kommunikálsz, akkor valamit akarsz, ami Hangulot és Hanja-t képviseli. Ha matematikus vagy, akkor azt akarod, hogy a tudományos és matematikai szimbólumok mindegyike jól jelenjen meg, valamint a görög és a latin karakterek. Ha te prankster vagy, akkor talán előnyös lenne a fejjel lefelé mutató szöveg. És ha azt szeretné, hogy az összes ilyen dokumentumot egy adott személy nézze meg, akkor olyan kódolást szeretne, amely elég gyakori és könnyen hozzáférhető.

    Vessünk egy pillantást a leggyakoribbakra.

    (Az ASCII táblázat kivonata, kép az asciitable.com-tól)

    • ASCII - Az amerikai információs csere szabványkódja az egyik régebbi karakterkódolás. Eredetileg telegrafikus kódok alapján készült, és idővel fejlődött, hogy több szimbólumot és néhány, már elavult, nem nyomtatott vezérlő karaktert tartalmazzon. Valószínűleg olyan alapos, mint a modern rendszerek tekintetében, mivel a latin ábécé csak ékezetes karakterek nélkül korlátozódik. A 7 bites kódolása csak 128 karaktert tesz lehetővé, ezért számos nem hivatalos változat létezik a világon.
    • ISO-8859 - A Nemzetközi Szabványügyi Szervezet legszélesebb körben használt karakterkódolási csoportja a 8859-es szám. Minden egyes kódolást egy szám határoz meg, amelyet gyakran egy leíró moniker, pl. ISO-8859-3 (Latin-3), ISO-8859-6 (latin / arab). Ez az ASCII felülírója, ami azt jelenti, hogy a kódolás első 128 értéke ugyanaz, mint az ASCII. Ez azonban 8 bites, és 256 karaktert tesz lehetővé, így le van építve, és sokkal szélesebb karakterkészletet tartalmaz, minden egyes kódolás egy másik kritériumkészletre összpontosítva. A latin-1 magában foglal egy csomó ékezetes betűt és szimbólumot, de később egy módosított Latin-9 nevű szettre cserélt, amely magában foglalja a frissített karaktereket, mint az eurójelet.

    (Kivonat a tibeti szkriptből, Unicode v4, az unicode.org-ból)

    • Unicode - Ez a kódolási szabvány az egyetemességre törekszik. Jelenleg 93 parancsfájlt tartalmaz, amelyek több blokkban vannak rendezve, még sok más a művekben. Az Unicode a többi karakterkészleten eltérően működik, mert ahelyett, hogy közvetlenül egy kódot kódolna, minden érték tovább kerül egy „kódpontra”. , mint például a böngésző. Ezek a kódpontok általában az alábbiak szerint vannak ábrázolva: U + 0040 (ami „@” -re fordul). Az Unicode szabvány szerinti speciális kódolások az UTF-8 és az UTF-16. Az UTF-8 megpróbálja lehetővé tenni a maximális kompatibilitást az ASCII-vel. Ez 8 bites, de lehetővé teszi, hogy az összes karakter a helyettesítő mechanizmuson és a karakterenként több értékpáron keresztül legyen elérhető. Az UTF-16 tökéletes ASCII kompatibilitást biztosít a 16-bites teljes kompatibilitáshoz.
    • ISO-10646 - Ez nem egy tényleges kódolás, csak egy karakterkészlet az Unicode-tól, amelyet az ISO szabványosított. Ez főleg azért fontos, mert a HTML repertoárja. Hiányzik az Unicode által nyújtott további fejlettebb funkciók, amelyek lehetővé teszik a párosítást és a jobbról balra a balról jobbra parancsot. Mégis, nagyon jól működik az interneten, mivel lehetővé teszi a különböző szkriptek használatát, és lehetővé teszi a böngésző számára, hogy értelmezze a karaktereket. Ez megkönnyíti a lokalizációt.

    Milyen kódolást kell használni?

    Nos, az ASCII a legtöbb angol nyelvű beszélő számára működik, de nem sok más. Gyakran látni fogja az ISO-8859-1 szabványt, amely a legtöbb nyugat-európai nyelven működik. Az ISO-8859 többi verziója cirill, arab, görög vagy más speciális szkriptek esetében működik. Ha azonban több szkriptet szeretne megjeleníteni ugyanabban a dokumentumban vagy ugyanazon a weboldalon, az UTF-8 sokkal jobb kompatibilitást tesz lehetővé. Ez is jól működik azok számára, akik megfelelő írásjeleket, matematikai szimbólumokat, vagy mandzsettagombokat használnak, például négyzeteket és jelölőnégyzeteket.

    (Több nyelv egy dokumentumban, a gujaratsamachar.com képe)

    Vannak azonban hátrányok mindegyik készlethez. Az ASCII az írásjelek között korlátozott, így nem működik hihetetlenül a tipográfiai helyes szerkesztéseknél. Csak írja be a Word-be másolás / beillesztés parancsot, hogy legyen valami furcsa kombinációja a karakterjeleknek? Ez az ISO-8859 hátránya, vagy pontosabban annak feltételezett együttműködése az OS-specifikus kódlapokkal (YOU, Microsoft!). Az UTF-8 fő hátránya a megfelelő támogatás hiánya az alkalmazások szerkesztésében és közzétételében. Egy másik probléma az, hogy a böngészők gyakran nem értelmezik és csak megjelenítik az UTF-8 kódolású karakter bájtrendjét. Ez azt eredményezi, hogy nem kívánt karakterjeleket jelenít meg. Természetesen egy másik kódolásának és a karakterek használatának bejelentése anélkül, hogy helyesen jelezné őket egy weboldalon, a böngészők nehezen tudják őket megfelelően megjeleníteni, és a keresőmotorok megfelelően indexelni őket.

    A saját dokumentumok, kéziratok és így tovább használhatja mindazt, amire szüksége van a munkához. Ami azonban az internetet illeti, úgy tűnik, hogy a legtöbb ember egyetért abban, hogy egy olyan UTF-8 verziót használ, amely nem használ bájtjelet, de ez nem teljesen egyhangú. Mint látható, minden karakterkódolásnak saját felhasználása, kontextusa és erősségei és gyengeségei vannak. Végfelhasználóként valószínűleg nem kell foglalkoznia ezzel, de most már az extra lépést is megteheti, ha úgy dönt.