Voľná ​​tabuľka znakov Unicode

Unicode je medzinárodný štandard kódovania znakov, ktorý vám umožňuje zobrazovať text na ľubovoľnom počítači na svete rovnakým spôsobom bez ohľadu na jazyk systému, ktorý sa na ňom používa.

Základy

Aby ste pochopili, čo je potrebné pre tabuľku znakov Unicode, najprv pochopíme mechanizmus zobrazovania textu na obrazovke monitora. Počítač, ako vieme, spracováva všetky informácie digitálne, ale na to, aby sme to pre správne vnímanie osoby, musí byť v grafe. Preto, aby sme si prečítali tento text, musíme vyriešiť aspoň dve úlohy:
  • Kódované vytlačené znaky v digitálnej podobe.
  • Aktivujte operačný systém na porovnanie digitálnej formy s vektorovými symbolmi, inými slovami, aby ste našli správne písmená.
  • Prvé kódovanie

    Za predchodcu všetkých kódov sa považuje americký ASCII. Popisuje anglickú abecedu interpunkciou a arabskými číslicami. 128 znakov použitých v ňom sa stalo základom ďalšieho vývoja - používa sa aj moderná tabuľka znakov Unicode. Listy latinskej abecedy sú odteraz prvými pozíciami v akomkoľvek kódovaní.
    Všetky znaky ASCII umožnili uloženie 256 znakov, ale keďže prvých 128 latinských jazykov, 128 zostalo celosvetovo používaných na vytvorenie národných štandardov. Napríklad v Rusku na jej základe vznikli CP866 a KOI8-R. Tieto variácie sa nazývajú rozšíreniaVerzie ASCII.

    Kódované stránky a Crazzybras

    Ďalšie vývoj technológie a vznik grafického rozhrania viedli k vytvoreniu kódovania ANSI americkým inštitútom pre štandardizáciu. Pre ruských používateľov, najmä so skúsenosťami, je ich verzia známa ako Windows 1251. Prvýkrát predstavil koncept "kódovej stránky". Pomocou kódových stránok, ktoré obsahovali symboly národných abecedov, s výnimkou latinčiny, existovalo "vzájomné porozumenie" medzi počítačmi používanými v rôznych krajinách.

    Avšak prítomnosť veľkého množstva rôznych kódov používaných pre ten istý jazyk začala spôsobovať problémy. Tam boli tzv. Karkozybris. Vyskytli sa z rozdielu medzi zdrojovou kódovou stránkou, v ktorej boli vytvorené niektoré informácie, a kódovou stránkou, ktorá sa predvolene používa na počítači koncového používateľa.
    Ako príklad možno uviesť vyššie uvedené cyrilské kódovanie CP866 a KOI8-R. Písmená v nich sa líšili v kódových pozíciách a zásadách umiestnenia. V prvom prípade boli usporiadané v abecednom poradí av druhom - svojvoľným spôsobom. Môžete si predstaviť, čo sa deje pred očami používateľa, ktorý sa pokúsil otvoriť takýto text bez toho, aby mal požadovanú kódovú stránku alebo jej nesprávne interpretoval počítač.

    Vytváranie Unicode

    Rozširovanie internetu a súvisiacich technológií, ako napríklad e-mail, viedlo k tomu, že textové správy nakoniec prestali vyhovovať všetkým. Vedúce spoločnosti v danej oblastiIT vytvoril Unicode Consortium ("Consortium Unicode). Povaha zastúpené ho v roku 1991, s názvom UTF-32 ponechať viac ako jednu miliardu jedinečný charakter. To bol dôležitý krok na ceste k rozlúšteniu texty
    .
    Prvá univerzálna tabuľka znakových kódov Unicode UTF-32 však nebola široko distribuovaná. Hlavným dôvodom bola redundancia uložených informácií. Rýchlo sa odhadovalo, že v prípade krajín, ktoré používajú latinku, kódovaných pomocou novej univerzálnej tabuľky, text sa bude konať štyrikrát viac, než pomocou tabuliek ASCII.

    Vývoj Unicode

    Nasledujúca tabuľka znakov UTF-16 Unicode vyriešila tento problém. Kódovanie v ňom bolo vykonané na polovicu počtu bitov, ale súčasne klesol aj počet možných kombinácií. Namiesto miliárd postáv je možné uložiť len 65536. Avšak sa ukázalo natoľko úspešný, že tento počet by rozhodnutie konzorcia bola definovaná ako základná skladovacie medzerou štandardné Unicode. Napriek tomuto úspechu nepotreboval UTF-16 všetkým, pretože množstvo uložených a prenášaných informácií bolo ešte dvakrát zaplavené. Univerzálnym riešením je znaková tabuľka UTF-8 Unicode s premenlivou dĺžkou zápisu. To sa dá nazvať prielomom v tejto oblasti.
    So zavedením posledných dvoch štandardov riešila tabuľka znakov Unicode problém jedného miesta pre všetky aktuálne použité písma.

    Unicode pre ruský jazyk

    VďakaDĺžka premenlivého kódu, ktorá sa používa na zobrazenie symbolov, latinka je kódovaná vo formáte Unicode, rovnako ako v jej vzostupnom ASCII, čo znamená jeden bit. Pre iné abecedy môže obrázok vypadať inak. Napríklad znaky gruzínskej abecedy sa používajú na zakódovanie troch bajtov a znaky cyrilickej abecedy sú dve. To všetko je možné v štandarde UTF-8 Unicode (mapa znakov). Ruský jazyk alebo cyrilická abeceda obsadzuje 448 pozícií vo všeobecnom kódovom priestore, rozdelených do piatich blokov.


    Tieto päť blokov zahŕňa hlavné znaky cyrilice a cirkevnej slovanskej abecedy, ako aj ďalšie písmená iných jazykov, ktoré používajú cyrilickú abecedu. Niekoľko pozícií je zvýraznených na zobrazenie starých foriem reprezentácie písmen abecedy az 22 pozícií z celkovej sumy zostáva zadarmo.

    Aktuálna verzia Unicode

    Rozhodnutie prvoradú úlohu, ktorý mal štandardizovať písma a vytvoriť pre nich jednotnú oblasť kódom "konzorcium" nie je prestal pracovať. Unicode sa neustále vyvíja a doplňuje. Posledná aktuálna verzia tohto štandardu 9.0 bola vydaná v roku 2016. Obsahovalo šesť ďalších abecedov a rozšírený zoznam štandardizovaných emódií.
    Treba poznamenať, že na zjednodušenie výskumu sa do Unicode pridávajú aj tzv. Mŕtve jazyky. Majú také meno, pretože ľudia, pre ktorých bol príbuzný, neexistujú. Do tejto skupiny patria aj jazyky, ktoré až dodnes prežili iba vo forme písomných pamiatok. vprincíp, požiadať o pridanie znakov do novej špecifikácie Unicode môže niekto. Je pravda, že za to bude musieť vyplniť slušné množstvo zdrojových dokumentov a trávia veľa času. Životným príkladom môže byť história programátora Terence Edena. V roku 2013 požiadal o zaradenie do špecifikácie symbolov, ktoré odkazujú na tlačidlá na správu napájania počítača. V technickej dokumentácii sa používajú od polovice 70. rokov minulého storočia, ale pred špecifikáciou 9.0 nebol súčasťou Unicode.

    Tabuľka znakov

    Na každom počítači, bez ohľadu na použitý operačný systém, tabuľka znakov Unicode. Ako používať tieto tabuľky, kde ich nájsť a čo môžu robiť pre bežného používateľa?
    V systéme Windows sa tabuľka symbolov nachádza v sekcii ponuky služby. V rade operačných systémov Linuxu sa zvyčajne nachádza v sekcii "Štandard" a v systéme MacOS - v nastaveniach klávesnice. Hlavným účelom tejto tabuľky je zadávanie znakov do textových dokumentov, ktoré nie sú umiestnené na klávesnici. Žiadosť o takéto tabuľky môže byť široká: od zavedenia technických symbolov a ikon národných menových systémov do písania príručky o praktickom používaní tarotových kariet.

    Na záver

    Unicode sa používa všade a vstupuje do nášho života spolu s rozvojom internetu a mobilných technológií. Vďaka svojmu použitiu sa systém medzinárodnej komunikácie výrazne zjednodušil. Môžete to povedaťUnicode realizácie je len orientačné, ale úplne neviditeľné príkladom použitia technológie v prospech celého ľudstva.

    Súvisiace publikácie