Набор сімвалаў
Набор сімвалаў (англ.: character set) — табліца, якая задае кадзіроўку канчатковага мноства сімвалаў алфавіта (звычайна элементаў тэксту: літар, лічбаў, знакаў пунктуацыі). Такая табліца апісвае адпаведнасць кожнаму сімвалу паслядоўнасць даўжынёй у адзін ці некалькі сімвалаў іншага алфавіта (кропак і працяжнікаў у кодзе Морзэ, сігнальных флагаў на флоце, нулёў і адзінак (бітаў) у камп’ютары).
Набор сімвалаў у камп’ютары
[правіць | правіць зыходнік]Сімвалы ў камп’ютары звычайна кадуюцца адным ці некалькімі байтамі (групамі з васьмі бітаў).
Хоць тэрмін «набор сімвалаў» (англ.: character set, charset), узаконены інтэрнэт-стандартам RFC 2278, зараз з’яўляецца найбольш аўтарытэтным, папярэдні яму тэрмін «кадзіроўка» (англ.: encoding) па-ранейшаму ўжываецца ў якасці сіноніма, у прыватнасці, у мовах праграміравання Java[1], Perl[2] і XSLT[3], а таксама ў HTML[4].
Часам таксама замест тэрміна «набор сімвалаў» памылкова ўжываюць тэрмін «кодавая старонка», які пазначае на самой справе асобны выпадак набору сімвалаў у аднабайтным кадаванем.
У цяперашні час галоўным чынам выкарыстоўваюцца кадзіроўкі трох тыпаў: сумяшчальныя з ASCII, сумяшчальныя з EBCDIC і заснаваныя на Унікодзе 16-бітныя, з пераважаннем першых. Уяўленне UTF-8 Унікода сумяшчальна з ASCII. Кадыроўкі на базе EBCDIC (напрыклад, ДКОИ-8 ) ужываюцца толькі на некаторых мэйнфрэймах. Першапачаткова ў кожнай аперацыйнай сістэме ўжываўся адзін набор сімвалаў. Цяпер наборы сімвалаў стандартызаваныя[5], залежаць ад тыпу аперацыйнай сістэмы толькі па традыцыі і ўсталёўваюцца згодна лакалі.
У Вікіпедыі і іншых праектах Фонду Вікімедыя ўжываецца Унікод UTF-8.
Распаўсюджаныя кадзіроўкі
[правіць | правіць зыходнік]- ISO 646
- BCDIC
- EBCDIC
- ISO 8859:
- Кадыроўкі Microsoft Windows:
- Windows-1250 для моў Цэнтральнай Еўропы, якія ўжываюць лацінскае напісанне літар (польскі, чэшскі, славацкі, венгерскі, славенскі, харвацкі, румынскі і албанскі)
- Windows-1251 для кірылічных алфавітаў
- Windows-1252 для заходніх моў
- Windows-1253 для грэчаскай мовы
- Windows-1254 для турэцкай мовы
- Windows-1255 для іўрыту
- Windows-1256 для арабскай мовы
- Windows-1257 для балтыйскіх моў
- Windows-1258 для в’етнамскай мовы
- MacRoman, MacCyrillic
- КОИ8 (KOI8-R, KOI8-U…), КОИ-7
- Балгарская кадзіроўка
- ISCII
- VISCII
- Big5 (найбольш вядомы варыянт Microsoft CP950)
- Guobiao
- Shift JIS для японскай мовы (Microsoft CP932)
- EUC-KR для карэйскай мовы (Microsoft CP949)
- ISO-2022 и EUC для кітайскай пісьменнасці
- Кадыроўкі UTF-8, UTF-16 і UTF-32 набора сімвалаў Унікод
Гл. таксама
[правіць | правіць зыходнік]Зноскі
- ↑ Пералік асноўных «кадыровак» ў дапаможніку па Java SE 6
- ↑ Абмеркаванне тэмы «кадыровак» у дакументацыі па мове Perl
- ↑ Абмеркаванне тэмы «кадыровак» у дакументацыі па тэхналогіі XSLT
- ↑ Абмеркаванне суадносін тэрмінаў «кадзіроўка» і «набор сімвалаў» у дакументацыі па мове HTML
- ↑ Спецыфікацыі набораў сімвалаў на сайце IANA