KOI8-T
il KOI8-T è un sistema di codifica di caratteri a 8-bit progettato per essere adoperato con la lingua tagica, in particolare con la versione dell'alfabeto tagico che si rifà all'alfabeto cirillico.[1] Introdotto da Michael Davis come soluzione temporanea per riempire i vuoti presenti nei sistemi di codifica allora esistenti in attesa della definitiva affermazione dell'Unicode,[2] il KOI8-T, il cui nome sta per Kod Obmena Informaciej, 8 bit (in russo Код Обмена Информацией, 8 бит, Codice per lo scambio di informazioni, 8 bit), è basato sul KOI8-R, sistema di codifica basato sull'originale KOI8 e progettato per l'utilizzo con il russo e con il bulgaro, di cui sostituisce alcuni caratteri grafici con sei lettere tagiche nelle loro versioni maiuscola e minuscola: Қ, Ғ, Ң, Ҷ, Ӯ e Ӣ.
Il KOI8 ed il CP-1251, un altro sistema di codifica di caratteri per le lingue che utilizzano l'alfabeto cirillico, sono ancora molto più utilizzati dell'ISO 8859-5, che in effetti non ha mai trovato grande utilizzo, anche se oggi, ormai, nella stragrande maggioranza degli utilizzi moderni, viene loro preferito l'Unicode.
Il KOI8 ed i sistemi da lui derivati hanno la particolarità di avere le lettere cirilliche disposte in ordine pseudo-latino piuttosto che nel comune ordine dell'alfabeto cirillico come hanno per esempio l'ISO 8859-5 e l'Unicode. Sebbene questo possa sembrare anti intuitivo, questa caratteristica risulta utile per il fatto che se l'ottavo bit viene eliminato, il testo è parzialmente leggibile utilizzando il sistema ASCII e può essere convertito in un testo in KOI7 sintatticamente corretto. Per esempio se dalla scritta in KOI8-T "Русский Текст" viene eliminato l'ottavo bit, essa diventa rUSSKIJ tEKST ("Testo russo") ed un tentativo di interpretare tale stringa con il KOI7 porta a "РУССКИЙ ТЕКСТ". Il KOI8 fu creato basandosi sul codice Morse russo (che a sua volta fu creato dal codice Morse internazionale basandosi sulle assonanze) e la connessione riguardante l'ordine delle lettere tra il codice Morse russo e quello internazionale è la stessa che esiste tra il KOI8 e l'ASCII.
Tabella
modificaLa seguente tabella mostra il sistema di codifica KOI8-T. Ogni carattere è rappresentato al centro della cella con il suo equivalente Unicode in alto e il suo codice decimale in basso.
Caratteri di controllo | Punteggiatura | ||
Cifre numeriche | Caratteri alfabetici | ||
Caratteri internazionali | Caratteri non definiti | ||
Caratteri grafici | Punteggiatura estesa |
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -A | -B | -C | -D | -E | -F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0- | 0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
1- | 16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
31 |
2- | 0020 SP 32 |
0021 ! 33 |
0022 " 34 |
0023 # 35 |
0024 $ 36 |
0025 % 37 |
0026 & 38 |
0027 ' 39 |
0028 ( 40 |
0029 ) 41 |
002A * 42 |
002B + 43 |
002C , 44 |
002D - 45 |
002E . 46 |
002F / 47 |
3- | 0030 0 48 |
0031 1 49 |
0032 2 50 |
0033 3 51 |
0034 4 52 |
0035 5 53 |
0036 6 54 |
0037 7 55 |
0038 8 56 |
0039 9 57 |
003A : 58 |
003B ; 59 |
003C < 60 |
003D = 61 |
003E > 62 |
003F ? 63 |
4- | 0040 @ 64 |
0041 A 65 |
0042 B 66 |
0043 C 67 |
0044 D 68 |
0045 E 69 |
0046 F 70 |
0047 G 71 |
0048 H 72 |
0049 I 73 |
004A J 74 |
004B K 75 |
004C L 76 |
004D M 77 |
004E N 78 |
004F O 79 |
5- | 0050 P 80 |
0051 Q 81 |
0052 R 82 |
0053 S 83 |
0054 T 84 |
0055 U 85 |
0056 V 86 |
0057 W 87 |
0058 X 88 |
0059 Y 89 |
005A Z 90 |
005B [ 91 |
005C \ 92 |
005D ] 93 |
005E ^ 94 |
005F _ 95 |
6- | 0060 ` 96 |
0061 a 97 |
0062 b 98 |
0063 c 99 |
0064 d 100 |
0065 e 101 |
0066 f 102 |
0067 g 103 |
0068 h 104 |
0069 i 105 |
006A j 106 |
006B k 107 |
006C l 108 |
006D m 109 |
006E n 110 |
006F o 111 |
7- | 0070 p 112 |
0071 q 113 |
0072 r 114 |
0073 s 115 |
0074 t 116 |
0075 u 117 |
0076 v 118 |
0077 w 119 |
0078 x 120 |
0079 y 121 |
007A z 122 |
007B { 123 |
007C | 124 |
007D } 125 |
007E ~ 126 |
127 |
8- | 049B қ 128 |
0493 ғ 129 |
201A ‚ 130 |
0492 Ғ 131 |
201E „ 132 |
2026 … 133 |
2020 † 134 |
2021 ‡ 135 |
136 |
2030 ‰ 137 |
04B3 ң 138 |
2039 ‹ 139 |
04B2 Ң 140 |
04B7 ҷ 141 |
04B6 Ҷ 142 |
143 |
9- | 049A Қ 144 |
2018 ‘ 145 |
2019 ’ 146 |
201C “ 147 |
201D ” 148 |
2022 • 149 |
2013 – 150 |
2014 — 151 |
152 |
2122 ™ 153 |
154 |
203A › 155 |
156 |
157 |
158 |
159 |
A- | 160 |
04EF ӯ 161 |
04EE Ӯ 162 |
0451 ё 163 |
00A4 ¤ 164 |
04E2 ӣ 165 |
00A6 ¦ 166 |
00A7 § 167 |
168 |
169 |
170 |
00AB « 171 |
00AC ¬ 172 |
00AD SHY 173 |
00AE ® 174 |
175 |
B- | 00B0 ° 176 |
00B1 ± 177 |
00B2 ² 178 |
0401 Ё 179 |
180 |
04E1 Ӣ 181 |
00B6 ¶ 182 |
00B7 · 183 |
184 |
2122 № 185 |
186 |
00BB » 187 |
188 |
189 |
190 |
00A9 © 191 |
C- | 044E ю 192 |
0430 а 193 |
0431 б 194 |
0446 ц 195 |
0434 д 196 |
0435 е 197 |
0444 ф 198 |
0433 г 199 |
0445 х 200 |
0438 и 201 |
0439 й 202 |
043A к 203 |
043B л 204 |
043C м 205 |
043D н 206 |
043E о 207 |
D- | 043F п 208 |
044F я 209 |
0440 р 210 |
0441 с 211 |
0442 т 212 |
0443 у 213 |
0436 ж 214 |
0432 в 215 |
044C ь 216 |
044B ы 217 |
0437 з 218 |
0448 ш 219 |
044D э 220 |
0449 щ 221 |
0447 ч 222 |
044A ъ 223 |
E- | 042E Ю 224 |
0410 А 225 |
0411 Б 226 |
0426 Ц 227 |
0414 Д 228 |
0415 Е 229 |
0424 Ф 230 |
0413 Г 231 |
0425 Х 232 |
0418 И 233 |
0419 Й 234 |
041A К 235 |
041B Л 236 |
041C М 237 |
041D Н 238 |
041E О 239 |
F- | 041F П 240 |
042F Я 241 |
0420 Р 242 |
0421 С 243 |
0422 Т 244 |
0423 У 245 |
0416 Ж 246 |
0412 В 247 |
042C Ь 248 |
042B Ы 249 |
0417 З 250 |
0428 Ш 251 |
042D Э 252 |
0429 Щ 253 |
0427 Ч 254 |
042A Ъ 255 |
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -A | -B | -C | -D | -E | -F |
Nella tabella soprastante, il corrispettivo del codice Unicode 20 è il carattere spazio mentre del codice Unicode A0 è lo spazio unificatore.
Note
modifica- ^ Guido Flohr, Locale::RecodeData::KOI8_T - Conversion routines for KOI8-T, su metacpan.org, CPAN.
- ^ Michael Davis, Tajiki TrueType fonts for the Web: Frequently Asked Questions, su traveltajikistan.com, Travel Tajikistan, 21 novembre 2000 (archiviato dall'url originale il 5 ottobre 2001).
Voci correlate
modificaCollegamenti esterni
modifica- Tutto sul KOI8-R
- Universal Cyrillic decoder, Un'applicazione online che può aiutare nel recupero di testi illeggibili in cirillico creati con il sistema di codifica KOI8-R.
- Una breve storia dei sistemi di codifica per il cirillico
- IBM CDRA