Bokstavsfrekvens
Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som etaoin shrdlu cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning.
Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder. Frekvenserna för dessa enheter kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter.
Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt.
-
Spanska bokstavsfrekvenser.
-
Relativa bokstavsfrekvenser i engelsk text.
Relativa bokstavsfrekvenser i olika språk
[redigera | redigera wikitext]Bokstav | Svenska [1] | Engelska [2] | Franska [3] | Tyska [4] | Spanska [5] | Portugisiska [6] | Esperanto [7] | Italienska [8] | Turkiska [9] | Polska [10] | Nederländska [11] | Danska [12] | Isländska [13] | Finska [14] | Tjeckiska |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
% | % | % | % | % | % | % | % | % | % | % | % | % | % | % | |
a | 9,383 | 8,167 | 7,636 | 6,516 | 12,525 | 14,634 | 12,117 | 11,745 | 11,920 | 8,91 | 7,486 | 6,025 | 10,110 | 12,217 | 6,2 |
b | 1,535 | 1,492 | 0,901 | 1,886 | 1,415 | 1,043 | 0,980 | 0,927 | 2,844 | 1,42 | 1,584 | 2,000 | 1,043 | 0,281 | 2 |
c | 1,486 | 2,782 | 3,260 | 3,062 | 4,679 | 3,882 | 0,776 | 4,501 | 1,463 | 3,96 | 1,242 | 0,565 | 0 | 0,281 | 1,6 |
d | 4,702 | 4,253 | 3,669 | 5,076 | 5,810 | 4,992 | 3,044 | 3,736 | 4,706 | 3,73 | 5,933 | 5,858 | 1,575 | 1,043 | 3,3 |
e | 10,149 | 12,702 | 14,715 | 17,396 | 13,681 | 11,570 | 8,995 | 11,792 | 8,912 | 7,69 | 18,924 | 15,453 | 6,418 | 7,968 | 7,6 |
f | 2,027 | 2,228 | 1,066 | 1,656 | 0,692 | 1,023 | 1,037 | 1,153 | 0,461 | 0,143 | 0,805 | 2,406 | 3,013 | 0,194 | 0,092 |
g | 2,862 | 2,015 | 0,866 | 3,009 | 1,018 | 1,303 | 1,171 | 1,644 | 1,253 | 1,47 | 3,403 | 4,077 | 4,241 | 0,392 | 0,084 |
h | 2,090 | 6,094 | 0,737 | 4,577 | 0,703 | 0,781 | 0,384 | 0,636 | 1,212 | 1,2 | 2,380 | 1,621 | 1,871 | 1,851 | 1,35 |
i | 5,817 | 6,966 | 7,529 | 7,550 | 6,247 | 6,186 | 10,012 | 10,143 | 8,600* | 8,21 | 6,499 | 6,000 | 7,578 | 10,817 | 4,35 |
j | 0,614 | 0,153 | 0,613 | 0,268 | 0,443 | 0,397 | 3,501 | 0,011 | 0,034 | 2,28 | 1,461 | 0,730 | 1,144 | 2,042 | 2,2 |
k | 3,140 | 0,772 | 0,049 | 1,217 | 0,011 | 0,015 | 4,163 | 0,009 | 4,683 | 3,4 | 2,248 | 3,395 | 3,314 | 4,973 | 3,6 |
l | 5,275 | 4,025 | 5,456 | 3,437 | 4,967 | 2,779 | 6,145 | 6,510 | 5,922 | 2,1 | 3,568 | 5,229 | 4,532 | 5,761 | 3,8 |
m | 3,471 | 2,406 | 2,968 | 2,534 | 3,157 | 4,738 | 2,994 | 2,512 | 3,752 | 2,8 | 2,213 | 3,237 | 4,041 | 3,202 | 3,2 |
n | 8,542 | 6,749 | 7,095 | 9,776 | 6,712 | 4,446 | 7,955 | 6,883 | 7,987 | 5,5 | 10,032 | 7,240 | 7,711 | 8,826 | 6,5 |
o | 4,482 | 7,507 | 5,598 | 2,514 | 8,683 | 9,735 | 8,779 | 9,832 | 2,476 | 7,96 | 6,063 | 4,636 | 2,166 | 5,614 | 8,7 |
p | 1,839 | 1,929 | 2,521 | 0,670 | 2,510 | 2,523 | 2,755 | 3,056 | 0,886 | 3,13 | 1,370 | 1,756 | 0,789 | 1,842 | 3,4 |
q | 0,020 | 0,095 | 1,362 | 0,018 | 0,877 | 1,204 | 0 | 0,505 | 0 | 0 | 0,009 | 0,007 | 0 | 0,013 | 0,001 |
r | 8,431 | 5,987 | 6,693 | 7,003 | 6,871 | 6,530 | 5,914 | 6,367 | 7,722 | 4,69 | 6,411 | 8,956 | 8,581 | 2,872 | 3,6 |
s | 6,590 | 6,327 | 7,948 | 7,273 | 7,977 | 6,805 | 6,092 | 4,981 | 3,014 | 4,35 | 3,733 | 5,805 | 5,630 | 7,862 | 4,5 |
t | 7,691 | 9,056 | 7,244 | 6,154 | 4,632 | 4,336 | 5,276 | 5,623 | 3,314 | 3,98 | 6,923 | 6,862 | 4,953 | 8,750 | 5,8 |
u | 1,919 | 2,758 | 6,311 | 4,166 | 3,627 | 4,634 | 3,183 | 3,011 | 3,235 | 2,16 | 2,192 | 1,979 | 4,562 | 5,008 | 2,7 |
v | 2,415 | 0,978 | 1,838 | 0,846 | 1,138 | 1,575 | 1,904 | 2,097 | 0,959 | 0,012 | 2,854 | 2,332 | 2,437 | 2,250 | 4,7 |
w | 0,142 | 2,360 | 0,074 | 1,921 | 0,017 | 0,037 | 0 | 0,033 | 0 | 4,65 | 1,821 | 0,069 | 0 | 0,094 | 0,016 |
x | 0,159 | 0,150 | 0,427 | 0,034 | 0,215 | 0,253 | 0 | 0,003 | 0 | 0,004 | 0,036 | 0,028 | 0,046 | 0,031 | 0,027 |
y | 0,708 | 1,974 | 0,128 | 0,039 | 1,008 | 0,006 | 0 | 0,020 | 3,336 | 3,73 | 0,035 | 0,698 | 0,900 | 1,745 | 1,9 |
z | 0,070 | 0,074 | 0,326 | 1,134 | 0,517 | 0,470 | 0,494 | 1,181 | 1,500 | 5,64 | 1,374 | 0,034 | 0 | 0,051 | 2,1 |
å | 1,338 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,190 | 0 | 0,003 | 0 |
ä | 1,797 | 0 | 0 | 0,447 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 3,577 | 0 |
ö | 1,305 | 0 | 0 | 0,573 | 0 | 0 | 0 | 0 | 0,777 | 0 | 0 | 0 | 0,777 | 0,444 | 0 |
à | 0 | 0 | 0,486 | 0 | 0 | 0,072 | 0 | 0,635 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
â | 0 | 0 | 0,051 | 0 | 0 | 0,562 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
á | 0 | 0 | 0 | 0 | 0,502 | 0,118 | 0 | 0 | 0 | 0 | 0 | 0 | 1,799 | 0 | 2,4 |
ã | 0 | 0 | 0 | 0 | 0 | 0,733 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ą | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,699 | 0 | 0 | 0 | 0 | 0 |
æ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,872 | 0,867 | 0 | 0 |
œ | 0 | 0 | 0,018 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ç | 0 | 0 | 0,085 | 0 | 0 | 0,530 | 0 | 0 | 1,156 | 0 | 0 | 0 | 0 | 0 | 0 |
ĉ | 0 | 0 | 0 | 0 | 0 | 0 | 0,657 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ć | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,743 | 0 | 0 | 0 | 0 | 0 |
č | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
ď | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,015 |
ð | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 4,393 | 0 | 0 |
è | 0 | 0 | 0,271 | 0 | 0 | 0 | 0 | 0,263 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
é | 0 | 0 | 1,504 | 0 | 0,433 | 0,337 | 0 | 0 | 0 | 0 | 0 | 0 | 0,647 | 0 | 1,2 |
ê | 0 | 0 | 0,225 | 0 | 0 | 0,450 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ë | 0 | 0 | 0,001 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ę | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,035 | 0 | 0 | 0 | 0 | 0 |
ě | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,6 |
ĝ | 0 | 0 | 0 | 0 | 0 | 0 | 0,691 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ğ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,125 | 0 | 0 | 0 | 0 | 0 | 0 |
ĥ | 0 | 0 | 0 | 0 | 0 | 0 | 0,022 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
î | 0 | 0 | 0,045 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ì | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,030 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
í | 0 | 0 | 0 | 0 | 0,725 | 0,132 | 0 | 0 | 0 | 0 | 0 | 0 | 1,570 | 0 | 3,4 |
ï | 0 | 0 | 0,005 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ı | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 5,114* | 0 | 0 | 0 | 0 | 0 | 0 |
ĵ | 0 | 0 | 0 | 0 | 0 | 0 | 0,055 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ł | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2,109 | 0 | 0 | 0 | 0 | 0 |
ñ | 0 | 0 | 0 | 0 | 0,311 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ń | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,362 | 0 | 0 | 0 | 0 | 0 |
ň | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,007 |
ò | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,002 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ô | 0 | 0 | 0,023 | 0 | 0 | 0,635 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ó | 0 | 0 | 0 | 0 | 0,827 | 0,296 | 0 | 0 | 0 | 1,141 | 0 | 0 | 0,994 | 0 | 0,024 |
ø | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,939 | 0 | 0 | 0 |
ř | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,1 |
ŝ | 0 | 0 | 0 | 0 | 0 | 0 | 0,385 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ş | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,780 | 0 | 0 | 0 | 0 | 0 | 0 |
ś | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,814 | 0 | 0 | 0 | 0 | 0 |
š | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,8 |
ß | 0 | 0 | 0 | 0,307 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ť | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,006 |
þ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,455 | 0 | 0 |
ù | 0 | 0 | 0,058 | 0 | 0 | 0 | 0 | 0,166 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ú | 0 | 0 | 0 | 0 | 0,168 | 0,207 | 0 | 0 | 0 | 0 | 0 | 0 | 0,613 | 0 | 0,045 |
ŭ | 0 | 0 | 0 | 0 | 0 | 0 | 0,520 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ü | 0 | 0 | 0 | 0,995 | 0,012 | 0,026 | 0 | 0 | 1,854 | 0 | 0 | 0 | 0 | 0 | 0 |
ů | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,204 |
ý | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,228 | 0 | 0,995 |
ź | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,078 | 0 | 0 | 0 | 0 | 0 |
ż | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0,706 | 0 | 0 | 0 | 0 | 0 |
ž | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
* – se İ
Se även
[redigera | redigera wikitext]Referenser
[redigera | redigera wikitext]- ^ ”Practical Cryptography”. Arkiverad från originalet den 1 november 2013. https://web.archive.org/web/20131101205915/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/swedish-letter-frequencies/. Läst 30 oktober 2013.
- ^ English letter frequencies Arkiverad 8 juli 2008 hämtat från the Wayback Machine.
- ^ ”CorpusDeThomasTempé”. Arkiverad från originalet den 30 september 2007. https://web.archive.org/web/20070930194046/http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTemp%C3%A9. Läst 15 juni 2007.
- ^ Beutelspacher, Albrecht (2005). Kryptologie (7). Wiesbaden: Vieweg. sid. 10. ISBN 3-8348-0014-7
- ^ Pratt, Fletcher (1942). Secret and Urgent: the Story of Codes and Ciphers. Garden City, N.Y.: Blue Ribbon Books. sid. 254–5. OCLC 795065
- ^ ”Frequência da ocorrência de letras no Português”. Arkiverad från originalet den 3 augusti 2009. https://web.archive.org/web/20090803182254/http://www.numaboa.com/criptografia/criptoanalise/310-Frequencia-no-Portugues. Läst 16 juni 2009.
- ^ ”La Oftecoj de la Esperantaj Literoj”. http://lingvakritiko.com/2007/09/13/literoftecoj-kaj-tabelvortoftecoj/. Läst 14 september 2007.
- ^ Singh, Simon; Galli, Stefano (1999) (på italienska). Codici e Segreti. Milano: Rizzoli. ISBN 978-8-817-86213-4. OCLC 535461359
- ^ Sefik Ilkin Serengil, Murat Akin. "Attacking Turkish Texts Encrypted by Homophonic Cipher Arkiverad 4 mars 2016 hämtat från the Wayback Machine." Proceedings of the 10th WSEAS International Conference on Electronics, Hardware, Wireless and Optical Communications, pp.123-126, Cambridge, UK, February 20-22, 2011.
- ^ Wstęp do kryptologii, counting [space] 17.2%, [dot point] 0.9%, [comma] 0.9% and [semicolon] 0.5%
- ^ ”Letterfrequenties”. Genootschap OnzeTaal. http://www.onzetaal.nl/advies/letterfreq.php. Läst 17 maj 2009.
- ^ ”Practical Cryptography”. http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/danish-letter-frequencies/. Läst 24 oktober 2013.
- ^ ”Practical Cryptography”. Arkiverad från originalet den 10 september 2013. https://web.archive.org/web/20130910090659/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/icelandic-letter-frequencies/. Läst 24 oktober 2013.
- ^ ”Practical Cryptography”. Arkiverad från originalet den 29 oktober 2013. https://web.archive.org/web/20131029192340/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/finnish-letter-frequencies/. Läst 24 oktober 2013.