Crypto-IT

Atak Statystyczny (Analiza Częstotliwości)

Analizowanie częstotliwości występowania znaków w szyfrogramie to jeden z typów ataku ze znanym szyfrogramem. Polega na wyszukiwaniu często powtarzających się liter i popularnych sekwencji znaków.

We wszystkich językach różne litery używane są z różną częstotliwością. Dla każdego języka proporcje występowania poszczególnych znaków są nieco inne, więc teksty napisane w danym języku mają pewne wspólne właściwości, które pozwalają je odróżnić od tekstów napisanych w innych językach.

Przykładowo, w języku polskim często występują samogłoski takie jak a, e lub i. Z drugiej strony niezwykle rzadko zdarzają się niektóre spółgłoski, na przykład f lub ć. Istnieją zestawienia częstotliwości występowania liter w różnych językach. Dokładne rozkłady częstotliwości mogą się różnić w zależności od konkretnych rodzajów analizowanych tekstów (naukowych, prasowych, powieści i innych).

Każdy język posiada ponadto pewne typowe dla niego częste połączenia liter. Dla języka polskiego charakterystyczne są dwuznaki ch, cz, dz, dź, dż, rz i sz. Jest to cecha, która wyróżnia tekst w języku polskim od tekstów napisanych w innych językach. Dodatkowo, można dzięki temu lepiej przewidywać oryginalną kolejność liter z pomieszanych wyrazów.

Ataki Statystyczne na Szyfry Podstawieniowe

Analiza częstotliwościowa jest używana do łamania szyfrów podstawieniowych. Ogólna idea polega na znajdowaniu popularnych liter w szyfrogramie i zastępowaniu ich przez litery występujące często w użytym języku.

Napastnik zwykle sprawdza różne możliwe podstawienia i zmienia litery w szyfrogramie. Analizując ujawniające się fragmenty słów tekstu jawnego, można dokonywać kolejnych prób zgadywania pozycji liter w oryginalnym tekście. Przy użyciu komputerów, jest możliwe sprawdzenie bardzo wielu takich kombinacji w relatywnie krótkim czasie.

Przykładowo, jeżeli w analizowanym tekście najczęściej występującą literą jest x, można spodziewać się, że x zastąpiło a lub e (jedne z najbardziej popularnych liter w języku polskim) z tekstu jawnego.

Podczas ataku statystycznego, zazwyczaj sprawdza się nie tylko pojedyncze litery, ale również popularne pary liter, a nawet dłuższe ciągi znaków i całe wyrazy. Dobór poszukiwanych fraz opiera na wykorzystywaniu popularnych wyrażeń używanych w danym języku.

Date: 2020-03-09

a	8,91%
ą	0,99%
b	1,47%
c	3,96%
ć	0,40%
d	3,25%
e	7,66%
ę	1,11%
f	0,30%
g	1,42%
h	1,08%
i	8,21%
j	2,28%
k	3,51%
l	2,10%
ł	1,82%
m	2,80%
n	5,52%
ń	0,20%
o	7,75%
ó	0,85%
p	3,13%
q	0,14%
r	4,69%
s	4,32%
ś	0,66%
t	3,98%
u	2,50%
v	0,04%
w	4,65%
x	0,02%
y	3,76%
z	5,64%
ź	0,06%
ż	0,83%