ου γαρ εστιν κρυπτον ο ου φανερον γενησεται ουδε αποκρυφον ο ου γνωσθησεται και εις φανερον ελθη
Wersja PL ENG Version

Atak statystyczny (analiza częstotliwości)

Analizowanie częstotliwości występowania znaków w szyfrogramie to jeden z typów ataku ze znanym szyfrogramem. Polega na wyszukiwaniu często powtarzających się liter i popularnych sekwencji znaków.

We wszystkich językach różne litery używane są z różną częstotliwością. Dla każdego języka proporcje występowania poszczególnych znaków są nieco inne, więc teksty napisane w danym języku mają pewne wspólne właściwości, które pozwalają je odróżnić od tekstów napisanych w innych językach.

Przykładowo, w języku polskim często występują samogłoski takie jak a, e lub i. Z drugiej strony niezwykle rzadko zdarzają się niektóre spółgłoski, na przykład f lub ć. Istnieją zestawienia częstotliwości występowania liter w różnych językach. Dokładne rozkłady częstotliwości mogą się różnić w zależności od konkretnych rodzajów analizowanych tekstów (naukowych, prasowych, powieści i innych).

Każdy język posiada ponadto pewne typowe dla niego częste połączenia liter. Dla języka polskiego charakterystyczne są dwuznaki ch, cz, dz, , , rzsz. Jest to cecha, która wyróżnia tekst w języku polskim od tekstów napisanych w innych językach. Dodatkowo, można dzięki temu lepiej przewidywać oryginalną kolejność liter z pomieszanych wyrazów.

Ataki statystyczne na szyfry podstawieniowe

Analiza częstotliwościowa jest używana do łamania szyfrów podstawieniowych. Ogólna idea polega na znajdowaniu popularnych liter w szyfrogramie i zastępowaniu ich przez litery występujące często w użytym języku.

Napastnik zwykle sprawdza różne możliwe podstawienia i zmienia litery w szyfrogramie. Analizując ujawniające się fragmenty słów tekstu jawnego, można dokonywać kolejnych prób zgadywania pozycji liter w oryginalnym tekście. Przy użyciu komputerów, jest możliwe sprawdzenie bardzo wielu takich kombinacji w relatywnie krótkim czasie.

Przykładowo, jeżeli w analizowanym tekście najczęściej występującą literą jest  x, można spodziewać się, że x zastąpiło a lub e (jedne z najbardziej popularnych liter w języku polskim) z tekstu jawnego.

Podczas ataku statystycznego, zazwyczaj sprawdza się nie tylko pojedyncze litery, ale również popularne pary liter, a nawet dłuższe ciągi znaków i całe wyrazy. Dobór poszukiwanych fraz opiera na wykorzystywaniu popularnych wyrażeń używanych w danym języku.