Ein N-Gramm ist eine Zeichenkette der Länge N, bei N=2 spricht man von Bi- oder Digrammen, bei N=3 von Trigrammen. Für N=1 nennt man die N-Gramm-Liste Histogramm.
Die N-Gramm-Liste eines Dokuments besteht aus allen N-Grammen des Dokuments zusammen mit ihrer Häufigkeit, üblicherweise absteigend geordnet nach der Häufigkeit. CrypTool beschränkt die Länge der Liste auf die 5000 häufigsten N-Gramme.
Wenn Sie ein Textdokument analysieren, werden nur die Buchstaben aus dem Alphabet berücksichtigt. Zeichen, die nicht zu dem unter Menü Optionen \ Textoptionen eingestellten Alphabet gehören, "trennen" den Text. Wenn z.B. das Leerzeichen nicht zu dem aktuellen Alphabet gehört, dann hat der Text "ATTACK AT DAWN" die Trigramme ATT, TTA, TAC, ACK, DAW und AWN.
Bei der N-Gramm-Analyse von Binärdateien werden alle 256 verschiedenen Bytes berücksichtigt.
Beispiel:
Die 5 häufigsten Trigramme in der Referenzdatei genesis-de.txt
sind:
|
|
|
|
|
|
|
|
|
|
Die N-Gramm-Analyse erfolgt im Dialog N-Gramm-Liste.
Diese Liste kann optional als Textdatei gesichert werden.