Entropie des Dokuments berechnen (Menü Analyse \ Werkzeuge zur Analyse)

Die Entropie eines Dokuments ist eine Kennzahl für dessen Informationsgehalt. Die Entropie wird in (Bit pro Zeichen) bit/char gemessen.

Durch Klick auf den obigen Menüeintrag wird der Entropiewert des aktuellen Dokuments berechnet.

Informationsgehalt einer Quelle

Die Daten im aktuellen Fenster können als Nachrichtenquelle im informationstheoretischen Sinne angesehen werden. Für die Berechnung des Informationsgehaltes betrachtet man die Wahrscheinlichkeitsverteilung dieser Quelle. Dabei geht man davon aus, dass die einzelnen Nachrichten (Zeichen des Dokuments / der Datei) stochastisch unabhängig voneinander sind und von der Quelle mit konstanter Wahrscheinlichkeit ausgestrahlt werden.

Der Informationsgehalt einer Nachricht M[i] ist definiert durch:

Informationsgehalt(M[i]) := log(1/p[i]) = -log(p[i]).

Dabei ist p[i] die Wahrscheinlichkeit, mit der die Nachricht M[i] von der Nachrichtenquelle ausgestrahlt wird. Mit log ist (wie auch im folgenden) der Logarithmus zur Basis 2 gemeint.

Der Informationsgehalt hängt damit ausschließlich von der Wahrscheinlichkeitsverteilung ab, mit der die Quelle die Nachrichten erzeugt. Der semantische Inhalt der Nachricht geht nicht in die Berechnung ein. Da der Informationsgehalt einer seltenen Nachricht höher als der einer häufigen Nachricht ist, wird in der Definition der Kehrwert der Wahrscheinlichkeit verwendet.

Ferner ist der Informationsgehalt zweier unabhängig voneinander ausgewählter Nachrichten gleich der Summe der Informationsgehalte der einzelnen Nachrichten.

Entropie

Mit Hilfe des Informationsgehaltes der einzelnen Nachrichten kann nun die mittlere Information berechnet werden, die eine Quelle mit einer gegebenen Verteilung liefert. Für die Durchschnittsbildung werden die einzelnen Nachrichten mit der Wahrscheinlichkeit ihres Auftretens gewichtet.

Entropie(p[1], p[2], ..., p[r]):= - [p[1] * log(p[1]) + p[2] * log(p[2]) + ... + p[r] * log(p[r])]

Die Entropie einer Quelle bezeichnet somit die sie charakterisierende Verteilung. Sie misst die Information, die man durch Beobachten der Quelle im Mittel gewinnen kann, oder umgekehrt die Unbestimmtheit, die über die erzeugten Nachrichten herrscht, wenn man die Quelle nicht beobachten kann.

Anschauliche Beschreibung der Entropie

Die Entropie gibt die Unsicherheit als Anzahl der notwendigen Ja / Nein-Fragen zur Klärung einer Nachricht oder eines Zeichens an. Hat ein Zeichen eine sehr hohe Auftrittswahrscheinlichkeit, so hat es einen geringen Informationsgehalt. Dies entspricht etwa einem Gesprächspartner, der regelmäßig mit "ja" antwortet. Diese Antwort lässt auch keine Rückschlüsse auf Verständnis oder Aufmerksamkeit zu. Antworten, die sehr selten auftreten, haben einen hohen Informationsgehalt.

Extremwerte der Entropie

Für Dokumente, die ausschließlich Großbuchstaben enthalten, ist die Entropie mindestens 0 bit/char (bei einem Dokument, das nur aus einem Zeichen besteht) und höchstens log(26) bit/char = 4,700440 bit/char (bei einem Dokument, in dem alle 26 Zeichen gleich oft vorkommen).

Für Dokumente, die jedes Zeichen des Zeichensatzes (0 bis 255) enthalten können, ist die Entropie mindestens 0 bit/char (bei einem Dokument, das nur aus einem Zeichen besteht) und höchstens log(256) bit/char = 8 bit/char (bei einem Dokument, in dem alle 256 Zeichen gleich oft vorkommen).