12.02.2014 Aufrufe

Mathematik für Physiker - Numerische Physik: Modellierung

Mathematik für Physiker - Numerische Physik: Modellierung

Mathematik für Physiker - Numerische Physik: Modellierung

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

444 KAPITEL 12. STATISTIK<br />

Tabelle 12.1: Wahrscheinlichkeiten p i und mittlerer Informationsgehalt S i = p i ld 1 p i<br />

von Buchstaben<br />

der deutschen Sprache (inkl. Leerzeichen )<br />

# Buchstabe f = p i F = Σp i S i = p i ld 1 p i<br />

1 0.151490 0.1514 0.41251<br />

2 E 0.147004 0.2985 0.40661<br />

3 N 0.088351 0.3869 0.30927<br />

4 R 0.068577 0.4554 0.26512<br />

5 I 0.063770 0.5192 0.25232<br />

6 S 0.053881 0.5731 0.22795<br />

7 T 0.047310 0.6204 0.20824<br />

8 D 0.043854 0.6642 0.19783<br />

9 H 0.053554 0.7078 0.19691<br />

10 A 0.043309 0.7511 0.19616<br />

11 U 0.031877 0.7830 0.15847<br />

12 L 0.029312 0.8123 0.14927<br />

13 C 0.026733 0.8390 0.13968<br />

14 G 0.026672 0.8657 0.13945<br />

15 M 0.021336 0.8870 0.11842<br />

16 O 0.017717 0.9047 0.10389<br />

17 B 0.015972 0.9207 0.09585<br />

18 Z 0.014225 0.9349 0.08727<br />

19 W 0.014201 0.9491 0.08716<br />

20 F 0.013598 0.9637 0.08431<br />

21 K 0.009558 0.9723 0.06412<br />

22 V 0.007350 0.9796 0.05209<br />

23 Ü 0.005799 0.9854 0.04309<br />

24 P 0.004992 0.9904 0.03817<br />

25 Ä 0.004907 0.9953 0.03764<br />

26 Ö 0.002547 0.9979 0.02194<br />

27 J 0.001645 0.9995 0.01521<br />

28 Y 0.000173 0.9997 0.00217<br />

29 Q 0.000142 0.9999 0.00181<br />

30 X 0.000129 1.0000 0.00167<br />

sind in Abb. 12.4 gegeben. Die Wahrscheinlichkeitsfunktion f = p i ist eine monoton fallende<br />

Funktion. Die Wahrscheinlichkeitsverteilung können wir jetzt zur Untersuchung anderer<br />

Fragen verwenden: die Wahrscheinlichkeit, dass ein zufällig gezogener Buchstabe zu den fünf<br />

häufigsten Buchstaben des Alphabets (inkl. Leerzeichen) gehört, ist 52%; die, das er zu den<br />

zehn häufigsten gehört, 75%. Umgekehrt können wir aus der Dichtefunktion ablesen, dass<br />

75% eines deutschsprachigen Textes aus nur 10 Zeichen (9 Buchstaben sowie das Leerzeichen)<br />

bestehen, während die verbliebenen 20 Buchstaben nur zu 25% des Textes beitragen.<br />

Die unterschiedlichen Wahrscheinlichkeiten der Zeichen der Ergebnismenge bedeuten auch<br />

einen unterschiedlichen Informationsgehalt S i , wie in Abschn. 12.3.1 genauer betrachtet.<br />

§ 1658 Betrachten wir nicht eine diskrete sondern eine stetige Zufallsvariable, so ergeben<br />

sich die entsprechenden Definitionen und Eigenschaften: die Wahrscheinlichkeitsfunktion eiwillkürlich<br />

einen beliebigen anderen zur Codierung zuordnen. Diese Codierung war etliche Jahrhunderte<br />

gebräuchlich – mit dem Aufkommen der Statistik ist durch eine Häufigkeitsanalyse das Dechiffrieren derartiger<br />

Botschaften einfach geworden. Alle modernen Codierungsverfahren funktionieren so, dass nicht einem Zeichen<br />

genau ein anderes zugeordnet wird sondern dass die Zeichen so zugeordnet werden, dass alle Zeichen des<br />

Codes gleich wahrscheinlich sind (maximale Entropie, s.u.), auch wenn dann ein häufiger Buchstabe durch<br />

eine entsprechend größere Zahl unterschiedlicher Zeichen kodiert werden muss.<br />

13. März 2007 c○ M.-B. Kallenrode

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!