20.03.2014 Aufrufe

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

8.2 Wahrsche<strong>in</strong>lichkeit und Entropie<br />

8.2.2 Entropie<br />

Zunächst führen wir den Begriff des Informationsgehalts e<strong>in</strong>, <strong>der</strong> von e<strong>in</strong>igen Lernverfahren<br />

benötigt wird.<br />

Wenn man e<strong>in</strong>e diskrete Wahrsche<strong>in</strong>lichkeitsverteilung p i , i = 1, . . . , n hat, z.B. von<br />

Symbolen a i , i = 1, . . . , n, dann nennt man<br />

I(a k ) := log 2<br />

( 1 p k<br />

) = − log 2 (p k ) ≥ 0<br />

den Informationsgehalt des Zeichens a k . Das kann man <strong>in</strong>terpretieren als Grad <strong>der</strong> Überraschung<br />

beim Ziehen des Symbols a k aus e<strong>in</strong>er entsprechenden Urne, bzw. bei <strong>der</strong> Übermittlung<br />

von Zeichen durch e<strong>in</strong>en Kommunikationskanal. D.h. das Auftreten e<strong>in</strong>es seltenen<br />

Symbols hat e<strong>in</strong>en hohen Informationsgehalt. Wenn man nur e<strong>in</strong> e<strong>in</strong>ziges Symbol<br />

hat, dann ist p 1 = 1, und <strong>der</strong> Informationsgehalt ist I(a 1 ) = 0. E<strong>in</strong>e <strong>in</strong>tuitive Erklärung<br />

des Informationsgehalts ist <strong>die</strong> mittlere Anzahl <strong>der</strong> Ja/Ne<strong>in</strong>-Fragen, <strong>die</strong> man stellen muss,<br />

um <strong>die</strong> gleiche Information zu bekommen.<br />

Beispiel 8.2.1. Zum Beispiel im Falle von 8 Objekten, <strong>die</strong> gleich oft vorkommen, ergibt sich<br />

log(0.125) = −3 für jedes Objekt, d.h. <strong>der</strong> Informationsgehalt jedes Zeichens ist 3 und auch <strong>der</strong><br />

mittlere Informationsgehalt, ermittelt aus <strong>der</strong> gewichteten Summe ist 3. Kommen zwei davon,<br />

sagen wir mal a 1 , a 2 , sehr häufig vor und <strong>die</strong> an<strong>der</strong>en praktisch nie, dann ergibt sich als mittlerer<br />

Informationsgehalt <strong>in</strong> etwa 0.5 ∗ log 2 (0.5) + 0.5 ∗ log 2 (0.5) + 6 ∗ 0.001 ∗ log 2 (0.001) ≈ 1.<br />

Die Entropie o<strong>der</strong> <strong>der</strong> mittlere Informationsgehalt <strong>der</strong> Symbole <strong>in</strong> <strong>der</strong> Wahrsche<strong>in</strong>lichkeitsverteilung<br />

wie oben kann dann berechnet werden als<br />

I(X) =<br />

n∑<br />

p i ∗ log 2<br />

( 1 n∑<br />

) = − p i ∗ log<br />

p 2<br />

(p i ) ≥ 0.<br />

i<br />

i=1<br />

i=1<br />

Bei Kompressionen e<strong>in</strong>es Files o<strong>der</strong> bei Ko<strong>die</strong>rung von Nachrichten über e<strong>in</strong>em Kanal ist<br />

das e<strong>in</strong>e untere Schranke für <strong>die</strong> mittlere Anzahl von Bits pro Symbol, <strong>die</strong> man bei bester<br />

Kompression bzw b<strong>in</strong>ärer Ko<strong>die</strong>rung erreichen kann.<br />

Beispiel 8.2.2. Nimmt man e<strong>in</strong> Bernoulli-Experiment, d.h. zwei Zeichen, Kopf und Zahl wobei<br />

Kopf mit <strong>der</strong> Wahrsche<strong>in</strong>lichkeit p und Zahl mit Wahrsche<strong>in</strong>lichkeit 1 − p auftritt, dann ergibt<br />

sich <strong>in</strong> etwa <strong>die</strong> Kurve:<br />

M. Schmidt-Schauß & D. Sabel, Skript KI, WS 2012/13 263 Stand: 30. Januar 2013

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!