Ãbung 1: Entropie & Informationsgehalt

Technische Universität 

Carolo-Wilhelmina zu Braunschweig 

Institut für Medizinische Informatik 

Haux/Gusew/Duwenkamp 

Mühlenpfordstr. 23 

38023 Braunschweig 

Übung Einführung in die Medizinische Informatik 

Thema: Entropie – Informationsgehalt 

Unter der Entropie versteht man in der Informationstheorie ein Maß für den mittleren 

Informationsgehalt der in einem System oder einer Informationsfolge steckt. 

Die in der Informationstheorie verwendete Entropie wurde von Shannon folgend 

definiert: 

Die Entropie H(X) einer diskreten gedächtnislosen Quelle X über ein Alphabet einer 

höchstens abzählbaren Menge Z = { z1, z2, … } mit der Wahrscheinlichkeit P(X Є Z) = 1 

durch: 

wobei p i = p( z i ) = p(X = z i ) die Wahrscheinlichkeit ist, mit der das i-te Zeichen z i des 

Alphabets auftritt. 

Anschaulich lässt sich die Definition des Informationsgehalts wie folgt begründen: 

Wenn ein Ereignis, das mit Wahrscheinlichkeit p i eintreten kann, tatsächlich eintritt, dann 

wird dadurch ein konkretes Ereignis aus einer hypothetischen Menge von (1/p i ) gleich 

wahrscheinlichen Ereignissen ausgewählt. Um diese Anzahl von Ereignissen 

unterscheiden zu können benötigt man: 

Binärbits. 

Dieser Wert gibt also den Informationsgehalt eines speziellen Ereignisses in Bits an. 

Gewichtet man den tatsächlichen Informationsgehalt der möglichen Ereignisse mit der 

jeweiligen Eintrittswahrscheinlichkeit, so erhält man den mittleren oder erwarteten 

Informationsgehalt eines Zeichens. 

Die Einheit 1 Shannon ist definiert als der Informationsgehalt, der in einer 

Zufallsentscheidung eines idealen Münzwurfes enthalten ist. Ein idealer Münzwurf hat nur 

zwei Möglichkeiten – Kopf oder Zahl –, die beide mit der gleichen Wahrscheinlichkeit 

p = 0,5 auftreten.

Aufgabe 1: Reißnagel-Beispiel 

Berechnen Sie die Entropie des Wurfes eines 

Reißnagels, dessen Wahrscheinlichkeit auf dem 

Rücken zu liegen p = 0,4 beträgt und dessen 

Wahrscheinlichkeit nicht auf dem Rücken zu 

liegen 0,6 beträgt. 

Benutzen Sie dazu die Formel von Shannon. 

Aufgabe 2: Informationsgehalt von Entscheidungen 

Aus einer (fiktiven) klinischen Datensammlung wurde folgende Tabelle gewonnen: 

WENN 

DANN 

Alter Raucher Systol. Diastol. Therapie nötig? 

140 > 90 Ja 

> 60 Nein > 140 < 90 Nein 

> 60 Ja > 140 > 90 Ja 

> 60 Nein < 140 < 90 Nein 

> 60 Ja < 140 < 90 Nein 

< 60 Ja > 140 < 90 Nein 

Anhand der Tabelle kann durch verschiedenen Kriterien (Alter, Raucher, systolischer 

Blutdruck, diastolischer Blutdruck) entschieden werden, ob für einen Patienten eine 

Therapie nötig ist. 

Stellen Sie sich vor, sie dürften den Patienten nur auf eins der 4 Kriterien testen, dann 

stellt sich die Frage, welches Kriterium den höchsten Informationsgehalt besitzt, bzw. 

nach welchem Kriterium die bleibende Unsicherheit minimal ist. 

Interessant ist also der Informationsgewinn den eine Test bringt. Dieser lässt sich mit 

Hilfe der Entropie für einen Test test_i mit den Ausgängen t1, .. , ts berechnen durch: 

s 

H ( Dtest , _ i) H( D) pD ( | D)* H( D) 

= −∑ 

r= 

1 

r 

r 

mit: 

Dr 

= {[[ x1 

,..., xn], K( x)] ∈D| 

x 

ierfüllt 

t r 

} 

p( D | D) = D : D 

r 

r 

Wahrscheinlichkeit von D r relativ zu D, d.h. Wahrscheinlichkeit für d ЄD, zu 

D r zu gehören.

So könnte man den Informationsgewinn, den man erhält, wenn man nach dem Alter 

fragt folgendermaßen berechnen: 

D = „Therapie nötig?“ 

2 2 5 5 

H( D ) =− ( log2 + log 

2 

) ≈ 0,863 bit 

7 7 7 7 

,da in zwei Gruppen geteilt werden kann, in die „Therapie nötig“-Gruppe mit 2 

Repräsentanten und die „Therapie nicht nötig“ mit 5 Repräsentanten. 

Den Informationsgewinn, der sich ergibt, wenn man nach dem Alter fragt, ergibt sie so 

als: 

H ( D | Alter) = 0,863 − ( p( Alter < 60 | D)* H ( Alter < 60) + p( Alter > 60 | D)* H ( Alter > 60)) 

also: 

3 4 

H ( D | Alter) = 0,863 − ( * H ( Alter < 60) + * H ( Alter > 60)) 

7 7 

(Da die Anzahl der Fälle n=7 ist und von diesen 3 jünger als 60 und 4 älter als 60 sind.) 

2 2 1 1 

H( Alter < 60) =− ( log2 + log 

2 

) ≈0,918 

bit 

3 3 3 3 

(Da von den 3 Fällen die jünger als 60 sind, 2 keine Therapie benötigen und 1 eine 

Therapie benötigt) 

3 3 1 1 

H( Alter > 60) =− ( log2 + log 

2 

) ≈0,811bit 

4 4 4 4 

(Da von den 4 Fällen die älter als 60 sind, 3 keine Therapie benötigen und 1 eine 

Therapie benötigt) 

H( D| Alter ) = 0,863 − 0,857 = 0,006 bit 

Aufgabe: 

Berechnen Sie den Informationsgewinn, der sich ergibt, wenn Sie nach den anderen drei 

Kriterien fragen und entscheiden Sie, welchen Test Sie durchführen würden, wenn Sie 

nur einen Test durchführen könnten. 

Material / Links: 

Wikibooks: Entropie http://de.wikibooks.org/wiki/Entropie 

Wikipedia: Entropie (Informationstheorie) 

http://de.wikipedia.org/wiki/Entropie_(Informationstheorie) 

Logarithmus-Rechner http://rechneronline.de/logarithmus

Ãbung 1: Entropie & Informationsgehalt

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?

Ãbung 1: Entropie & Informationsgehalt