03.02.2014 Aufrufe

Übung 1: Entropie & Informationsgehalt

Übung 1: Entropie & Informationsgehalt

Übung 1: Entropie & Informationsgehalt

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Technische Universität<br />

Carolo-Wilhelmina zu Braunschweig<br />

Institut für Medizinische Informatik<br />

Haux/Gusew/Duwenkamp<br />

Mühlenpfordstr. 23<br />

38023 Braunschweig<br />

Übung Einführung in die Medizinische Informatik<br />

Thema: <strong>Entropie</strong> – <strong>Informationsgehalt</strong><br />

Unter der <strong>Entropie</strong> versteht man in der Informationstheorie ein Maß für den mittleren<br />

<strong>Informationsgehalt</strong> der in einem System oder einer Informationsfolge steckt.<br />

Die in der Informationstheorie verwendete <strong>Entropie</strong> wurde von Shannon folgend<br />

definiert:<br />

Die <strong>Entropie</strong> H(X) einer diskreten gedächtnislosen Quelle X über ein Alphabet einer<br />

höchstens abzählbaren Menge Z = { z1, z2, … } mit der Wahrscheinlichkeit P(X Є Z) = 1<br />

durch:<br />

wobei p i = p( z i ) = p(X = z i ) die Wahrscheinlichkeit ist, mit der das i-te Zeichen z i des<br />

Alphabets auftritt.<br />

Anschaulich lässt sich die Definition des <strong>Informationsgehalt</strong>s wie folgt begründen:<br />

Wenn ein Ereignis, das mit Wahrscheinlichkeit p i eintreten kann, tatsächlich eintritt, dann<br />

wird dadurch ein konkretes Ereignis aus einer hypothetischen Menge von (1/p i ) gleich<br />

wahrscheinlichen Ereignissen ausgewählt. Um diese Anzahl von Ereignissen<br />

unterscheiden zu können benötigt man:<br />

Binärbits.<br />

Dieser Wert gibt also den <strong>Informationsgehalt</strong> eines speziellen Ereignisses in Bits an.<br />

Gewichtet man den tatsächlichen <strong>Informationsgehalt</strong> der möglichen Ereignisse mit der<br />

jeweiligen Eintrittswahrscheinlichkeit, so erhält man den mittleren oder erwarteten<br />

<strong>Informationsgehalt</strong> eines Zeichens.<br />

Die Einheit 1 Shannon ist definiert als der <strong>Informationsgehalt</strong>, der in einer<br />

Zufallsentscheidung eines idealen Münzwurfes enthalten ist. Ein idealer Münzwurf hat nur<br />

zwei Möglichkeiten – Kopf oder Zahl –, die beide mit der gleichen Wahrscheinlichkeit<br />

p = 0,5 auftreten.


Aufgabe 1: Reißnagel-Beispiel<br />

Berechnen Sie die <strong>Entropie</strong> des Wurfes eines<br />

Reißnagels, dessen Wahrscheinlichkeit auf dem<br />

Rücken zu liegen p = 0,4 beträgt und dessen<br />

Wahrscheinlichkeit nicht auf dem Rücken zu<br />

liegen 0,6 beträgt.<br />

Benutzen Sie dazu die Formel von Shannon.<br />

Aufgabe 2: <strong>Informationsgehalt</strong> von Entscheidungen<br />

Aus einer (fiktiven) klinischen Datensammlung wurde folgende Tabelle gewonnen:<br />

WENN<br />

DANN<br />

Alter Raucher Systol. Diastol. Therapie nötig?<br />

140 > 90 Ja<br />

> 60 Nein > 140 < 90 Nein<br />

> 60 Ja > 140 > 90 Ja<br />

> 60 Nein < 140 < 90 Nein<br />

> 60 Ja < 140 < 90 Nein<br />

< 60 Ja > 140 < 90 Nein<br />

Anhand der Tabelle kann durch verschiedenen Kriterien (Alter, Raucher, systolischer<br />

Blutdruck, diastolischer Blutdruck) entschieden werden, ob für einen Patienten eine<br />

Therapie nötig ist.<br />

Stellen Sie sich vor, sie dürften den Patienten nur auf eins der 4 Kriterien testen, dann<br />

stellt sich die Frage, welches Kriterium den höchsten <strong>Informationsgehalt</strong> besitzt, bzw.<br />

nach welchem Kriterium die bleibende Unsicherheit minimal ist.<br />

Interessant ist also der Informationsgewinn den eine Test bringt. Dieser lässt sich mit<br />

Hilfe der <strong>Entropie</strong> für einen Test test_i mit den Ausgängen t1, .. , ts berechnen durch:<br />

s<br />

H ( Dtest , _ i) H( D) pD ( | D)* H( D)<br />

= −∑<br />

r=<br />

1<br />

r<br />

r<br />

mit:<br />

Dr<br />

= {[[ x1<br />

,..., xn], K( x)] ∈D|<br />

x<br />

ierfüllt<br />

t r<br />

}<br />

p( D | D) = D : D<br />

r<br />

r<br />

Wahrscheinlichkeit von D r relativ zu D, d.h. Wahrscheinlichkeit für d ЄD, zu<br />

D r zu gehören.


So könnte man den Informationsgewinn, den man erhält, wenn man nach dem Alter<br />

fragt folgendermaßen berechnen:<br />

D = „Therapie nötig?“<br />

2 2 5 5<br />

H( D ) =− ( log2 + log<br />

2<br />

) ≈ 0,863 bit<br />

7 7 7 7<br />

,da in zwei Gruppen geteilt werden kann, in die „Therapie nötig“-Gruppe mit 2<br />

Repräsentanten und die „Therapie nicht nötig“ mit 5 Repräsentanten.<br />

Den Informationsgewinn, der sich ergibt, wenn man nach dem Alter fragt, ergibt sie so<br />

als:<br />

H ( D | Alter) = 0,863 − ( p( Alter < 60 | D)* H ( Alter < 60) + p( Alter > 60 | D)* H ( Alter > 60))<br />

also:<br />

3 4<br />

H ( D | Alter) = 0,863 − ( * H ( Alter < 60) + * H ( Alter > 60))<br />

7 7<br />

(Da die Anzahl der Fälle n=7 ist und von diesen 3 jünger als 60 und 4 älter als 60 sind.)<br />

2 2 1 1<br />

H( Alter < 60) =− ( log2 + log<br />

2<br />

) ≈0,918<br />

bit<br />

3 3 3 3<br />

(Da von den 3 Fällen die jünger als 60 sind, 2 keine Therapie benötigen und 1 eine<br />

Therapie benötigt)<br />

3 3 1 1<br />

H( Alter > 60) =− ( log2 + log<br />

2<br />

) ≈0,811bit<br />

4 4 4 4<br />

(Da von den 4 Fällen die älter als 60 sind, 3 keine Therapie benötigen und 1 eine<br />

Therapie benötigt)<br />

H( D| Alter ) = 0,863 − 0,857 = 0,006 bit<br />

Aufgabe:<br />

Berechnen Sie den Informationsgewinn, der sich ergibt, wenn Sie nach den anderen drei<br />

Kriterien fragen und entscheiden Sie, welchen Test Sie durchführen würden, wenn Sie<br />

nur einen Test durchführen könnten.<br />

Material / Links:<br />

Wikibooks: <strong>Entropie</strong> http://de.wikibooks.org/wiki/<strong>Entropie</strong><br />

Wikipedia: <strong>Entropie</strong> (Informationstheorie)<br />

http://de.wikipedia.org/wiki/<strong>Entropie</strong>_(Informationstheorie)<br />

Logarithmus-Rechner http://rechneronline.de/logarithmus

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!