20.03.2014 Aufrufe

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

8.3 Lernen mit Entscheidungsbäumen<br />

Der im Folgenden verwendetet Entropie-Ansatz bewirkt, dass das Verfahren e<strong>in</strong>en Entscheidungsbaum<br />

erzeugt <strong>der</strong> e<strong>in</strong>e möglichst kle<strong>in</strong>e mittlere Anzahl von Anfragen bis zur<br />

Entscheidung benötigt. E<strong>in</strong>en Beweis dazu lassen wir weg. Das Verfahren ist verwandt<br />

zur Konstruktion von Huffman-Bäumen bei Ko<strong>die</strong>rungen.<br />

8.3.2 Lernverfahren ID3 und C4.5<br />

Es wird angenommen, dass alle Objekte vollständige Attributwerte haben, und dass es<br />

e<strong>in</strong>e Menge von positiven Beispielen und e<strong>in</strong>e Menge von negativen Beispielen für e<strong>in</strong> zu<br />

lernendes Konzept gibt, <strong>die</strong> möglichst gut <strong>die</strong> echte Verteilung abbilden. Für re<strong>in</strong> positive<br />

Beispielmengen funktionieren <strong>die</strong>se Verfahren nicht.<br />

Wichtig für <strong>die</strong> Lernverfahren ist es, herauszuf<strong>in</strong>den, welche Attribute für das Konzept<br />

irrelevant bzw. relevant s<strong>in</strong>d. Nachdem e<strong>in</strong> Teil des Entscheidungsbaumes aufgebaut ist,<br />

prüfen <strong>die</strong> Lernverfahren <strong>die</strong> Relevanz weiterer Attribute bzw. Attribut<strong>in</strong>tervalle.<br />

Das Lernverfahren ID3 (Iterative Dichotomiser 3) iverwendet den Informationsgehalt<br />

<strong>der</strong> Attribute bezogen auf <strong>die</strong> Beispielmenge. Der Informationsgehalt entspricht <strong>der</strong> mittleren<br />

Anzahl <strong>der</strong> Ja/Ne<strong>in</strong>-Fragen, um e<strong>in</strong> e<strong>in</strong>zelnes Objekt e<strong>in</strong>er Klasse zuzuordnen. Das<br />

Lernverfahren versucht herauszuf<strong>in</strong>den, welche Frage den größten Informationsgew<strong>in</strong>n<br />

br<strong>in</strong>gt, wobei man sich genau auf <strong>die</strong> <strong>in</strong> e<strong>in</strong>em Entscheidungsbaum erlaubten Fragen beschränkt.<br />

Das Ziel ist daher <strong>die</strong> mittlere Anzahl <strong>der</strong> Fragen möglichst kle<strong>in</strong> zu halten.<br />

Sei M e<strong>in</strong>e Menge von Objekten mit Attirbuten. Wir berechnen den Informationsgehalt<br />

<strong>der</strong> Frage, ob e<strong>in</strong> Beispiel positiv/negativ ist <strong>in</strong> <strong>der</strong> Menge aller positiven / negativen<br />

Beispiele. Sei p <strong>die</strong> Anzahl <strong>der</strong> positiven und n <strong>die</strong> Anzahl <strong>der</strong> negativen Beispiele für das<br />

Konzept. Wir nehmen e<strong>in</strong>e Gleichverteilung unter den Beispielen an, d.h. wir nehmen<br />

an, dass <strong>die</strong> relative Häufigkeit <strong>die</strong> reale Verteilung <strong>in</strong> den Beispielen wi<strong>der</strong>spiegelt. Die<br />

Entropie bzw. <strong>der</strong> Informationsgehalt ist dann:<br />

I(M) =<br />

p<br />

p + n ∗ log 2 (p + n ) + n<br />

p p + n ∗ log 2 (p + n<br />

n )<br />

Sei a e<strong>in</strong> Attribut. Wir schreiben m(a) für den Wert des Attributs a e<strong>in</strong>es Objekts m ∈ M.<br />

Hat man e<strong>in</strong> mehrwertiges Attribut a mit den Werten w 1 , . . . , w n abgefragt, dann zerlegt<br />

sich <strong>die</strong> Menge M <strong>der</strong> Beispiele <strong>in</strong> <strong>die</strong> Mengen M i := {m ∈ M | m(a) = w i }, wobei w i , i =<br />

1, . . . , k <strong>die</strong> möglichen Werte des Attributes s<strong>in</strong>d. Seien p i , n i für i = 1, . . . , k <strong>die</strong> jeweilige<br />

Anzahl positiver (negativer) Beispiele <strong>in</strong> M i , dann ergibt sich nach Abfragen des Attributs<br />

an Informationsgehalt (bzgl. positiv/negativ), wobei I(M i ) <strong>der</strong> Informationsgehalt (bzgl.<br />

positiv/negativ) <strong>der</strong> jeweiligen Menge M i ist.<br />

I(M|a) =<br />

k∑<br />

P (a = w i ) ∗ I(M i )<br />

i=1<br />

D.h. es wird <strong>der</strong> nach relativer Häufigkeit gewichtete Mittelwert <strong>der</strong> enstandenen Infor-<br />

M. Schmidt-Schauß & D. Sabel, Skript KI, WS 2012/13 267 Stand: 30. Januar 2013

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!