Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...
Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...
Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
8.3 Lernen mit Entscheidungsbäumen<br />
Der im Folgenden verwendetet Entropie-Ansatz bewirkt, dass das Verfahren e<strong>in</strong>en Entscheidungsbaum<br />
erzeugt <strong>der</strong> e<strong>in</strong>e möglichst kle<strong>in</strong>e mittlere Anzahl von Anfragen bis zur<br />
Entscheidung benötigt. E<strong>in</strong>en Beweis dazu lassen wir weg. Das Verfahren ist verwandt<br />
zur Konstruktion von Huffman-Bäumen bei Ko<strong>die</strong>rungen.<br />
8.3.2 Lernverfahren ID3 und C4.5<br />
Es wird angenommen, dass alle Objekte vollständige Attributwerte haben, und dass es<br />
e<strong>in</strong>e Menge von positiven Beispielen und e<strong>in</strong>e Menge von negativen Beispielen für e<strong>in</strong> zu<br />
lernendes Konzept gibt, <strong>die</strong> möglichst gut <strong>die</strong> echte Verteilung abbilden. Für re<strong>in</strong> positive<br />
Beispielmengen funktionieren <strong>die</strong>se Verfahren nicht.<br />
Wichtig für <strong>die</strong> Lernverfahren ist es, herauszuf<strong>in</strong>den, welche Attribute für das Konzept<br />
irrelevant bzw. relevant s<strong>in</strong>d. Nachdem e<strong>in</strong> Teil des Entscheidungsbaumes aufgebaut ist,<br />
prüfen <strong>die</strong> Lernverfahren <strong>die</strong> Relevanz weiterer Attribute bzw. Attribut<strong>in</strong>tervalle.<br />
Das Lernverfahren ID3 (Iterative Dichotomiser 3) iverwendet den Informationsgehalt<br />
<strong>der</strong> Attribute bezogen auf <strong>die</strong> Beispielmenge. Der Informationsgehalt entspricht <strong>der</strong> mittleren<br />
Anzahl <strong>der</strong> Ja/Ne<strong>in</strong>-Fragen, um e<strong>in</strong> e<strong>in</strong>zelnes Objekt e<strong>in</strong>er Klasse zuzuordnen. Das<br />
Lernverfahren versucht herauszuf<strong>in</strong>den, welche Frage den größten Informationsgew<strong>in</strong>n<br />
br<strong>in</strong>gt, wobei man sich genau auf <strong>die</strong> <strong>in</strong> e<strong>in</strong>em Entscheidungsbaum erlaubten Fragen beschränkt.<br />
Das Ziel ist daher <strong>die</strong> mittlere Anzahl <strong>der</strong> Fragen möglichst kle<strong>in</strong> zu halten.<br />
Sei M e<strong>in</strong>e Menge von Objekten mit Attirbuten. Wir berechnen den Informationsgehalt<br />
<strong>der</strong> Frage, ob e<strong>in</strong> Beispiel positiv/negativ ist <strong>in</strong> <strong>der</strong> Menge aller positiven / negativen<br />
Beispiele. Sei p <strong>die</strong> Anzahl <strong>der</strong> positiven und n <strong>die</strong> Anzahl <strong>der</strong> negativen Beispiele für das<br />
Konzept. Wir nehmen e<strong>in</strong>e Gleichverteilung unter den Beispielen an, d.h. wir nehmen<br />
an, dass <strong>die</strong> relative Häufigkeit <strong>die</strong> reale Verteilung <strong>in</strong> den Beispielen wi<strong>der</strong>spiegelt. Die<br />
Entropie bzw. <strong>der</strong> Informationsgehalt ist dann:<br />
I(M) =<br />
p<br />
p + n ∗ log 2 (p + n ) + n<br />
p p + n ∗ log 2 (p + n<br />
n )<br />
Sei a e<strong>in</strong> Attribut. Wir schreiben m(a) für den Wert des Attributs a e<strong>in</strong>es Objekts m ∈ M.<br />
Hat man e<strong>in</strong> mehrwertiges Attribut a mit den Werten w 1 , . . . , w n abgefragt, dann zerlegt<br />
sich <strong>die</strong> Menge M <strong>der</strong> Beispiele <strong>in</strong> <strong>die</strong> Mengen M i := {m ∈ M | m(a) = w i }, wobei w i , i =<br />
1, . . . , k <strong>die</strong> möglichen Werte des Attributes s<strong>in</strong>d. Seien p i , n i für i = 1, . . . , k <strong>die</strong> jeweilige<br />
Anzahl positiver (negativer) Beispiele <strong>in</strong> M i , dann ergibt sich nach Abfragen des Attributs<br />
an Informationsgehalt (bzgl. positiv/negativ), wobei I(M i ) <strong>der</strong> Informationsgehalt (bzgl.<br />
positiv/negativ) <strong>der</strong> jeweiligen Menge M i ist.<br />
I(M|a) =<br />
k∑<br />
P (a = w i ) ∗ I(M i )<br />
i=1<br />
D.h. es wird <strong>der</strong> nach relativer Häufigkeit gewichtete Mittelwert <strong>der</strong> enstandenen Infor-<br />
M. Schmidt-Schauß & D. Sabel, Skript KI, WS 2012/13 267 Stand: 30. Januar 2013