20.03.2014 Aufrufe

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

Einführung in die Methoden der Künstlichen Intelligenz - Goethe ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

8 Masch<strong>in</strong>elles Lernen<br />

Der Normierungsfaktor für e<strong>in</strong> Attribut a mit den Werten w i , i = 1, . . . , k ist:<br />

1<br />

k∑<br />

1<br />

P (a = w i ) ∗ log 2<br />

(<br />

P (a = w i ) )<br />

i=1<br />

Bei e<strong>in</strong>em Booleschen Attribut, das gleichverteilt ist, ergibt sich als Normierungsfaktor<br />

0, 5 ∗ 1 + 0, 5 ∗ 1 = 1, während sich bei e<strong>in</strong>em Attribut mit n Werten, <strong>die</strong> alle gleichverteilt<br />

s<strong>in</strong>d, <strong>der</strong> Wert<br />

1<br />

n ∗ 1 n ∗ log 2 (n) = 1<br />

log 2<br />

(n)<br />

ergibt.<br />

Durch <strong>die</strong>se Vorgehensweise wird <strong>die</strong> Personalnummer und auch <strong>die</strong> Apfelnummer als<br />

irrelevantes Attribut erkannt. Allerd<strong>in</strong>gs ist es besser, <strong>die</strong>se Attribute von vornehere<strong>in</strong> als<br />

irrelevant zu kennzeichnen, bzw. erst gar nicht <strong>in</strong> <strong>die</strong> Methode e<strong>in</strong>fließen zu lassen.<br />

Beispiel 8.3.10. Im Apfelbeispiel s.o. ergibt sich bei H<strong>in</strong>zufügen e<strong>in</strong>es Attributes Apfelnummer<br />

mit den Ausprägungen 1, 2, 3, 4, als Normierungsfaktor für Apfelnummer:<br />

1<br />

1<br />

4 ∗ 2 + . . . + 1 4 ∗ 2 = 0.5<br />

Damit wird <strong>die</strong> Abfrage nach dem Geschmack vor <strong>der</strong> Apfelnummer bevorzugt.<br />

8.3.2.2 Übergeneralisierung (Overfitt<strong>in</strong>g)<br />

Tritt auf, wenn <strong>die</strong> Beispiele nicht repräsentativ s<strong>in</strong>d, o<strong>der</strong> nicht ausreichend. Der Effekt<br />

ist, dass zwar <strong>die</strong> Beispiele richtig e<strong>in</strong>geordnet werden, aber <strong>der</strong> Entscheidungsbaum zu<br />

fe<strong>in</strong> unterscheidet, nur weil <strong>die</strong> Beispiele (zufällig) bestimmte Regelmäßigkeiten aufweisen.<br />

Beispiel 8.3.11. Angenommen, man will e<strong>in</strong>e Krankheit als Konzept def<strong>in</strong>ieren und beschreibt<br />

dazu <strong>die</strong> Symptome als Attribute:<br />

Fieber: Temperatur, Flecken: j/n, Erbrechen: j/n, Durchfall: j/n, Dauer <strong>der</strong> krankheit: Zeit, Alter des<br />

Patienten, Geschlecht des Patienten, . . ..<br />

Es kann dabei passieren, dass das Lernverfahren e<strong>in</strong> Konzept f<strong>in</strong>det, dass be<strong>in</strong>haltet, dass Frauen<br />

zwischen 25 und 30 Jahren <strong>die</strong>se Krankheit nicht haben, nur weil es ke<strong>in</strong>e Beispiele dafür gibt.<br />

Auch das ist e<strong>in</strong> Fall von overfitt<strong>in</strong>g.<br />

Besser wäre es <strong>in</strong> <strong>die</strong>sem Fall, e<strong>in</strong> Datenbank aller Fälle zu haben. Die Erfahrung zeigt aber, dass<br />

selbst <strong>die</strong>se Datenbank aller Krankheiten für zukünftige Fragen oft nicht ausreicht, da nicht jede<br />

Frage geklärt werden kann: z.B. E<strong>in</strong>fluss des Gendefektes XXXXX auf Fettsucht.<br />

Abschneiden des Entscheidungsbaumes: Prun<strong>in</strong>g<br />

Stand: 30. Januar 2013 272 M. Schmidt-Schauß & D. Sabel, Skript KI, WS 2012/13

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!