17.07.2013 Aufrufe

Methoden zur Klassifikation - OptiV

Methoden zur Klassifikation - OptiV

Methoden zur Klassifikation - OptiV

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

ID3-<br />

Algorithmus<br />

Ablauf des<br />

ID3-<br />

Algorithmus<br />

Window-<br />

Technik<br />

5.2 ID3-Algorithmus<br />

Der ID3-Algorithmus (Iterative Dichotomiser 3) von Ross Quinlan [3] ist ein<br />

im wissenschaftlichen und kommerziellen Bereich weit verbreitetes <strong>Klassifikation</strong>sverfahren.<br />

ID3 ist ein rekursiver Top-Down-Algorithmus <strong>zur</strong> Konstruktion<br />

eines Entscheidungsbaumes. Das größte Problem des Algorithmus ist die hohe<br />

Sensibilität für fehlerhafte und widersprüchliche Daten, welche Fehlklassifikationen<br />

<strong>zur</strong> Folge hat.<br />

Der ID3-Algorithmus kann generell wie folgt dargestellt werden:<br />

Nachdem zunächst gemäß der ” window-Technik“ ein erster Entscheidungsbaum<br />

erstellt wurde, wird überprüft, ob alle Beispiele eines Knotens <strong>zur</strong> gleichen<br />

Klasse gehören. Ist dies der Fall, so ist der Entscheidungsbaum fertig.<br />

Wenn nicht, so wird das informativste Merkmalausgewählt und nach diesem<br />

verzweigt. Das heißt mit Hilfe dieses Merkmals werden die Beispiele des<br />

betrachteten Knotens in Untergruppen aufgeteilt, wobei in jeder dieser Untergruppen<br />

nur Beispiele mit gleichen Merkmalswerten vorkommen. Dies wird so<br />

lange wiederholt, bis alle Beispiele in den verschiedenen Untergruppen richtig<br />

klassifiziert wurden.<br />

Das informativste Merkmal wird ermittelt, in dem für jedes Merkmal der Beispieldaten<br />

(nach dem noch nicht verzweigt wurde) berechnet wird, wie gut es<br />

die Daten klassifizieren würde. Diese <strong>Klassifikation</strong>sgüte wird von ID3 über das<br />

Informationskriterium gemessen. Dieses Kriterium quantifiziert die <strong>zur</strong> <strong>Klassifikation</strong><br />

benötigte Information, d.h. die Anzahl der Tests, die nötig sind um ein<br />

nicht klassifiziertes Objekt einer Klasse zuzuordnen. Ziel von ID3 ist es, die <strong>zur</strong><br />

<strong>Klassifikation</strong> benötigte Information im Entscheidungsbaum zu minimieren.<br />

5.2.1 Nebenpfad: Window-Technik des ID3<br />

Um die <strong>Klassifikation</strong> großer Datenmengen zu ermöglichen wurde beim ID3-<br />

Algorithmus die so genannte ” window-Technik“ verwendet. Dies ist ein iteratives<br />

Verfahren, welches mit einem gewissen Anteil der verfügbaren Beispieldaten<br />

(z.B. 10%) einen Entscheidungsbaum generiert. Dieser Anteil wird in das ” window“<br />

aufgenommen. Anhand dieses ersten Baumes werden die restlichen Daten<br />

klassifiziert.<br />

Gibt es Objekte, welche nicht richtig klassifiziert wurden, so werden diese zusätzlich<br />

dem ” window“ hinzugefügt und der Entscheidungsbaum wird neu generiert.<br />

Dies wird so lange wiederholt, bis alle Beispieldaten korrekt klassifiziert wurden.<br />

16

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!