Methoden zur Klassifikation - OptiV
Methoden zur Klassifikation - OptiV
Methoden zur Klassifikation - OptiV
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
ID3-<br />
Algorithmus<br />
Ablauf des<br />
ID3-<br />
Algorithmus<br />
Window-<br />
Technik<br />
5.2 ID3-Algorithmus<br />
Der ID3-Algorithmus (Iterative Dichotomiser 3) von Ross Quinlan [3] ist ein<br />
im wissenschaftlichen und kommerziellen Bereich weit verbreitetes <strong>Klassifikation</strong>sverfahren.<br />
ID3 ist ein rekursiver Top-Down-Algorithmus <strong>zur</strong> Konstruktion<br />
eines Entscheidungsbaumes. Das größte Problem des Algorithmus ist die hohe<br />
Sensibilität für fehlerhafte und widersprüchliche Daten, welche Fehlklassifikationen<br />
<strong>zur</strong> Folge hat.<br />
Der ID3-Algorithmus kann generell wie folgt dargestellt werden:<br />
Nachdem zunächst gemäß der ” window-Technik“ ein erster Entscheidungsbaum<br />
erstellt wurde, wird überprüft, ob alle Beispiele eines Knotens <strong>zur</strong> gleichen<br />
Klasse gehören. Ist dies der Fall, so ist der Entscheidungsbaum fertig.<br />
Wenn nicht, so wird das informativste Merkmalausgewählt und nach diesem<br />
verzweigt. Das heißt mit Hilfe dieses Merkmals werden die Beispiele des<br />
betrachteten Knotens in Untergruppen aufgeteilt, wobei in jeder dieser Untergruppen<br />
nur Beispiele mit gleichen Merkmalswerten vorkommen. Dies wird so<br />
lange wiederholt, bis alle Beispiele in den verschiedenen Untergruppen richtig<br />
klassifiziert wurden.<br />
Das informativste Merkmal wird ermittelt, in dem für jedes Merkmal der Beispieldaten<br />
(nach dem noch nicht verzweigt wurde) berechnet wird, wie gut es<br />
die Daten klassifizieren würde. Diese <strong>Klassifikation</strong>sgüte wird von ID3 über das<br />
Informationskriterium gemessen. Dieses Kriterium quantifiziert die <strong>zur</strong> <strong>Klassifikation</strong><br />
benötigte Information, d.h. die Anzahl der Tests, die nötig sind um ein<br />
nicht klassifiziertes Objekt einer Klasse zuzuordnen. Ziel von ID3 ist es, die <strong>zur</strong><br />
<strong>Klassifikation</strong> benötigte Information im Entscheidungsbaum zu minimieren.<br />
5.2.1 Nebenpfad: Window-Technik des ID3<br />
Um die <strong>Klassifikation</strong> großer Datenmengen zu ermöglichen wurde beim ID3-<br />
Algorithmus die so genannte ” window-Technik“ verwendet. Dies ist ein iteratives<br />
Verfahren, welches mit einem gewissen Anteil der verfügbaren Beispieldaten<br />
(z.B. 10%) einen Entscheidungsbaum generiert. Dieser Anteil wird in das ” window“<br />
aufgenommen. Anhand dieses ersten Baumes werden die restlichen Daten<br />
klassifiziert.<br />
Gibt es Objekte, welche nicht richtig klassifiziert wurden, so werden diese zusätzlich<br />
dem ” window“ hinzugefügt und der Entscheidungsbaum wird neu generiert.<br />
Dies wird so lange wiederholt, bis alle Beispieldaten korrekt klassifiziert wurden.<br />
16