Methoden zur Klassifikation - OptiV

Weitere Magazine

Empfehlungen

Info

Schätzung der Diskriminanzfunktion Überprüfung der Güte der Diskriminanzfunktion 2.3 Methodenbeschreibung Es gibt eine Reihe von Verfahren zur Schätzung der Diskriminanzfunktion. Das bekannteste ist der Ansatz von Fisher, welcher die Koeffizienten bi so wählt, dass die Funktionswerte der Diskriminanzfunktion für verschiedene Gruppen möglichst weit auseinanderliegen bzw. das Verhältnis von erklärter Streuung (zwischen den Gruppen) zu nicht erklärter Streuung (innerhalb der Gruppen) möglichst groß ist. max G G g=1 g=1 ng · ( ¯ Dg − ¯ D) 2 ng i=1 (Dgi − ¯ Dg) Streuung zwischen den Gruppen = 2 Streuung innerhalb der Gruppen Hierbei ist ng die Anzahl der Fälle in einer Klasse g, ¯ D das gesamte Mittel aller Diskriminanzwerte D, ¯ Dg das Mittel aller Diskriminanzwerte in einer Klasse g und Dgi der Diskriminanzwert des i-ten Falles in der Klasse g (vgl. Tabachnik/Fidell 1996, S. 514 f.). Dieses Maximierungsproblem wird über ein Eigenwertproblem gelöst. Weitere Diskriminanzfunktionen werden so ermittelt, dass diese einen maximalen Anteil der bis dahin nicht erklärten Streuung erklären können. Die gebräuchlichsten Kriterien zur Überprüfung der Güte der Diskriminanzfunktion sind der kanonische Korrelationskoeffizient und Wilks Lambda im Falle zweier Gruppen sowie das multivariate Wilks Lambda bei mehreren Gruppen. Mit der Anwendung von Wilks Lambda sind Wahrscheinlichkeitsaussagen über die Unterschiedlichkeit der Gruppen möglich. Hierdurch kann die statistische Signifikanz ermittelt werden. Der Kanonische Korrelationskoeffizient misst den Anteil der Streuung zwischen den Klassen an der gesamten Streuung der Daten. Je größer der Wert des Koeffizienten ist, desto größer ist die Streuung der Merkmalsausprägungen zwischen den Gruppen, im Verhältnis zur Streuung innerhalb der Gruppen. Klassifizierung Die Klassifizierung von Objekten mit unbekannter Klassenzugehörigkeit lässt sich nach verschiedenen Methoden durchführen. Zu den bekanntesten gehören die Distanzmethode, das Wahrscheinlichkeitskonzept und die Klassifizierungsfunktionen von Fischer. 6
2.3.1 Nebenpfad: Klassifizierung von Objekten Distanzmethode Gemäß der Distanzmethode wird ein neues Objekt derjenigen Gruppe g zugeordnet deren mittlerer Distanzwert ¯ Dg dem Distanzwert Dgi des zu klassifizierenden Objektes am nächsten liegt. Bei mehreren Diskriminanzfunktionen reicht die Berücksichtigung der signifikanten Funktionen aus. Die Distanzmethode setzt gleiche Streuungenin den verschiedenen Gruppen voraus. Ist dies nicht der Fall, so müssen modifizierte Distanzen verwendet werden. Wahrscheinlichkeitskonzept Das Wahrscheinlichkeitskonzept ist die flexibelste Methode zur Klassifizierung. Es ermöglicht die Berücksichtigung von A-priori-Wahrscheinlichkeiten Pi(g), die vor der Durchführung der Diskriminanzanalyse bekannt sind oder geschätzt werden. Diese geben an, mit welcher Wahrscheinlichkeit ein Objekt i einer bestimmten Gruppe g angehört. Hieraus wird mittels des Satzes von Bayes die Wahrscheinlichkeit P (g|Di) berechnet, mit der ein Objekt mit einem bestimmten Distanzwert Di zu einer Gruppe g gehört. Fischer’s Klassifizierungsfunktionen P (g|Di) = G P (Di|g)·Pi(g) ; g = 1, ..., G P (Di|g)·Pi(g) g=1 P (Di|g) sind bedingte Wahrscheinlichkeiten, die angeben wie wahrscheinlich ein Diskriminanzwert Di für Objekt i wäre, wenn es zur Gruppe g gehören würde. Zusätzlich können Fehlklassifikationskosten berücksichtigt werden, die falsche Klassifikationen in bestimmte Gruppen bestrafen. Fischers Klassifizierungsfunktionen sind ein Hilfsmittel, um eine Klassifizierung ohne Anwendung der Diskriminanzfunktion vornehmen zu können. Die Methode ist nur durchführbar wenn gleiche Streuung innerhalb der Gruppen unterstellt werden kann. Für jede Gruppe ist eine Klassifizierungsfunktion zu bestimmen. Zur Klassifizierung eines Objektes sind dessen Funktionswerte für jede Klassifizierungsfunktion, also jede Gruppe, zu berechnen. Das Objekt wird der Gruppe zugeordnet, für die der berechnete Funktionswert maximal ist. Auch hier können A-priori- Wahrscheinlichkeiten berücksichtigt werden. 7
Seite 1 und 2: Inhaltsverzeichnis Methoden zur Kla
Seite 3 und 4: Klassifikation vs. Segmentierung Vo
Seite 5: 2.2 Methodenbeschreibung Methodenbe
Seite 9 und 10: 3 Naive Bayes-Klassifikatoren 3.1 M
Seite 11 und 12: P(Alter¡30 — Kreditw.= ” sehr
Seite 13 und 14: 4 Bayes-Netzwerke 4.1 Methodenbesch
Seite 15 und 16: 5 Entscheidungsbäume 5.1 Allgemein
Seite 17 und 18: Vorteil der Window- Terchnik Zur Kl
Seite 19 und 20: • Bei ID3 kann an jedem Knoten im
Seite 21 und 22: Aufbauendes Prunen Beim Prunen wäh
Seite 23 und 24: GID3-IV- Algorithmus dem Kriterium
Seite 25 und 26: Konstruktion trennender Ebenen Weic
Seite 27 und 28: Disjunkte Regeln als Klassifikator
Seite 29 und 30: 7 Literatur und Methodenverzeichnis
Seite 31 und 32: Quinlan, J.R.: Simplifying Decision

Methoden zur Klassifikation - OptiV

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?