21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

414 KAPITEL 4. NUMERISCHE KLASSIFIKATION (VK.2.3.3, 07.09.2005)<br />

schungsverteilung repräsentiert, deren unbekannte Parameter geschätzt werden. Das Problem<br />

der Identifikation <strong>von</strong> Mischungsverteilungen wird in Abschnitt 4.8.2 behandelt.<br />

• Es wird eine Gütefunktion vorgegeben, die den Wert (oder die Kosten) einer bestimmten<br />

Klasseneinteilung misst. Mit einem Optimierungsalgorithmus wird die Gütefunktion für<br />

die gegebene Stichprobe optimiert. Verfahren dafür werden in Abschnitt 4.8.4 betrachtet.<br />

• Die Stichprobe wird als bewichteter Graph aufgefasst, der durch Eliminierung geeigneter<br />

Kanten in disjunkte Teilgraphen zerlegt wird, die den Klassen entsprechen. Dieses ist die<br />

Vorgehensweise in Abschnitt 4.8.5.<br />

• Schließlich ist zu erwähnen, dass Verfahren wie die Vektorquantisierung (s. Abschnitt<br />

2.1.4) und die Merkmalskarte (s. Abschnitt 4.5.4) ebenfalls unüberwacht eine<br />

Klasseneinteilung berechnen.<br />

4.8.2 Die Identifikation <strong>von</strong> Mischungsverteilungen<br />

Identifizierbarkeit<br />

Wenn nur eine unklassifizierte Stichprobe ω gegeben ist und die Parameter eines statistischen<br />

Klassifikators bestimmt werden sollen, lassen sich die Schätzverfahren <strong>von</strong> Abschnitt 4.2.1 und<br />

Abschnitt 4.2.3 nicht anwenden. Der Grund ist, dass man nicht die bedingten Dichten p(c|ωκ)<br />

unabhängig <strong>von</strong>einander schätzen kann, sondern nur die Mischungsverteilungsdichte für den<br />

Problemkreis Ω (in (4.2.15), S. 327, wurde bereits eine Mischungsverteilungsdichte je Klasse<br />

Ωκ eingeführt)<br />

p(c) =<br />

k<br />

pκp(c|ωκ) =<br />

κ=1<br />

welche die unbekannten Parameter<br />

k<br />

pκp(c|aκ) ,<br />

κ=1<br />

Θ = {k, {pκ, aκ|κ = 1, . . . , k}} (4.8.1)<br />

enthält, sodass man zur Verdeutlichung auch p(c) = p(c|Θ) schreibt. Damit ein Klassifikator<br />

unüberwacht lernen kann, sind zwei Fragen zu klären:<br />

1. Unter welchen Voraussetzungen lassen sich Schätzwerte Θ für Θ berechnen, d. h. welches<br />

sind die Bedingungen für die Identifizierbarkeit einer Mischungsverteilung?<br />

2. Wie ist Θ konkret zu berechnen, d. h. wie erfolgt die Identifikation der Parameter?<br />

Diese Fragen sind geklärt, wie im Folgenden dargelegt wird. Dabei werden z. T. Verteilungsfunktionen<br />

P (c), und nicht Dichten p(c) betrachtet. Das Problem der Identifikation tritt sowohl<br />

im oben erwähnten Fall der unklassifiziertenStichprobe auf als auch in dem in Abschnitt 4.2.1<br />

erwähnten Fall, dass man eine klassifizierte Stichprobe hat, aber je Klasse eine Mischungsverteilung<br />

ansetzt.<br />

Entsprechend (4.1.1) wird vorausgesetzt, dass die bedingten Verteilungen P (c|Ωκ) der<br />

Merkmalsvektoren Elemente einer bekannten parametrischen Familie P (c|a) sind, d. h.<br />

P (c|Ωκ) = P (c|aκ) ist bis auf den Parametervektor aκ bekannt. Es gebe eine mischende<br />

Verteilung,<br />

P ′ = {pκ(aκ)|κ = 1, . . . , k} , (4.8.2)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!