21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4.8. UNÜBERWACHTES LERNEN (VA.1.2.3, 13.04.2004) 415<br />

die k < ∞ Punkten aκ eine Wahrscheinlichkeit pκ > 0 zuordnet, wobei die Nebenbedingung<br />

k<br />

pκ = 1 , 1 ≤ k < ∞ (4.8.3)<br />

κ=1<br />

gilt. Durch die Abbildung<br />

Q(P ′ ) =<br />

k<br />

pκP (c|aκ) = P (c) , P (c|aκ) ∈ P (c|a) (4.8.4)<br />

κ=1<br />

wird die n-dimensionale Mischungsverteilung P (c) definiert. Ist P ′ die Menge der mischenden<br />

Verteilungen gemäß (4.8.2), (4.8.3), so ist<br />

P (c) = Q( P ′ ) = {Q(P ′ )|P ′ ∈ P ′ } (4.8.5)<br />

die Menge der (endlichen) Mischungsverteilungen.<br />

Definition 4.14 Unter Identifizierbarkeit der Menge der (endlichen) Mischungsverteilungen<br />

wird verstanden, dass sich für jedes P (c) ∈ P (c) die Parameter Θ in (4.8.1) eindeutig bestimmen<br />

lassen, d. h. dass<br />

P ′ 1 = P ′ 2 ⇔ Q(P ′ 1 ) = P1(c) = P2(c) = Q(P ′ 2 ) . (4.8.6)<br />

Die parametrische Familie P (c|a) heißt identifizierbar, wenn die zugehörige Menge P (c) <strong>von</strong><br />

Mischungsverteilungen identifizierbar ist.<br />

Satz 4.19 Eine notwendige und hinreichende Bedingung, dass die Menge P (c) der Mischungsverteilungen,<br />

die <strong>von</strong> der parametrischen Familie P (c|a) erzeugt wird, identifizierbar<br />

ist, besteht darin, dass P (c|a) eine linear unabhängige Menge <strong>von</strong> Funktionen ist.<br />

Beweis: s. z. B. [Yakowitz und Spragins, 1968, Yakowitz, 1970]<br />

Die Bedingung ist notwendig, weil bei linear abhängigen Funktionen die gleiche Mischungsverteilung<br />

mit verschiedenen Parametern dargestellt werden könnte. Sie ist hinreichend,<br />

weil zwei verschiedene Darstellungen der gleichen Mischungsverteilung der Eigenschaft der<br />

eindeutigen Darstellung durch eine Basis widersprechen würden.<br />

Eine eindeutige Schätzung der Parameter Θ in (4.8.1) ist also nur möglich, wenn Satz 4.19<br />

erfüllt ist. Es kann also prinzipiell unlösbare Probleme des unüberwachten Lernens geben, wenn<br />

die beschreibende Familie <strong>von</strong> Mischungsverteilungen nicht identifizierbar ist. Allerdings wird<br />

so ein Problem vermutlich näherungsweise lösbar sein, wenn man die fragliche Familie durch<br />

eine identifizierbare mit hinreichender Genauigkeit approximieren kann. Da man die „richtige“<br />

Familie <strong>von</strong> Mischungsverteilungen einer konkreten Anwendung ohnehin nicht kennt, sondern<br />

dafür ein plausible Annahme macht, wird man natürlich zweckmäßigerweise eine identifizierbare<br />

Menge <strong>von</strong> Mischungsverteilungen zu Grunde legen. Unüberwachtes Lernen im Kontext<br />

statistischer Klassifikatoren ist also ein Problem der Parameterschätzung <strong>von</strong> identifizierbaren<br />

Mischungsverteilungen. Einige Ergebnisse zur Identifizierbarkeit sind in folgendem Satz zusammengefasst:

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!