21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

246 KAPITEL 3. MERKMALE (VK.2.3.3, 13.04.2004)<br />

3.9 Merkmalsbewertung und –auswahl (VA.1.2.3, 13.04.2004)<br />

3.9.1 Anliegen und Probleme<br />

Mit den heuristischen Verfahren <strong>von</strong> Abschnitt 3.2 – Abschnitt 3.5 ist es relativ leicht möglich,<br />

eine große Zahl n ′ <strong>von</strong> Merkmalen zu erzeugen. Der Aufwand für die <strong>Klassifikation</strong> steigt mit<br />

der Zahl dieser Merkmale an. Das ist intuitiv unmittelbar klar und geht auch aus den speziellen<br />

<strong>Klassifikation</strong>sverfahren <strong>von</strong> Kapitel 4 hervor. Außerdem verursacht auch die Gewinnung jedes<br />

einzelnen Merkmals einen gewissen Aufwand. Aus diesen Gründen wird man stets bestrebt<br />

sein, dass die Zahl n < n ′ der tatsächlich verwendeten Merkmale so klein wie möglich ist, um<br />

den Gesamtaufwand für die <strong>Klassifikation</strong> in erträglichen Grenzen zu halten. Damit ergibt sich<br />

die Aufgabe, eine Menge mit n ′ vorgegebenen Merkmalen durch eine Merkmalsauswahl auf<br />

eine Untermenge mit n „möglichst geeigneten“ Merkmalen zu reduzieren.<br />

Definition 3.16 Eine „beste“ Untermenge <strong>von</strong> Merkmalen hat die Eigenschaft, dass es keine<br />

andere mit höchstens genau so vielen Merkmalen gibt, wobei die Merkmale dieser anderen<br />

Untermenge eine <strong>Klassifikation</strong> mit geringerer Fehlerwahrscheinlichkeit erlauben.<br />

Aus zwei Gründen, die in den folgenden beiden Absätzen erläutert werden, ist es i. Allg.<br />

nicht möglich, diese beste Untermenge zu bestimmen. Daher muss man sich mit suboptimalen<br />

Ansätzen begnügen oder mit „möglichst geeigneten“ Merkmalen. Ein einwandfreies Kriterium<br />

zur Messung der Güte <strong>von</strong> Merkmalen ist die in einem bestimmten <strong>Klassifikation</strong>ssystem<br />

erreichte Fehlerwahrscheinlichkeit, wie auch in Abschnitt 3.8.1 ausgeführt wurde. Um den Aufwand<br />

bei der Merkmalsauswahl zu reduzieren, werden jedoch meistens Kriterien oder Gütemaße<br />

verwendet, die unabhängig vom Klassifikator berechnet werden können. Beispiele für solche<br />

Gütemaße folgen im nächsten Abschnitt. Damit wird die Bewertung der Merkmale als eigenes<br />

Problem, ohne Beachtung der sonstigen Moduln des <strong>Klassifikation</strong>ssystems, durchgeführt. Das<br />

vereinfacht das Problem, führt aber i. Allg. dazu, dass die so bestimmten Merkmale nicht die<br />

für das Gesamtsystem besten sind.<br />

Auch wenn man annimmt, dass geeignete Maße zur Beurteilung der Güte <strong>von</strong> Merkmalen<br />

bekannt sind, ist die Bestimmung einer geeigneten Untermenge ein schwieriges Problem.<br />

Wegen der in der Regel vorhandenen statistischen Abhängigkeiten zwischen den Merkmalen<br />

müsste man bei einer vollständigen Suchmethode alle Untermengen beurteilen, um die optimale<br />

zu finden. Zu einer vorgegebenen Menge mit n ′ Merkmalen gibt es genau n ′ <br />

verschiedene<br />

n<br />

Untermengen mit n < n ′ Merkmalen. Hat man beispielsweise n ′ = 300 Merkmale vorge-<br />

geben und will aus Aufwandsgründen nur n = 30 verwenden, so gibt es 300<br />

41<br />

≈ 1, 7 · 10<br />

30<br />

verschiedene Untermengen mit 30 Merkmalen. Abgesehen <strong>von</strong> einigen einfachen Spezialfällen<br />

mit sehr kleinen Werten für n ′ und n wird es also schwierig sein, die optimale Untermenge zu<br />

bestimmen. Daher muss man nach Festlegung eines Gütemaßes für Merkmale auch noch ein<br />

Auswahlverfahren festlegen, mit dem man eine möglichst geeignete Untermenge mit erträglichem<br />

Aufwand finden kann.<br />

Natürlich kann man statistische Abhängigkeiten zwischen Merkmalen zur Vereinfachung<br />

vernachlässigen und als beste Untermenge mit n Merkmalen die n am besten bewerteten wählen;<br />

tatsächlich wird häufig so verfahren. Man kann aber Beispiele dafür konstruieren, dass<br />

selbst bei klassenweise statistisch unabhängigen Merkmalen dieses Verfahren nicht immer optimal<br />

ist. Bewertet man jedes der n ′ Merkmale einzeln für sich und wählt die n einzeln am<br />

besten bewerteten aus, so ist das nicht notwendig die beste Untermenge mit n Merkmalen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!