Klassifikation - Database Systems Group - Ludwig-Maximilians ...
Klassifikation - Database Systems Group - Ludwig-Maximilians ...
Klassifikation - Database Systems Group - Ludwig-Maximilians ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
DATABASE<br />
SYSTEMS<br />
GROUP<br />
DATABASE<br />
SYSTEMS<br />
GROUP<br />
Motivation<br />
Bei hochdimensionalen Merkmalsvektoren schwierige Schätzung der<br />
bedingten Wahrscheinlichkeiten P(M | C) und damit P(C | M):<br />
• M besteht aus vielen einzelnen Komponenten,<br />
die UND-verknüpft sind:<br />
P ( M M1<br />
∧ M 2 ∧ ∧...<br />
| C ) ⋅ P ( C )<br />
P(<br />
C | M1<br />
∧ M 2 ∧...)<br />
=<br />
P(<br />
M1<br />
∧ M 2 ∧...)<br />
• Bei d verschiedenen Merkmalen und jeweils j r verschiedenen<br />
Werten ergeben sich rd verschiedene Merkmalskombinationen<br />
Probleme:<br />
• Die Wahrscheinlichkeiten lassen sich nicht mehr abspeichern<br />
• Man bräuchte >> rd Man bräuchte >> r Trainingsdatensätze Trainingsdatensätze, um die<br />
Wahrscheinlichkeit der einzelnen Merkmalskombinationen<br />
überhaupt ermitteln zu können<br />
Naive Bayes-<strong>Klassifikation</strong><br />
Lösung dieses Problems beim naiven Bayes-Klassifikator:<br />
Annahme der bedingten Unabhängigkeit<br />
d.h. bei jeder einzelnen Klasse werden die Merkmale so<br />
behandelt als wären sie voneinander statistisch unabhängig:<br />
Was bedeutet dies?<br />
Klasse=Orange:<br />
M2 = Gewicht G<br />
P (M 1 ∧ M 2 | C) = P (M 1 | C) ⋅ P (M 2 | C)<br />
M 1 = Durchmesser<br />
• Annahme kann falsch sein<br />
• Dies führt nicht unbedingt dazu dazu,<br />
dass die <strong>Klassifikation</strong> versagt<br />
• Aber schlechte Leistung, wenn…<br />
•alle ll Merkmale M k l bei b i mehreren h<br />
Klassen etwa gleich verteilt sind<br />
•Unterschiede nur in „Relationen“<br />
der Merkmale zueinander<br />
35<br />
36