4 in 1
4 in 1
4 in 1
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1.1 Data M<strong>in</strong><strong>in</strong>g (Modell<strong>in</strong>g)<br />
1.1 Data M<strong>in</strong><strong>in</strong>g (Modell<strong>in</strong>g)<br />
• Def<strong>in</strong>ition [Fayyad, Piatetsky-Shapiro, Smyth 96]<br />
– Data M<strong>in</strong><strong>in</strong>g ist die Anwendung effizienter Algorithmen, die die <strong>in</strong> e<strong>in</strong>er<br />
Datenbank enthaltenen Muster liefern.<br />
• Data-M<strong>in</strong><strong>in</strong>g-Aufgaben<br />
• • • • •<br />
• • •<br />
• • •<br />
• Cluster<strong>in</strong>g<br />
A und B --> C<br />
Assoziationsregeln<br />
a<br />
a a<br />
a<br />
• •<br />
•<br />
•<br />
b b b<br />
a<br />
b b<br />
Klassifikation<br />
• • •<br />
•<br />
• •<br />
b<br />
•<br />
Generalisierung<br />
a<br />
•<br />
Anwendungen<br />
• Cluster<strong>in</strong>g<br />
Customer Segmentation, Strukturierung von Mengen von Webdokumenten<br />
• Klassifikation<br />
– Bewertung der Kreditwürdigkeit, Automatische Analyse astronomischer<br />
Beobachtungen<br />
• Assoziationsregeln<br />
Reorganisation e<strong>in</strong>es Supermarkts, Cross-Sell<strong>in</strong>g der Produkte e<strong>in</strong>er Firma<br />
• Generalisierung<br />
Beschreibung von Clustern, Kundengruppenanalyse<br />
andere Aufgaben: Regression, Entdecken von Ausreißern . . .<br />
Vorlesung Knowledge Discovery<br />
25<br />
Vorlesung Knowledge Discovery<br />
26<br />
1.1 Evaluation<br />
1.1 Evaluation<br />
Ablauf<br />
– Präsentation der gefundenen Muster<br />
häufig durch entsprechende Visualisierungen<br />
– Bewertung der Muster<br />
durch den Benutzer<br />
– falls schlechte Bewertung:<br />
erneutes Data M<strong>in</strong><strong>in</strong>g mit<br />
• anderen Parametern<br />
• anderem Verfahren<br />
• anderen Daten<br />
– falls gute Bewertung:<br />
Integration des gefundenen Wissens <strong>in</strong> die Wissensbasis<br />
Nutzung des neuen Wissens für zukünftige KDD-Prozesse<br />
Bewertung der gefundenen Muster<br />
Vorhersagekraft der Muster<br />
– Verwendete Daten s<strong>in</strong>d Stichprobe aus der Grundgesamtheit aller Daten.<br />
– Wie gut lassen sich die <strong>in</strong> diesen „Tra<strong>in</strong><strong>in</strong>gsdaten“ gefundenen Muster auf<br />
zukünftige Daten verallgeme<strong>in</strong>ern?<br />
– Vorhersagekraft wächst mit Größe und Repräsentativität der Stichprobe.<br />
Interessantheit der Muster<br />
– Muster schon bekannt?<br />
– Muster überraschend?<br />
– Muster für viele Fälle anwendbar?<br />
Vorlesung Knowledge Discovery<br />
27<br />
Vorlesung Knowledge Discovery<br />
28