19.03.2014 Aufrufe

4 in 1

4 in 1

4 in 1

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

1.1 Data M<strong>in</strong><strong>in</strong>g (Modell<strong>in</strong>g)<br />

1.1 Data M<strong>in</strong><strong>in</strong>g (Modell<strong>in</strong>g)<br />

• Def<strong>in</strong>ition [Fayyad, Piatetsky-Shapiro, Smyth 96]<br />

– Data M<strong>in</strong><strong>in</strong>g ist die Anwendung effizienter Algorithmen, die die <strong>in</strong> e<strong>in</strong>er<br />

Datenbank enthaltenen Muster liefern.<br />

• Data-M<strong>in</strong><strong>in</strong>g-Aufgaben<br />

• • • • •<br />

• • •<br />

• • •<br />

• Cluster<strong>in</strong>g<br />

A und B --> C<br />

Assoziationsregeln<br />

a<br />

a a<br />

a<br />

• •<br />

•<br />

•<br />

b b b<br />

a<br />

b b<br />

Klassifikation<br />

• • •<br />

•<br />

• •<br />

b<br />

•<br />

Generalisierung<br />

a<br />

•<br />

Anwendungen<br />

• Cluster<strong>in</strong>g<br />

Customer Segmentation, Strukturierung von Mengen von Webdokumenten<br />

• Klassifikation<br />

– Bewertung der Kreditwürdigkeit, Automatische Analyse astronomischer<br />

Beobachtungen<br />

• Assoziationsregeln<br />

Reorganisation e<strong>in</strong>es Supermarkts, Cross-Sell<strong>in</strong>g der Produkte e<strong>in</strong>er Firma<br />

• Generalisierung<br />

Beschreibung von Clustern, Kundengruppenanalyse<br />

andere Aufgaben: Regression, Entdecken von Ausreißern . . .<br />

Vorlesung Knowledge Discovery<br />

25<br />

Vorlesung Knowledge Discovery<br />

26<br />

1.1 Evaluation<br />

1.1 Evaluation<br />

Ablauf<br />

– Präsentation der gefundenen Muster<br />

häufig durch entsprechende Visualisierungen<br />

– Bewertung der Muster<br />

durch den Benutzer<br />

– falls schlechte Bewertung:<br />

erneutes Data M<strong>in</strong><strong>in</strong>g mit<br />

• anderen Parametern<br />

• anderem Verfahren<br />

• anderen Daten<br />

– falls gute Bewertung:<br />

Integration des gefundenen Wissens <strong>in</strong> die Wissensbasis<br />

Nutzung des neuen Wissens für zukünftige KDD-Prozesse<br />

Bewertung der gefundenen Muster<br />

Vorhersagekraft der Muster<br />

– Verwendete Daten s<strong>in</strong>d Stichprobe aus der Grundgesamtheit aller Daten.<br />

– Wie gut lassen sich die <strong>in</strong> diesen „Tra<strong>in</strong><strong>in</strong>gsdaten“ gefundenen Muster auf<br />

zukünftige Daten verallgeme<strong>in</strong>ern?<br />

– Vorhersagekraft wächst mit Größe und Repräsentativität der Stichprobe.<br />

Interessantheit der Muster<br />

– Muster schon bekannt?<br />

– Muster überraschend?<br />

– Muster für viele Fälle anwendbar?<br />

Vorlesung Knowledge Discovery<br />

27<br />

Vorlesung Knowledge Discovery<br />

28

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!