4 in 1
4 in 1
4 in 1
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1.1 Anwendung (Deployment)<br />
Erstellung e<strong>in</strong>er Anwendung im Unternehmen<br />
• Planung des E<strong>in</strong>satzes der KDD-Anwendung<br />
– Erstellung e<strong>in</strong>es Planes zu E<strong>in</strong>führung der Anwendung<br />
1.2 Typische KDD-Anwendungen<br />
• Astronomie<br />
SKICAT-System [Fayyad, Haussler & Stolorz 1996]<br />
• Architektur<br />
• Planung des Monitorens und der Wartung<br />
– Wann sollten Modelle nicht mehr verwendet werden?<br />
– Ändern sich die Geschäftsziele mit der Zeit?<br />
Entfernen von Rauschen<br />
Bildsegmentierung<br />
• Erstellung der endgültigen Berichtes<br />
– Wer ist die Zielgruppe für die Präsentation?<br />
Manuelle Analyse<br />
Klassifikation<br />
Feature-Extraktion<br />
• Review des Projektes<br />
– Zusammenfassung der wichtigsten Erkenntnisse und Erfahrungen<br />
– Integration der Projektergebnisse <strong>in</strong> die Strategie des gesamten<br />
Unternehmens.<br />
• Technik der Klassifikation: Entscheidungsbaum-Klassifikator<br />
•Evaluation<br />
• wesentlich schneller als manuelle Klassifikation<br />
• Klassifikation auch von sehr entfernten (lichtschwachen) Objekten<br />
Vorlesung Knowledge Discovery<br />
29<br />
Vorlesung Knowledge Discovery<br />
30<br />
1.2 Typische KDD-Anwendungen<br />
1.2 Typische KDD-Anwendungen<br />
• Email-Spam-Filterung<br />
– auf Text-Ebene<br />
• E<strong>in</strong>fache Bayes-Klassifikatoren<br />
– Techniken s<strong>in</strong>d effektiv<br />
– E<strong>in</strong>satz erfolgt <strong>in</strong> Tools wie SpamAssass<strong>in</strong><br />
– Problem: werden von Spammern mittlerweile umgangen<br />
• Good Word Attacks on Statistical Spam Filters. Daniel Lowd and<br />
Christopher Meek. Second Conference on Email and Anti-Spam<br />
(CEAS) (2005)<br />
– F<strong>in</strong>den von Worten, die von Spammern aktiv genutzt werden,<br />
um den Spamschutz zu unterlaufen<br />
– Graph-basiert<br />
• Boyk<strong>in</strong>, P., & Roychowdhury, V. (2004). Personal email networks:<br />
an effective anti-spam tool. Prepr<strong>in</strong>t, arXiv id 0402143.<br />
– Analysiert das Netzwerk aus Adressen der eigenen Emails,<br />
um Teilnetze aus Freunden und Spammern zu identifizieren<br />
Market<strong>in</strong>g<br />
Kundensegmentierung [Piatetsky-Shapiro, Gallant & Pyle 2000]<br />
– Ziel: Aufteilung der Kunden <strong>in</strong> Segmente mit ähnlichem Kaufverhalten<br />
–Nutzen<br />
• Ideen für Produkt-Pakete (Product Bundl<strong>in</strong>g)<br />
• Entwickeln e<strong>in</strong>er neuen Preispolitik (Pric<strong>in</strong>g)<br />
Projektablauf<br />
– Entwicklung verschiedener automatischer Modelle (Bayesian Cluster<strong>in</strong>g)<br />
zu komplex, ke<strong>in</strong>e Berücksichtigung von Anwendungswissen<br />
– manuelle Entwicklung e<strong>in</strong>er Entscheidungsliste<br />
aufgrund der gewonnenen Erkenntnisse<br />
– Umsetzung der Erkenntnisse im Market<strong>in</strong>g der Firma<br />
– Integration der Entscheidungsliste <strong>in</strong> Software-Umgebung<br />
Vorlesung Knowledge Discovery<br />
31<br />
Vorlesung Knowledge Discovery<br />
32