Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4.2. PROTOTYP 46<br />
nächstes<br />
Dokument<br />
Erfasser<br />
nein<br />
Analyse<br />
Selektion Analyse Transformation Cluster<br />
«realize»<br />
Dokument analysieren<br />
fertig?<br />
«realize»<br />
ja<br />
Selektion<br />
Dokumente<br />
analysiert<br />
Export aus Faust Import in Seabase DB Anfrage<br />
Cluster<br />
Cluster erkennen Cluster prüfen<br />
Parameter anpassen<br />
nein<br />
Abbildung 4.7.: Clustering Prozess<br />
ok?<br />
«realize»<br />
ja<br />
Interpretation<br />
Cluster speichern<br />
schnitt des besagten KDD Prozesses. Abbildung 4.7 (Seite 46) zeigt den Ablauf<br />
in einem UML Aktivitätsdiagramm.<br />
Selektion ist der erste Teil von KDD. In S. 46 ist es die gleichnamige Aktivität<br />
ganz zu Beginn. Er besteht aus den Export- <strong>und</strong> Import-Vorgängen, durch die<br />
der Datenbestand des Systems aktualisiert wird, sowie aus dem Selektionsvor-<br />
gang, der die zu clusternden Daten auswählt.<br />
Preprocessing entspricht dem Extrahieren von wesentlichen Merkmalen der<br />
Datensätze (Feature Selection) <strong>und</strong> läuft im Diagramm unter der Bezeichnung<br />
” Analyse“. (Siehe auch Abschnitt 5.3.3.) Ergebnis dieser Aktivität ist eine Liste<br />
von Features, die sich als Beschreibung von Datensätzen tauglich erwiesen<br />
haben. Zudem wurden die Dokumente bereits auf der Basis dieser Features sta-<br />
tistisch ausgewertet, so dass am Ende dieses Schrittes zum Beispiel alle nötigen<br />
Statistiken vorliegen.<br />
Transformation nennt sich jener Schritt, der die Daten für die Cluster Analyse<br />
so vorbereitet, dass der Algorithmus die Daten in einem für ihn passenden