Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
47 4.2. PROTOTYP<br />
Format bekommt. Da der gewählte Ansatz auf dem Vektorraummodell (S. 56)<br />
basiert, besteht das Ergebnis aus einer Menge von Dokument-Vektoren, die<br />
insgesamt die Term-Dokument-Matrix darstellen.<br />
Data Mining heißt der vierte KDD Schritt, der hier der Aktivität ” Cluster“<br />
entspricht. Der Algorithmus nimmt die Vektoren als Eingabe <strong>und</strong> erzeugt eine<br />
Reihe von Clustern. Die Anzahl der Cluster wird jedoch fest vorgegeben. Diese<br />
Aktivität setzt voraus, dass die Qualität der Cluster überprüft wird, so dass<br />
die Möglichkeit besteht, die Clusteranzahl anzupassen <strong>und</strong> den Algorithmus<br />
mit diesem geänderten Parameter erneut laufen zu lassen. Es ist noch nicht<br />
ersichtlich, wie die Laufzeit des Algorithmus sein wird. Er hat prinzipiell eine<br />
exponentielle Laufzeitcharakteristik, so dass zu erwarten ist, dass er bei großen<br />
Datenmengen sehr lange dauert. Dadurch könnte es sich als hilfreich erweisen,<br />
wenn diese Zyklen manuell gesteuert werden können, damit nach Ermessen<br />
der zuständigen Person die Struktur vorzeitig als ” ausreichend optimal“ erklärt<br />
werden kann. Es gilt hier, ein Gleichgewicht zwischen Laufzeit (Geduld) <strong>und</strong><br />
Qualität herzustellen.<br />
Interpretation wird die letzte Aktivität genannt. Sie besteht darin, Namen für<br />
die Cluster zu vergeben, die die durch sie repräsentierten Dokumente thematisch<br />
am besten identifizieren. Es bietet sich hier an, Begriffe aus dem Thesaurus<br />
zu verwenden. Ergebnis dieses letzten Schrittes sind eine Liste von benannten<br />
Clustern <strong>und</strong> deren zugeordneten Dokumenten.<br />
4.2.3. Datenmodell<br />
Die im System abzulegenden Informationen umfassen die Dokumente <strong>und</strong> Au-<br />
toren sowie Terme (Deskriptoren), wie sie aus dem Faust exportiert wurden.<br />
Im Diagramm sind aus Gründen der Übersicht nicht alle Attribute angegeben,<br />
sondern nur die für die Cluster-Analyse Wesentlichen (welche Felder insgesamt<br />
vorhanden sind, wurde ja bereits in der Ist-Analyse oben aufgelistet).<br />
4.2.4. Komponenten <strong>und</strong> Schnittstellen<br />
Das System besteht zum einen natürlich aus der Faust-Software, die vom ISL für<br />
die Erfassung von Dokumenten verwendet wird. Diese Software exportiert wie<br />
im Diagramm angegeben seinen Datenbestand, der von einer Import-Komponente<br />
eingelesen wird.<br />
Im Hintergr<strong>und</strong> des Ganzen steht eine SQL Datenbank; diese wird von der