07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

47 4.2. PROTOTYP<br />

Format bekommt. Da der gewählte Ansatz auf dem Vektorraummodell (S. 56)<br />

basiert, besteht das Ergebnis aus einer Menge von Dokument-Vektoren, die<br />

insgesamt die Term-Dokument-Matrix darstellen.<br />

Data Mining heißt der vierte KDD Schritt, der hier der Aktivität ” Cluster“<br />

entspricht. Der Algorithmus nimmt die Vektoren als Eingabe <strong>und</strong> erzeugt eine<br />

Reihe von Clustern. Die Anzahl der Cluster wird jedoch fest vorgegeben. Diese<br />

Aktivität setzt voraus, dass die Qualität der Cluster überprüft wird, so dass<br />

die Möglichkeit besteht, die Clusteranzahl anzupassen <strong>und</strong> den Algorithmus<br />

mit diesem geänderten Parameter erneut laufen zu lassen. Es ist noch nicht<br />

ersichtlich, wie die Laufzeit des Algorithmus sein wird. Er hat prinzipiell eine<br />

exponentielle Laufzeitcharakteristik, so dass zu erwarten ist, dass er bei großen<br />

Datenmengen sehr lange dauert. Dadurch könnte es sich als hilfreich erweisen,<br />

wenn diese Zyklen manuell gesteuert werden können, damit nach Ermessen<br />

der zuständigen Person die Struktur vorzeitig als ” ausreichend optimal“ erklärt<br />

werden kann. Es gilt hier, ein Gleichgewicht zwischen Laufzeit (Geduld) <strong>und</strong><br />

Qualität herzustellen.<br />

Interpretation wird die letzte Aktivität genannt. Sie besteht darin, Namen für<br />

die Cluster zu vergeben, die die durch sie repräsentierten Dokumente thematisch<br />

am besten identifizieren. Es bietet sich hier an, Begriffe aus dem Thesaurus<br />

zu verwenden. Ergebnis dieses letzten Schrittes sind eine Liste von benannten<br />

Clustern <strong>und</strong> deren zugeordneten Dokumenten.<br />

4.2.3. Datenmodell<br />

Die im System abzulegenden Informationen umfassen die Dokumente <strong>und</strong> Au-<br />

toren sowie Terme (Deskriptoren), wie sie aus dem Faust exportiert wurden.<br />

Im Diagramm sind aus Gründen der Übersicht nicht alle Attribute angegeben,<br />

sondern nur die für die Cluster-Analyse Wesentlichen (welche Felder insgesamt<br />

vorhanden sind, wurde ja bereits in der Ist-Analyse oben aufgelistet).<br />

4.2.4. Komponenten <strong>und</strong> Schnittstellen<br />

Das System besteht zum einen natürlich aus der Faust-Software, die vom ISL für<br />

die Erfassung von Dokumenten verwendet wird. Diese Software exportiert wie<br />

im Diagramm angegeben seinen Datenbestand, der von einer Import-Komponente<br />

eingelesen wird.<br />

Im Hintergr<strong>und</strong> des Ganzen steht eine SQL Datenbank; diese wird von der

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!