Konzeption und Implementierung eines ... - Stephan, Daniel

Empfehlungen

Info

4.2. PROTOTYP 46 nächstes Dokument Erfasser nein Analyse Selektion Analyse Transformation Cluster «realize» Dokument analysieren fertig? «realize» ja Selektion Dokumente analysiert Export aus Faust Import in Seabase DB Anfrage Cluster Cluster erkennen Cluster prüfen Parameter anpassen nein Abbildung 4.7.: Clustering Prozess ok? «realize» ja Interpretation Cluster speichern schnitt des besagten KDD Prozesses. Abbildung 4.7 (Seite 46) zeigt den Ablauf in einem UML Aktivitätsdiagramm. Selektion ist der erste Teil von KDD. In S. 46 ist es die gleichnamige Aktivität ganz zu Beginn. Er besteht aus den Export- und Import-Vorgängen, durch die der Datenbestand des Systems aktualisiert wird, sowie aus dem Selektionsvor- gang, der die zu clusternden Daten auswählt. Preprocessing entspricht dem Extrahieren von wesentlichen Merkmalen der Datensätze (Feature Selection) und läuft im Diagramm unter der Bezeichnung ” Analyse“. (Siehe auch Abschnitt 5.3.3.) Ergebnis dieser Aktivität ist eine Liste von Features, die sich als Beschreibung von Datensätzen tauglich erwiesen haben. Zudem wurden die Dokumente bereits auf der Basis dieser Features sta- tistisch ausgewertet, so dass am Ende dieses Schrittes zum Beispiel alle nötigen Statistiken vorliegen. Transformation nennt sich jener Schritt, der die Daten für die Cluster Analyse so vorbereitet, dass der Algorithmus die Daten in einem für ihn passenden
47 4.2. PROTOTYP Format bekommt. Da der gewählte Ansatz auf dem Vektorraummodell (S. 56) basiert, besteht das Ergebnis aus einer Menge von Dokument-Vektoren, die insgesamt die Term-Dokument-Matrix darstellen. Data Mining heißt der vierte KDD Schritt, der hier der Aktivität ” Cluster“ entspricht. Der Algorithmus nimmt die Vektoren als Eingabe und erzeugt eine Reihe von Clustern. Die Anzahl der Cluster wird jedoch fest vorgegeben. Diese Aktivität setzt voraus, dass die Qualität der Cluster überprüft wird, so dass die Möglichkeit besteht, die Clusteranzahl anzupassen und den Algorithmus mit diesem geänderten Parameter erneut laufen zu lassen. Es ist noch nicht ersichtlich, wie die Laufzeit des Algorithmus sein wird. Er hat prinzipiell eine exponentielle Laufzeitcharakteristik, so dass zu erwarten ist, dass er bei großen Datenmengen sehr lange dauert. Dadurch könnte es sich als hilfreich erweisen, wenn diese Zyklen manuell gesteuert werden können, damit nach Ermessen der zuständigen Person die Struktur vorzeitig als ” ausreichend optimal“ erklärt werden kann. Es gilt hier, ein Gleichgewicht zwischen Laufzeit (Geduld) und Qualität herzustellen. Interpretation wird die letzte Aktivität genannt. Sie besteht darin, Namen für die Cluster zu vergeben, die die durch sie repräsentierten Dokumente thematisch am besten identifizieren. Es bietet sich hier an, Begriffe aus dem Thesaurus zu verwenden. Ergebnis dieses letzten Schrittes sind eine Liste von benannten Clustern und deren zugeordneten Dokumenten. 4.2.3. Datenmodell Die im System abzulegenden Informationen umfassen die Dokumente und Au- toren sowie Terme (Deskriptoren), wie sie aus dem Faust exportiert wurden. Im Diagramm sind aus Gründen der Übersicht nicht alle Attribute angegeben, sondern nur die für die Cluster-Analyse Wesentlichen (welche Felder insgesamt vorhanden sind, wurde ja bereits in der Ist-Analyse oben aufgelistet). 4.2.4. Komponenten und Schnittstellen Das System besteht zum einen natürlich aus der Faust-Software, die vom ISL für die Erfassung von Dokumenten verwendet wird. Diese Software exportiert wie im Diagramm angegeben seinen Datenbestand, der von einer Import-Komponente eingelesen wird. Im Hintergrund des Ganzen steht eine SQL Datenbank; diese wird von der
Seite 1:
auth+xml+doc=sxdoc gpg Konzeption u
Seite 4 und 5:
Inhaltsverzeichnis iv II. Definitio
Seite 6 und 7: Inhaltsverzeichnis vi
Seite 8 und 9: Tabellenverzeichnis viii
Seite 10 und 11: Abbildungsverzeichnis x 7.1. Wort H
Seite 13 und 14: 1. Überblick über Inhalt und Proz
Seite 15 und 16: 5 1.3. ENTWICKLUNGSUMGEBUNG Kunde A
Seite 17 und 18: 7 1.3. ENTWICKLUNGSUMGEBUNG zu kön
Seite 19 und 20: 2. Business Analyse 2.1. Ausgangssi
Seite 21 und 22: 11 2.3. HERAUSFORDERUNGEN boten wer
Seite 23 und 24: 13 2.3. HERAUSFORDERUNGEN zesse von
Seite 25 und 26: 3. Marktanalyse 3.1. Kriterien Ausw
Seite 27 und 28: 17 3.2. KONKURRENTEN Die Ergebnisse
Seite 29 und 30: 19 3.2. KONKURRENTEN schulen zahlen
Seite 31 und 32: 21 3.2. KONKURRENTEN lungen, inform
Seite 33 und 34: 23 3.3. WISSENSCHAFTLICHE ANGEBOTE
Seite 39 und 40: 29 3.4. TECHNISCH RELEVANTES 3.4) f
Seite 41 und 42: 31 3.4. TECHNISCH RELEVANTES gestel
Seite 43: Teil II. Definition
Seite 46 und 47: 4.1. IST-ANALYSE 36 id Component Mo
Seite 48 und 49: 4.1. IST-ANALYSE 38 Thesaurus aktua
Seite 50 und 51: 4.1. IST-ANALYSE 40 Bezeichner Typ
Seite 52 und 53: 4.1. IST-ANALYSE 42 4.1.4. Einschr
Seite 54 und 55: 4.2. PROTOTYP 44 Abbildung 4.5.: Re
Seite 58 und 59: 4.2. PROTOTYP 48 parent Writes all
Seite 60 und 61: 4.2. PROTOTYP 50
Seite 62 und 63: 5.1. INFORMATION RETRIEVAL 52 versi
Seite 64 und 65: We now leave the speculations about
Seite 66 und 67: 5.3. REPRÄSENTATION VON DOKUMENTEN
Seite 76 und 77: 5.4. CLUSTERING 66 5.4. Clustering
Seite 78 und 79: 5.4. CLUSTERING 68 w j h w j+1 h =
Seite 81 und 82: 6. Statisches Modell Das System war
Seite 83 und 84: 73 6.2. DATA ACCESS OBJECTS Seriali
Seite 85 und 86: 75 6.3. DATA ACCESS COMMANDS änder
Seite 87 und 88: 77 6.3. DATA ACCESS COMMANDS Dao rf
Seite 89 und 90: 79 6.3. DATA ACCESS COMMANDS FetchT
Seite 91 und 92: 81 6.3. DATA ACCESS COMMANDS Cluste
Seite 93 und 94: 7. Dynamisches Modell Ohne im Klass
Seite 95 und 96: 85 7.2. TERM-DOKUMENT-MATRIX ERSTEL
Seite 97 und 98: auf Wortstämme reduzieren Stopp- W
Seite 99 und 100: Roh-Matrix anlegen Term-Frequenz-Ma
Seite 101 und 102: 91 7.5. CLUSTER BENENNUNG UND MATRI
Seite 103 und 104: 8. Verwendung des Programms 8.1. In
Seite 105 und 106: 95 8.2. BENUTZEROBERFLÄCHE Abbildu
Seite 107 und 108:
97 8.3. KONFIGURATION vielen Kompon
Seite 109:
Teil IV. Abschluss
Seite 112 und 113:
9.1. TECHNISCHE PERSPEKTIVE 102 Abs
Seite 114 und 115:
9.1. TECHNISCHE PERSPEKTIVE 104 Sch
Seite 116 und 117:
9.2. FACHLICHE PERSPEKTIVE 106 Die
Seite 118 und 119:
9.2. FACHLICHE PERSPEKTIVE 108 eine
Seite 120 und 121:
9.3. FAZIT 110 einbinden lässt, we
Seite 122 und 123:
112 tenmodellen umgehen kann. Sie p
Seite 124 und 125:
114
Seite 126 und 127:
Literaturverzeichnis 116 [BI04] Bar
Seite 128 und 129:
Literaturverzeichnis 118 ISBN 0-897
Seite 130 und 131:
Literaturverzeichnis 120 München/D
Seite 132 und 133:
Literaturverzeichnis 122
Seite 134 und 135:
Index 124 Feature, 46, 49, 57, 58,
Seite 136:
Index 126 Vlog, 109 Volltext, 11, 2
Alle anzeigen

Konzeption und Implementierung eines ... - Stephan, Daniel

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?