Konzeption und Implementierung eines ... - Stephan, Daniel

Empfehlungen

Info

9.1. TECHNISCHE PERSPEKTIVE 104 Schweine gegen alles über den Dollar als Objekt, z.B.). Würde man nun die Begriffe ” lowers“ und ” higher“ als Stoppwort deklarieren, dann würde der Algorithmus diesen Aspekt nicht mehr sehen und die Cluster anders zusammensetzen. Dass die sich neu ergebende Struktur wirklich besser ist, bleibt jedoch im Einzelfall zu prüfen. Der Prozess läuft vollautomatisch ab und kann durch Stoppworte und der vorgegebenen Anzahl von Clustern nur begrenzt beeinflusst werden. Dies ist sowohl seine Stärke wie auch seine Schwäche. Stärke, weil er wenige manuelle Eingriffe erfordert. Bei großen Datenmengen ist es schließlich nicht mehr praktikabel, die Cluster manuell anzulegen, weil es zu- viel Aufwand erfordert. Schwäche, weil er kaum manuelle Eingriffe ermöglicht und somit das Ziel einer perfekten Clusterstruktur verfehlen kann. Es bleibt ein Trade-Off. Nach all der Kritik soll aber nicht verschwiegen werden, dass mit einer mitt- leren Anzahl von Clustern und einer automatisch definierten Menge an Stopp- worten auch eine ganze Reihe von subjektiv sinnvollen Clustern erzeugt werden konnten. 9.1.4. Ausblick Was lässt sich noch verbessern? Es ließe sich ein Algorithmus implementieren, der besser skaliert. Bradley et al. schlagen in ihrem Paper [BFR99] einen opti- mierten Ablauf vor, der mit deutlich weniger Hauptspeicher auskommt, da er blockweise arbeitet und daher immer nur einen bestimmten Block im Speicher halten muss. Es würde im Sinne der Skalierbarkeit sicherlich helfen, wenn der Algorithmus auf mehreren Rechnern verteilt ablaufen könnte. Das gleiche gilt für die LSI-Implementation, mit dem Unterschied, dass es tatsächlich schon on- line verfügbar ist, nur nicht in Java. Die parallele LSI-Implementation nennt sich PGTP und ist ebenso wie die normale GTP Variante auf www.cs.utk.edu/ lsi 1 in der Software-Rubrik zu finden. Es gibt zudem Stimmen, die den EM-Algorithmus für den Zweck, Texte zu clustern, nicht als optimal erachten. Breunig et al. [BKKS01] beispielsweise schlagen eine alternative Methode vor, die sogenannte ” Data Bubbles“ zusam- men mit dem OPTICS Algorithmus [ABKS99] verwendet, um auf effizientere Art und Weise zu einer Clusterstruktur zu gelangen, die hierarchisch sortiert ist. Dieses Verfahren ist speziell darauf ausgelegt, auch bei großen Datenmen- 1 WWW Adresse: http://www.cs.utk.edu/ ∼ lsi
105 9.1. TECHNISCHE PERSPEKTIVE gen noch gut genug zu funktionieren. Ein (qualitativer) Vergleich mit dem EM- Algorithmus wäre für die Zukunft interessant. Ferner: Um die verwendeten Begriffe exakter spezifizieren zu können, wäre es denkbar, ein begriffliches Netz wie das WordNet [Mil95] zu integrieren. Damit könnten thematisch ähnliche Begriffe automatisch vor dem Clustering auf den selben Term reduziert werden. Die Hoffnung dabei ist natürlich, dass dadurch ein qualitativ hochwertigeres Ergebnis entsteht. Zuletzt sei die Anmerkung erlaubt, dass die aktuelle Entwicklung im Internet von den traditionellen Klassifikationsmechanismen weggeht. Hierzu sei [Shi05] als Lektüre genannt. Shirky erklärt hier sehr schön, welche Probleme bei fe- sten Klassifikationssysteme mit einem fest definierten Thesaurus auftreten. Er nennt aber auch Eigenschaften, die für ein solches festes Klassifikationssystem sprechen: • Geringer Umfang des Dokumentkorpus • Formelle Kategorien • Stabile Konzepte • Eingeschränkte Konzepte • Klare Domänengrenze • Katalogisierer ist Experte im Fachgebiet • Autoritative Quelle • Bestimmte Nutzergruppe • Nutzer sind Experten bzgl. der Kategorisierung Einige dieser Eigenschaften treffen für das ISL tatsächlich zu. Beispielswei- se ist der Umfang und die betrachtete Domäne begrenzt (verglichen mit den Datenmengen, die Google oder Yahoo verwalten). Die Domänengrenzen ändern sich so gut wie nie, denn das ISL hat sich auf Seeverkehrswirtschaft und Logi- kistik spezialisiert. Die Klassifikation wird von Fachleuten des ISL verfasst und befindet sich in einer wohldefinierten, hierarchischen Struktur und kann somit als formell bezeichnet werden. Das ISL fungiert als autoritative Oberaufsicht auf die Klassifikation.
Seite 1:
auth+xml+doc=sxdoc gpg Konzeption u
Seite 4 und 5:
Inhaltsverzeichnis iv II. Definitio
Seite 6 und 7:
Inhaltsverzeichnis vi
Seite 8 und 9:
Tabellenverzeichnis viii
Seite 10 und 11:
Abbildungsverzeichnis x 7.1. Wort H
Seite 13 und 14:
1. Überblick über Inhalt und Proz
Seite 15 und 16:
5 1.3. ENTWICKLUNGSUMGEBUNG Kunde A
Seite 17 und 18:
7 1.3. ENTWICKLUNGSUMGEBUNG zu kön
Seite 19 und 20:
2. Business Analyse 2.1. Ausgangssi
Seite 21 und 22:
11 2.3. HERAUSFORDERUNGEN boten wer
Seite 23 und 24:
13 2.3. HERAUSFORDERUNGEN zesse von
Seite 25 und 26:
3. Marktanalyse 3.1. Kriterien Ausw
Seite 27 und 28:
17 3.2. KONKURRENTEN Die Ergebnisse
Seite 29 und 30:
19 3.2. KONKURRENTEN schulen zahlen
Seite 31 und 32:
21 3.2. KONKURRENTEN lungen, inform
Seite 33 und 34:
23 3.3. WISSENSCHAFTLICHE ANGEBOTE
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
29 3.4. TECHNISCH RELEVANTES 3.4) f
Seite 41 und 42:
31 3.4. TECHNISCH RELEVANTES gestel
Seite 43:
Teil II. Definition
Seite 46 und 47:
4.1. IST-ANALYSE 36 id Component Mo
Seite 48 und 49:
4.1. IST-ANALYSE 38 Thesaurus aktua
Seite 50 und 51:
4.1. IST-ANALYSE 40 Bezeichner Typ
Seite 52 und 53:
4.1. IST-ANALYSE 42 4.1.4. Einschr
Seite 54 und 55:
4.2. PROTOTYP 44 Abbildung 4.5.: Re
Seite 56 und 57:
4.2. PROTOTYP 46 nächstes Dokument
Seite 58 und 59:
4.2. PROTOTYP 48 parent Writes all
Seite 60 und 61:
4.2. PROTOTYP 50
Seite 62 und 63:
5.1. INFORMATION RETRIEVAL 52 versi
Seite 64 und 65: We now leave the speculations about
Seite 66 und 67: 5.3. REPRÄSENTATION VON DOKUMENTEN
Seite 76 und 77: 5.4. CLUSTERING 66 5.4. Clustering
Seite 78 und 79: 5.4. CLUSTERING 68 w j h w j+1 h =
Seite 81 und 82: 6. Statisches Modell Das System war
Seite 83 und 84: 73 6.2. DATA ACCESS OBJECTS Seriali
Seite 85 und 86: 75 6.3. DATA ACCESS COMMANDS änder
Seite 87 und 88: 77 6.3. DATA ACCESS COMMANDS Dao rf
Seite 89 und 90: 79 6.3. DATA ACCESS COMMANDS FetchT
Seite 91 und 92: 81 6.3. DATA ACCESS COMMANDS Cluste
Seite 93 und 94: 7. Dynamisches Modell Ohne im Klass
Seite 95 und 96: 85 7.2. TERM-DOKUMENT-MATRIX ERSTEL
Seite 97 und 98: auf Wortstämme reduzieren Stopp- W
Seite 99 und 100: Roh-Matrix anlegen Term-Frequenz-Ma
Seite 101 und 102: 91 7.5. CLUSTER BENENNUNG UND MATRI
Seite 103 und 104: 8. Verwendung des Programms 8.1. In
Seite 105 und 106: 95 8.2. BENUTZEROBERFLÄCHE Abbildu
Seite 107 und 108: 97 8.3. KONFIGURATION vielen Kompon
Seite 109: Teil IV. Abschluss
Seite 112 und 113: 9.1. TECHNISCHE PERSPEKTIVE 102 Abs
Seite 116 und 117: 9.2. FACHLICHE PERSPEKTIVE 106 Die
Seite 118 und 119: 9.2. FACHLICHE PERSPEKTIVE 108 eine
Seite 120 und 121: 9.3. FAZIT 110 einbinden lässt, we
Seite 122 und 123: 112 tenmodellen umgehen kann. Sie p
Seite 124 und 125: 114
Seite 126 und 127: Literaturverzeichnis 116 [BI04] Bar
Seite 128 und 129: Literaturverzeichnis 118 ISBN 0-897
Seite 130 und 131: Literaturverzeichnis 120 München/D
Seite 132 und 133: Literaturverzeichnis 122
Seite 134 und 135: Index 124 Feature, 46, 49, 57, 58,
Seite 136: Index 126 Vlog, 109 Volltext, 11, 2
Alle anzeigen

Konzeption und Implementierung eines ... - Stephan, Daniel

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?