Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
9.1. TECHNISCHE PERSPEKTIVE 104<br />
Schweine gegen alles über den Dollar als Objekt, z.B.).<br />
Würde man nun die Begriffe ” lowers“ <strong>und</strong> ” higher“ als Stoppwort deklarieren,<br />
dann würde der Algorithmus diesen Aspekt nicht mehr sehen <strong>und</strong> die Cluster<br />
anders zusammensetzen. Dass die sich neu ergebende Struktur wirklich besser<br />
ist, bleibt jedoch im Einzelfall zu prüfen. Der Prozess läuft vollautomatisch ab<br />
<strong>und</strong> kann durch Stoppworte <strong>und</strong> der vorgegebenen Anzahl von Clustern nur be-<br />
grenzt beeinflusst werden. Dies ist sowohl seine Stärke wie auch seine Schwäche.<br />
Stärke, weil er wenige manuelle Eingriffe erfordert. Bei großen Datenmengen ist<br />
es schließlich nicht mehr praktikabel, die Cluster manuell anzulegen, weil es zu-<br />
viel Aufwand erfordert. Schwäche, weil er kaum manuelle Eingriffe ermöglicht<br />
<strong>und</strong> somit das Ziel einer perfekten Clusterstruktur verfehlen kann. Es bleibt ein<br />
Trade-Off.<br />
Nach all der Kritik soll aber nicht verschwiegen werden, dass mit einer mitt-<br />
leren Anzahl von Clustern <strong>und</strong> einer automatisch definierten Menge an Stopp-<br />
worten auch eine ganze Reihe von subjektiv sinnvollen Clustern erzeugt werden<br />
konnten.<br />
9.1.4. Ausblick<br />
Was lässt sich noch verbessern? Es ließe sich ein Algorithmus implementieren,<br />
der besser skaliert. Bradley et al. schlagen in ihrem Paper [BFR99] einen opti-<br />
mierten Ablauf vor, der mit deutlich weniger Hauptspeicher auskommt, da er<br />
blockweise arbeitet <strong>und</strong> daher immer nur einen bestimmten Block im Speicher<br />
halten muss. Es würde im Sinne der Skalierbarkeit sicherlich helfen, wenn der<br />
Algorithmus auf mehreren Rechnern verteilt ablaufen könnte. Das gleiche gilt<br />
für die LSI-Implementation, mit dem Unterschied, dass es tatsächlich schon on-<br />
line verfügbar ist, nur nicht in Java. Die parallele LSI-Implementation nennt<br />
sich PGTP <strong>und</strong> ist ebenso wie die normale GTP Variante auf www.cs.utk.edu/<br />
lsi 1 in der Software-Rubrik zu finden.<br />
Es gibt zudem Stimmen, die den EM-Algorithmus für den Zweck, Texte zu<br />
clustern, nicht als optimal erachten. Breunig et al. [BKKS01] beispielsweise<br />
schlagen eine alternative Methode vor, die sogenannte ” Data Bubbles“ zusam-<br />
men mit dem OPTICS Algorithmus [ABKS99] verwendet, um auf effizientere<br />
Art <strong>und</strong> Weise zu einer Clusterstruktur zu gelangen, die hierarchisch sortiert<br />
ist. Dieses Verfahren ist speziell darauf ausgelegt, auch bei großen Datenmen-<br />
1 WWW Adresse: http://www.cs.utk.edu/ ∼ lsi