07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

9.1. TECHNISCHE PERSPEKTIVE 104<br />

Schweine gegen alles über den Dollar als Objekt, z.B.).<br />

Würde man nun die Begriffe ” lowers“ <strong>und</strong> ” higher“ als Stoppwort deklarieren,<br />

dann würde der Algorithmus diesen Aspekt nicht mehr sehen <strong>und</strong> die Cluster<br />

anders zusammensetzen. Dass die sich neu ergebende Struktur wirklich besser<br />

ist, bleibt jedoch im Einzelfall zu prüfen. Der Prozess läuft vollautomatisch ab<br />

<strong>und</strong> kann durch Stoppworte <strong>und</strong> der vorgegebenen Anzahl von Clustern nur be-<br />

grenzt beeinflusst werden. Dies ist sowohl seine Stärke wie auch seine Schwäche.<br />

Stärke, weil er wenige manuelle Eingriffe erfordert. Bei großen Datenmengen ist<br />

es schließlich nicht mehr praktikabel, die Cluster manuell anzulegen, weil es zu-<br />

viel Aufwand erfordert. Schwäche, weil er kaum manuelle Eingriffe ermöglicht<br />

<strong>und</strong> somit das Ziel einer perfekten Clusterstruktur verfehlen kann. Es bleibt ein<br />

Trade-Off.<br />

Nach all der Kritik soll aber nicht verschwiegen werden, dass mit einer mitt-<br />

leren Anzahl von Clustern <strong>und</strong> einer automatisch definierten Menge an Stopp-<br />

worten auch eine ganze Reihe von subjektiv sinnvollen Clustern erzeugt werden<br />

konnten.<br />

9.1.4. Ausblick<br />

Was lässt sich noch verbessern? Es ließe sich ein Algorithmus implementieren,<br />

der besser skaliert. Bradley et al. schlagen in ihrem Paper [BFR99] einen opti-<br />

mierten Ablauf vor, der mit deutlich weniger Hauptspeicher auskommt, da er<br />

blockweise arbeitet <strong>und</strong> daher immer nur einen bestimmten Block im Speicher<br />

halten muss. Es würde im Sinne der Skalierbarkeit sicherlich helfen, wenn der<br />

Algorithmus auf mehreren Rechnern verteilt ablaufen könnte. Das gleiche gilt<br />

für die LSI-Implementation, mit dem Unterschied, dass es tatsächlich schon on-<br />

line verfügbar ist, nur nicht in Java. Die parallele LSI-Implementation nennt<br />

sich PGTP <strong>und</strong> ist ebenso wie die normale GTP Variante auf www.cs.utk.edu/<br />

lsi 1 in der Software-Rubrik zu finden.<br />

Es gibt zudem Stimmen, die den EM-Algorithmus für den Zweck, Texte zu<br />

clustern, nicht als optimal erachten. Breunig et al. [BKKS01] beispielsweise<br />

schlagen eine alternative Methode vor, die sogenannte ” Data Bubbles“ zusam-<br />

men mit dem OPTICS Algorithmus [ABKS99] verwendet, um auf effizientere<br />

Art <strong>und</strong> Weise zu einer Clusterstruktur zu gelangen, die hierarchisch sortiert<br />

ist. Dieses Verfahren ist speziell darauf ausgelegt, auch bei großen Datenmen-<br />

1 WWW Adresse: http://www.cs.utk.edu/ ∼ lsi

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!