Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5. Wissenschaftliche Analyse<br />
Es ist geplant, einen Clustering Algorithmus einzusetzen, um die Suche in den<br />
Daten des ISL effektiver zu gestalten. Die Zielsetzung findet sich im Forschungs-<br />
bereich Information Retrieval wieder, der in diesem Kapitel zunächst erläutert<br />
werden soll. Zudem sollen alternative <strong>und</strong>/oder einfachere Methoden aufgezeigt<br />
werden, die ebenfalls zur Verbesserung einer Suchfunktion beitragen können.<br />
Clustering ist eben bei weitem nicht die einzige Methode, so etwas zu erreichen.<br />
Weil die Erwähnung des Begriffs häufig Assoziationen hervorruft, die hier<br />
nicht passen, sei eine Erläuterung des Begriffs eingeschoben. Der Begriff ” Clu-<br />
ster“ wird in den unterschiedlichsten Kontexten verwendet. Cluster in der Wirt-<br />
schaft werden als Verbände von Betrieben verstanden, in der Astronomie ver-<br />
steht man unter Clustern Sternhaufen <strong>und</strong> auch die Physik <strong>und</strong> die Mathematik<br />
verwenden jeweils eigene Bedeutungen des Begriffs. All diese Begriffe haben je-<br />
doch <strong>eines</strong> gemeinsam: sie beschreiben die Gruppierung von etwas. Sei es von<br />
Betrieben in der Wirtschaft oder von Sternen in der Astronomie oder gar von<br />
Computern in der Informationstechnik, in jedem Fall handelt es sich um eine<br />
Gruppierung oder Anhäufung von gleichartigen Dingen.<br />
In dieser Arbeit soll Clustering für die Gruppierung von Dokumenten stehen.<br />
Die erzeugten Gruppen lassen sich auch als Klassen von Dokumenten betrach-<br />
ten. Die Vorgehensweise passt sich in das Forschungsfeld ” Information Retrie-<br />
val“ ein <strong>und</strong> wird ebenfalls im Bereich ” Knowledge Discovery from Databases“<br />
(KDD) [FPSS96] eingesetzt. Daher sollen diese beiden Felder kurz vorgestellt<br />
werden.<br />
5.1. Information Retrieval<br />
Der Forschungsbereich ” Information Retrieval“ (kurz: IR) existiert in der In-<br />
formatik bereits seit vielen Jahren. Das Buch von van Rijsbergen mit dem Titel<br />
” Information Retrieval“ [VR79] kam beispielsweise in der ersten Ausführung<br />
bereits 1975 heraus <strong>und</strong> die Inhalte der Thematik wurden schon vorher in Uni-