Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
3.4. TECHNISCH RELEVANTES 30<br />
ausschließlich die Such-Ergebnisse einem Ad-Hoc Clustering unterworfen. Da<br />
das System darauf ausgerichtet ist, die Ergebnisse einer Suchmaschine zu clu-<br />
stern, betrachtet es Titel <strong>und</strong> Abstract, den Suchmaschinen üblicherweise au-<br />
tomatisch liefern. Laut Vivísimo beinhaltet der Clustering Algorithmus zwar<br />
keinerlei Vorwissen (Thesauri oder Ähnliches), wurde aber von den Entwick-<br />
lern speziell darauf ausgerichtet Cluster zu erzeugen, die beachten, ” what users<br />
wish to see when they examine clustered documents“ (vivisimo.com 12 ).<br />
Zudem bietet sie ein Produkt namens Clusty 13 an. Dabei handelt es sich<br />
um eine Meta-Suchmaschine, die verschiedene Suchmaschinen abfragt, deren<br />
Ergebnisse sammelt <strong>und</strong> mittels VCE clustert. Interessanterweise fragt Clus-<br />
ty nicht mehr nur gewöhnliche Suchmaschinen ab, sondern erlaubt zusätz-<br />
lich die Suche in weiteren Quellen wie zum Beispiel einer Preissuchmaschine<br />
(www.bizrate.com 14 ) oder einer Bildersuchmaschine (picsearch.com 15 ). Es exi-<br />
stiert somit eine gemeinsame Oberfläche für die Suche in mehreren unterschied-<br />
lichen Quellen. Hervorzuheben ist die Integration der Kategorisierung von biz-<br />
rate.com. Bizrate hat die Produkte in Kategorien einsortiert, wie zum Beispiel<br />
Men’s T-Shirts oder Women’s T-Shirts bei Shirts. Diese Kategorien zeigt es<br />
zusätzlich zu den automatisch ermittelten Clustern an. Probier-Link 16<br />
Mit Clusty lassen sich sehr einfach eigene Erfahrungen mit Clustering Ange-<br />
boten sammeln. Das Vorgehen von Clusty wäre nach Meinung des Autors auch<br />
für das ISL sehr interessant.<br />
3.4.2. carrot 2<br />
Dies 17 ist ein Programmierframework in Java, welches sich als Experimentier-<br />
plattform in Bezug auf das Clustering von Suchergebnissen versteht. Daher<br />
passt es sehr gut zur Zielsetzung der Arbeit <strong>und</strong> soll hier mit aufgeführt wer-<br />
den. Der von carrot 2 verwendete Ansatz unterscheidet sich von dieser Arbeit<br />
insofern, als dass dort für das Clustern ein eigener Algorithmus (LINGO) ver-<br />
wendet wird. LINGO basiert auf einem durch LSI (siehe auch Abschnitt 5.3.4)<br />
erzeugten approximierten Datenraum, der durch die drei Matrizen T S D T dar-<br />
12<br />
WWW Adresse: http://vivisimo.com/docs/howitworks.pdf<br />
13<br />
WWW Adresse: http://clusty.com<br />
14<br />
WWW Adresse: http://www.bizrate.com<br />
15<br />
WWW Adresse: http://picsearch.com<br />
16<br />
WWW Adresse: http://clusty.com/search?v%3aproject=clusty-shopping&query=<br />
shirt<br />
17 WWW Adresse: http://www.cs.put.poznan.pl/dweiss/carrot/