Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2 Grundlagen<br />
von Webseiten, die dann anschließend analysiert werden.<br />
Bei der ersteren Möglichkeit, können die Ergebnisse je nach Suchmaschine und<br />
Zeitpunkt stark schwanken (siehe Abbildung 2.1). Da<strong>durch</strong> ist sie unzuverlässiger<br />
als die zweite Variante. Zudem ist die Zusammensetzung des Korpus unbekannt.<br />
Bei der zweiten Variante existieren die genannten Probleme nicht, da auf <strong>ein</strong>er konstanten<br />
Datengrundlage gearbeitet wird und <strong>ein</strong>e Kontrolle über die ausgewählten<br />
Webseiten gegeben ist. Problematisch ist jedoch, dass diese Methode sehr speicherund<br />
rechenintensiv und somit nicht für alle Analysen geeignet ist.<br />
Beide genannten Varianten benötigen Suchmaschinen, um auf das Web zugreifen<br />
zu können. Nachfolgend werden die bekanntesten Suchmaschinen vorgestellt.<br />
Suchmaschinen<br />
Derzeit gibt es drei große Suchmaschinen auf dem Markt: Google 5 , Yahoo 6 und<br />
Bing 7 (früher Microsoft Live Search). Weitere Suchmaschinen sind zum Beispiel:<br />
Ask 8 , Altavista 9 oder Exalead 10 . Suchmaschinen unterscheiden sich hauptsächlich<br />
in ihren Suchfunktionen, wie die Unterstützung von booleschen Ausdrücken oder<br />
Stemming 11 , sowie in ihrem Index.<br />
Als wichtige Suchfunktion bei der Suche nach Kookkurrenzen, ist hier der<br />
NEAR-Operator zu nennen. Dieser Operator erlaubt es die Suche so <strong>ein</strong>zugrenzen,<br />
dass zwischen den Suchbegriffen nur <strong>ein</strong>e bestimmte Anzahl anderer Begriffe<br />
vorkommen dürfen. Die Größe des Fensters, und damit der Abstand der Suchbegriffe,<br />
ist je nach Suchmaschine festgelegt oder frei wählbar. Unterstützt wird dieser<br />
Operator von Altavista und Exalead, wobei der Abstand der Wörter bei Altavista<br />
auf 10 festgelegt und bei Exalead frei wählbar ist. Offiziell wird der Operator von<br />
Altavista nicht mehr unterstützt, aber er wird immer noch von der Suchmaschine<br />
erkannt und liefert bei der Nutzung andere Ergebnisse als bei Nichtnutzung.<br />
5 www.google.de<br />
6 www.yahoo.de<br />
7 www.bing.de<br />
8 www.ask.com<br />
9 www.altavista.de<br />
10 www.exalead.de/search<br />
11 Stemming = die Zurückführung verschiedener morphologische Varianten <strong>ein</strong>es Wortes auf ihren<br />
gem<strong>ein</strong>samen Wortstamm<br />
10