24.12.2012 Aufrufe

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2 Grundlagen<br />

von Webseiten, die dann anschließend analysiert werden.<br />

Bei der ersteren Möglichkeit, können die Ergebnisse je nach Suchmaschine und<br />

Zeitpunkt stark schwanken (siehe Abbildung 2.1). Da<strong>durch</strong> ist sie unzuverlässiger<br />

als die zweite Variante. Zudem ist die Zusammensetzung des Korpus unbekannt.<br />

Bei der zweiten Variante existieren die genannten Probleme nicht, da auf <strong>ein</strong>er konstanten<br />

Datengrundlage gearbeitet wird und <strong>ein</strong>e Kontrolle über die ausgewählten<br />

Webseiten gegeben ist. Problematisch ist jedoch, dass diese Methode sehr speicherund<br />

rechenintensiv und somit nicht für alle Analysen geeignet ist.<br />

Beide genannten Varianten benötigen Suchmaschinen, um auf das Web zugreifen<br />

zu können. Nachfolgend werden die bekanntesten Suchmaschinen vorgestellt.<br />

Suchmaschinen<br />

Derzeit gibt es drei große Suchmaschinen auf dem Markt: Google 5 , Yahoo 6 und<br />

Bing 7 (früher Microsoft Live Search). Weitere Suchmaschinen sind zum Beispiel:<br />

Ask 8 , Altavista 9 oder Exalead 10 . Suchmaschinen unterscheiden sich hauptsächlich<br />

in ihren Suchfunktionen, wie die Unterstützung von booleschen Ausdrücken oder<br />

Stemming 11 , sowie in ihrem Index.<br />

Als wichtige Suchfunktion bei der Suche nach Kookkurrenzen, ist hier der<br />

NEAR-Operator zu nennen. Dieser Operator erlaubt es die Suche so <strong>ein</strong>zugrenzen,<br />

dass zwischen den Suchbegriffen nur <strong>ein</strong>e bestimmte Anzahl anderer Begriffe<br />

vorkommen dürfen. Die Größe des Fensters, und damit der Abstand der Suchbegriffe,<br />

ist je nach Suchmaschine festgelegt oder frei wählbar. Unterstützt wird dieser<br />

Operator von Altavista und Exalead, wobei der Abstand der Wörter bei Altavista<br />

auf 10 festgelegt und bei Exalead frei wählbar ist. Offiziell wird der Operator von<br />

Altavista nicht mehr unterstützt, aber er wird immer noch von der Suchmaschine<br />

erkannt und liefert bei der Nutzung andere Ergebnisse als bei Nichtnutzung.<br />

5 www.google.de<br />

6 www.yahoo.de<br />

7 www.bing.de<br />

8 www.ask.com<br />

9 www.altavista.de<br />

10 www.exalead.de/search<br />

11 Stemming = die Zurückführung verschiedener morphologische Varianten <strong>ein</strong>es Wortes auf ihren<br />

gem<strong>ein</strong>samen Wortstamm<br />

10

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!