Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3.1 Komponenten<br />
3 Das <strong>Verfahren</strong><br />
Begriffe<br />
Webressource<br />
Häufigkeiten Berechnung<br />
der<br />
Berechnung<br />
der<br />
Graph<br />
<strong>Clustering</strong><br />
Gruppen<br />
Assoziation Ähnlichkeit<br />
Abbildung 3.1: Komponenten des <strong>Verfahren</strong>s<br />
Das <strong>Verfahren</strong> lässt sich in drei Komponenten <strong>ein</strong>teilen:<br />
1. die Webressource – liefert die Worthäufigkeiten<br />
2. die Berechnungs-Komponente – berechnet die Beziehung der Wörter<br />
3. die <strong>Clustering</strong>-Komponente – teilt die Wörter in Gruppen <strong>ein</strong><br />
Die Berechnungs-Komponente bezieht die Worthäufigkeiten von der Webressource<br />
und führt darauf die Berechnung der Assoziationstärke <strong>durch</strong>. Nachdem die<br />
Ähnlichkeiten der Wörter <strong>durch</strong> diese Komponente bestimmt wurden, wird das<br />
Ergebnis an die <strong>Clustering</strong>-Komponente weitergegeben, die die Gruppierung der<br />
Begriffe <strong>durch</strong>führt.<br />
Im Folgenden werden die <strong>ein</strong>zelnen Komponenten und ihre Eigenschaften näher<br />
erklärt.<br />
3.2 Webressource<br />
Die Webressource liefert die Häufigkeiten für die darauf aufbauende Berechnung<br />
der Assoziationen. Es gibt verschiedene Möglichkeiten das Web als Datengrundlage<br />
zu verwenden (siehe Kapitel 2.4).<br />
Das hier vorgestellte <strong>Verfahren</strong> bezieht die Worthäufigkeiten direkt aus den Trefferanzahlen<br />
von Suchmaschinen, da <strong>ein</strong> Herunterladen und Anschließendes analysieren<br />
der Webseiten sehr zeitintensiv wäre. Zudem zeigten [Keller und Lapata, 2003]<br />
in ihrer Arbeit, dass Suchmaschinen-basierte Häufigkeiten <strong>ein</strong>e hohe Korrelation<br />
mit den Korpus-basierten Häufigkeiten hatten.<br />
In der vorliegenden Arbeit werden mehrere Suchmaschinen verwendet, um die<br />
verschiedene Datengrundlagen mit<strong>ein</strong>ander vergleichen zu können. Die verwendeten<br />
Suchmaschinen sind unter anderen Google und Bing, wobei jeweils über die<br />
bereitgestellte API auf die Suchergebnisse zugegriffen wird. Statt Yahoo wird<br />
Altavista verwendet, da Altavista seit März 2004 den Yahoo-Index benutzt (vgl.<br />
[Vaughan, 2006]), aber den Vorteil hat, dass der NEAR-Operator bereitgestellt wird<br />
(siehe 2.4). Zudem wird die etwas unbekanntere Suchmaschine Exalead verwendet,<br />
12