Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Weitere Magazine

Empfehlungen

Info

Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen 3 2.1 Was sind Assoziationen? . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Berechnung von Assoziationen . . . . . . . . . . . . . . . . . . . . . . 4 2.2.1 Mutual Information . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.2 Log-Likelihood-Ratio Test . . . . . . . . . . . . . . . . . . . . 5 2.2.3 Assoziationsmaß nach psychologischen Lerngesetzen . . . . . 6 2.3 Berechnung der Ähnlichkeit . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Textkorpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Das Verfahren 11 3.1 Komponenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 Webressource . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.3 Berechnungs-Komponente . . . . . . . . . . . . . . . . . . . . . . . . 13 3.4 Clustering-Komponente . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.5 Vorgehensweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4 Implementierung 19 5 Evaluation 21 5.1 Begriffsmengen (Sets) . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.2 Durchführung der Card-Sorting-Experimente . . . . . . . . . . . . . 23 5.3 Durchführung des semantischen Clusterings . . . . . . . . . . . . . . 26 5.4 Vergleich und Bewertung der Ergebnisse . . . . . . . . . . . . . . . . 26 6 Zusammenfassung 32 A Anhang 34 A.1 Ergebnisse des semantischen Clusterings im Detail . . . . . . . . . . 34 A.2 Ergebnisse des Vergleichs im Detail . . . . . . . . . . . . . . . . . . . 35 Abbildungsverzeichnis 38 Literaturverzeichnis 39 iv
1 Einleitung In einem Supermarkt werden ähnliche Produkte in die selben Regale einsortiert: die Birnen liegen bei den Äpfeln, das Salz bei dem Pfeffer, das Brot bei den Brötchen. Diese Ordnung, die durch die Gruppierung von ähnlichen Produkten entsteht, erleichtert es dem Kunden sich intuitiv zurechtzufinden. Dieses gilt auch bei dem Entwurf von Navigationsmenüs (z.B. eines Anwendungsprogramms). Eine Gruppierung ähnlicher Navigationselemente, erleichtert uns die Bedienung. Um eine Gruppierung der Navigationselemente, die den Erwartungen der Nutzer entspricht, zu erhalten, wird zum Beispiel das Card-Sorting-Experiment eingesetzt. [Marx, 2009] setzte diese Methode ein, um die Informationsfindung auf einer »Social Bookmarking-Plattform« zu verbessern. Dazu gruppierte er Schlagworte – so genannte »Tags« – die zur Indexierung von Dokumenten dienen, mit Hilfe der Analysemethoden des Card-Sortings. Das Problem bei dem Card-Sorting-Experiment oder ähnlichen Verfahren, deren Ziel es ist eine Gruppierung von Begriffen zu erhalten, ist die Notwendigkeit von Personen, die die Begriffe manuell in Gruppen einsortieren. Zudem lässt sich ein Ergebnis erst ableiten, wenn genügend Sortierungen vorgenommen wurden. In der vorliegenden Arbeit wird ein Verfahren vorgestellt, das Begriffe automatisch nach ihrer semantischen Ähnlichkeit in Gruppen einteilt. Dabei sollen ähnliche Ergebnisse erzielt werden, wie die bei einem Card-Sorting-Experiment. Um die Begriffe gruppieren zu können, muss das Verfahren die unterschiedlichen Beziehungsstärken zwischen den Begriffen berechnen. Es existieren verschiedene Berechnungsmethoden, deren Ergebnisse miteinander verglichen werden sollen. Bei der Berechnung entstehen Begriffsvektoren. Es soll gezeigt werden, dass durch die Berechnung der Ähnlichkeit der Begriffsvektoren, ein besseres Ergebnis erzielt werden kann. Die Berechnung der Beziehungsstärke findet auf Grundlage von statistischen Beziehungen zwischen Wörtern in Texten statt. Daher wird bei der Berechnung eine Datengrundlage mit Texten benötigt. Hier soll gezeigt werden, dass der Abstand der Wörter innerhalb des Textes, bei der Gruppierung der Begriffe eine wichtige Rolle spielt. Als Datengrundlage soll das Web dienen, welches genügend frei zur Verfügung stehende Texte für die Analyse bereitstellt. Durch Verwendung mehrerer Datengrundlagen soll überprüft werden, wie stark die Qualität der Gruppierung von der Datenbasis abhängt. 1
Seite 1 und 2: Fakultät für Elektrotechnik, Info
Seite 3: Kurzfassung Beim Card-Sorting-Exper
Seite 7 und 8: 2 Grundlagen 2.1 Was sind Assoziati
Seite 9 und 10: P(y) = Wahrscheinlich das y auftauc
Seite 11 und 12: 2 Grundlagen Ähnlichkeitsmaße ber
Seite 13 und 14: 2 Grundlagen reproduzierbar sein ka
Seite 15 und 16: 3 Das Verfahren Wortassoziationen e
Seite 17 und 18: 3 Das Verfahren da diese ebenfalls
Seite 19 und 20: 3 Das Verfahren Berechnung der Ähn
Seite 21 und 22: 3 Das Verfahren Im nächsten Schrit
Seite 23 und 24: 4 Implementierung Abbildung 4.1: Sc
Seite 25 und 26: 5 Evaluation Um die Qualität der E
Seite 27 und 28: Kategorie Begriffe 5 Evaluation PC&
Seite 29 und 30: 5 Evaluation Ergebnis Card-Sorting:
Seite 31 und 32: 5 Evaluation Aus einer Gruppe mit d
Seite 33 und 34: 5 Evaluation äquivalentes Ergebnis
Seite 35 und 36: 5 Evaluation Ein weiterer Grund fü
Seite 37 und 38: 6 Zusammenfassung Ausblick Die Bere
Seite 39 und 40: Begriffe A Anhang Gruppe1: Überras
Seite 41 und 42: Set1 (Alltag) Set2 (Menü) Set3 (Zu
Seite 43 und 44: Literaturverzeichnis [Agirre et al.
Seite 45: Literaturverzeichnis [Yang und Liu,

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?