17.06.2015 Aufrufe

Textbasierte Suche mit Hilfe von Anfrageerweiterungen - technische ...

Textbasierte Suche mit Hilfe von Anfrageerweiterungen - technische ...

Textbasierte Suche mit Hilfe von Anfrageerweiterungen - technische ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong><br />

<strong>Anfrageerweiterungen</strong> - <strong>technische</strong><br />

Realisierung und erste Erfahrungen<br />

Dr. Thomas Böhme<br />

thomas.boehme@tu-ilmenau.de<br />

Dipl.-Inf. Mario Kubek<br />

mario.kubek@tu-ilmenau.de<br />

Dipl.-Inf. Hans Friedrich Witschel<br />

witschel@informatik.uni-leipzig.de<br />

Vortrag im Rahmen des Workshops<br />

„Realistische Evaluierungsansätze für P2PIR-Systeme“<br />

am 29.02.2008 in Leipzig<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

1/12


Gliederung<br />

1. Motivation für Suchanfragenerweiterung<br />

2. Technische Realisierung „Researcher“<br />

• Zweck des Researchers<br />

• Funktionsweise<br />

3. Realisierung als Komponente in der Firefox-Erweiterung<br />

„FXResearcher“<br />

• Aufbau der Erweiterung<br />

• Aktueller Stand (Integration <strong>von</strong> Volltextsuche und Researcher)<br />

4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />

• Benutzerführung<br />

• Fallbeispiele<br />

5. Ausblick<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

2/12


1. Motivation<br />

1.1 Idee zu textbasierter Suchanfrageerweiterung<br />

• Entstanden im DFG-Projekt „Inhaltsbasierte <strong>Suche</strong> <strong>von</strong> Textdokumenten<br />

in großen verteilten Systemen“<br />

• Peers halten Dokumente und können auf Basis sozialer <strong>Suche</strong> andere<br />

Peers und deren Dokumente nach Suchanfragen finden<br />

• Ziel: Ergänzung der semantischen <strong>Suche</strong> in Peers durch Komponenten<br />

der Suchanfragenerweiterung<br />

• Ermöglichung der Anfragenerweiterung <strong>mit</strong> Synonymen und themennahen<br />

Wörtern auf Basis des jeweiligen Peer-Dokumentenbestands<br />

1.2 Realisierungen<br />

• Erste Realisierung durch Dipl.-Inf. Frieder Witschel im Jahr 2005 in<br />

dem Programm „Researcher“ (Java-basiert)<br />

• Erweiterung des Researchers durch Dipl.-Inf. Mario Kubek<br />

in den Jahren 2007/2008<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

3/12


2. Technische Realisierung des Researchers<br />

2.1 Zweck des Researchers<br />

• Eingabe: Suchanfrage Q und Dokumentmenge D<br />

• Ausgabe: Menge erweiterter Suchanfragen und deren <strong>Suche</strong>rgebnisse<br />

2.2 Funktionsweise<br />

• Berechnung eines Profils P aus D, das die k wichtigsten Wörter enthält<br />

• Berechnung des Kookkurrenzgraphen G aus P<br />

• Rankingverfahren berechnet Ranking der Elemente aus G bezüglich Q<br />

• Am höchsten gerankte Elemente bilden die Erweiterungsmenge E<br />

• Neue Suchanfragen bestehend aus Q und ausgewürfelten Elementen<br />

aus E werden an Yahoo (früher Google) gesendet<br />

• Die 10 besten Treffer pro erweiterter Anfrage werden ausgegeben,<br />

optional heruntergeladen und auf Ähnlichkeit <strong>mit</strong> D verglichen<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

4/12


3. Realisierung als Komponente in der Firefox-<br />

Erweiterung „FXResearcher“<br />

3.1 Warum als Browser-Erweiterung?<br />

• Kein separates Programm zu Installation nötig<br />

• Ausnutzung der Netzwerkaktivität <strong>von</strong> Firefox für den Peer<br />

• Fortschrittliche Programmierschnittstellen für den Bau v. Erweiterungen<br />

3.1 Aufbau der Erweiterung (Ziel am Ende des DFG-Projekts)<br />

• Volltextsuche (VTS)<br />

• Peer<br />

• Researcher<br />

• GUI zu Steuerung der Komponenten<br />

3.2 Aktueller Stand<br />

Firefox<br />

• Researcher und Volltextsuche (provisorisch <strong>mit</strong> Lucene) lauffähig<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

FXRes.-GUI<br />

Peer<br />

VTS<br />

Researcher<br />

5/12


4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />

4.1 Benutzerführung<br />

1. Lokale <strong>Suche</strong> nach Dokumenten<br />

2. Suchanfrageerweiterung <strong>mit</strong>tels selektierter Dokumente<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

6/12


Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

7/12


4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />

4.2 Fallbeispiele unterschiedlicher Themendomänen<br />

1. Beispiel: Thema „P2P und Semantic Web“<br />

• Gegeben: 7 PDF-Dokumente gefunden <strong>mit</strong> Google<br />

• Anfrage im FXResearcher: „Semantic Web“, max. 10 Anfr., max 10 Ergs.<br />

• Anfrage wurde 7x erweitert um: Peer-to-Peer Distributed, Peer-to-Peer<br />

Piazza, Services, Peer-to-Peer Services, Peer-to-Peer, Services Smart,<br />

Piazza Services<br />

• Zusätzliche themennahe Dokumente via Yahoo gefunden: 33<br />

2. Beispiel: Thema „J2ME“ (Java 2 Micro Edition für mobile Endgeräte)<br />

• Gegeben: 4 PDF-Dokumente gefunden <strong>mit</strong> Google<br />

• Anfrage im FXResearcher: „J2ME“, max. 10 Anfragen, max 10 Ergs.<br />

• Anfrage wurde 9x erweitert um: Profile CLDC, CLDC Connected, Profile<br />

Foundation, Profile Virtual, CLDC Profile, Profile, Virtual CLDC, Virtual<br />

Java, Profile Personal<br />

• Zusätzliche themennahe Dokumente via Yahoo gefunden: 42<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

8/12


4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />

4.2 Fallbeispiele unterschiedlicher Themendomänen<br />

3. Beispiel: Thema „Affiliate Marketing“<br />

• Gegeben: 6 PDF-Dokumente gefunden <strong>mit</strong> Google<br />

• Anfrage im FXResearcher: „affiliate“, max. 10 Anfr., max 10 Ergs.<br />

• Anfrage wurde 10x erweitert um: marketing advertisers, advertisers,<br />

advertisers network, marketing online, network fees, marketing, network<br />

marketing, network, advertisers publishers, network advertisers<br />

• Zusätzliche themennahe Dokumente via Yahoo gefunden: 61<br />

4. Beispiel: Thema „TV Serie Stargate“<br />

• Gegeben: 2 handverlesene Dokumente der englischspr. Wikipedia<br />

• Anfrage im FXResearcher: „Stargate“, max. 10 Anfragen, max 10 Ergs.<br />

• Anfrage wurde 9x erweitert um: SG, SG Season, Atlantis Season, Atlantis<br />

SG, SG Atlantis, Atlantis Universe, SG February, Season, Season March<br />

• Zusätzliche themennahe Dokumente via Yahoo gefunden: 56<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

9/12


5. Ausblick<br />

• Fertigstellung der Integration des Peers und Volltextsuche <strong>mit</strong><br />

Leipziger Texttechnologie<br />

• Einsatz des FXResearchers als multifunktionales Suchtool <strong>mit</strong><br />

Browseranbindung<br />

• Durchführung <strong>von</strong> Nutzerstudien<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

10/12


Vielen Dank für Ihre Aufmerksamkeit!<br />

Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />

11/12

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!