Textbasierte Suche mit Hilfe von Anfrageerweiterungen - technische ...
Textbasierte Suche mit Hilfe von Anfrageerweiterungen - technische ...
Textbasierte Suche mit Hilfe von Anfrageerweiterungen - technische ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong><br />
<strong>Anfrageerweiterungen</strong> - <strong>technische</strong><br />
Realisierung und erste Erfahrungen<br />
Dr. Thomas Böhme<br />
thomas.boehme@tu-ilmenau.de<br />
Dipl.-Inf. Mario Kubek<br />
mario.kubek@tu-ilmenau.de<br />
Dipl.-Inf. Hans Friedrich Witschel<br />
witschel@informatik.uni-leipzig.de<br />
Vortrag im Rahmen des Workshops<br />
„Realistische Evaluierungsansätze für P2PIR-Systeme“<br />
am 29.02.2008 in Leipzig<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
1/12
Gliederung<br />
1. Motivation für Suchanfragenerweiterung<br />
2. Technische Realisierung „Researcher“<br />
• Zweck des Researchers<br />
• Funktionsweise<br />
3. Realisierung als Komponente in der Firefox-Erweiterung<br />
„FXResearcher“<br />
• Aufbau der Erweiterung<br />
• Aktueller Stand (Integration <strong>von</strong> Volltextsuche und Researcher)<br />
4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />
• Benutzerführung<br />
• Fallbeispiele<br />
5. Ausblick<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
2/12
1. Motivation<br />
1.1 Idee zu textbasierter Suchanfrageerweiterung<br />
• Entstanden im DFG-Projekt „Inhaltsbasierte <strong>Suche</strong> <strong>von</strong> Textdokumenten<br />
in großen verteilten Systemen“<br />
• Peers halten Dokumente und können auf Basis sozialer <strong>Suche</strong> andere<br />
Peers und deren Dokumente nach Suchanfragen finden<br />
• Ziel: Ergänzung der semantischen <strong>Suche</strong> in Peers durch Komponenten<br />
der Suchanfragenerweiterung<br />
• Ermöglichung der Anfragenerweiterung <strong>mit</strong> Synonymen und themennahen<br />
Wörtern auf Basis des jeweiligen Peer-Dokumentenbestands<br />
1.2 Realisierungen<br />
• Erste Realisierung durch Dipl.-Inf. Frieder Witschel im Jahr 2005 in<br />
dem Programm „Researcher“ (Java-basiert)<br />
• Erweiterung des Researchers durch Dipl.-Inf. Mario Kubek<br />
in den Jahren 2007/2008<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
3/12
2. Technische Realisierung des Researchers<br />
2.1 Zweck des Researchers<br />
• Eingabe: Suchanfrage Q und Dokumentmenge D<br />
• Ausgabe: Menge erweiterter Suchanfragen und deren <strong>Suche</strong>rgebnisse<br />
2.2 Funktionsweise<br />
• Berechnung eines Profils P aus D, das die k wichtigsten Wörter enthält<br />
• Berechnung des Kookkurrenzgraphen G aus P<br />
• Rankingverfahren berechnet Ranking der Elemente aus G bezüglich Q<br />
• Am höchsten gerankte Elemente bilden die Erweiterungsmenge E<br />
• Neue Suchanfragen bestehend aus Q und ausgewürfelten Elementen<br />
aus E werden an Yahoo (früher Google) gesendet<br />
• Die 10 besten Treffer pro erweiterter Anfrage werden ausgegeben,<br />
optional heruntergeladen und auf Ähnlichkeit <strong>mit</strong> D verglichen<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
4/12
3. Realisierung als Komponente in der Firefox-<br />
Erweiterung „FXResearcher“<br />
3.1 Warum als Browser-Erweiterung?<br />
• Kein separates Programm zu Installation nötig<br />
• Ausnutzung der Netzwerkaktivität <strong>von</strong> Firefox für den Peer<br />
• Fortschrittliche Programmierschnittstellen für den Bau v. Erweiterungen<br />
3.1 Aufbau der Erweiterung (Ziel am Ende des DFG-Projekts)<br />
• Volltextsuche (VTS)<br />
• Peer<br />
• Researcher<br />
• GUI zu Steuerung der Komponenten<br />
3.2 Aktueller Stand<br />
Firefox<br />
• Researcher und Volltextsuche (provisorisch <strong>mit</strong> Lucene) lauffähig<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
FXRes.-GUI<br />
Peer<br />
VTS<br />
Researcher<br />
5/12
4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />
4.1 Benutzerführung<br />
1. Lokale <strong>Suche</strong> nach Dokumenten<br />
2. Suchanfrageerweiterung <strong>mit</strong>tels selektierter Dokumente<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
6/12
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
7/12
4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />
4.2 Fallbeispiele unterschiedlicher Themendomänen<br />
1. Beispiel: Thema „P2P und Semantic Web“<br />
• Gegeben: 7 PDF-Dokumente gefunden <strong>mit</strong> Google<br />
• Anfrage im FXResearcher: „Semantic Web“, max. 10 Anfr., max 10 Ergs.<br />
• Anfrage wurde 7x erweitert um: Peer-to-Peer Distributed, Peer-to-Peer<br />
Piazza, Services, Peer-to-Peer Services, Peer-to-Peer, Services Smart,<br />
Piazza Services<br />
• Zusätzliche themennahe Dokumente via Yahoo gefunden: 33<br />
2. Beispiel: Thema „J2ME“ (Java 2 Micro Edition für mobile Endgeräte)<br />
• Gegeben: 4 PDF-Dokumente gefunden <strong>mit</strong> Google<br />
• Anfrage im FXResearcher: „J2ME“, max. 10 Anfragen, max 10 Ergs.<br />
• Anfrage wurde 9x erweitert um: Profile CLDC, CLDC Connected, Profile<br />
Foundation, Profile Virtual, CLDC Profile, Profile, Virtual CLDC, Virtual<br />
Java, Profile Personal<br />
• Zusätzliche themennahe Dokumente via Yahoo gefunden: 42<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
8/12
4. Erfahrungen und Tests <strong>mit</strong> „FXResearcher“<br />
4.2 Fallbeispiele unterschiedlicher Themendomänen<br />
3. Beispiel: Thema „Affiliate Marketing“<br />
• Gegeben: 6 PDF-Dokumente gefunden <strong>mit</strong> Google<br />
• Anfrage im FXResearcher: „affiliate“, max. 10 Anfr., max 10 Ergs.<br />
• Anfrage wurde 10x erweitert um: marketing advertisers, advertisers,<br />
advertisers network, marketing online, network fees, marketing, network<br />
marketing, network, advertisers publishers, network advertisers<br />
• Zusätzliche themennahe Dokumente via Yahoo gefunden: 61<br />
4. Beispiel: Thema „TV Serie Stargate“<br />
• Gegeben: 2 handverlesene Dokumente der englischspr. Wikipedia<br />
• Anfrage im FXResearcher: „Stargate“, max. 10 Anfragen, max 10 Ergs.<br />
• Anfrage wurde 9x erweitert um: SG, SG Season, Atlantis Season, Atlantis<br />
SG, SG Atlantis, Atlantis Universe, SG February, Season, Season March<br />
• Zusätzliche themennahe Dokumente via Yahoo gefunden: 56<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
9/12
5. Ausblick<br />
• Fertigstellung der Integration des Peers und Volltextsuche <strong>mit</strong><br />
Leipziger Texttechnologie<br />
• Einsatz des FXResearchers als multifunktionales Suchtool <strong>mit</strong><br />
Browseranbindung<br />
• Durchführung <strong>von</strong> Nutzerstudien<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
10/12
Vielen Dank für Ihre Aufmerksamkeit!<br />
Böhme, Kubek, Witschel - <strong>Textbasierte</strong> <strong>Suche</strong> <strong>mit</strong> <strong>Hilfe</strong> <strong>von</strong> <strong>Anfrageerweiterungen</strong><br />
11/12