07.03.2014 Aufrufe

Folien (PDF)

Folien (PDF)

Folien (PDF)

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Darstellung der Methodik in<br />

TREC und TREC-basierte<br />

Evaluierung<br />

Martin Jansson<br />

Philip Korte<br />

Lukas Wozniak<br />

13. November 2005 Jansson, Korte, Wozniak 1


Inhaltsverzeichnis<br />

• Was ist TREC?<br />

• Die Ziele der Konferenz<br />

• Organisation und Teilnehmer<br />

• Methoden und Mittel<br />

• Untersuchung eines TRACKs<br />

• Vorgehen in TREC<br />

13. November 2005 Jansson, Korte, Wozniak 2


Was ist TREC?<br />

• Steht für Text REtrieval Conference<br />

• Wurde 1992 gegründet.<br />

• Teil des TIPSTER Projektes<br />

• Wird von dem National Institute of Standards and<br />

Technology (NIST) mitfinanziert.<br />

13. November 2005 Jansson, Korte, Wozniak 3


Ziele der Konferenz<br />

• Nötige Infrastruktur liefern, auf welcher dann die<br />

Information Retrieval Community ihre Forschungen im<br />

Bereich des Text Retrieval aufbauen kann.<br />

• Erleichtern von Forschungsanstrengungen im Bereich IR,<br />

die auf großen Testmengen aufbauen.<br />

• Erhöhung des Kommunikationsflusses zwischen<br />

Forschung, Industrie und Regierung<br />

• Schnellere Markteinführung neuer Produkte durch Testen<br />

neuer Forschungsergebnisse auf Alltagstauglichkeit<br />

• Verbesserung von Evaluierungstechniken und deren<br />

Anpassung an State-of-the-art Technik<br />

13. November 2005 Jansson, Korte, Wozniak 4


Ablauf von TREC<br />

• Zu jeder TREC wird von der NIST eine Menge von<br />

Dokumenten und Anfragen zur Verfügung gestellt.<br />

• Diese Dokumentenmenge wird von Experten untersucht.<br />

Jedes Dokument wird auf Relevanz bezüglich der<br />

Anfragen bewertet.<br />

• Die Teilnehmer wenden nun ihre eigenen Retrieval<br />

Systeme auf die Daten an, und geben der NIST eine<br />

Liste der Relevantesten gefundenen Dokumente wieder.<br />

• Nutzung der Pooling Methode zur Auswertung der Daten<br />

13. November 2005 Jansson, Korte, Wozniak 5


Sonstiges<br />

• 2003 nahmen 93 Teilnehmer aus 22 Ländern an TREC teil<br />

• Die erhalteten Ergebnisse werden zusammen mit den Test<br />

Kollektionen der Allgemeinheit zur Verfügung gestellt.<br />

• Als Effekt der Konferenz kann vermerkt werden, dass in<br />

den ersten 6 Jahren von TREC die Retrieval Systeme ihre<br />

Effektivität ungefähr verdoppelt haben.<br />

• Große Popularität, da Auseinandersetzng mit<br />

verschiedenen Sprachen, wie z.B. Chinesisch<br />

13. November 2005 Jansson, Korte, Wozniak 6


Methoden und Mittel<br />

• TREC unterscheided zwischen verschiedenen Retrieval<br />

Arten, den sogenannten TRACKs, oder Topics.<br />

• Topics bieten normalerweise ein spezifisches Problem,<br />

welches vom normalen Retrieval leicht abweicht.<br />

• So gibt es beispielsweise ein Topic, in welche das eigene<br />

System auf Fragen Antworten liefern muss, wärend ein<br />

anderes Topic sich mit Spamerkennung auseinandersetzt.<br />

• Zu jedem Topic (oder Forschungsgebiet) werden<br />

Kollektionen und Problemstellungen (meistens Anfragen) zur<br />

Verfügung gestellt, um die Vergleichbarkeit zu<br />

gewährleisten.<br />

• In der Geschichte von TREC gab es bisher 13<br />

verschiedene Topics, von denen dieses Jahr 7 angeboten<br />

werden.<br />

13. November 2005 Jansson, Korte, Wozniak 7


Vorgehen in TREC<br />

• Testbasis<br />

– Objekte (Dokumente, ... )<br />

– Anfragen (Topics)<br />

– einheitliche Relevanzbeurteilung<br />

• Chronologische Abfolge<br />

– Ausgabe der Anfragen<br />

– Einreichen von Ergebnissen<br />

– Bekanntgabe der Ergebnisse<br />

13. November 2005 Jansson, Korte, Wozniak 8


Die Pooling Methode<br />

• Recall-Abschätzungen werden durch die Pooling<br />

Methode ermittelt, dadurch werden die IR Verfahren<br />

vergleichbar<br />

• Mehrere IR Systeme werden auf den selben<br />

Dokumtenbestand angewendet<br />

• Die Ergebnisse mehrerer Systeme zu den gleichen<br />

Anfragen werden zusammengetragen<br />

• Starke Überlappungen in den Antwortmengen, machen<br />

das Verfahren aufwändig!<br />

• Gemessene Recall Werte i.A. Zu optimistisch, da nur<br />

untere Schranken fürRelevanz geliefert werden<br />

13. November 2005 Jansson, Korte, Wozniak 9


Relevanzurteile<br />

• Sind von entscheidender Wichtigkeit für die<br />

Testkollektion<br />

• Ermöglicht Ermittlung von Recall, Precision und<br />

Fallout<br />

• Für jedes Topic ist es erforderlich eine Liste von<br />

relevanten Dokumenten zusammen zu stellen,<br />

die auf Anfragen geliefert werden sollten<br />

13. November 2005 Jansson, Korte, Wozniak 10


Topics<br />

• Sind dazu da, um die wirkliche “Benutzer<br />

Erfordernis” (user need) nachzuahmen<br />

• Topics sind von Leuten gemacht worden welche<br />

sich mit einem Retrieval System beschäftigen<br />

• Jedes Topic ist auf die selbe standardisierte<br />

Weise formatiert worden, um Anfragekonstrukte<br />

zu vereinfachen<br />

13. November 2005 Jansson, Korte, Wozniak 11


Beispiel eines Topics<br />

• Beispiel-Topic<br />

• <br />

• Tipster Topic Description<br />

• Number: 066<br />

• Domain: Science and Technology<br />

• Natural Language Processing<br />

• <br />

• Document will identify a type of natural language processing<br />

• technology which is being developed or marketed in the U.S.<br />

• <br />

• A relevant document will identify a company or institution developing or<br />

• marketing a natural language processing technology, identify the<br />

• technology, and identify one or more features of the company‘s product.<br />

• NLP, translation, language, dictionary, font, software<br />

• U.S.<br />

• <br />

13. November 2005 Jansson, Korte, Wozniak 12


• Beispiel einer Suchanfrage<br />

• Werden in der TREC-Collection TOPIC‘S genannt<br />

– <br />

– Number: 168 <br />

– Topic: Financing AMTRAK <br />

– Description:<br />

– A document will adress the role of the Federal Goverment in<br />

– Financing the operation of National railroad Transportation Coporation<br />

(AMTRAK)<br />

– Narrative: A relevant document must provide information on<br />

– The goverment‘s responsibility to make AMTRAK an economically viabla<br />

entity.<br />

– It could also discuss the privatization of AMTRAK as an alternative to<br />

continuing<br />

– Goverment subsides given to air and bus transportation with<br />

– Those provided to AMTRAK would also be relevant.<br />

– <br />

– <br />

13. November 2005 Jansson, Korte, Wozniak 13


Relevanzurteile<br />

• Relevanzurteile:<br />

51 0 AP880301-0271 1<br />

51 0 AP880302-0275 1<br />

51 0 AP880311-0301 1<br />

51 0 AP880316-0292 1<br />

51 0 AP880318-0287 1<br />

51 0 AP880322-0296 0<br />

51 0 AP880325-0293 1<br />

51 0 AP880329-0252 0<br />

51 0 AP880406-0267 1<br />

51 0 AP880407-0258 1<br />

51 0 AP880412-0268 1<br />

51 0 AP880418-0270 0<br />

51 0 AP880421-0319 0<br />

51 0 AP880427-0272 0<br />

Die 1. Zahl ist die Topic-ID, die 2. Zahl ist zu ignorieren, in der<br />

3. Spalte ist die Dokument-ID (in allen Fällen aus AP), und die<br />

letzte Zahl gibt an, ob das Dokument relevant ist (1) oder nicht (0).<br />

13. November 2005 Jansson, Korte, Wozniak 14


Ergebnisse Trec_Eval<br />

• Queryid (Num): 1000<br />

Total number of documents over all queries<br />

Retrieved: 48491<br />

Relevant: 49254<br />

Rel_ret: 10969<br />

Interpolated Recall - Precision Averages:<br />

at 0.00 0.7520<br />

at 0.10 0.4196<br />

at 0.20 0.2673<br />

at 0.30 0.2084<br />

at 0.40 0.1722<br />

at 0.50 0.1512<br />

at 0.60 0.1244<br />

at 0.70 0.1042<br />

at 0.80 0.0749<br />

at 0.90 0.0516<br />

at 1.00 0.0300<br />

Average precision (non-interpolated) for all rel docs(averaged over queries)<br />

0.1815<br />

Precision:<br />

At 5 docs: 0.4902<br />

At 10 docs: 0.3997<br />

At 15 docs: 0.3545<br />

At 20 docs: 0.3193<br />

At 30 docs: 0.2738<br />

At 100 docs: 0.1097<br />

At 200 docs: 0.0548<br />

At 500 docs: 0.0219<br />

At 1000 docs: 0.0110<br />

R-Precision (precision after R (= num_rel for a query) docs retrieved):<br />

Exact: 0.2341<br />

13. November 2005 Jansson, Korte, Wozniak 15


Beispiele für TREC<br />

Tracks im Jahr 2005 (1)<br />

• Enterprise Track<br />

– Erforschung der Suche im Unternehmen, um den<br />

Kunden bestmöglich zufrieden zu stellen<br />

• Genomics Track<br />

– Beschaffung von Genstrukturen, Laborergebnissen und<br />

Forschungsdokumente<br />

13. November 2005 Jansson, Korte, Wozniak 16


Beispiele für TREC<br />

Tracks im Jahr 2005 (2)<br />

• HARD Track<br />

– Exakte Wiederbeschaffung von Dokumenten durch<br />

Wissen über den Benutzer und / oder den<br />

Suchkontext. Dies wird möglich gemacht durch<br />

Techniken wie „Passage Retrieval“ und Benutzung<br />

von zielgerichteter Interaktion mit dem Suchenden<br />

• Question Answering Track<br />

– Versuch sich mehr dem „Information Retrieval“<br />

statt dem „Document Retrieval“ zu nähern<br />

• SPAM Track<br />

– SPAM Filter Verbesserung durch Standard<br />

Evaluation<br />

13. November 2005 Jansson, Korte, Wozniak 17


TRACKs :<br />

Question-Answer Track (’04)<br />

• QA Track Bestandteil seit 1999<br />

• Ziel : Antworten statt Dokumentenliste mit<br />

Antwortmöglichkeiten<br />

• Frage ist Frageserie, die Informationen sucht.<br />

• Letzte Teilfrage allgemein :<br />

“Erzähl mir etwas, dass ich noch nicht wusste.”<br />

13. November 2005 Jansson, Korte, Wozniak


Question-Answer Track :<br />

Frageserie<br />

Bezug der Fragen:<br />

-Ding<br />

- Organisation<br />

-Person<br />

[- Event (ab 2005)]<br />

Aufbau (max 10):<br />

- X Faktenfragen<br />

- 0-2 Listenfragen<br />

- 1 “Other” Frage<br />

(allgemeine Frage)<br />

13. November 2005 Jansson, Korte, Wozniak


Question-Answer Track :<br />

Entwicklung<br />

• Faktenfragen (1999)<br />

“Wieviele Kalorien hat ein BigMac?”<br />

• Listenfragen<br />

“Nenne alle Kaugummisorten”<br />

• Definitionsfragen (2004)<br />

“Was ist ein goldener Handschlag?”<br />

13. November 2005 Jansson, Korte, Wozniak


Question-Answer Track :<br />

Fragengenerierung<br />

• „average reader“ szenario als Grundlage<br />

• Auswertung der Suchmaschinen Logs<br />

• Assistenten erstellen Fragen zum Thema<br />

• Suche der Assistenten: Antworten und<br />

Interessantes Nebenwissen<br />

(Dokumentenpool ist meistens der<br />

„AQUANT Corpus of English News Text“)<br />

• NIST Mitarbeiter erstellen finale Fragen<br />

13. November 2005 Jansson, Korte, Wozniak


Question-Answer Track :<br />

Bewertung<br />

• Antworten werden von Hand ausgewertet<br />

• Typen (Factoid & List) :<br />

- incorrekt<br />

- not supported<br />

- not exact<br />

- correct<br />

-NIL<br />

• Information Nuggest (Other)<br />

- vitale und nicht vitale Nuggets<br />

13. November 2005 Jansson, Korte, Wozniak


Question-Answer Track :<br />

Bewertung<br />

• Final Score :<br />

0.50 x FactoidAccuracy +<br />

0.25 x ListAveF +<br />

0.25 x OtherAveF<br />

13. November 2005 Jansson, Korte, Wozniak


Question-Answer Track :<br />

Muster<br />

http://trec.nist.gov/data/qa.html<br />

13. November 2005 Jansson, Korte, Wozniak


Danke für die<br />

Aufmerksamkeit!<br />

Noch<br />

Fragen?<br />

13. November 2005 Jansson, Korte, Wozniak 25


Quellenangabe<br />

• Offizielle TREC Homepage http://trec.nist.gov (3. November 2005)<br />

• Information Retrieval Skriptum zur Vorlesung im SS 05, Norbert Fuhr (4.<br />

April 2005)<br />

13. November 2005 Jansson, Korte, Wozniak 26

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!