Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Darstellung der Methodik in<br />
TREC und TREC-basierte<br />
Evaluierung<br />
Martin Jansson<br />
Philip Korte<br />
Lukas Wozniak<br />
13. November 2005 Jansson, Korte, Wozniak 1
Inhaltsverzeichnis<br />
• Was ist TREC?<br />
• Die Ziele der Konferenz<br />
• Organisation und Teilnehmer<br />
• Methoden und Mittel<br />
• Untersuchung eines TRACKs<br />
• Vorgehen in TREC<br />
13. November 2005 Jansson, Korte, Wozniak 2
Was ist TREC?<br />
• Steht für Text REtrieval Conference<br />
• Wurde 1992 gegründet.<br />
• Teil des TIPSTER Projektes<br />
• Wird von dem National Institute of Standards and<br />
Technology (NIST) mitfinanziert.<br />
13. November 2005 Jansson, Korte, Wozniak 3
Ziele der Konferenz<br />
• Nötige Infrastruktur liefern, auf welcher dann die<br />
Information Retrieval Community ihre Forschungen im<br />
Bereich des Text Retrieval aufbauen kann.<br />
• Erleichtern von Forschungsanstrengungen im Bereich IR,<br />
die auf großen Testmengen aufbauen.<br />
• Erhöhung des Kommunikationsflusses zwischen<br />
Forschung, Industrie und Regierung<br />
• Schnellere Markteinführung neuer Produkte durch Testen<br />
neuer Forschungsergebnisse auf Alltagstauglichkeit<br />
• Verbesserung von Evaluierungstechniken und deren<br />
Anpassung an State-of-the-art Technik<br />
13. November 2005 Jansson, Korte, Wozniak 4
Ablauf von TREC<br />
• Zu jeder TREC wird von der NIST eine Menge von<br />
Dokumenten und Anfragen zur Verfügung gestellt.<br />
• Diese Dokumentenmenge wird von Experten untersucht.<br />
Jedes Dokument wird auf Relevanz bezüglich der<br />
Anfragen bewertet.<br />
• Die Teilnehmer wenden nun ihre eigenen Retrieval<br />
Systeme auf die Daten an, und geben der NIST eine<br />
Liste der Relevantesten gefundenen Dokumente wieder.<br />
• Nutzung der Pooling Methode zur Auswertung der Daten<br />
13. November 2005 Jansson, Korte, Wozniak 5
Sonstiges<br />
• 2003 nahmen 93 Teilnehmer aus 22 Ländern an TREC teil<br />
• Die erhalteten Ergebnisse werden zusammen mit den Test<br />
Kollektionen der Allgemeinheit zur Verfügung gestellt.<br />
• Als Effekt der Konferenz kann vermerkt werden, dass in<br />
den ersten 6 Jahren von TREC die Retrieval Systeme ihre<br />
Effektivität ungefähr verdoppelt haben.<br />
• Große Popularität, da Auseinandersetzng mit<br />
verschiedenen Sprachen, wie z.B. Chinesisch<br />
13. November 2005 Jansson, Korte, Wozniak 6
Methoden und Mittel<br />
• TREC unterscheided zwischen verschiedenen Retrieval<br />
Arten, den sogenannten TRACKs, oder Topics.<br />
• Topics bieten normalerweise ein spezifisches Problem,<br />
welches vom normalen Retrieval leicht abweicht.<br />
• So gibt es beispielsweise ein Topic, in welche das eigene<br />
System auf Fragen Antworten liefern muss, wärend ein<br />
anderes Topic sich mit Spamerkennung auseinandersetzt.<br />
• Zu jedem Topic (oder Forschungsgebiet) werden<br />
Kollektionen und Problemstellungen (meistens Anfragen) zur<br />
Verfügung gestellt, um die Vergleichbarkeit zu<br />
gewährleisten.<br />
• In der Geschichte von TREC gab es bisher 13<br />
verschiedene Topics, von denen dieses Jahr 7 angeboten<br />
werden.<br />
13. November 2005 Jansson, Korte, Wozniak 7
Vorgehen in TREC<br />
• Testbasis<br />
– Objekte (Dokumente, ... )<br />
– Anfragen (Topics)<br />
– einheitliche Relevanzbeurteilung<br />
• Chronologische Abfolge<br />
– Ausgabe der Anfragen<br />
– Einreichen von Ergebnissen<br />
– Bekanntgabe der Ergebnisse<br />
13. November 2005 Jansson, Korte, Wozniak 8
Die Pooling Methode<br />
• Recall-Abschätzungen werden durch die Pooling<br />
Methode ermittelt, dadurch werden die IR Verfahren<br />
vergleichbar<br />
• Mehrere IR Systeme werden auf den selben<br />
Dokumtenbestand angewendet<br />
• Die Ergebnisse mehrerer Systeme zu den gleichen<br />
Anfragen werden zusammengetragen<br />
• Starke Überlappungen in den Antwortmengen, machen<br />
das Verfahren aufwändig!<br />
• Gemessene Recall Werte i.A. Zu optimistisch, da nur<br />
untere Schranken fürRelevanz geliefert werden<br />
13. November 2005 Jansson, Korte, Wozniak 9
Relevanzurteile<br />
• Sind von entscheidender Wichtigkeit für die<br />
Testkollektion<br />
• Ermöglicht Ermittlung von Recall, Precision und<br />
Fallout<br />
• Für jedes Topic ist es erforderlich eine Liste von<br />
relevanten Dokumenten zusammen zu stellen,<br />
die auf Anfragen geliefert werden sollten<br />
13. November 2005 Jansson, Korte, Wozniak 10
Topics<br />
• Sind dazu da, um die wirkliche “Benutzer<br />
Erfordernis” (user need) nachzuahmen<br />
• Topics sind von Leuten gemacht worden welche<br />
sich mit einem Retrieval System beschäftigen<br />
• Jedes Topic ist auf die selbe standardisierte<br />
Weise formatiert worden, um Anfragekonstrukte<br />
zu vereinfachen<br />
13. November 2005 Jansson, Korte, Wozniak 11
Beispiel eines Topics<br />
• Beispiel-Topic<br />
• <br />
• Tipster Topic Description<br />
• Number: 066<br />
• Domain: Science and Technology<br />
• Natural Language Processing<br />
• <br />
• Document will identify a type of natural language processing<br />
• technology which is being developed or marketed in the U.S.<br />
• <br />
• A relevant document will identify a company or institution developing or<br />
• marketing a natural language processing technology, identify the<br />
• technology, and identify one or more features of the company‘s product.<br />
• NLP, translation, language, dictionary, font, software<br />
• U.S.<br />
• <br />
13. November 2005 Jansson, Korte, Wozniak 12
• Beispiel einer Suchanfrage<br />
• Werden in der TREC-Collection TOPIC‘S genannt<br />
– <br />
– Number: 168 <br />
– Topic: Financing AMTRAK <br />
– Description:<br />
– A document will adress the role of the Federal Goverment in<br />
– Financing the operation of National railroad Transportation Coporation<br />
(AMTRAK)<br />
– Narrative: A relevant document must provide information on<br />
– The goverment‘s responsibility to make AMTRAK an economically viabla<br />
entity.<br />
– It could also discuss the privatization of AMTRAK as an alternative to<br />
continuing<br />
– Goverment subsides given to air and bus transportation with<br />
– Those provided to AMTRAK would also be relevant.<br />
– <br />
– <br />
13. November 2005 Jansson, Korte, Wozniak 13
Relevanzurteile<br />
• Relevanzurteile:<br />
51 0 AP880301-0271 1<br />
51 0 AP880302-0275 1<br />
51 0 AP880311-0301 1<br />
51 0 AP880316-0292 1<br />
51 0 AP880318-0287 1<br />
51 0 AP880322-0296 0<br />
51 0 AP880325-0293 1<br />
51 0 AP880329-0252 0<br />
51 0 AP880406-0267 1<br />
51 0 AP880407-0258 1<br />
51 0 AP880412-0268 1<br />
51 0 AP880418-0270 0<br />
51 0 AP880421-0319 0<br />
51 0 AP880427-0272 0<br />
Die 1. Zahl ist die Topic-ID, die 2. Zahl ist zu ignorieren, in der<br />
3. Spalte ist die Dokument-ID (in allen Fällen aus AP), und die<br />
letzte Zahl gibt an, ob das Dokument relevant ist (1) oder nicht (0).<br />
13. November 2005 Jansson, Korte, Wozniak 14
Ergebnisse Trec_Eval<br />
• Queryid (Num): 1000<br />
Total number of documents over all queries<br />
Retrieved: 48491<br />
Relevant: 49254<br />
Rel_ret: 10969<br />
Interpolated Recall - Precision Averages:<br />
at 0.00 0.7520<br />
at 0.10 0.4196<br />
at 0.20 0.2673<br />
at 0.30 0.2084<br />
at 0.40 0.1722<br />
at 0.50 0.1512<br />
at 0.60 0.1244<br />
at 0.70 0.1042<br />
at 0.80 0.0749<br />
at 0.90 0.0516<br />
at 1.00 0.0300<br />
Average precision (non-interpolated) for all rel docs(averaged over queries)<br />
0.1815<br />
Precision:<br />
At 5 docs: 0.4902<br />
At 10 docs: 0.3997<br />
At 15 docs: 0.3545<br />
At 20 docs: 0.3193<br />
At 30 docs: 0.2738<br />
At 100 docs: 0.1097<br />
At 200 docs: 0.0548<br />
At 500 docs: 0.0219<br />
At 1000 docs: 0.0110<br />
R-Precision (precision after R (= num_rel for a query) docs retrieved):<br />
Exact: 0.2341<br />
13. November 2005 Jansson, Korte, Wozniak 15
Beispiele für TREC<br />
Tracks im Jahr 2005 (1)<br />
• Enterprise Track<br />
– Erforschung der Suche im Unternehmen, um den<br />
Kunden bestmöglich zufrieden zu stellen<br />
• Genomics Track<br />
– Beschaffung von Genstrukturen, Laborergebnissen und<br />
Forschungsdokumente<br />
13. November 2005 Jansson, Korte, Wozniak 16
Beispiele für TREC<br />
Tracks im Jahr 2005 (2)<br />
• HARD Track<br />
– Exakte Wiederbeschaffung von Dokumenten durch<br />
Wissen über den Benutzer und / oder den<br />
Suchkontext. Dies wird möglich gemacht durch<br />
Techniken wie „Passage Retrieval“ und Benutzung<br />
von zielgerichteter Interaktion mit dem Suchenden<br />
• Question Answering Track<br />
– Versuch sich mehr dem „Information Retrieval“<br />
statt dem „Document Retrieval“ zu nähern<br />
• SPAM Track<br />
– SPAM Filter Verbesserung durch Standard<br />
Evaluation<br />
13. November 2005 Jansson, Korte, Wozniak 17
TRACKs :<br />
Question-Answer Track (’04)<br />
• QA Track Bestandteil seit 1999<br />
• Ziel : Antworten statt Dokumentenliste mit<br />
Antwortmöglichkeiten<br />
• Frage ist Frageserie, die Informationen sucht.<br />
• Letzte Teilfrage allgemein :<br />
“Erzähl mir etwas, dass ich noch nicht wusste.”<br />
13. November 2005 Jansson, Korte, Wozniak
Question-Answer Track :<br />
Frageserie<br />
Bezug der Fragen:<br />
-Ding<br />
- Organisation<br />
-Person<br />
[- Event (ab 2005)]<br />
Aufbau (max 10):<br />
- X Faktenfragen<br />
- 0-2 Listenfragen<br />
- 1 “Other” Frage<br />
(allgemeine Frage)<br />
13. November 2005 Jansson, Korte, Wozniak
Question-Answer Track :<br />
Entwicklung<br />
• Faktenfragen (1999)<br />
“Wieviele Kalorien hat ein BigMac?”<br />
• Listenfragen<br />
“Nenne alle Kaugummisorten”<br />
• Definitionsfragen (2004)<br />
“Was ist ein goldener Handschlag?”<br />
13. November 2005 Jansson, Korte, Wozniak
Question-Answer Track :<br />
Fragengenerierung<br />
• „average reader“ szenario als Grundlage<br />
• Auswertung der Suchmaschinen Logs<br />
• Assistenten erstellen Fragen zum Thema<br />
• Suche der Assistenten: Antworten und<br />
Interessantes Nebenwissen<br />
(Dokumentenpool ist meistens der<br />
„AQUANT Corpus of English News Text“)<br />
• NIST Mitarbeiter erstellen finale Fragen<br />
13. November 2005 Jansson, Korte, Wozniak
Question-Answer Track :<br />
Bewertung<br />
• Antworten werden von Hand ausgewertet<br />
• Typen (Factoid & List) :<br />
- incorrekt<br />
- not supported<br />
- not exact<br />
- correct<br />
-NIL<br />
• Information Nuggest (Other)<br />
- vitale und nicht vitale Nuggets<br />
13. November 2005 Jansson, Korte, Wozniak
Question-Answer Track :<br />
Bewertung<br />
• Final Score :<br />
0.50 x FactoidAccuracy +<br />
0.25 x ListAveF +<br />
0.25 x OtherAveF<br />
13. November 2005 Jansson, Korte, Wozniak
Question-Answer Track :<br />
Muster<br />
http://trec.nist.gov/data/qa.html<br />
13. November 2005 Jansson, Korte, Wozniak
Danke für die<br />
Aufmerksamkeit!<br />
Noch<br />
Fragen?<br />
13. November 2005 Jansson, Korte, Wozniak 25
Quellenangabe<br />
• Offizielle TREC Homepage http://trec.nist.gov (3. November 2005)<br />
• Information Retrieval Skriptum zur Vorlesung im SS 05, Norbert Fuhr (4.<br />
April 2005)<br />
13. November 2005 Jansson, Korte, Wozniak 26