Folien (PDF)

Darstellung der Methodik in 

TREC und TREC-basierte 

Evaluierung 

Martin Jansson 

Philip Korte 

Lukas Wozniak 

13. November 2005 Jansson, Korte, Wozniak 1

Inhaltsverzeichnis 

• Was ist TREC? 

• Die Ziele der Konferenz 

• Organisation und Teilnehmer 

• Methoden und Mittel 

• Untersuchung eines TRACKs 

• Vorgehen in TREC 


Was ist TREC? 

• Steht für Text REtrieval Conference 

• Wurde 1992 gegründet. 

• Teil des TIPSTER Projektes 

• Wird von dem National Institute of Standards and 

Technology (NIST) mitfinanziert. 


Ziele der Konferenz 

• Nötige Infrastruktur liefern, auf welcher dann die 

Information Retrieval Community ihre Forschungen im 

Bereich des Text Retrieval aufbauen kann. 

• Erleichtern von Forschungsanstrengungen im Bereich IR, 

die auf großen Testmengen aufbauen. 

• Erhöhung des Kommunikationsflusses zwischen 

Forschung, Industrie und Regierung 

• Schnellere Markteinführung neuer Produkte durch Testen 

neuer Forschungsergebnisse auf Alltagstauglichkeit 

• Verbesserung von Evaluierungstechniken und deren 

Anpassung an State-of-the-art Technik 


Ablauf von TREC 

• Zu jeder TREC wird von der NIST eine Menge von 

Dokumenten und Anfragen zur Verfügung gestellt. 

• Diese Dokumentenmenge wird von Experten untersucht. 

Jedes Dokument wird auf Relevanz bezüglich der 

Anfragen bewertet. 

• Die Teilnehmer wenden nun ihre eigenen Retrieval 

Systeme auf die Daten an, und geben der NIST eine 

Liste der Relevantesten gefundenen Dokumente wieder. 

• Nutzung der Pooling Methode zur Auswertung der Daten 


Sonstiges 

• 2003 nahmen 93 Teilnehmer aus 22 Ländern an TREC teil 

• Die erhalteten Ergebnisse werden zusammen mit den Test 

Kollektionen der Allgemeinheit zur Verfügung gestellt. 

• Als Effekt der Konferenz kann vermerkt werden, dass in 

den ersten 6 Jahren von TREC die Retrieval Systeme ihre 

Effektivität ungefähr verdoppelt haben. 

• Große Popularität, da Auseinandersetzng mit 

verschiedenen Sprachen, wie z.B. Chinesisch 


Methoden und Mittel 

• TREC unterscheided zwischen verschiedenen Retrieval 

Arten, den sogenannten TRACKs, oder Topics. 

• Topics bieten normalerweise ein spezifisches Problem, 

welches vom normalen Retrieval leicht abweicht. 

• So gibt es beispielsweise ein Topic, in welche das eigene 

System auf Fragen Antworten liefern muss, wärend ein 

anderes Topic sich mit Spamerkennung auseinandersetzt. 

• Zu jedem Topic (oder Forschungsgebiet) werden 

Kollektionen und Problemstellungen (meistens Anfragen) zur 

Verfügung gestellt, um die Vergleichbarkeit zu 

gewährleisten. 

• In der Geschichte von TREC gab es bisher 13 

verschiedene Topics, von denen dieses Jahr 7 angeboten 

werden. 


Vorgehen in TREC 

• Testbasis 

– Objekte (Dokumente, ... ) 

– Anfragen (Topics) 

– einheitliche Relevanzbeurteilung 

• Chronologische Abfolge 

– Ausgabe der Anfragen 

– Einreichen von Ergebnissen 

– Bekanntgabe der Ergebnisse 


Die Pooling Methode 

• Recall-Abschätzungen werden durch die Pooling 

Methode ermittelt, dadurch werden die IR Verfahren 

vergleichbar 

• Mehrere IR Systeme werden auf den selben 

Dokumtenbestand angewendet 

• Die Ergebnisse mehrerer Systeme zu den gleichen 

Anfragen werden zusammengetragen 

• Starke Überlappungen in den Antwortmengen, machen 

das Verfahren aufwändig! 

• Gemessene Recall Werte i.A. Zu optimistisch, da nur 

untere Schranken fürRelevanz geliefert werden 


Relevanzurteile 

• Sind von entscheidender Wichtigkeit für die 

Testkollektion 

• Ermöglicht Ermittlung von Recall, Precision und 

Fallout 

• Für jedes Topic ist es erforderlich eine Liste von 

relevanten Dokumenten zusammen zu stellen, 

die auf Anfragen geliefert werden sollten 


Topics 

• Sind dazu da, um die wirkliche “Benutzer 

Erfordernis” (user need) nachzuahmen 

• Topics sind von Leuten gemacht worden welche 

sich mit einem Retrieval System beschäftigen 

• Jedes Topic ist auf die selbe standardisierte 

Weise formatiert worden, um Anfragekonstrukte 

zu vereinfachen 


Beispiel eines Topics 

• Beispiel-Topic 

• 

• Tipster Topic Description 

• Number: 066 

• Domain: Science and Technology 

• Natural Language Processing 

• 

• Document will identify a type of natural language processing 

• technology which is being developed or marketed in the U.S. 

• 

• A relevant document will identify a company or institution developing or 

• marketing a natural language processing technology, identify the 

• technology, and identify one or more features of the company‘s product. 

• NLP, translation, language, dictionary, font, software 

• U.S. 

• 


• Beispiel einer Suchanfrage 

• Werden in der TREC-Collection TOPIC‘S genannt 

– 

– Number: 168 

– Topic: Financing AMTRAK 

– Description: 

– A document will adress the role of the Federal Goverment in 

– Financing the operation of National railroad Transportation Coporation 

(AMTRAK) 

– Narrative: A relevant document must provide information on 

– The goverment‘s responsibility to make AMTRAK an economically viabla 

entity. 

– It could also discuss the privatization of AMTRAK as an alternative to 

continuing 

– Goverment subsides given to air and bus transportation with 

– Those provided to AMTRAK would also be relevant. 

– 

– 


Relevanzurteile 

• Relevanzurteile: 

51 0 AP880301-0271 1 

51 0 AP880302-0275 1 

51 0 AP880311-0301 1 

51 0 AP880316-0292 1 

51 0 AP880318-0287 1 

51 0 AP880322-0296 0 

51 0 AP880325-0293 1 

51 0 AP880329-0252 0 

51 0 AP880406-0267 1 

51 0 AP880407-0258 1 

51 0 AP880412-0268 1 

51 0 AP880418-0270 0 

51 0 AP880421-0319 0 

51 0 AP880427-0272 0 

Die 1. Zahl ist die Topic-ID, die 2. Zahl ist zu ignorieren, in der 

3. Spalte ist die Dokument-ID (in allen Fällen aus AP), und die 

letzte Zahl gibt an, ob das Dokument relevant ist (1) oder nicht (0). 


Ergebnisse Trec_Eval 

• Queryid (Num): 1000 

Total number of documents over all queries 

Retrieved: 48491 

Relevant: 49254 

Rel_ret: 10969 

Interpolated Recall - Precision Averages: 

at 0.00 0.7520 

at 0.10 0.4196 

at 0.20 0.2673 

at 0.30 0.2084 

at 0.40 0.1722 

at 0.50 0.1512 

at 0.60 0.1244 

at 0.70 0.1042 

at 0.80 0.0749 

at 0.90 0.0516 

at 1.00 0.0300 

Average precision (non-interpolated) for all rel docs(averaged over queries) 

0.1815 

Precision: 

At 5 docs: 0.4902 

At 10 docs: 0.3997 

At 15 docs: 0.3545 

At 20 docs: 0.3193 

At 30 docs: 0.2738 

At 100 docs: 0.1097 

At 200 docs: 0.0548 

At 500 docs: 0.0219 

At 1000 docs: 0.0110 

R-Precision (precision after R (= num_rel for a query) docs retrieved): 

Exact: 0.2341 


Beispiele für TREC 

Tracks im Jahr 2005 (1) 

• Enterprise Track 

– Erforschung der Suche im Unternehmen, um den 

Kunden bestmöglich zufrieden zu stellen 

• Genomics Track 

– Beschaffung von Genstrukturen, Laborergebnissen und 

Forschungsdokumente 


Beispiele für TREC 

Tracks im Jahr 2005 (2) 

• HARD Track 

– Exakte Wiederbeschaffung von Dokumenten durch 

Wissen über den Benutzer und / oder den 

Suchkontext. Dies wird möglich gemacht durch 

Techniken wie „Passage Retrieval“ und Benutzung 

von zielgerichteter Interaktion mit dem Suchenden 

• Question Answering Track 

– Versuch sich mehr dem „Information Retrieval“ 

statt dem „Document Retrieval“ zu nähern 

• SPAM Track 

– SPAM Filter Verbesserung durch Standard 

Evaluation 


TRACKs : 

Question-Answer Track (’04) 

• QA Track Bestandteil seit 1999 

• Ziel : Antworten statt Dokumentenliste mit 

Antwortmöglichkeiten 

• Frage ist Frageserie, die Informationen sucht. 

• Letzte Teilfrage allgemein : 

“Erzähl mir etwas, dass ich noch nicht wusste.” 

13. November 2005 Jansson, Korte, Wozniak

Question-Answer Track : 

Frageserie 

Bezug der Fragen: 

-Ding 

- Organisation 

-Person 

[- Event (ab 2005)] 

Aufbau (max 10): 

- X Faktenfragen 

- 0-2 Listenfragen 

- 1 “Other” Frage 

(allgemeine Frage) 



Entwicklung 

• Faktenfragen (1999) 

“Wieviele Kalorien hat ein BigMac?” 

• Listenfragen 

“Nenne alle Kaugummisorten” 

• Definitionsfragen (2004) 

“Was ist ein goldener Handschlag?” 



Fragengenerierung 

• „average reader“ szenario als Grundlage 

• Auswertung der Suchmaschinen Logs 

• Assistenten erstellen Fragen zum Thema 

• Suche der Assistenten: Antworten und 

Interessantes Nebenwissen 

(Dokumentenpool ist meistens der 

„AQUANT Corpus of English News Text“) 

• NIST Mitarbeiter erstellen finale Fragen 



Bewertung 

• Antworten werden von Hand ausgewertet 

• Typen (Factoid & List) : 

- incorrekt 

- not supported 

- not exact 

- correct 

-NIL 

• Information Nuggest (Other) 

- vitale und nicht vitale Nuggets 



Bewertung 

• Final Score : 

0.50 x FactoidAccuracy + 

0.25 x ListAveF + 

0.25 x OtherAveF 



Muster 

http://trec.nist.gov/data/qa.html 


Danke für die 

Aufmerksamkeit! 

Noch 

Fragen? 


Quellenangabe 

• Offizielle TREC Homepage http://trec.nist.gov (3. November 2005) 

• Information Retrieval Skriptum zur Vorlesung im SS 05, Norbert Fuhr (4. 

April 2005)

Folien (PDF)

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?