30.01.2014 Aufrufe

Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...

Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...

Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Arbeit gesehen werden, neue Standards mit einem in der gegeben Arbeit zu<br />

vergleichen. Die Kriterien sind so ausgewählt, dass sie auch in den nächsten<br />

Jahren einen Großteil der Bedürfnisse abdecken und damit auch einen Vergleich<br />

von neuen Standards vereinfachen. Es werden einige der derzeit wichtigsten<br />

Standards ausgewählt. Diese Auswahl wurde vom Autor so getroffen,<br />

dass eine möglichst breite Auswahl verfügbar ist. Anschließend wurden diese<br />

miteinander verglichen. Da<strong>für</strong> werden zuerst diese Standards allgemein beschrieben,<br />

daran anschließend werden die erwähnten Kriterien herangezogen.<br />

Zuerst werden die Werke einzeln bewertet, im Anschluss daran werden<br />

sie in den zentralen Punkten miteinander verglichen. Damit wird entweder<br />

ein kompletter Überblick über die Werke gewährleistet oder der Nutzer<br />

kann die <strong>für</strong> sich selber relevanten Kriterien entnehmen. Als abschließendes<br />

Resultat wird eine Übersicht präsentiert, in welcher auf einen Blick die <strong>für</strong> die<br />

ausgewählten Kriterien passendsten Standards gezeigt werden.<br />

Elisabeth Weigl<br />

Mitigating the Bias of Retrieval Systems by Corpus Splitting - An Evaluation in<br />

the Patent Retrieval Domain<br />

Studium: Masterstudium Information & Knowledge Management<br />

Betreuer: Ao.Univ.Prof. Dr. Andreas Rauber<br />

Typical information retrieval systems retrieve a low number of documents that<br />

are preferably close to the query. In contrast to that stands the patent domain<br />

as a recall oriented field where missing one single document in the patentability<br />

process can lead to costly law suits afterwards if a granted patent is<br />

invalidated. However, research showed that retrieval engines cannot find<br />

certain documents because they show a bias towards other document<br />

characteristics. Thus the goal of this work is to look further into one approach<br />

that deals with retrievability of documents and splits a single corpus in two<br />

corpora, one containing high, the other low findable documents. For this, the<br />

experimental setup has to be provided and the split done again. Afterwards<br />

merging strategies that combine the low and high result sets in different ways<br />

are tested with the presumption that low retrievable documents are now<br />

higher ranked and thus improve recall. This is tested with several models of<br />

three different retrieval engines, namely Terrier, Lemur and Solr. Evaluation<br />

shows that in most cases the models do not seem to be suitable for this<br />

merging, regarding recall and MAP values. Only precision at high rank seems<br />

to improve in general. The few models that perform better and which<br />

attributes make them more suitable are explained.<br />

30

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!