Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...
Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...
Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Arbeit gesehen werden, neue Standards mit einem in der gegeben Arbeit zu<br />
vergleichen. Die Kriterien sind so ausgewählt, dass sie auch in den nächsten<br />
Jahren einen Großteil der Bedürfnisse abdecken und damit auch einen Vergleich<br />
von neuen Standards vereinfachen. Es werden einige der derzeit wichtigsten<br />
Standards ausgewählt. Diese Auswahl wurde vom Autor so getroffen,<br />
dass eine möglichst breite Auswahl verfügbar ist. Anschließend wurden diese<br />
miteinander verglichen. Da<strong>für</strong> werden zuerst diese Standards allgemein beschrieben,<br />
daran anschließend werden die erwähnten Kriterien herangezogen.<br />
Zuerst werden die Werke einzeln bewertet, im Anschluss daran werden<br />
sie in den zentralen Punkten miteinander verglichen. Damit wird entweder<br />
ein kompletter Überblick über die Werke gewährleistet oder der Nutzer<br />
kann die <strong>für</strong> sich selber relevanten Kriterien entnehmen. Als abschließendes<br />
Resultat wird eine Übersicht präsentiert, in welcher auf einen Blick die <strong>für</strong> die<br />
ausgewählten Kriterien passendsten Standards gezeigt werden.<br />
Elisabeth Weigl<br />
Mitigating the Bias of Retrieval Systems by Corpus Splitting - An Evaluation in<br />
the Patent Retrieval Domain<br />
Studium: Masterstudium Information & Knowledge Management<br />
Betreuer: Ao.Univ.Prof. Dr. Andreas Rauber<br />
Typical information retrieval systems retrieve a low number of documents that<br />
are preferably close to the query. In contrast to that stands the patent domain<br />
as a recall oriented field where missing one single document in the patentability<br />
process can lead to costly law suits afterwards if a granted patent is<br />
invalidated. However, research showed that retrieval engines cannot find<br />
certain documents because they show a bias towards other document<br />
characteristics. Thus the goal of this work is to look further into one approach<br />
that deals with retrievability of documents and splits a single corpus in two<br />
corpora, one containing high, the other low findable documents. For this, the<br />
experimental setup has to be provided and the split done again. Afterwards<br />
merging strategies that combine the low and high result sets in different ways<br />
are tested with the presumption that low retrievable documents are now<br />
higher ranked and thus improve recall. This is tested with several models of<br />
three different retrieval engines, namely Terrier, Lemur and Solr. Evaluation<br />
shows that in most cases the models do not seem to be suitable for this<br />
merging, regarding recall and MAP values. Only precision at high rank seems<br />
to improve in general. The few models that perform better and which<br />
attributes make them more suitable are explained.<br />
30