Dies Academicus - Johannes Gutenberg-Universität Mainz
Dies Academicus - Johannes Gutenberg-Universität Mainz
Dies Academicus - Johannes Gutenberg-Universität Mainz
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Inhalt der Dissertation<br />
Bei Verfahren zur Inhaltsextraktion (Content Extraction) geht es vereinfacht gesagt darum,<br />
mit algorithmischen Lösungen auf Internetseiten den Hauptinhalt automatisch zu<br />
identifizieren und zu extrahieren. Der Hintergrund ist folgender: Schaut man sich heutzutage<br />
eine Seite im Internet an, stellt man schnell fest, dass der für den Nutzer interessante<br />
Hauptinhalt von vielen weniger wichtigen Informationen umgeben ist. Typische Beispiele<br />
sind Navigationsmenüs, Werbung oder Copyright-Vermerke.<br />
„Uns Menschen erschließt sich in der Regel recht schnell, auf welchen Teil des gesamten<br />
Dokumentes wir unsere Aufmerksamkeit lenken müssen“, sagt Thomas Gottron. Für<br />
einen Computer jedoch ist es schwierig, den Hauptinhalt zu erkennen. „Dennoch ist die<br />
Aufgabenstellung in vielen Anwendungen von großer Relevanz, nämlich immer dann,<br />
wenn ein Programm den Menschen beim Lesen oder Verstehen von Web-Dokumenten<br />
oder bei der Informationssuche unterstützen soll.“ Das können klassische Anwendungen<br />
im Bereich des „Information Retrieval“ sein, wie man sie aus Web-Suchmaschinen<br />
kennt, dazu gehören aber auch Aufgaben wie die Inhaltsanalyse zur Bewertung der<br />
Nutzerfreundlichkeit.<br />
In seiner Arbeit setzte Gottron zunächst viele in anderen Arbeiten lediglich theoretisch beschriebene<br />
Verfahren praktisch um. In einem eigens konzipierten Evaluationsrahmenwerk<br />
konnte er die Verfahren anschließend ausgiebig testen, „und die Ergebnisse hinsichtlich<br />
der Qualität der Inhaltsextraktion erlaubten erstmals, verschiedene Ansätze direkt miteinander<br />
zu vergleichen.“ <strong>Dies</strong>em Vergleich fügte Gottron neue, selbstentwickelte Verfahren<br />
hinzu, die Maßstäbe bezüglich einer möglichst guten Erkennung des Hauptinhaltes einer<br />
Internet-Seite setzten. Ein ebenfalls neues Cluster-Verfahren zur schnellen und zuverlässigen<br />
Gruppierung strukturell ähnlicher Web-Dokumente unterstützt Template-Detection-<br />
Algorithmen. <strong>Dies</strong>e ließen sich damit auf das Anwendungsgebiet der Inhaltsextraktion<br />
übertragen und liefern ebenfalls sehr gute Ergebnisse.<br />
37