23.12.2013 Aufrufe

e p i l o g - Fakultät für Informatik, TU Wien

e p i l o g - Fakultät für Informatik, TU Wien

e p i l o g - Fakultät für Informatik, TU Wien

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Bernhard Wachter<br />

Klassifizierung von Web-Dokumenten<br />

Studium: Masterstudium Software Engineering und Internet Computing<br />

BetreuerIn: Ao.Univ.Prof. Dr. Andreas Rauber<br />

Abstrakt: Bei der Web-Archivierung werden Web-Dokumente gesammelt<br />

und dauerhaft abgelegt. Die entstehen Archive wachsen rasant und<br />

enthalten auch sensitive Daten. Um Missbrauch vorzubeugen müssen<br />

sensitive Daten identifiziert und gegen unbefugte Zugriffe gesichert werden.<br />

Dadurch werden Anwendungsfälle denkbar in welchen auf Basis von<br />

sensitiven Daten Auswertungen vorgenommen werden ohne dabei die Daten<br />

selbst preis zugeben. Bei der Genre-Analyse werden Web-Dokumente<br />

aufgrund ihrer Form sowie des Stils einer Seite unabhängig vom eigentlichen<br />

Thema klassifiziert. Zielsetzung dieser Arbeit ist es, diese Methode<br />

dahingehend zu erweitern, dass es einem Archivierungssystem von Web-<br />

Dokumenten möglich ist, private und öffentliche Elemente von Web-<br />

Dokumenten unterscheiden zu können. Bisherige Ansätze in diesem Bereich<br />

agieren ausschließlich auf Dokumentenebene. Web-Dokumente enthalten<br />

jedoch häufig mehrere unterschiedliche Genres. Diese Arbeit entwickelt<br />

einen Ansatz zur Erkennung von zusammengehörenden Textsegmenten,<br />

welcher Absätze und gegebenenfalls damit verbundene Genre-Übergänge<br />

erkennt. Darauf aufbauend wird ein Ansatz <strong>für</strong> die Klassifizierung von<br />

privaten und öffentlichen Elementen von Web-Dokumenten auf Dokumentenund<br />

Absatzebene vorgestellt.<br />

120<br />

Christoph Wastyn<br />

Semantische Abfragen zur Dynamischen Inhaltserstellung<br />

Studium: Masterstudium Medieninformatik<br />

BetreuerIn: Univ.Ass. Dr. Monika Lanzenberger<br />

Abstrakt: Die Organisation von Information durch sogenannte Content<br />

Management Systeme gewinnt im Internet durch die große Zahl an Inhalten<br />

zunehmend an Bedeutung. Durch eine Trennung von Inhalt und Layout<br />

werden RedakteurInnen entlastet, da sich ein System um die technische<br />

Umsetzung der Struktur einer Website kümmert. Während in den letzten<br />

Jahren viele der technischen Entwicklungen des Internet in solchen<br />

Systemen Einzug fanden, sind semantische Dienste in diesem<br />

Zusammenhang noch weitgehend unbekannt. Nach dem Konzept des<br />

semantischen Internet werden Begriffe miteinander in Beziehung gesetzt<br />

und zu einem großen Wissensnetz zusammengefügt, innerhalb dessen<br />

dezentral vorliegende Zusammenhänge erkannt werden können. Würde eine<br />

Seite etwa Tokio als Hauptstadt deklarieren, und eine andere Quelle als<br />

Stadt Japans, so würde sich daraus der Zusammenhang ableiten lassen,<br />

dass Tokio die Hauptstadt Japans sei. Die semantische Vernetzung von<br />

Content Management Systemen würde nicht nur den Zugriff dezentral

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!