e p i l o g - Fakultät für Informatik, TU Wien
e p i l o g - Fakultät für Informatik, TU Wien
e p i l o g - Fakultät für Informatik, TU Wien
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Bernhard Wachter<br />
Klassifizierung von Web-Dokumenten<br />
Studium: Masterstudium Software Engineering und Internet Computing<br />
BetreuerIn: Ao.Univ.Prof. Dr. Andreas Rauber<br />
Abstrakt: Bei der Web-Archivierung werden Web-Dokumente gesammelt<br />
und dauerhaft abgelegt. Die entstehen Archive wachsen rasant und<br />
enthalten auch sensitive Daten. Um Missbrauch vorzubeugen müssen<br />
sensitive Daten identifiziert und gegen unbefugte Zugriffe gesichert werden.<br />
Dadurch werden Anwendungsfälle denkbar in welchen auf Basis von<br />
sensitiven Daten Auswertungen vorgenommen werden ohne dabei die Daten<br />
selbst preis zugeben. Bei der Genre-Analyse werden Web-Dokumente<br />
aufgrund ihrer Form sowie des Stils einer Seite unabhängig vom eigentlichen<br />
Thema klassifiziert. Zielsetzung dieser Arbeit ist es, diese Methode<br />
dahingehend zu erweitern, dass es einem Archivierungssystem von Web-<br />
Dokumenten möglich ist, private und öffentliche Elemente von Web-<br />
Dokumenten unterscheiden zu können. Bisherige Ansätze in diesem Bereich<br />
agieren ausschließlich auf Dokumentenebene. Web-Dokumente enthalten<br />
jedoch häufig mehrere unterschiedliche Genres. Diese Arbeit entwickelt<br />
einen Ansatz zur Erkennung von zusammengehörenden Textsegmenten,<br />
welcher Absätze und gegebenenfalls damit verbundene Genre-Übergänge<br />
erkennt. Darauf aufbauend wird ein Ansatz <strong>für</strong> die Klassifizierung von<br />
privaten und öffentlichen Elementen von Web-Dokumenten auf Dokumentenund<br />
Absatzebene vorgestellt.<br />
120<br />
Christoph Wastyn<br />
Semantische Abfragen zur Dynamischen Inhaltserstellung<br />
Studium: Masterstudium Medieninformatik<br />
BetreuerIn: Univ.Ass. Dr. Monika Lanzenberger<br />
Abstrakt: Die Organisation von Information durch sogenannte Content<br />
Management Systeme gewinnt im Internet durch die große Zahl an Inhalten<br />
zunehmend an Bedeutung. Durch eine Trennung von Inhalt und Layout<br />
werden RedakteurInnen entlastet, da sich ein System um die technische<br />
Umsetzung der Struktur einer Website kümmert. Während in den letzten<br />
Jahren viele der technischen Entwicklungen des Internet in solchen<br />
Systemen Einzug fanden, sind semantische Dienste in diesem<br />
Zusammenhang noch weitgehend unbekannt. Nach dem Konzept des<br />
semantischen Internet werden Begriffe miteinander in Beziehung gesetzt<br />
und zu einem großen Wissensnetz zusammengefügt, innerhalb dessen<br />
dezentral vorliegende Zusammenhänge erkannt werden können. Würde eine<br />
Seite etwa Tokio als Hauptstadt deklarieren, und eine andere Quelle als<br />
Stadt Japans, so würde sich daraus der Zusammenhang ableiten lassen,<br />
dass Tokio die Hauptstadt Japans sei. Die semantische Vernetzung von<br />
Content Management Systemen würde nicht nur den Zugriff dezentral