23.11.2012 Aufrufe

Schriftliche Ausarbeitung zum Referat - Universität Konstanz

Schriftliche Ausarbeitung zum Referat - Universität Konstanz

Schriftliche Ausarbeitung zum Referat - Universität Konstanz

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

1. Einleitung<br />

1.1 Motivation<br />

Der überwältigende Erfolg des World Wide Web ist zugleich auch die Ursache eines seiner<br />

größten derzeitigen Probleme: Die ständig wachsende Informationsmenge wird zunehmend<br />

unüberschaubar und kann mit herkömmlichen Navigations- und Suchmethoden nicht mehr<br />

umfassend und effizient erschlossen werden. Bei diesen Methoden (überwiegend<br />

Schlüsselwortsuche und benutzergesteuertes Browsing) wird das Web üblicherweise als<br />

verlinkte Sammlung unstrukturierter Dokumente angesehen. Tatsächlich nimmt jedoch die<br />

Zahl strukturierter und semi-strukturierter Datenquellen im WWW, die beispielsweise<br />

Produktinformationen, Wirtschafts- und wissenschaftliche Informationen enthalten, ständig<br />

zu. Bei der manuellen Erschließung derartiger Quellen bzw. der Erschließung mittels<br />

Indexierung und Schlüsselwortsuche bleibt deren zugrundeliegende Struktur allerdings<br />

weitgehend ungenutzt. Ein sehr viele effizientere Nutzung wäre möglich, wenn komplexe<br />

Abfragen an die Datenquellen abgesetzt werden könnten.<br />

Ferner ist der Benutzer bisher meist gezwungen, auf jede Datenquelle manuell zuzugreifen.<br />

Das bedeutet, dass er über eine Liste möglicher Quellen verfügen und entscheiden muss,<br />

welche davon er benutzen möchte. Anschließend muss er mit jeder Quelle einzeln<br />

interagieren und die Informationen aus verschiedenen Quellen manuell kombinieren. Neben<br />

der Erschwernis für den menschlichen Nutzer betrifft dies insbesondere auch die<br />

automatisierte Informationsgewinnung: Die Erstellung und Wartung von maßgeschneiderten<br />

Parsingprogrammen für eine Vielzahl sich häufig ändernder Websites dürfte selten mit<br />

lohnendem Aufwand zu realisieren sein.<br />

Ein wesentlicher Schritt auf dem Weg zu einer effizienten Informationsgewinnung im WWW<br />

wäre daher die Nutzung der Daten in den Quellen zur Beantwortung komplexer Anfragen<br />

kombiniert mit der Bereitstellung einer einheitlichen, zentralen Schnittstelle für alle (in Frage<br />

kommenden) Informationsquellen. Dies setzt jedoch die Integration verschiedener<br />

Datenquellen im Web voraus.[Levy, Rajaraman, Ordille 1996] S. 1f<br />

1.2 Problematik<br />

Die bei der Integration auftretenden Schwierigkeiten sind v. a. mit der großen Heterogenität<br />

der Web-Datenquellen verbunden. Im wesentlichen stellen sich folgende Probleme<br />

[Wiederhold 92]:<br />

Heterogenität bei der Repräsentation und Struktur der Daten (Data Mismatch):<br />

Hierbei können u. a. folgende Fälle unterschieden werden:<br />

- Unterschiede bei der Benennung eines Realweltgegenstandes:<br />

Beispiel: Dasselbe Buch wird einer Quelle unter Alan Turing: The Enigma<br />

(Referenz für Leser) und in einer anderen unter QA29.T8H63 (Referenz für<br />

Bibliothekare) geführt.<br />

- Unterschiedliche Konzeptualisierungen in verschiedenen Quellen:<br />

Dabei handelt es sich häufig um einen unterschiedlichen Abdeckungsgrad in<br />

zeitlicher, räumlicher oder sonstiger inhaltlicher Hinsicht. Insbesondere bei der<br />

2

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!