Schriftliche Ausarbeitung zum Referat - Universität Konstanz
Schriftliche Ausarbeitung zum Referat - Universität Konstanz
Schriftliche Ausarbeitung zum Referat - Universität Konstanz
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1. Einleitung<br />
1.1 Motivation<br />
Der überwältigende Erfolg des World Wide Web ist zugleich auch die Ursache eines seiner<br />
größten derzeitigen Probleme: Die ständig wachsende Informationsmenge wird zunehmend<br />
unüberschaubar und kann mit herkömmlichen Navigations- und Suchmethoden nicht mehr<br />
umfassend und effizient erschlossen werden. Bei diesen Methoden (überwiegend<br />
Schlüsselwortsuche und benutzergesteuertes Browsing) wird das Web üblicherweise als<br />
verlinkte Sammlung unstrukturierter Dokumente angesehen. Tatsächlich nimmt jedoch die<br />
Zahl strukturierter und semi-strukturierter Datenquellen im WWW, die beispielsweise<br />
Produktinformationen, Wirtschafts- und wissenschaftliche Informationen enthalten, ständig<br />
zu. Bei der manuellen Erschließung derartiger Quellen bzw. der Erschließung mittels<br />
Indexierung und Schlüsselwortsuche bleibt deren zugrundeliegende Struktur allerdings<br />
weitgehend ungenutzt. Ein sehr viele effizientere Nutzung wäre möglich, wenn komplexe<br />
Abfragen an die Datenquellen abgesetzt werden könnten.<br />
Ferner ist der Benutzer bisher meist gezwungen, auf jede Datenquelle manuell zuzugreifen.<br />
Das bedeutet, dass er über eine Liste möglicher Quellen verfügen und entscheiden muss,<br />
welche davon er benutzen möchte. Anschließend muss er mit jeder Quelle einzeln<br />
interagieren und die Informationen aus verschiedenen Quellen manuell kombinieren. Neben<br />
der Erschwernis für den menschlichen Nutzer betrifft dies insbesondere auch die<br />
automatisierte Informationsgewinnung: Die Erstellung und Wartung von maßgeschneiderten<br />
Parsingprogrammen für eine Vielzahl sich häufig ändernder Websites dürfte selten mit<br />
lohnendem Aufwand zu realisieren sein.<br />
Ein wesentlicher Schritt auf dem Weg zu einer effizienten Informationsgewinnung im WWW<br />
wäre daher die Nutzung der Daten in den Quellen zur Beantwortung komplexer Anfragen<br />
kombiniert mit der Bereitstellung einer einheitlichen, zentralen Schnittstelle für alle (in Frage<br />
kommenden) Informationsquellen. Dies setzt jedoch die Integration verschiedener<br />
Datenquellen im Web voraus.[Levy, Rajaraman, Ordille 1996] S. 1f<br />
1.2 Problematik<br />
Die bei der Integration auftretenden Schwierigkeiten sind v. a. mit der großen Heterogenität<br />
der Web-Datenquellen verbunden. Im wesentlichen stellen sich folgende Probleme<br />
[Wiederhold 92]:<br />
Heterogenität bei der Repräsentation und Struktur der Daten (Data Mismatch):<br />
Hierbei können u. a. folgende Fälle unterschieden werden:<br />
- Unterschiede bei der Benennung eines Realweltgegenstandes:<br />
Beispiel: Dasselbe Buch wird einer Quelle unter Alan Turing: The Enigma<br />
(Referenz für Leser) und in einer anderen unter QA29.T8H63 (Referenz für<br />
Bibliothekare) geführt.<br />
- Unterschiedliche Konzeptualisierungen in verschiedenen Quellen:<br />
Dabei handelt es sich häufig um einen unterschiedlichen Abdeckungsgrad in<br />
zeitlicher, räumlicher oder sonstiger inhaltlicher Hinsicht. Insbesondere bei der<br />
2