Schriftliche Ausarbeitung zum Referat - Universität Konstanz

Weitere Magazine

Empfehlungen

Info

1. Einleitung 1.1 Motivation Der überwältigende Erfolg des World Wide Web ist zugleich auch die Ursache eines seiner größten derzeitigen Probleme: Die ständig wachsende Informationsmenge wird zunehmend unüberschaubar und kann mit herkömmlichen Navigations- und Suchmethoden nicht mehr umfassend und effizient erschlossen werden. Bei diesen Methoden (überwiegend Schlüsselwortsuche und benutzergesteuertes Browsing) wird das Web üblicherweise als verlinkte Sammlung unstrukturierter Dokumente angesehen. Tatsächlich nimmt jedoch die Zahl strukturierter und semi-strukturierter Datenquellen im WWW, die beispielsweise Produktinformationen, Wirtschafts- und wissenschaftliche Informationen enthalten, ständig zu. Bei der manuellen Erschließung derartiger Quellen bzw. der Erschließung mittels Indexierung und Schlüsselwortsuche bleibt deren zugrundeliegende Struktur allerdings weitgehend ungenutzt. Ein sehr viele effizientere Nutzung wäre möglich, wenn komplexe Abfragen an die Datenquellen abgesetzt werden könnten. Ferner ist der Benutzer bisher meist gezwungen, auf jede Datenquelle manuell zuzugreifen. Das bedeutet, dass er über eine Liste möglicher Quellen verfügen und entscheiden muss, welche davon er benutzen möchte. Anschließend muss er mit jeder Quelle einzeln interagieren und die Informationen aus verschiedenen Quellen manuell kombinieren. Neben der Erschwernis für den menschlichen Nutzer betrifft dies insbesondere auch die automatisierte Informationsgewinnung: Die Erstellung und Wartung von maßgeschneiderten Parsingprogrammen für eine Vielzahl sich häufig ändernder Websites dürfte selten mit lohnendem Aufwand zu realisieren sein. Ein wesentlicher Schritt auf dem Weg zu einer effizienten Informationsgewinnung im WWW wäre daher die Nutzung der Daten in den Quellen zur Beantwortung komplexer Anfragen kombiniert mit der Bereitstellung einer einheitlichen, zentralen Schnittstelle für alle (in Frage kommenden) Informationsquellen. Dies setzt jedoch die Integration verschiedener Datenquellen im Web voraus.[Levy, Rajaraman, Ordille 1996] S. 1f 1.2 Problematik Die bei der Integration auftretenden Schwierigkeiten sind v. a. mit der großen Heterogenität der Web-Datenquellen verbunden. Im wesentlichen stellen sich folgende Probleme [Wiederhold 92]: Heterogenität bei der Repräsentation und Struktur der Daten (Data Mismatch): Hierbei können u. a. folgende Fälle unterschieden werden: - Unterschiede bei der Benennung eines Realweltgegenstandes: Beispiel: Dasselbe Buch wird einer Quelle unter Alan Turing: The Enigma (Referenz für Leser) und in einer anderen unter QA29.T8H63 (Referenz für Bibliothekare) geführt. - Unterschiedliche Konzeptualisierungen in verschiedenen Quellen: Dabei handelt es sich häufig um einen unterschiedlichen Abdeckungsgrad in zeitlicher, räumlicher oder sonstiger inhaltlicher Hinsicht. Insbesondere bei der 2
Verwendung gleichlautender Begriffe in unterschiedlichen Domänen ist aber auch eine völlig unterschiedliche Semantik denkbar. Beispiel: Zwei Online-Shops verwenden den Begriff PC. In einem Fall sind jedoch alle Personal Computer gemeint, während die andere Quelle unter dem Begriff nur IBM kompatible PCs versteht. - Unterschiedlicher Grad der Granularität Beispiel: Quelle mit Familieneinkommen (im Zusammenhang mit Besteuerung) vs. Quelle mit persönlichem Einkommen (im Zusammenhang mit Berufstätigkeit) Überlappungen und Inkonsistenzen zwischen mehreren Datenquellen: Falls zur Beantwortung einer Anfrage Antworten aus mehreren Datenquellen kombiniert werden sollen, tritt zusätzlich das Problem der inhaltlichen Überlappungen und Inkonsistenzen zwischen verschiedenen Quellen auf. Unterschiede in den inhaltlichen Antwortfähigkeiten Auf manchen Quellen sind eventuell nur Teile der Abfragen möglich, die auf anderen Quellen abgesetzt werden können bzw. eine Abfrage ist nur möglich, wenn die Anfrage bestimmte Schlüsselinhalte enthält. Unterschiede in den Zugriffssprachen und der technischen Verfügbarkeit Hierzu zählen insbesondere Zugriffsprotokolle, Zugriffsgeschwindigkeit und zeitliche Verfügbarkeit. 2. Grundsätzlicher Lösungsansatz: Mittelschicht Der grundlegende Ansatz zur Lösung des Datenintegrationsproblems im Web ist ein „Mehrschichten-Konzept“ (multitier approach). Das bedeutet, dass unter Abkehr von der klassischen Client/Server-Architektur in Datenbanksystemen eine zusätzliche Schicht zwischen den Datenquellen und den abfragenden Systemen eingezogen wird (Abbildung 1). Client Client Client Abbildung 1: Lösungskonzept: Mittelschicht Mittelschicht Server Server Server 3
Seite 1: Gliederung Schriftliche Ausarbeitun
Seite 5 und 6: Anfragen ggf. in mehrere Teilanfrag
Seite 7 und 8: 3.3 Konzept Ein Wrapper ist immer g
Seite 9 und 10: Nachteile des Wrappings - Schlechte
Seite 11 und 12: Testen und Verpacken (Testing and P
Seite 13 und 14: von Modellen, Schemata und Verfahre
Seite 15 und 16: Ergebnisse beseitigt werden. Finden
Seite 17 und 18: 4.5 Information Manifold - Beispiel
Seite 19 und 20: Unterhaltung Für die Unterhaltung

Schriftliche Ausarbeitung zum Referat - Universität Konstanz

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?