Handout - Informationssysteme
Handout - Informationssysteme
Handout - Informationssysteme
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Einführung<br />
Internet-Suchmaschinen<br />
1. Einführung<br />
Norbert Fuhr<br />
8. April 2013<br />
Internet-Suche<br />
Informationskompetenz<br />
Suchkompetenz<br />
Information Retrieval<br />
Web-Suche<br />
Internet-Suche<br />
Beispiele<br />
Facetten der Suche<br />
Suchqualität
Produktsuche in Internet-Shops<br />
Intranet-Suche<br />
Suche in Online-Publikationen<br />
Suche in Digitale Bibliotheken
Multimedia -Suche<br />
Facetten der Suche<br />
Sprache<br />
Beispiel: cross-linguale Suche in Google<br />
Facetten der Suche<br />
Struktur<br />
Beispiel: XML-Retrieval<br />
Facetten der Suche<br />
Medien<br />
Beispiel:Ähnlichkeitssuche auf Bildern
Facetten der Suche<br />
Objekte<br />
Beispiel: Personensuche mit 123people<br />
Facetten der Suche<br />
statische/dynamische Inhalte<br />
Beispiel: Twitter-Suche<br />
Facetten der Suche<br />
Suchqualität<br />
◮ Sprache: monolingual, cross-lingual, multilingual<br />
◮ Struktur: atomar, Felder, baumartig (z.B. XML), Graph (z.B.<br />
Web)<br />
◮ Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video,<br />
3D,. . .<br />
◮ Objekte: Produkte, Personen, Firmen<br />
◮ statische/dynamische Inhalte<br />
gefunden (GEF)<br />
¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />
£ £ £ £ £ £ £ £ £ £<br />
¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />
£ £ £ £ £ £ £ £ £ £<br />
¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />
£ £ £ £ £ £ £ £ £ £<br />
¡ ¡ ¡ ¡ ¡ ¡<br />
¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />
£ £ £ £ £ £ £ £ £ £<br />
¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤<br />
¥ ¥ ¥ ¡ ¥ ¡ ¥ ¡ ¥ ¡ ¥ ¡ ¥<br />
¡<br />
¡ ¡ ¡ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />
£ £ £ £ £ £ £ £ £ £<br />
¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤<br />
¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥<br />
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />
¡<br />
¡ ¡ ¡ ¢ ¢ ¢ ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¡ £ ¡ £ ¡ £ ¡ £ ¡ ¤ ¡<br />
¤ ¡ ¤ ¡ ¤ ¤ ¤ ¤ ¤<br />
¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥<br />
¡<br />
¤ ¤ ¤ ¤ ¤ ¤ ¤<br />
¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¢ ¢ ¡ ¡ ¡ ¡<br />
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ £ £ £ £ £ £ £ £ £ £<br />
¤<br />
¡ ¡ ¡ ¡ ¢ ¢ ¢ ¢ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤ ¢ ¢ ¢ ¢ ¢ ¢ ¡ ¡ £ £ £ £ £ £ £ £ £ £ ¡ ¡ ¡ ¡ ¡ ¡<br />
¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤ £ £ £ £ £ £ £ £ £ £ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />
¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />
£ £ £ £ £ £ £ £ £ £<br />
¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤<br />
¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥<br />
¡<br />
relevant (REL)<br />
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />
Kollektion
Retrievalmaße<br />
Precision p:<br />
GEF: Menge der gefundenen Antwortdokumente<br />
REL: Menge der relevanten Dokumente in der Datenbank<br />
Anteil der relevanten an den gefundenen<br />
Recall r: Anteil der gefundenen an den relevanten<br />
p =<br />
|REL ∩ GEF |<br />
|GEF |<br />
r =<br />
|REL ∩ GEF |<br />
|REL|<br />
Beispiel:<br />
20 relevante Dokumente zur aktuellen Anfrage.<br />
System liefert 10 Dokumente, von denen 8 relevant sind.<br />
Precision: p = 8/10 = 0.8<br />
Recall: r = 8/20 = 0.4<br />
Informationskompetenz<br />
Informationskompetenz - 6 Schritte<br />
Implizierte Fähigkeiten<br />
Benachbarte Kompetenzen<br />
Information/Wissen als Entscheidungsgrundlage<br />
”People’s actions are based more on what they believe than on<br />
what is objectively true”<br />
[Bandura, 1997; Pajares, 2002].<br />
“What you see is all there is (WYSIATI)”<br />
(Entscheidung allein aufgrund der vorhandenen, unzureichenden<br />
Information)<br />
(Kahneman, 2011: Thinking fast and slow)<br />
→ Informationskompetenz als notwendige Fähigkeit, um sich<br />
ausreichende Entscheidungsgrundlage zu verschaffen<br />
Informationskompetenz - 6 Schritte<br />
1. Aufgabendefinition<br />
◮ Definiere das Informationsproblem<br />
◮ Identifiziere das Informationsbedürfnis<br />
2. Informations-Beschaffungs-Strategien<br />
◮ Bestimme alle möglichen Quellen<br />
◮ Wähle die besten Quellen aus<br />
3. Lokalisierung und Zugriff<br />
◮ Lokalisiere die Quellen (intellektuell und physisch)<br />
◮ Finde die Information innerhalb der Quelle<br />
4. Benutze die Information<br />
◮ Anschauen (z.B. lesen, hören, betrachten, anfassen)<br />
◮ Extrahiere die relevante Information<br />
5. Synthese<br />
◮ Organisiere die Information aus verschiedenen Quellen<br />
◮ Prozessiere/Präsentiere die Information<br />
6. Bewertung<br />
◮ Beurteile das Produkt (Effektivität)<br />
◮ Beurteile den Prozess (Effizienz)
Implizierte Fähigkeiten<br />
Benachbarte Kompetenzen<br />
1. Aufgabendefinition<br />
◮ Informationsbedarf erkennen<br />
2. Informations-Beschaffungs-Strategien<br />
◮ Kenntnis von Strategien<br />
◮ Kenntnis von Quellen<br />
3. Lokalisierung und Zugriff<br />
◮ Lokalisierung von Information<br />
◮ zielgerichtete Selektion von Information<br />
4. Benutze die Information<br />
◮ Organisation von Information<br />
5. Synthese<br />
◮ zweckoptimierte Verarbeitung/Präsentation<br />
6. Bewertung<br />
◮ kritische Beurteilung von Information<br />
◮ Bibliothekskompetenz<br />
◮ Computerkompetenz<br />
◮ Digitalkompetenz (Fähigkeit,über Computer dargestellte<br />
Informationen unterschiedlicher Formate verstehen und<br />
anwenden zu können)<br />
◮ Internet-Kompetenz<br />
◮ Suchkompetenz<br />
◮ Kommunikationskompetenz<br />
◮ Lesekompetenz<br />
◮ Medienkompetenz<br />
◮ Schreibkompetenz<br />
Suchkompetenz<br />
Suchbarkeit<br />
Linguistische Funktionen<br />
Anfragesprache<br />
Ranking<br />
Suchtaktiken und Strategien<br />
Suchkompetenz<br />
◮ Aufbau einer Web-Suchmaschine<br />
◮ Suchbarkeit<br />
◮ Linguistische Funktionen<br />
◮ Anfragesprache<br />
◮ Ranking<br />
◮ Suchtaktiken und Strategeme
Aufbau einer Web-Suchmaschine<br />
Basiskomponenten einer Web-Suchmaschine<br />
Suchbarkeit<br />
Welche Dokumente können überhaupt gefunden werden?<br />
Crawler Sammelt Webseiten, interagiert mit Webservern beim<br />
Dokumentzugriff, folgt Links zu neuen Quellen<br />
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiert<br />
die Dokumente<br />
Datenbank Effiziente Speicherung der extrahierten und<br />
aufbereiteten Daten (z.B. in einer Datenbank mit<br />
invertierten Listen)<br />
Searcher Entgegenname von Anfragen, sucht in der Datenbank<br />
nach den passenden Antworten<br />
◮ Zugriff:<br />
◮ öffentlich zugänglich<br />
◮ verlinkt<br />
◮ durch robots.txt erlaubt<br />
◮ keine Datenbankinhalte (außer wenn verlinkt)<br />
◮ Aktualität<br />
◮ Dokumentformat<br />
◮ nur Texte (kein Faksimile, andere Medien nur über Text)<br />
◮ keine exotischen Dokumentformate<br />
◮ keine Sprachübersetzung
Suchkompetenz - linguistische Funktionen<br />
Wortnormalisierung<br />
Suchkompetenz - linguistische Funktionen<br />
Patent US20090259643 ”normalizing query words in web search”<br />
Wortnormalisierung Fuhr – fuhr, Schuss – Schuß, colour – color,<br />
meta tag – meta-tag – metatag – meta tag’s<br />
Grundformreduktion Häuser – Hauses – Hause – Haus, Duisburg –<br />
Duisburgs, ¬ Duisburger<br />
Nominalphrasen ”information retrieval”, ”retrieval * information”<br />
Komposita Einfamilienhaus, Reihenendhaus, Doppelhaushälfte<br />
Synonyme Handy Mobiltelefon Smartphone / ∼handy<br />
Anfragesprache<br />
◮ UND, ODER, Negation<br />
handy -vertrag<br />
◮ Zahlenbereiche: 100..200 EURO<br />
◮ Facetten: Objekttyp (Bilder/Maps/Videos/News/Shopping/..),<br />
Standort, Sprache, Zeitraum<br />
◮ site:, link:, filetype:,<br />
related:<br />
link:uni-due.de -site:uni-due.de<br />
◮ inurl:, intitle:, intext:,<br />
inanchor:<br />
duisburg -intext:duisburg<br />
Ranking<br />
Faktoren, die eine Seite nach oben bringen<br />
◮ Suchbegriffe kommen häufig in der Seite vor<br />
◮ Suchbegriffe kommen in Ankertexten vor<br />
◮ Page rank<br />
◮ Nutzer-Klicks: fremde, eigene, Freunde (Google+)<br />
◮ Diversität<br />
(Faktoren werden als Merkmale in einem learning to rank-Ansatz<br />
verwendet, auf Klick-Daten trainiert)<br />
Search engine optimization:<br />
Maßnahmen, eine Seite nach oben zu bringen<br />
aber: Web spam
Suchtaktiken und Strategien<br />
Taktiken:<br />
Monitoring ”Tactics to keep the search on track and efficient”<br />
Strukturelle Taktiken auf der Menge der potenziellen Antworten<br />
Suchformulierung verbreitern/einengen, viele/wenige Terme<br />
Term-Taktiken Auswahl/Variation der Suchterme<br />
Ideen-Taktiken offene Suchmöglichkeiten/Variation<br />
Information Retrieval<br />
Definition IR<br />
Syntax, Semantik und Pragmatik<br />
Daten — Information — Wissen<br />
Rahmenarchitektur für IR-Systeme<br />
Strategie: Plan zu Durchführung einer komplexen Suche<br />
Internetsuche vs. klassischen Datenbanksuche<br />
Information Retrieval<br />
◮ Schwierigkeit, passende Anfrage zu formulieren<br />
◮ iterative Anfrageformulierung (abhängig von Antworten)<br />
◮ viele Antworten, aber wenige davon relevant<br />
◮ Rangordnung der Antworten (statt Antwortmenge)<br />
◮ Repräsentation des Inhalts von Dokumenten inadäquat /<br />
unsicher<br />
Information Retrieval (IR) beschäftigt sich mit Vagheit und<br />
Unsicherheit in <strong>Informationssysteme</strong>n<br />
→ Grundlage der Internetsuche<br />
1950er frühe Arbeiten<br />
ab 1960 Gerard Salton (Harvard, Cornell) als populärer Pionier<br />
1962 Online-<strong>Informationssysteme</strong><br />
1991 WAIS (Wide area Information System): verteilte<br />
Suche im Internet<br />
1993 WWW<br />
1994 Webcrawler als erste Internet-Suchmaschine
Vagheit und Unsicherheit<br />
IR = inhaltsorientierte Suche<br />
Vagheit: Benutzer kann seinen Informationswunsch nicht<br />
präzise spezifizieren<br />
◮ vage Anfragebedingungen<br />
◮ iterative Frageformulierung<br />
Unsicherheit System besitzt unsicheres (unzureichendes) Wissen<br />
über den Inhalt der verwalteten Objekte<br />
◮ unsichere Repräsentation<br />
( fehlerhafte Antworten)<br />
◮ unvollständige Repräsentation<br />
( fehlende Antworten)<br />
(engere Definition)<br />
Suche auf verschiedenen Abstraktionsstufen:<br />
◮ Syntax<br />
◮ Semantik<br />
◮ Pragmatik<br />
Syntax, Semantik und Pragmatik bei Texten<br />
Bildersuche auf der Syntaktischen Ebene<br />
Bild als Pixelmatrix mit Farbwerten<br />
“Willkommen beim Fachgebiet <strong>Informationssysteme</strong>. Schwerpunkte<br />
unserer Arbeit sind Information Retrieval, Digitale Bibliotheken<br />
und Web-basierte <strong>Informationssysteme</strong>, wobei wir insbesondere<br />
Nutzer-orientierte Forschungsansätze verfolgen.“<br />
1. Konturen<br />
Syntax: ’Forschungsansatz’ no match<br />
Semantik ’Forschungsschwerpunkt’ match<br />
Pragmatik ’potenzielle Kooperationspartner für Entwicklung<br />
multimedialer <strong>Informationssysteme</strong>’?
Syntaktische Ebene: 2. Texturen<br />
Syntaktische Ebene: 3. Farbe<br />
Häufigkeit/räumliche Verteilung von Pixelfarben<br />
d001 d056 d095 d020<br />
Textures:<br />
Muster im Grauwert-Bild<br />
strukturelle und/oder statistische<br />
Muster<br />
d014 d006 d003 d004<br />
d087 d005 d111 d066<br />
d011 d103 d049 d015<br />
Bildersuche: Semantische Ebene<br />
Objekte im Bild(+ räumliche Anordnung)<br />
Beispiel: Google Bildersuche nach’kangaroo’<br />
Bildersuche: Pragmatische Ebene<br />
Bedeutung eines Bildes / durch das Bild illustriertes Thema<br />
A40-Ausbaupläne liegen weiter auf Eis<br />
(basiert auf Textsuche im Dateinamen und der Bildunterschrift)<br />
◮ Themen sind sehr subjektiv<br />
◮ Aber die pragmatische Ebene ist wichtig für viele<br />
Anwendungen
Syntax, Semantik und Pragmatik<br />
Daten — Information — Wissen<br />
Suche auf verschiedenen Abstraktionsstufen:<br />
Syntax Dokument als Folge von Symbolen<br />
(z.B. Zeichenkettensuche in Texten,<br />
Farbe/Textur/Kontur in Bildern)<br />
Semantik Bedeutung eines Dokumentes<br />
(z.B. Textsemantik, in einem Bild vorkommende<br />
Objekte)<br />
Pragmatik Nutzung eines Dokumentes (Zweck)<br />
(z.B.: Löst das Dokument mein Problem? Was ist die<br />
Aussage des Textes / Bildes?)<br />
IR beschäftigt sich mit der Semantik und Pragmatik von<br />
Dokumenten<br />
Information vs. Wissen<br />
Wissen zur Entscheidungsunterstützung<br />
◮ Wissen ist die Teilmenge von Information, die von jemandem<br />
in einer konkreten Situation zur Lösung von Problemen<br />
benötigt wird<br />
(und häufig nicht vorhanden ist)<br />
◮ Nach Wissen wird in externen Quellen gesucht.<br />
Daten<br />
Information<br />
Wissen<br />
Entscheidung<br />
Nützlichkeit<br />
◮ Die Transformation von Information in Wissen ist ein<br />
Mehrwert erzeugender Prozess
Rahmenarchitektur für IR-Systeme<br />
Beispiel für ein Textdokument<br />
Informations−<br />
bedürfnis<br />
fiktives/<br />
reales<br />
Objekt<br />
Frage−<br />
Repräsentation<br />
Objekt−<br />
Repräsentation<br />
Frage−<br />
Beschreibung<br />
Objekt−<br />
Beschreibung<br />
Vergleich<br />
Ergebnisse<br />
Objekt:<br />
Experiments with Indexing Methods.<br />
The analysis of 25 indexing algorithms has not produced consistent<br />
retrieval performance. The best indexing technique for retrieving<br />
documents is not known.<br />
Repräsentation:<br />
(experiment, index, method, analys, index, algorithm, produc,<br />
consistent, retriev, perform, best, index, techni, retriev, document,<br />
know)<br />
Beschreibung:<br />
{(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1),<br />
(produc,1), (consistent,1), (retriev,1), (perform,1), (best,1),<br />
(techni,1), (retriev,1), (document,1), (know,1)}<br />
fiktives/<br />
reales<br />
Objekt<br />
Objekt−<br />
Repräsentation<br />
Objekt−<br />
Beschreibung<br />
Beispiel für Textsuche<br />
Bezug zu den Vorlesungskapiteln<br />
Evaluierung<br />
Frage: “What is the best indexing algorithm?“<br />
Repräsentation: (best index algorithm)<br />
Beschreibung: best ∧ index ∧ algorithm<br />
Informations−<br />
bedürfnis<br />
Frage−<br />
Repräsentation<br />
Frage−<br />
Beschreibung<br />
Informations−<br />
bedürfnis<br />
Frage−<br />
Repräsentation<br />
Frage−<br />
Beschreibung<br />
Wissensrepräsentation<br />
Vergleich<br />
Ergebnisse<br />
fiktives/<br />
reales<br />
Objekt<br />
Objekt−<br />
Repräsentation<br />
Objekt−<br />
Beschreibung<br />
Retrievalmodelle