07.03.2014 Aufrufe

Handout - Informationssysteme

Handout - Informationssysteme

Handout - Informationssysteme

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Einführung<br />

Internet-Suchmaschinen<br />

1. Einführung<br />

Norbert Fuhr<br />

8. April 2013<br />

Internet-Suche<br />

Informationskompetenz<br />

Suchkompetenz<br />

Information Retrieval<br />

Web-Suche<br />

Internet-Suche<br />

Beispiele<br />

Facetten der Suche<br />

Suchqualität


Produktsuche in Internet-Shops<br />

Intranet-Suche<br />

Suche in Online-Publikationen<br />

Suche in Digitale Bibliotheken


Multimedia -Suche<br />

Facetten der Suche<br />

Sprache<br />

Beispiel: cross-linguale Suche in Google<br />

Facetten der Suche<br />

Struktur<br />

Beispiel: XML-Retrieval<br />

Facetten der Suche<br />

Medien<br />

Beispiel:Ähnlichkeitssuche auf Bildern


Facetten der Suche<br />

Objekte<br />

Beispiel: Personensuche mit 123people<br />

Facetten der Suche<br />

statische/dynamische Inhalte<br />

Beispiel: Twitter-Suche<br />

Facetten der Suche<br />

Suchqualität<br />

◮ Sprache: monolingual, cross-lingual, multilingual<br />

◮ Struktur: atomar, Felder, baumartig (z.B. XML), Graph (z.B.<br />

Web)<br />

◮ Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video,<br />

3D,. . .<br />

◮ Objekte: Produkte, Personen, Firmen<br />

◮ statische/dynamische Inhalte<br />

gefunden (GEF)<br />

¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />

£ £ £ £ £ £ £ £ £ £<br />

¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />

£ £ £ £ £ £ £ £ £ £<br />

¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />

£ £ £ £ £ £ £ £ £ £<br />

¡ ¡ ¡ ¡ ¡ ¡<br />

¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />

£ £ £ £ £ £ £ £ £ £<br />

¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤<br />

¥ ¥ ¥ ¡ ¥ ¡ ¥ ¡ ¥ ¡ ¥ ¡ ¥<br />

¡<br />

¡ ¡ ¡ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />

£ £ £ £ £ £ £ £ £ £<br />

¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤<br />

¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥<br />

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />

¡<br />

¡ ¡ ¡ ¢ ¢ ¢ ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¡ £ ¡ £ ¡ £ ¡ £ ¡ ¤ ¡<br />

¤ ¡ ¤ ¡ ¤ ¤ ¤ ¤ ¤<br />

¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥<br />

¡<br />

¤ ¤ ¤ ¤ ¤ ¤ ¤<br />

¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¢ ¢ ¡ ¡ ¡ ¡<br />

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ £ £ £ £ £ £ £ £ £ £<br />

¤<br />

¡ ¡ ¡ ¡ ¢ ¢ ¢ ¢ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤ ¢ ¢ ¢ ¢ ¢ ¢ ¡ ¡ £ £ £ £ £ £ £ £ £ £ ¡ ¡ ¡ ¡ ¡ ¡<br />

¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤ £ £ £ £ £ £ £ £ £ £ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />

¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢<br />

£ £ £ £ £ £ £ £ £ £<br />

¤ ¤ ¤ ¤ ¤ ¤ ¤ ¤<br />

¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥<br />

¡<br />

relevant (REL)<br />

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<br />

Kollektion


Retrievalmaße<br />

Precision p:<br />

GEF: Menge der gefundenen Antwortdokumente<br />

REL: Menge der relevanten Dokumente in der Datenbank<br />

Anteil der relevanten an den gefundenen<br />

Recall r: Anteil der gefundenen an den relevanten<br />

p =<br />

|REL ∩ GEF |<br />

|GEF |<br />

r =<br />

|REL ∩ GEF |<br />

|REL|<br />

Beispiel:<br />

20 relevante Dokumente zur aktuellen Anfrage.<br />

System liefert 10 Dokumente, von denen 8 relevant sind.<br />

Precision: p = 8/10 = 0.8<br />

Recall: r = 8/20 = 0.4<br />

Informationskompetenz<br />

Informationskompetenz - 6 Schritte<br />

Implizierte Fähigkeiten<br />

Benachbarte Kompetenzen<br />

Information/Wissen als Entscheidungsgrundlage<br />

”People’s actions are based more on what they believe than on<br />

what is objectively true”<br />

[Bandura, 1997; Pajares, 2002].<br />

“What you see is all there is (WYSIATI)”<br />

(Entscheidung allein aufgrund der vorhandenen, unzureichenden<br />

Information)<br />

(Kahneman, 2011: Thinking fast and slow)<br />

→ Informationskompetenz als notwendige Fähigkeit, um sich<br />

ausreichende Entscheidungsgrundlage zu verschaffen<br />

Informationskompetenz - 6 Schritte<br />

1. Aufgabendefinition<br />

◮ Definiere das Informationsproblem<br />

◮ Identifiziere das Informationsbedürfnis<br />

2. Informations-Beschaffungs-Strategien<br />

◮ Bestimme alle möglichen Quellen<br />

◮ Wähle die besten Quellen aus<br />

3. Lokalisierung und Zugriff<br />

◮ Lokalisiere die Quellen (intellektuell und physisch)<br />

◮ Finde die Information innerhalb der Quelle<br />

4. Benutze die Information<br />

◮ Anschauen (z.B. lesen, hören, betrachten, anfassen)<br />

◮ Extrahiere die relevante Information<br />

5. Synthese<br />

◮ Organisiere die Information aus verschiedenen Quellen<br />

◮ Prozessiere/Präsentiere die Information<br />

6. Bewertung<br />

◮ Beurteile das Produkt (Effektivität)<br />

◮ Beurteile den Prozess (Effizienz)


Implizierte Fähigkeiten<br />

Benachbarte Kompetenzen<br />

1. Aufgabendefinition<br />

◮ Informationsbedarf erkennen<br />

2. Informations-Beschaffungs-Strategien<br />

◮ Kenntnis von Strategien<br />

◮ Kenntnis von Quellen<br />

3. Lokalisierung und Zugriff<br />

◮ Lokalisierung von Information<br />

◮ zielgerichtete Selektion von Information<br />

4. Benutze die Information<br />

◮ Organisation von Information<br />

5. Synthese<br />

◮ zweckoptimierte Verarbeitung/Präsentation<br />

6. Bewertung<br />

◮ kritische Beurteilung von Information<br />

◮ Bibliothekskompetenz<br />

◮ Computerkompetenz<br />

◮ Digitalkompetenz (Fähigkeit,über Computer dargestellte<br />

Informationen unterschiedlicher Formate verstehen und<br />

anwenden zu können)<br />

◮ Internet-Kompetenz<br />

◮ Suchkompetenz<br />

◮ Kommunikationskompetenz<br />

◮ Lesekompetenz<br />

◮ Medienkompetenz<br />

◮ Schreibkompetenz<br />

Suchkompetenz<br />

Suchbarkeit<br />

Linguistische Funktionen<br />

Anfragesprache<br />

Ranking<br />

Suchtaktiken und Strategien<br />

Suchkompetenz<br />

◮ Aufbau einer Web-Suchmaschine<br />

◮ Suchbarkeit<br />

◮ Linguistische Funktionen<br />

◮ Anfragesprache<br />

◮ Ranking<br />

◮ Suchtaktiken und Strategeme


Aufbau einer Web-Suchmaschine<br />

Basiskomponenten einer Web-Suchmaschine<br />

Suchbarkeit<br />

Welche Dokumente können überhaupt gefunden werden?<br />

Crawler Sammelt Webseiten, interagiert mit Webservern beim<br />

Dokumentzugriff, folgt Links zu neuen Quellen<br />

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiert<br />

die Dokumente<br />

Datenbank Effiziente Speicherung der extrahierten und<br />

aufbereiteten Daten (z.B. in einer Datenbank mit<br />

invertierten Listen)<br />

Searcher Entgegenname von Anfragen, sucht in der Datenbank<br />

nach den passenden Antworten<br />

◮ Zugriff:<br />

◮ öffentlich zugänglich<br />

◮ verlinkt<br />

◮ durch robots.txt erlaubt<br />

◮ keine Datenbankinhalte (außer wenn verlinkt)<br />

◮ Aktualität<br />

◮ Dokumentformat<br />

◮ nur Texte (kein Faksimile, andere Medien nur über Text)<br />

◮ keine exotischen Dokumentformate<br />

◮ keine Sprachübersetzung


Suchkompetenz - linguistische Funktionen<br />

Wortnormalisierung<br />

Suchkompetenz - linguistische Funktionen<br />

Patent US20090259643 ”normalizing query words in web search”<br />

Wortnormalisierung Fuhr – fuhr, Schuss – Schuß, colour – color,<br />

meta tag – meta-tag – metatag – meta tag’s<br />

Grundformreduktion Häuser – Hauses – Hause – Haus, Duisburg –<br />

Duisburgs, ¬ Duisburger<br />

Nominalphrasen ”information retrieval”, ”retrieval * information”<br />

Komposita Einfamilienhaus, Reihenendhaus, Doppelhaushälfte<br />

Synonyme Handy Mobiltelefon Smartphone / ∼handy<br />

Anfragesprache<br />

◮ UND, ODER, Negation<br />

handy -vertrag<br />

◮ Zahlenbereiche: 100..200 EURO<br />

◮ Facetten: Objekttyp (Bilder/Maps/Videos/News/Shopping/..),<br />

Standort, Sprache, Zeitraum<br />

◮ site:, link:, filetype:,<br />

related:<br />

link:uni-due.de -site:uni-due.de<br />

◮ inurl:, intitle:, intext:,<br />

inanchor:<br />

duisburg -intext:duisburg<br />

Ranking<br />

Faktoren, die eine Seite nach oben bringen<br />

◮ Suchbegriffe kommen häufig in der Seite vor<br />

◮ Suchbegriffe kommen in Ankertexten vor<br />

◮ Page rank<br />

◮ Nutzer-Klicks: fremde, eigene, Freunde (Google+)<br />

◮ Diversität<br />

(Faktoren werden als Merkmale in einem learning to rank-Ansatz<br />

verwendet, auf Klick-Daten trainiert)<br />

Search engine optimization:<br />

Maßnahmen, eine Seite nach oben zu bringen<br />

aber: Web spam


Suchtaktiken und Strategien<br />

Taktiken:<br />

Monitoring ”Tactics to keep the search on track and efficient”<br />

Strukturelle Taktiken auf der Menge der potenziellen Antworten<br />

Suchformulierung verbreitern/einengen, viele/wenige Terme<br />

Term-Taktiken Auswahl/Variation der Suchterme<br />

Ideen-Taktiken offene Suchmöglichkeiten/Variation<br />

Information Retrieval<br />

Definition IR<br />

Syntax, Semantik und Pragmatik<br />

Daten — Information — Wissen<br />

Rahmenarchitektur für IR-Systeme<br />

Strategie: Plan zu Durchführung einer komplexen Suche<br />

Internetsuche vs. klassischen Datenbanksuche<br />

Information Retrieval<br />

◮ Schwierigkeit, passende Anfrage zu formulieren<br />

◮ iterative Anfrageformulierung (abhängig von Antworten)<br />

◮ viele Antworten, aber wenige davon relevant<br />

◮ Rangordnung der Antworten (statt Antwortmenge)<br />

◮ Repräsentation des Inhalts von Dokumenten inadäquat /<br />

unsicher<br />

Information Retrieval (IR) beschäftigt sich mit Vagheit und<br />

Unsicherheit in <strong>Informationssysteme</strong>n<br />

→ Grundlage der Internetsuche<br />

1950er frühe Arbeiten<br />

ab 1960 Gerard Salton (Harvard, Cornell) als populärer Pionier<br />

1962 Online-<strong>Informationssysteme</strong><br />

1991 WAIS (Wide area Information System): verteilte<br />

Suche im Internet<br />

1993 WWW<br />

1994 Webcrawler als erste Internet-Suchmaschine


Vagheit und Unsicherheit<br />

IR = inhaltsorientierte Suche<br />

Vagheit: Benutzer kann seinen Informationswunsch nicht<br />

präzise spezifizieren<br />

◮ vage Anfragebedingungen<br />

◮ iterative Frageformulierung<br />

Unsicherheit System besitzt unsicheres (unzureichendes) Wissen<br />

über den Inhalt der verwalteten Objekte<br />

◮ unsichere Repräsentation<br />

( fehlerhafte Antworten)<br />

◮ unvollständige Repräsentation<br />

( fehlende Antworten)<br />

(engere Definition)<br />

Suche auf verschiedenen Abstraktionsstufen:<br />

◮ Syntax<br />

◮ Semantik<br />

◮ Pragmatik<br />

Syntax, Semantik und Pragmatik bei Texten<br />

Bildersuche auf der Syntaktischen Ebene<br />

Bild als Pixelmatrix mit Farbwerten<br />

“Willkommen beim Fachgebiet <strong>Informationssysteme</strong>. Schwerpunkte<br />

unserer Arbeit sind Information Retrieval, Digitale Bibliotheken<br />

und Web-basierte <strong>Informationssysteme</strong>, wobei wir insbesondere<br />

Nutzer-orientierte Forschungsansätze verfolgen.“<br />

1. Konturen<br />

Syntax: ’Forschungsansatz’ no match<br />

Semantik ’Forschungsschwerpunkt’ match<br />

Pragmatik ’potenzielle Kooperationspartner für Entwicklung<br />

multimedialer <strong>Informationssysteme</strong>’?


Syntaktische Ebene: 2. Texturen<br />

Syntaktische Ebene: 3. Farbe<br />

Häufigkeit/räumliche Verteilung von Pixelfarben<br />

d001 d056 d095 d020<br />

Textures:<br />

Muster im Grauwert-Bild<br />

strukturelle und/oder statistische<br />

Muster<br />

d014 d006 d003 d004<br />

d087 d005 d111 d066<br />

d011 d103 d049 d015<br />

Bildersuche: Semantische Ebene<br />

Objekte im Bild(+ räumliche Anordnung)<br />

Beispiel: Google Bildersuche nach’kangaroo’<br />

Bildersuche: Pragmatische Ebene<br />

Bedeutung eines Bildes / durch das Bild illustriertes Thema<br />

A40-Ausbaupläne liegen weiter auf Eis<br />

(basiert auf Textsuche im Dateinamen und der Bildunterschrift)<br />

◮ Themen sind sehr subjektiv<br />

◮ Aber die pragmatische Ebene ist wichtig für viele<br />

Anwendungen


Syntax, Semantik und Pragmatik<br />

Daten — Information — Wissen<br />

Suche auf verschiedenen Abstraktionsstufen:<br />

Syntax Dokument als Folge von Symbolen<br />

(z.B. Zeichenkettensuche in Texten,<br />

Farbe/Textur/Kontur in Bildern)<br />

Semantik Bedeutung eines Dokumentes<br />

(z.B. Textsemantik, in einem Bild vorkommende<br />

Objekte)<br />

Pragmatik Nutzung eines Dokumentes (Zweck)<br />

(z.B.: Löst das Dokument mein Problem? Was ist die<br />

Aussage des Textes / Bildes?)<br />

IR beschäftigt sich mit der Semantik und Pragmatik von<br />

Dokumenten<br />

Information vs. Wissen<br />

Wissen zur Entscheidungsunterstützung<br />

◮ Wissen ist die Teilmenge von Information, die von jemandem<br />

in einer konkreten Situation zur Lösung von Problemen<br />

benötigt wird<br />

(und häufig nicht vorhanden ist)<br />

◮ Nach Wissen wird in externen Quellen gesucht.<br />

Daten<br />

Information<br />

Wissen<br />

Entscheidung<br />

Nützlichkeit<br />

◮ Die Transformation von Information in Wissen ist ein<br />

Mehrwert erzeugender Prozess


Rahmenarchitektur für IR-Systeme<br />

Beispiel für ein Textdokument<br />

Informations−<br />

bedürfnis<br />

fiktives/<br />

reales<br />

Objekt<br />

Frage−<br />

Repräsentation<br />

Objekt−<br />

Repräsentation<br />

Frage−<br />

Beschreibung<br />

Objekt−<br />

Beschreibung<br />

Vergleich<br />

Ergebnisse<br />

Objekt:<br />

Experiments with Indexing Methods.<br />

The analysis of 25 indexing algorithms has not produced consistent<br />

retrieval performance. The best indexing technique for retrieving<br />

documents is not known.<br />

Repräsentation:<br />

(experiment, index, method, analys, index, algorithm, produc,<br />

consistent, retriev, perform, best, index, techni, retriev, document,<br />

know)<br />

Beschreibung:<br />

{(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1),<br />

(produc,1), (consistent,1), (retriev,1), (perform,1), (best,1),<br />

(techni,1), (retriev,1), (document,1), (know,1)}<br />

fiktives/<br />

reales<br />

Objekt<br />

Objekt−<br />

Repräsentation<br />

Objekt−<br />

Beschreibung<br />

Beispiel für Textsuche<br />

Bezug zu den Vorlesungskapiteln<br />

Evaluierung<br />

Frage: “What is the best indexing algorithm?“<br />

Repräsentation: (best index algorithm)<br />

Beschreibung: best ∧ index ∧ algorithm<br />

Informations−<br />

bedürfnis<br />

Frage−<br />

Repräsentation<br />

Frage−<br />

Beschreibung<br />

Informations−<br />

bedürfnis<br />

Frage−<br />

Repräsentation<br />

Frage−<br />

Beschreibung<br />

Wissensrepräsentation<br />

Vergleich<br />

Ergebnisse<br />

fiktives/<br />

reales<br />

Objekt<br />

Objekt−<br />

Repräsentation<br />

Objekt−<br />

Beschreibung<br />

Retrievalmodelle

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!