26.11.2014 Aufrufe

Einführung in die Installation eigener Suchmaschinen ... - SuMa-Lab

Einführung in die Installation eigener Suchmaschinen ... - SuMa-Lab

Einführung in die Installation eigener Suchmaschinen ... - SuMa-Lab

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>SuMa</strong>-eV Praxis Workshop: YaCy<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong><br />

<strong>eigener</strong> Suchmasch<strong>in</strong>en-Software<br />

mit YaCy<br />

Features<br />

+<br />

Demo<br />

hier zum Nachlesen<br />

im Anschluss<br />

zum mitmachen<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Zielgruppe und Anwendungen<br />

•Anwendungsbereiche<br />

alle<br />

Zielgruppen<br />

Suchmasch<strong>in</strong>en-Dezentralisierung:<br />

Peer-to-Peer Websuche<br />

Software für<br />

Suchportal im Internet<br />

Software für<br />

Suchmasch<strong>in</strong>e im Intranet<br />

•Mögliche Datenquellen: unterstütze Protokolle<br />

Web-Standards<br />

Filesystem<br />

Datenbanken<br />

Harvest<strong>in</strong>g<br />

HTTP, HTTPS, FTP<br />

Filesystem, SMB-Shares, Indexdateien (Dubl<strong>in</strong> Core / XML)<br />

Import aus Wikimedia-Dumps, Retrieval aus Datenbanken<br />

RSS-Feed Client, OAI-PMH Import<br />

•Integrationsmöglichkeiten des Such<strong>in</strong>terfaces<br />

APIs Opensearch (Suchergebnisse per RSS), JSON, AJAX-Tools<br />

Tools Such-Widget, fertige Code-Snippets für e<strong>in</strong>gebettete Suche<br />

jede<br />

Datenquelle<br />

anzapfen<br />

für<br />

Entwickler<br />

<strong>in</strong>teressant<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Beispiel: Suchportale mit YaCy<br />

l<strong>in</strong>uxtag.org<br />

l<strong>in</strong>ux-club.de<br />

geoclub.de<br />

fsfe.org<br />

metager +<br />

metager2<br />

YaCy ist<br />

schnell!<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Beispiel: Open Access Repository Harvest<strong>in</strong>g<br />

2000 Open Access<br />

Repositories<br />

OAI-PMH<br />

Import<br />

Dubl<strong>in</strong> Core<br />

Metadaten<br />

(web) Such<strong>in</strong>dex<br />

OA-Suche; ca. 8.800.000<br />

eBooks <strong>in</strong> demo-Suche<br />

auf http://oai.yacy.net<br />

Anleitung um <strong>die</strong>sen<br />

Dienst selber zu erstellen:<br />

http://yacy.net/oai.html<br />

Datenquellen zu OAI Servern:<br />

http://roar.epr<strong>in</strong>ts.org<br />

http://www.openarchives.org/Register/ListFriends<br />

Anwendungen:<br />

• dezentrale OAI Repository Suche<br />

• Suche für Virtuelle Fachbibliotheken<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Beispiel: Suchseite<br />

SRU<br />

API für Suchergebnis als RSS<br />

bzw. Opensearch, auch JSON<br />

Navigatoren:<br />

Domänen, Autoren<br />

,besser‘<br />

G**gle-ähnliche Darstellung<br />

der Suchergebnisse<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


•Verschiedenste Datenquellen e<strong>in</strong>fach nutzen<br />

Crawler<br />

Suchappliance: Funktionsreichtum, e<strong>in</strong>fach zu be<strong>die</strong>nen<br />

Harvester<br />

Datenbanken<br />

komfortabel<br />

•Integrierte Parser für Dateiformate<br />

Web-Standards<br />

Office<br />

Archive<br />

andere<br />

HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash<br />

PDF, PS, Word, Excel, Visio, Powerpo<strong>in</strong>t, OpenOffice, RTF, csv<br />

gzip, zip, tar, rar, bzip2, 7zip<br />

torrent, images(EXIF)<br />

•Automatische Steuerung und Index-Adm<strong>in</strong>istration<br />

reichhaltig<br />

Scheduler automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werden<br />

Monitor<strong>in</strong>g Index-Erzeugung und L<strong>in</strong>kstrukturen visualisieren und editieren<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

produktions-<br />

Michael reif Christen<br />

http://yacy.net


Funktionsweise: Crawler und Indexierer<br />

YaCy Application: retrieval, <strong>in</strong>dex<strong>in</strong>g, storage and search components overview<br />

Depth = 0<br />

Start-URL<br />

Text Analysis<br />

Crawler<br />

Depth = 1<br />

Depth = 2<br />

URL<br />

Crawl Stack<br />

@<br />

l<strong>in</strong>ks<br />

Double L<strong>in</strong>k<br />

Check<br />

words<br />

Stopwords<br />

Check<br />

Reverse<br />

Word Index<br />

Index<strong>in</strong>g<br />

Search<br />

Interface<br />

Word<br />

URL References<br />

YaCy has an<br />

<strong>in</strong>tegrated NoSQL<br />

Database. The<br />

database stores a<br />

Reverse Word<br />

Index, Metadata<br />

and the source<br />

documents.<br />

Database<br />

YaCy Peer-to-Peer Network<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Funktionsweise: Peer-to-Peer Netzwerk<br />

The YaCy Network: a distributed hash table<br />

Peer<br />

Peer<br />

Peer<br />

This peer (as an<br />

example) fetches<br />

some Web pages and<br />

distributes <strong>in</strong>dex<br />

fragments to other<br />

peers.<br />

Peer<br />

Peer<br />

A peer which<br />

searches <strong>in</strong>formation<br />

can access directly<br />

peers hold<strong>in</strong>g the<br />

correspond<strong>in</strong>g <strong>in</strong>dex<br />

Peer<br />

Peer<br />

DHT-Store<br />

Peer<br />

DHT-Read<br />

YaCy peers store <strong>in</strong>dex fragments accord<strong>in</strong>g to a ,folded‘ order<strong>in</strong>g on word-hashes and urlhashes<br />

<strong>in</strong> a distributed hash table (DHT). The <strong>in</strong>dex is distributed redundantly to save the <strong>in</strong>dex<br />

when some peers are not available. The redundancy also helps to <strong>in</strong>crease search performance.<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Für Entwickler: Suchergebnisse per RSS oder JSON<br />

> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10<br />

<br />

<br />


Für Entwickler: Datene<strong>in</strong>gabe per XML (Dubl<strong>in</strong> Core)<br />

<br />

<br />

<br />

<br />

<br />

http://de.wikipedia.org/wiki/Alan_Smithee<br />

<br />

de<br />

2009-04-14T00:00:00Z<br />

<br />

<br />

<br />

Info über Dubl<strong>in</strong> Core Standard:<br />

http://dubl<strong>in</strong>core.org/documents/dc-xml-guidel<strong>in</strong>es/<br />

YaCy kann Dubl<strong>in</strong> Core<br />

Medata XML Dateien als<br />

E<strong>in</strong>gabe für den Indexierer<br />

verarbeiten<br />

e<strong>in</strong>fach<br />

<strong>in</strong>tegrierbar<br />

Damit YaCy e<strong>in</strong>e Dubl<strong>in</strong> Core XML Datei verarbeitet, muss <strong>die</strong>se<br />

lediglich <strong>in</strong> e<strong>in</strong>em Übergabeverzeichnis (DATA/SURROGATES/<strong>in</strong>/)<br />

abgespeichert werden.<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


<strong>Installation</strong><br />

•Download von http://yacy.net<br />

YaCy für W<strong>in</strong>dows YaCy für Mac YaCy für Debian YaCy für L<strong>in</strong>ux / generisch (tar.gz)<br />

•Auspacken, starten<br />

Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, oder<br />

tarball: tar.gz auspacken und Startscript starten<br />

•Adm<strong>in</strong>istration über Web<strong>in</strong>terface<br />

YaCy ist e<strong>in</strong>e Webapplikation. Die gesamte Adm<strong>in</strong>istration erfolgt über den Browser.<br />

E<strong>in</strong>fach http://localhost:8080<br />

im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und<br />

Index erstellen.<br />

•Support<br />

Bei Fragen und/oder Problemen e<strong>in</strong>fach im Forum posten: http://forum.yacy.de<br />

E<strong>in</strong>e gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.de<br />

Anfragen für professionellen Support und kommerzielle Erweiterungen<br />

an Michael Christen, mc@yacy.net<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Lizenz: GPL<br />

freie Software<br />

Michael Christen<br />

http://yacy.net


Demo: Überblick<br />

zur Auswahl stehen:<br />

•Portalsuch im Internet<br />

wie bei http://yacy.net und bei http://geoclub.de<br />

•Alert-Service für Nachrichten per RSS<br />

e<strong>in</strong>en News-Feed aus Suchergebnissen <strong>in</strong> News-Feeds erstellen<br />

•Intranet<strong>in</strong>dexierung<br />

lokale Webserver und Fileshares<br />

•Virtuelle Fachbibliothek aus OAI-PMH Import<br />

<strong>die</strong> eigene Buchsuche<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Demo: Portalsuche im Internet<br />

Vorbereitung:<br />

• Datenquellen zusammenstellen (e<strong>in</strong>zelne URLs) oder<br />

• L<strong>in</strong>kliste als html-Datei erstellen und im Internet hochladen<br />

Beispiel für Liste von URLs für Portalsuche von YaCy:<br />

• http://yacy.net wird als sitemap erfasst:<br />

http://yacy.net/sitemap.xml<br />

• http://forum.yacy.de/ wird über e<strong>in</strong>e sitemap erfasst:<br />

http://forum.yacy-websuche.de/sitemap.php<br />

• Updates von http://forum.yacy.de/ werden als rss-feed erfasst<br />

http://forum.yacy-websuche.de/feed.php<br />

• Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst:<br />

http://www.yacy-websuche.de/wiki/<br />

Beispiel für Crawlen e<strong>in</strong>er L<strong>in</strong>kliste bei der Geocach<strong>in</strong>g-Suche auf geoclub.de:<br />

• E<strong>in</strong>en Site-Crawl für e<strong>in</strong>e L<strong>in</strong>k-Liste starten:<br />

http://news.geocach<strong>in</strong>g-portal.com/yacy-urls.php<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Demo: Alert-Service für Nachrichten per RSS<br />

Ziel:<br />

• bestimmte Datenquellen regelmäßig <strong>in</strong> den Index ziehen<br />

• mit e<strong>in</strong>er speziellen Suchabfrage e<strong>in</strong>en RSS-Feed zu e<strong>in</strong>em Topic als Ergebnis e<strong>in</strong>er Suche<br />

erhalten<br />

Schritte:<br />

• RSS feeds mit dem RSS feed reader <strong>in</strong> YaCy importieren<br />

• jedes Feed kann <strong>in</strong>dividuell im Scheduler mit e<strong>in</strong>er anderen Updatefrequenz versehen werden<br />

• Suchanfrage <strong>in</strong> Suchmaske e<strong>in</strong>geben und mit dem Schlüsselwort ,RECENT‘ ergänzen<br />

• Die URL Suchergebnisseite bearbeiten: filetype ,html‘ e<strong>in</strong>fach durch ,rss‘ ersetzen<br />

• Diese URL kann dann <strong>in</strong> e<strong>in</strong>em feed-reader als feed importiert werden und präsentiert dann<br />

immer <strong>die</strong> aktuellen Nachrichten zu e<strong>in</strong>em Topic<br />

Beispiel-Feeds:<br />

• Tagesthemen<br />

http://www.tagesschau.de/xml/rss2<br />

• Heise<br />

http://www.heise.de/newsticker/heise-atom.xml<br />

• Gulli<br />

http://ticker.gulli.com/rss<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Demo: Intranet<strong>in</strong>dexierung<br />

Vorbereitung:<br />

• repository1 über Apache frei geben<br />

• repository2 als smb-share frei geben<br />

über Web-Server freigeben<br />

als smb-share freigeben<br />

Schritte:<br />

• YaCy <strong>in</strong> Intranet-Modus schalten<br />

• E<strong>in</strong>en Site-Crawl starten mit http://localhost und smb://localhost/repository2/<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net


Demo: Virtuelle Fachbibliothek aus OAI-PMH Import<br />

Vorbereitung:<br />

• OAI-PMH Server-Adressen der E<strong>in</strong>zelnen Bibliotheksquellen zu e<strong>in</strong>em Fachgebiet sammeln,<br />

oder<br />

• OAI-PMH Server-Adressen aus der <strong>in</strong> YaCy vorrätigen Liste auswählen (>2000 Quellen<br />

verfügbar)<br />

Schritte:<br />

• OAI-PMH Importer wählen<br />

• alle Server-Adressen entweder e<strong>in</strong>zeln angeben oder<br />

• alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten<br />

Ergebnis:<br />

• Die YaCy Portalsuche präsentiert e<strong>in</strong>e Themensuche zu den ausgewählten Quellen<br />

• Autoren-Navigatoren s<strong>in</strong>d verfügbar<br />

• Updates aus den Imports s<strong>in</strong>d wie bei der Demo zu Alerts verfügbar<br />

• Die Suche kann sehr e<strong>in</strong>fach über das Widget <strong>in</strong> andere Webseiten e<strong>in</strong>gebunden werden<br />

<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />

Michael Christen<br />

http://yacy.net

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!