Einführung in die Installation eigener Suchmaschinen ... - SuMa-Lab
Einführung in die Installation eigener Suchmaschinen ... - SuMa-Lab
Einführung in die Installation eigener Suchmaschinen ... - SuMa-Lab
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>SuMa</strong>-eV Praxis Workshop: YaCy<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong><br />
<strong>eigener</strong> Suchmasch<strong>in</strong>en-Software<br />
mit YaCy<br />
Features<br />
+<br />
Demo<br />
hier zum Nachlesen<br />
im Anschluss<br />
zum mitmachen<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Zielgruppe und Anwendungen<br />
•Anwendungsbereiche<br />
alle<br />
Zielgruppen<br />
Suchmasch<strong>in</strong>en-Dezentralisierung:<br />
Peer-to-Peer Websuche<br />
Software für<br />
Suchportal im Internet<br />
Software für<br />
Suchmasch<strong>in</strong>e im Intranet<br />
•Mögliche Datenquellen: unterstütze Protokolle<br />
Web-Standards<br />
Filesystem<br />
Datenbanken<br />
Harvest<strong>in</strong>g<br />
HTTP, HTTPS, FTP<br />
Filesystem, SMB-Shares, Indexdateien (Dubl<strong>in</strong> Core / XML)<br />
Import aus Wikimedia-Dumps, Retrieval aus Datenbanken<br />
RSS-Feed Client, OAI-PMH Import<br />
•Integrationsmöglichkeiten des Such<strong>in</strong>terfaces<br />
APIs Opensearch (Suchergebnisse per RSS), JSON, AJAX-Tools<br />
Tools Such-Widget, fertige Code-Snippets für e<strong>in</strong>gebettete Suche<br />
jede<br />
Datenquelle<br />
anzapfen<br />
für<br />
Entwickler<br />
<strong>in</strong>teressant<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Beispiel: Suchportale mit YaCy<br />
l<strong>in</strong>uxtag.org<br />
l<strong>in</strong>ux-club.de<br />
geoclub.de<br />
fsfe.org<br />
metager +<br />
metager2<br />
YaCy ist<br />
schnell!<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Beispiel: Open Access Repository Harvest<strong>in</strong>g<br />
2000 Open Access<br />
Repositories<br />
OAI-PMH<br />
Import<br />
Dubl<strong>in</strong> Core<br />
Metadaten<br />
(web) Such<strong>in</strong>dex<br />
OA-Suche; ca. 8.800.000<br />
eBooks <strong>in</strong> demo-Suche<br />
auf http://oai.yacy.net<br />
Anleitung um <strong>die</strong>sen<br />
Dienst selber zu erstellen:<br />
http://yacy.net/oai.html<br />
Datenquellen zu OAI Servern:<br />
http://roar.epr<strong>in</strong>ts.org<br />
http://www.openarchives.org/Register/ListFriends<br />
Anwendungen:<br />
• dezentrale OAI Repository Suche<br />
• Suche für Virtuelle Fachbibliotheken<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Beispiel: Suchseite<br />
SRU<br />
API für Suchergebnis als RSS<br />
bzw. Opensearch, auch JSON<br />
Navigatoren:<br />
Domänen, Autoren<br />
,besser‘<br />
G**gle-ähnliche Darstellung<br />
der Suchergebnisse<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
•Verschiedenste Datenquellen e<strong>in</strong>fach nutzen<br />
Crawler<br />
Suchappliance: Funktionsreichtum, e<strong>in</strong>fach zu be<strong>die</strong>nen<br />
Harvester<br />
Datenbanken<br />
komfortabel<br />
•Integrierte Parser für Dateiformate<br />
Web-Standards<br />
Office<br />
Archive<br />
andere<br />
HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash<br />
PDF, PS, Word, Excel, Visio, Powerpo<strong>in</strong>t, OpenOffice, RTF, csv<br />
gzip, zip, tar, rar, bzip2, 7zip<br />
torrent, images(EXIF)<br />
•Automatische Steuerung und Index-Adm<strong>in</strong>istration<br />
reichhaltig<br />
Scheduler automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werden<br />
Monitor<strong>in</strong>g Index-Erzeugung und L<strong>in</strong>kstrukturen visualisieren und editieren<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
produktions-<br />
Michael reif Christen<br />
http://yacy.net
Funktionsweise: Crawler und Indexierer<br />
YaCy Application: retrieval, <strong>in</strong>dex<strong>in</strong>g, storage and search components overview<br />
Depth = 0<br />
Start-URL<br />
Text Analysis<br />
Crawler<br />
Depth = 1<br />
Depth = 2<br />
URL<br />
Crawl Stack<br />
@<br />
l<strong>in</strong>ks<br />
Double L<strong>in</strong>k<br />
Check<br />
words<br />
Stopwords<br />
Check<br />
Reverse<br />
Word Index<br />
Index<strong>in</strong>g<br />
Search<br />
Interface<br />
Word<br />
URL References<br />
YaCy has an<br />
<strong>in</strong>tegrated NoSQL<br />
Database. The<br />
database stores a<br />
Reverse Word<br />
Index, Metadata<br />
and the source<br />
documents.<br />
Database<br />
YaCy Peer-to-Peer Network<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Funktionsweise: Peer-to-Peer Netzwerk<br />
The YaCy Network: a distributed hash table<br />
Peer<br />
Peer<br />
Peer<br />
This peer (as an<br />
example) fetches<br />
some Web pages and<br />
distributes <strong>in</strong>dex<br />
fragments to other<br />
peers.<br />
Peer<br />
Peer<br />
A peer which<br />
searches <strong>in</strong>formation<br />
can access directly<br />
peers hold<strong>in</strong>g the<br />
correspond<strong>in</strong>g <strong>in</strong>dex<br />
Peer<br />
Peer<br />
DHT-Store<br />
Peer<br />
DHT-Read<br />
YaCy peers store <strong>in</strong>dex fragments accord<strong>in</strong>g to a ,folded‘ order<strong>in</strong>g on word-hashes and urlhashes<br />
<strong>in</strong> a distributed hash table (DHT). The <strong>in</strong>dex is distributed redundantly to save the <strong>in</strong>dex<br />
when some peers are not available. The redundancy also helps to <strong>in</strong>crease search performance.<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Für Entwickler: Suchergebnisse per RSS oder JSON<br />
> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10<br />
<br />
<br />
Für Entwickler: Datene<strong>in</strong>gabe per XML (Dubl<strong>in</strong> Core)<br />
<br />
<br />
<br />
<br />
<br />
http://de.wikipedia.org/wiki/Alan_Smithee<br />
<br />
de<br />
2009-04-14T00:00:00Z<br />
<br />
<br />
<br />
Info über Dubl<strong>in</strong> Core Standard:<br />
http://dubl<strong>in</strong>core.org/documents/dc-xml-guidel<strong>in</strong>es/<br />
YaCy kann Dubl<strong>in</strong> Core<br />
Medata XML Dateien als<br />
E<strong>in</strong>gabe für den Indexierer<br />
verarbeiten<br />
e<strong>in</strong>fach<br />
<strong>in</strong>tegrierbar<br />
Damit YaCy e<strong>in</strong>e Dubl<strong>in</strong> Core XML Datei verarbeitet, muss <strong>die</strong>se<br />
lediglich <strong>in</strong> e<strong>in</strong>em Übergabeverzeichnis (DATA/SURROGATES/<strong>in</strong>/)<br />
abgespeichert werden.<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
<strong>Installation</strong><br />
•Download von http://yacy.net<br />
YaCy für W<strong>in</strong>dows YaCy für Mac YaCy für Debian YaCy für L<strong>in</strong>ux / generisch (tar.gz)<br />
•Auspacken, starten<br />
Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, oder<br />
tarball: tar.gz auspacken und Startscript starten<br />
•Adm<strong>in</strong>istration über Web<strong>in</strong>terface<br />
YaCy ist e<strong>in</strong>e Webapplikation. Die gesamte Adm<strong>in</strong>istration erfolgt über den Browser.<br />
E<strong>in</strong>fach http://localhost:8080<br />
im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und<br />
Index erstellen.<br />
•Support<br />
Bei Fragen und/oder Problemen e<strong>in</strong>fach im Forum posten: http://forum.yacy.de<br />
E<strong>in</strong>e gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.de<br />
Anfragen für professionellen Support und kommerzielle Erweiterungen<br />
an Michael Christen, mc@yacy.net<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Lizenz: GPL<br />
freie Software<br />
Michael Christen<br />
http://yacy.net
Demo: Überblick<br />
zur Auswahl stehen:<br />
•Portalsuch im Internet<br />
wie bei http://yacy.net und bei http://geoclub.de<br />
•Alert-Service für Nachrichten per RSS<br />
e<strong>in</strong>en News-Feed aus Suchergebnissen <strong>in</strong> News-Feeds erstellen<br />
•Intranet<strong>in</strong>dexierung<br />
lokale Webserver und Fileshares<br />
•Virtuelle Fachbibliothek aus OAI-PMH Import<br />
<strong>die</strong> eigene Buchsuche<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Demo: Portalsuche im Internet<br />
Vorbereitung:<br />
• Datenquellen zusammenstellen (e<strong>in</strong>zelne URLs) oder<br />
• L<strong>in</strong>kliste als html-Datei erstellen und im Internet hochladen<br />
Beispiel für Liste von URLs für Portalsuche von YaCy:<br />
• http://yacy.net wird als sitemap erfasst:<br />
http://yacy.net/sitemap.xml<br />
• http://forum.yacy.de/ wird über e<strong>in</strong>e sitemap erfasst:<br />
http://forum.yacy-websuche.de/sitemap.php<br />
• Updates von http://forum.yacy.de/ werden als rss-feed erfasst<br />
http://forum.yacy-websuche.de/feed.php<br />
• Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst:<br />
http://www.yacy-websuche.de/wiki/<br />
Beispiel für Crawlen e<strong>in</strong>er L<strong>in</strong>kliste bei der Geocach<strong>in</strong>g-Suche auf geoclub.de:<br />
• E<strong>in</strong>en Site-Crawl für e<strong>in</strong>e L<strong>in</strong>k-Liste starten:<br />
http://news.geocach<strong>in</strong>g-portal.com/yacy-urls.php<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Demo: Alert-Service für Nachrichten per RSS<br />
Ziel:<br />
• bestimmte Datenquellen regelmäßig <strong>in</strong> den Index ziehen<br />
• mit e<strong>in</strong>er speziellen Suchabfrage e<strong>in</strong>en RSS-Feed zu e<strong>in</strong>em Topic als Ergebnis e<strong>in</strong>er Suche<br />
erhalten<br />
Schritte:<br />
• RSS feeds mit dem RSS feed reader <strong>in</strong> YaCy importieren<br />
• jedes Feed kann <strong>in</strong>dividuell im Scheduler mit e<strong>in</strong>er anderen Updatefrequenz versehen werden<br />
• Suchanfrage <strong>in</strong> Suchmaske e<strong>in</strong>geben und mit dem Schlüsselwort ,RECENT‘ ergänzen<br />
• Die URL Suchergebnisseite bearbeiten: filetype ,html‘ e<strong>in</strong>fach durch ,rss‘ ersetzen<br />
• Diese URL kann dann <strong>in</strong> e<strong>in</strong>em feed-reader als feed importiert werden und präsentiert dann<br />
immer <strong>die</strong> aktuellen Nachrichten zu e<strong>in</strong>em Topic<br />
Beispiel-Feeds:<br />
• Tagesthemen<br />
http://www.tagesschau.de/xml/rss2<br />
• Heise<br />
http://www.heise.de/newsticker/heise-atom.xml<br />
• Gulli<br />
http://ticker.gulli.com/rss<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Demo: Intranet<strong>in</strong>dexierung<br />
Vorbereitung:<br />
• repository1 über Apache frei geben<br />
• repository2 als smb-share frei geben<br />
über Web-Server freigeben<br />
als smb-share freigeben<br />
Schritte:<br />
• YaCy <strong>in</strong> Intranet-Modus schalten<br />
• E<strong>in</strong>en Site-Crawl starten mit http://localhost und smb://localhost/repository2/<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net
Demo: Virtuelle Fachbibliothek aus OAI-PMH Import<br />
Vorbereitung:<br />
• OAI-PMH Server-Adressen der E<strong>in</strong>zelnen Bibliotheksquellen zu e<strong>in</strong>em Fachgebiet sammeln,<br />
oder<br />
• OAI-PMH Server-Adressen aus der <strong>in</strong> YaCy vorrätigen Liste auswählen (>2000 Quellen<br />
verfügbar)<br />
Schritte:<br />
• OAI-PMH Importer wählen<br />
• alle Server-Adressen entweder e<strong>in</strong>zeln angeben oder<br />
• alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten<br />
Ergebnis:<br />
• Die YaCy Portalsuche präsentiert e<strong>in</strong>e Themensuche zu den ausgewählten Quellen<br />
• Autoren-Navigatoren s<strong>in</strong>d verfügbar<br />
• Updates aus den Imports s<strong>in</strong>d wie bei der Demo zu Alerts verfügbar<br />
• Die Suche kann sehr e<strong>in</strong>fach über das Widget <strong>in</strong> andere Webseiten e<strong>in</strong>gebunden werden<br />
<strong>SuMa</strong>-eV-Kongress 2010 Praxis Workshop:<br />
<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Installation</strong> <strong>eigener</strong> Suchmasch<strong>in</strong>en-Software mit YaCy<br />
Michael Christen<br />
http://yacy.net