YaCy Workshop Einführung in die Nutzung von YaCy ...
YaCy Workshop Einführung in die Nutzung von YaCy ...
YaCy Workshop Einführung in die Nutzung von YaCy ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>YaCy</strong> <strong>Workshop</strong>E<strong>in</strong>führung <strong>in</strong> <strong>die</strong> <strong>Nutzung</strong> <strong>von</strong><strong>YaCy</strong> Suchmasch<strong>in</strong>ensoftwareMichael Christenmc@yacy.net, http://yacy.netInhaltBeispiele für Websuche und Suchportalemit der Peer-to-Peer Suchmasch<strong>in</strong>e <strong>YaCy</strong>+Demo!ArchitekturDetails zur Suchmasch<strong>in</strong>entechnologieIntegration<strong>von</strong> <strong>YaCy</strong> Suchfenster <strong>in</strong> Webseiten und Dienste
„Freeworld“: Decentralised Search for EveryoneSearchEng<strong>in</strong>e @Home> 1 BillionDocumentsPeople run they own <strong>YaCy</strong> search peer at homeand create <strong>in</strong>dependent search for everyone<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Sciencenet: Search Cluster <strong>in</strong> a Data Centerhttp://sciencenet.fzk.de300 milliondocuments,Sciencenet‘: Search Eng<strong>in</strong>e for scientific content <strong>in</strong>the Karlsruhe Institute of Technology:34 computers runn<strong>in</strong>g <strong>YaCy</strong> <strong>in</strong> it‘s own network<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Search Provider for Metager and Metager2metager +metager2http://metager.dehttp://metager2.de<strong>YaCy</strong> Peers werden <strong>von</strong> metagerund metager2 genutzt<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Community & Personal Use of Search Eng<strong>in</strong>esDecentralized Searchnon-Cloud Search(keep your secrets)PeerPeerPeerPeerPeerAppliancePeerPeerPeer
Project Search Eng<strong>in</strong>eYour ProjectDiscussionsWikiCodeBugtrackerIntegratedSearchIntegratedSearchApplianceSearch Eng<strong>in</strong>eIntegratedSearchIntegratedSearch<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Project Search Eng<strong>in</strong>e: Free Software Foundation<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Project Search Eng<strong>in</strong>e: Geocach<strong>in</strong>g<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Project Search Eng<strong>in</strong>e: <strong>YaCy</strong> Forum (Widget)<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Project Search Eng<strong>in</strong>e: <strong>YaCy</strong> Wiki (Widget)<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Enterprise Search: Keep Secrets!TheEnterprise EnvironmentInternetDiscussionsWikiCodeBugtrackerApplianceSearch Eng<strong>in</strong>e<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
A Search Eng<strong>in</strong>e CoreRetrieval, Index<strong>in</strong>g, Storage and Search ComponentsDepth = 0Start-URLfilter<strong>in</strong>g,pars<strong>in</strong>gText AnalysisCrawlerDepth = 1Depth = 2URL Crawl Stack@l<strong>in</strong>ksDouble L<strong>in</strong>kCheckwordsStop wordsCheckReverseWord IndexIndex<strong>in</strong>gSearch Interfacerank<strong>in</strong>g,verification,visualizationWordURL References<strong>YaCy</strong> has an<strong>in</strong>tegrated NoSQLDatabase. Thedatabase stores aReverse WordIndex, Metadataand the sourcedocuments.DatabasePeer-to-Peer Network API
Architecture #1/4: The Search Eng<strong>in</strong>e NetworkThe ,freeworld‘ <strong>YaCy</strong> Search Eng<strong>in</strong>e NetworkPeer Types:Juniorbeh<strong>in</strong>d firewall or routerSeniorhas open server portPr<strong>in</strong>cipalpublishes seed-listsDHT-StoreDHT-Read<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Snippets & L<strong>in</strong>k VerificationSRUFacetsFile Types, Protocols,Doma<strong>in</strong>s, Authorsevery l<strong>in</strong>k is verifiedbefore it is displayed: the content is loaded,parsed and used for a search snippet generationStandardsAPIsToolsOpensearch (search results with RSS), JSON, AJAX toolssearch widget, ready-to-use code snippets to embed search everywhere<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Data Aquisitiontarget hosts(doma<strong>in</strong> name)round-rob<strong>in</strong>accessrobots.txt, latencyand m<strong>in</strong>imumaccess time 0.5sloaderCrawlerwith target host balanc<strong>in</strong>gScan Sources<strong>in</strong> a specific networkScan IP RangeDiscover ServicesAvailablility Mngt.RSS FeedsFTP SMBOAI-PMH Loaderload opac records from librariesImport FilesDubl<strong>in</strong> Core FilesWikimedia Dumpmany file formatsDubl<strong>in</strong>CoreParserHTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash, PDF, PS, Word, Excel, Visio, Powerpo<strong>in</strong>t,OpenOffice, RTF, csv, gzip, zip, tar, rar, bzip2, 7zip, images(EXIF), Dubl<strong>in</strong> Core XML, torrent filesIndexer<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
<strong>YaCy</strong> feed to Solr<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Search Interface IntegrationHow to <strong>in</strong>tegrate a <strong>YaCy</strong>Search Portal:Just copy-paste the codesnippet to your web pagesource code.Code Snippet #2 looks like:The <strong>YaCy</strong> adm<strong>in</strong>istration <strong>in</strong>terfaceoffers more code snippets. Anexample from/ConfigSearchBox.htmllooks like:Code Snippet Example #1: a search w<strong>in</strong>dow <strong>in</strong> an iframe
External Index Retrieval> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10
External Index Importhttp://de.wikipedia.org/wiki/Alan_Smitheede2009-04-14T00:00:00ZStandards:<strong>YaCy</strong> can import standardDubl<strong>in</strong> Core Metadata XMLfiles as <strong>in</strong>put for <strong>in</strong>dex<strong>in</strong>gHow to import Dubl<strong>in</strong> Core Files:just place the xml files <strong>in</strong>to a hand-over directoryat DATA/SURROGATES/<strong>in</strong>/The Dubl<strong>in</strong> Core XML File Standard:http://dubl<strong>in</strong>core.org/documents/dc-xml-guidel<strong>in</strong>es/<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
InstallationDownload <strong>von</strong> http://yacy.net<strong>YaCy</strong> für W<strong>in</strong>dows <strong>YaCy</strong> für Mac <strong>YaCy</strong> für Debian <strong>YaCy</strong> für L<strong>in</strong>ux / generisch (tar.gz)Auspacken, startenPackages: Je nach Betriebssystem den Anweisungen des Installers folgen, odertarball: tar.gz auspacken und Startscript starten.Lizenz: GPLfreie SoftwareAdm<strong>in</strong>istration über Web<strong>in</strong>terface<strong>YaCy</strong> ist e<strong>in</strong>e Webapplikation. Die gesamte Adm<strong>in</strong>istration erfolgt über denBrowser. E<strong>in</strong>fach http://localhost:8090 im Browser öffnen.Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net
Community Support & ConsultancyContact: Michael Christen, mc@yacy.netDownloadhttp://yacy.nethttp://latest.yacy.netDiscussionhttp://forum.yacy.netBugshttp://bugs.yacy.netDocumentationhttp://wiki.yacy.nethttp://yacy-kochbuch.deNewshttp://blog.yacy.dehttp://blog.yacy-kochbuch.dehttp://twitter.com/#!/yacy_searchDevelopmenthttp://developer.berlios.de/projects/yacy/