13.07.2015 Aufrufe

YaCy Workshop Einführung in die Nutzung von YaCy ...

YaCy Workshop Einführung in die Nutzung von YaCy ...

YaCy Workshop Einführung in die Nutzung von YaCy ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>YaCy</strong> <strong>Workshop</strong>E<strong>in</strong>führung <strong>in</strong> <strong>die</strong> <strong>Nutzung</strong> <strong>von</strong><strong>YaCy</strong> Suchmasch<strong>in</strong>ensoftwareMichael Christenmc@yacy.net, http://yacy.netInhaltBeispiele für Websuche und Suchportalemit der Peer-to-Peer Suchmasch<strong>in</strong>e <strong>YaCy</strong>+Demo!ArchitekturDetails zur Suchmasch<strong>in</strong>entechnologieIntegration<strong>von</strong> <strong>YaCy</strong> Suchfenster <strong>in</strong> Webseiten und Dienste


„Freeworld“: Decentralised Search for EveryoneSearchEng<strong>in</strong>e @Home> 1 BillionDocumentsPeople run they own <strong>YaCy</strong> search peer at homeand create <strong>in</strong>dependent search for everyone<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Sciencenet: Search Cluster <strong>in</strong> a Data Centerhttp://sciencenet.fzk.de300 milliondocuments,Sciencenet‘: Search Eng<strong>in</strong>e for scientific content <strong>in</strong>the Karlsruhe Institute of Technology:34 computers runn<strong>in</strong>g <strong>YaCy</strong> <strong>in</strong> it‘s own network<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Search Provider for Metager and Metager2metager +metager2http://metager.dehttp://metager2.de<strong>YaCy</strong> Peers werden <strong>von</strong> metagerund metager2 genutzt<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Community & Personal Use of Search Eng<strong>in</strong>esDecentralized Searchnon-Cloud Search(keep your secrets)PeerPeerPeerPeerPeerAppliancePeerPeerPeer


Project Search Eng<strong>in</strong>eYour ProjectDiscussionsWikiCodeBugtrackerIntegratedSearchIntegratedSearchApplianceSearch Eng<strong>in</strong>eIntegratedSearchIntegratedSearch<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Project Search Eng<strong>in</strong>e: Free Software Foundation<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Project Search Eng<strong>in</strong>e: Geocach<strong>in</strong>g<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Project Search Eng<strong>in</strong>e: <strong>YaCy</strong> Forum (Widget)<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Project Search Eng<strong>in</strong>e: <strong>YaCy</strong> Wiki (Widget)<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Enterprise Search: Keep Secrets!TheEnterprise EnvironmentInternetDiscussionsWikiCodeBugtrackerApplianceSearch Eng<strong>in</strong>e<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


A Search Eng<strong>in</strong>e CoreRetrieval, Index<strong>in</strong>g, Storage and Search ComponentsDepth = 0Start-URLfilter<strong>in</strong>g,pars<strong>in</strong>gText AnalysisCrawlerDepth = 1Depth = 2URL Crawl Stack@l<strong>in</strong>ksDouble L<strong>in</strong>kCheckwordsStop wordsCheckReverseWord IndexIndex<strong>in</strong>gSearch Interfacerank<strong>in</strong>g,verification,visualizationWordURL References<strong>YaCy</strong> has an<strong>in</strong>tegrated NoSQLDatabase. Thedatabase stores aReverse WordIndex, Metadataand the sourcedocuments.DatabasePeer-to-Peer Network API


Architecture #1/4: The Search Eng<strong>in</strong>e NetworkThe ,freeworld‘ <strong>YaCy</strong> Search Eng<strong>in</strong>e NetworkPeer Types:Juniorbeh<strong>in</strong>d firewall or routerSeniorhas open server portPr<strong>in</strong>cipalpublishes seed-listsDHT-StoreDHT-Read<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Snippets & L<strong>in</strong>k VerificationSRUFacetsFile Types, Protocols,Doma<strong>in</strong>s, Authorsevery l<strong>in</strong>k is verifiedbefore it is displayed: the content is loaded,parsed and used for a search snippet generationStandardsAPIsToolsOpensearch (search results with RSS), JSON, AJAX toolssearch widget, ready-to-use code snippets to embed search everywhere<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Data Aquisitiontarget hosts(doma<strong>in</strong> name)round-rob<strong>in</strong>accessrobots.txt, latencyand m<strong>in</strong>imumaccess time 0.5sloaderCrawlerwith target host balanc<strong>in</strong>gScan Sources<strong>in</strong> a specific networkScan IP RangeDiscover ServicesAvailablility Mngt.RSS FeedsFTP SMBOAI-PMH Loaderload opac records from librariesImport FilesDubl<strong>in</strong> Core FilesWikimedia Dumpmany file formatsDubl<strong>in</strong>CoreParserHTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash, PDF, PS, Word, Excel, Visio, Powerpo<strong>in</strong>t,OpenOffice, RTF, csv, gzip, zip, tar, rar, bzip2, 7zip, images(EXIF), Dubl<strong>in</strong> Core XML, torrent filesIndexer<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


<strong>YaCy</strong> feed to Solr<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Search Interface IntegrationHow to <strong>in</strong>tegrate a <strong>YaCy</strong>Search Portal:Just copy-paste the codesnippet to your web pagesource code.Code Snippet #2 looks like:The <strong>YaCy</strong> adm<strong>in</strong>istration <strong>in</strong>terfaceoffers more code snippets. Anexample from/ConfigSearchBox.htmllooks like:Code Snippet Example #1: a search w<strong>in</strong>dow <strong>in</strong> an iframe


External Index Retrieval> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10


External Index Importhttp://de.wikipedia.org/wiki/Alan_Smitheede2009-04-14T00:00:00ZStandards:<strong>YaCy</strong> can import standardDubl<strong>in</strong> Core Metadata XMLfiles as <strong>in</strong>put for <strong>in</strong>dex<strong>in</strong>gHow to import Dubl<strong>in</strong> Core Files:just place the xml files <strong>in</strong>to a hand-over directoryat DATA/SURROGATES/<strong>in</strong>/The Dubl<strong>in</strong> Core XML File Standard:http://dubl<strong>in</strong>core.org/documents/dc-xml-guidel<strong>in</strong>es/<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


InstallationDownload <strong>von</strong> http://yacy.net<strong>YaCy</strong> für W<strong>in</strong>dows <strong>YaCy</strong> für Mac <strong>YaCy</strong> für Debian <strong>YaCy</strong> für L<strong>in</strong>ux / generisch (tar.gz)Auspacken, startenPackages: Je nach Betriebssystem den Anweisungen des Installers folgen, odertarball: tar.gz auspacken und Startscript starten.Lizenz: GPLfreie SoftwareAdm<strong>in</strong>istration über Web<strong>in</strong>terface<strong>YaCy</strong> ist e<strong>in</strong>e Webapplikation. Die gesamte Adm<strong>in</strong>istration erfolgt über denBrowser. E<strong>in</strong>fach http://localhost:8090 im Browser öffnen.Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.<strong>Workshop</strong> Technische Wege zum digitalen WissenSuMa-eV Kongress 2011 – http://www.suma-ev.de/forum2011/Michael Christenmc@yacy.net, http://yacy.net


Community Support & ConsultancyContact: Michael Christen, mc@yacy.netDownloadhttp://yacy.nethttp://latest.yacy.netDiscussionhttp://forum.yacy.netBugshttp://bugs.yacy.netDocumentationhttp://wiki.yacy.nethttp://yacy-kochbuch.deNewshttp://blog.yacy.dehttp://blog.yacy-kochbuch.dehttp://twitter.com/#!/yacy_searchDevelopmenthttp://developer.berlios.de/projects/yacy/

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!