Enterprise Search - Suchlösungen für Unternehmen - inter:gator
Enterprise Search - Suchlösungen für Unternehmen - inter:gator
Enterprise Search - Suchlösungen für Unternehmen - inter:gator
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2 Grundlagen<br />
2 Grundlagen<br />
2.1 Funktionsweisen einer Suchmaschine<br />
<strong>Enterprise</strong> <strong>Search</strong> – Engines funktionieren grundsätzlich nach dem selben Prinzip wie die allen<br />
bekannten Internetsuchmaschinen. Es wird unterschieden zwischen dem Frontend und dem<br />
Backend. Beim Frontend handelt es sich um den <strong>für</strong> den Nutzer sichtbaren Teil der Suchmaschine,<br />
also der Eingabemaske und der Ergebnisliste. Die Eingabemaske kann im allgemeinen über ein<br />
Web<strong>inter</strong>face angesteuert werden und orientiert sich vom Design her an gängigen<br />
Internetsuchmaschinen. Da die meisten Nutzer schon einmal „gegoogelt“ haben, ist die<br />
Eingewöhnungsphase bei <strong>Enterprise</strong> <strong>Search</strong> – Engines sehr kurz. Im Backend wird zwischen dem<br />
Index-Modul, dem Query-Modul und dem Ranking-Modul unterschieden.<br />
Abbildung 2: Wie funktioniert eine <strong>Enterprise</strong> <strong>Search</strong><br />
Lösung? [4]<br />
Schauen wir uns zuerst das Herzstück, das Index-Modul, unserer Suchmaschine an. Im sogenannten<br />
Index werden sämtliche <strong>für</strong> die Suche relevanten Daten des <strong>Unternehmen</strong>s gespeichert. Der Index<br />
enthält eine Schlagwortliste, die den Dokumenteninhalt widerspiegelt, Metadaten, wie den Autor<br />
oder das Erstellungsdatum des Dokumentes, Zugriffsrechte auf die Daten, einen Vorschautext sowie<br />
ein Vorschaubild <strong>für</strong> die Trefferliste, einen Spell-Index, der Schlagwörter <strong>für</strong> die „Meinten Sie?“<br />
Suche bereithält und weitere Anmerkungen die <strong>für</strong> Suchvorschläge genutzt werden können. [5]<br />
Diese Informationen werden von einem sogenannten Crawler gesammelt. Dieser durchsucht das<br />
Dateisystem, das Intranet, Wikis, Email Programme und viele weitere Quellen nach Daten die er in<br />
den Index aufnehmen kann. Dabei braucht er <strong>für</strong> jede Informationsquelle und <strong>für</strong> jede<br />
Dateinamenserweiterung einen eigenen Konnektor der ihm das Lesen des Inhaltes ermöglicht. Bei<br />
Internetsuchmaschinen muss der Crawler sich an den Link Strukturen des Internets orientieren,<br />
diese Möglichkeit besteht bei Enteprise <strong>Search</strong> – Engines nur eingeschränkt, da Link Strukturen<br />
höchstens im Firmen eigenem Intranet anzutreffen sind. Diese können dann mit Hilfe eines HTTP-<br />
Crawlers indexiert werden. Nach der initialen Indexierung ist der gesamte Datenbestand der Firma<br />
im Index gespeichert. Bei den folgenden Indexierungen werden nur noch geänderte oder neue Daten<br />
in den Index aufgenommen beziehungsweise nicht mehr vorhandene Daten aus dem Index gelöscht.<br />
Dieses Verfahren, durch Checksummen unterstützt, ist viel schneller als eine immer wieder<br />
stattfindende komplette neu Indexierung. Eine weitere Möglichkeit um Ressourcen beim Crawlen<br />
<strong>Enterprise</strong> <strong>Search</strong> - <strong>Suchlösungen</strong> <strong>für</strong> <strong>Unternehmen</strong> 3