22.02.2013 Aufrufe

Enterprise Search - Suchlösungen für Unternehmen - inter:gator

Enterprise Search - Suchlösungen für Unternehmen - inter:gator

Enterprise Search - Suchlösungen für Unternehmen - inter:gator

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2 Grundlagen<br />

2 Grundlagen<br />

2.1 Funktionsweisen einer Suchmaschine<br />

<strong>Enterprise</strong> <strong>Search</strong> – Engines funktionieren grundsätzlich nach dem selben Prinzip wie die allen<br />

bekannten Internetsuchmaschinen. Es wird unterschieden zwischen dem Frontend und dem<br />

Backend. Beim Frontend handelt es sich um den <strong>für</strong> den Nutzer sichtbaren Teil der Suchmaschine,<br />

also der Eingabemaske und der Ergebnisliste. Die Eingabemaske kann im allgemeinen über ein<br />

Web<strong>inter</strong>face angesteuert werden und orientiert sich vom Design her an gängigen<br />

Internetsuchmaschinen. Da die meisten Nutzer schon einmal „gegoogelt“ haben, ist die<br />

Eingewöhnungsphase bei <strong>Enterprise</strong> <strong>Search</strong> – Engines sehr kurz. Im Backend wird zwischen dem<br />

Index-Modul, dem Query-Modul und dem Ranking-Modul unterschieden.<br />

Abbildung 2: Wie funktioniert eine <strong>Enterprise</strong> <strong>Search</strong><br />

Lösung? [4]<br />

Schauen wir uns zuerst das Herzstück, das Index-Modul, unserer Suchmaschine an. Im sogenannten<br />

Index werden sämtliche <strong>für</strong> die Suche relevanten Daten des <strong>Unternehmen</strong>s gespeichert. Der Index<br />

enthält eine Schlagwortliste, die den Dokumenteninhalt widerspiegelt, Metadaten, wie den Autor<br />

oder das Erstellungsdatum des Dokumentes, Zugriffsrechte auf die Daten, einen Vorschautext sowie<br />

ein Vorschaubild <strong>für</strong> die Trefferliste, einen Spell-Index, der Schlagwörter <strong>für</strong> die „Meinten Sie?“<br />

Suche bereithält und weitere Anmerkungen die <strong>für</strong> Suchvorschläge genutzt werden können. [5]<br />

Diese Informationen werden von einem sogenannten Crawler gesammelt. Dieser durchsucht das<br />

Dateisystem, das Intranet, Wikis, Email Programme und viele weitere Quellen nach Daten die er in<br />

den Index aufnehmen kann. Dabei braucht er <strong>für</strong> jede Informationsquelle und <strong>für</strong> jede<br />

Dateinamenserweiterung einen eigenen Konnektor der ihm das Lesen des Inhaltes ermöglicht. Bei<br />

Internetsuchmaschinen muss der Crawler sich an den Link Strukturen des Internets orientieren,<br />

diese Möglichkeit besteht bei Enteprise <strong>Search</strong> – Engines nur eingeschränkt, da Link Strukturen<br />

höchstens im Firmen eigenem Intranet anzutreffen sind. Diese können dann mit Hilfe eines HTTP-<br />

Crawlers indexiert werden. Nach der initialen Indexierung ist der gesamte Datenbestand der Firma<br />

im Index gespeichert. Bei den folgenden Indexierungen werden nur noch geänderte oder neue Daten<br />

in den Index aufgenommen beziehungsweise nicht mehr vorhandene Daten aus dem Index gelöscht.<br />

Dieses Verfahren, durch Checksummen unterstützt, ist viel schneller als eine immer wieder<br />

stattfindende komplette neu Indexierung. Eine weitere Möglichkeit um Ressourcen beim Crawlen<br />

<strong>Enterprise</strong> <strong>Search</strong> - <strong>Suchlösungen</strong> <strong>für</strong> <strong>Unternehmen</strong> 3

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!