10.10.2013 Aufrufe

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

KAPITEL 5. INTEGRATION IN SCOOBOX 62<br />

Das Ergebnis dieser Messung hat gezeigt, dass die Indizierung des Solr-Indexes bei je<strong>der</strong><br />

Stichprobe mehr Zeit erfor<strong>der</strong>t hat, als die des FACT-Fin<strong>der</strong>-Indexes. Bis 100.000 Einträge<br />

ist die Laufzeit von Solr über das Vierfache des FACT-Fin<strong>der</strong>s angestiegen. Die<br />

Indizierungsdauer für mehr als 256.000 Beiträge haben einen Faktor von über 200%. Eine<br />

mögliche Erklärung bietet <strong>der</strong> strukturelle Unterschied <strong>der</strong> beiden Indizes. Wie bereits<br />

im vorigen Kapitel erwähnt wurde, wird bei FACT-Fin<strong>der</strong> nur eine Datenbankdatei, die<br />

Konfigurationsdateien ausgenommen, angelegt, während bei Solr <strong>der</strong> Index aus mehreren<br />

Dateien besteht. Das hat zur Folge, dass bei Solr mehrere Dateien bei <strong>der</strong> Analyse<br />

und Aufnahme eines Terms in den Index angefasst und gegebenenfalls verän<strong>der</strong>t werden<br />

müssen. Jede Dateioperation erfor<strong>der</strong>t Ressourcen und kann sich auf diese Weise in <strong>der</strong><br />

Verarbeitungszeit auswirken.<br />

Es ist auch denkbar, dass die verschiedenen Herangehensweisen bei <strong>der</strong> algorithmischen<br />

Umsetzung <strong>der</strong> Prozesse zur Analyse, Aktualisierung und Optimierung <strong>der</strong> Indizes den<br />

maßgeblichen Anteil an dem Laufzeitunterschied bewirken.<br />

Neben<strong>der</strong>Laufzeit spieltdieIndex-Größe ebenfallseinewichtige RollefürdiePerformance<br />

<strong>der</strong> Suche. Wie verhält sich <strong>der</strong> Overhead, welcher bei <strong>der</strong> Indizierung <strong>der</strong> Daten immer<br />

vorhanden ist, in Abhängigkeit von dem Zuwachs an Daten.<br />

Eine nach oben skalierende Datenmenge impliziert einen mit wachsenden Index. Die Frage<br />

über die Skalierbarkeit des Overheads, welcher durch die Indizierung <strong>der</strong> Daten immer<br />

vorhanden ist, gibt ebenfalls eine Aussage über die Leistungsfähigkeit <strong>der</strong> verwendeten<br />

Algorithmen. Insbeson<strong>der</strong>e hat die Indexgröße den direkten Einfluss auf den Speicherverbrauch,weil<br />

für<strong>der</strong>performantenZugriff<strong>der</strong>IndexindenArbeitsspeichergeladen wird.In<br />

<strong>der</strong> Abbildung 5.6 sind die Index-Größen <strong>der</strong> jeweiligen Suchplattformen für verschiedene<br />

Datenmengen in einem Balkendiagramm veranschaulicht.<br />

Abbildung 5.6: Vergleich <strong>der</strong> Indexgrößen in Abhängigkeit von Beitragsanzahl<br />

DieGrößenausdemDiagrammsindimAnhangBin<strong>der</strong>TabelleB.3erfasst.DieMesswerte<br />

wurdendirekt aus dem Dateisystem, wo dieIndexdaten gespeichert werden, abgelesen. Die<br />

Originalgrößen wurden zum Vergleich ebenfalls dargestellt. Diese stammen aus <strong>der</strong> CSV-<br />

Datei, welche für den Importvorgang in dem FACT-Fin<strong>der</strong>-Indexordner erzeugt wird.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!