Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
KAPITEL 5. INTEGRATION IN SCOOBOX 62<br />
Das Ergebnis dieser Messung hat gezeigt, dass die Indizierung des Solr-Indexes bei je<strong>der</strong><br />
Stichprobe mehr Zeit erfor<strong>der</strong>t hat, als die des FACT-Fin<strong>der</strong>-Indexes. Bis 100.000 Einträge<br />
ist die Laufzeit von Solr über das Vierfache des FACT-Fin<strong>der</strong>s angestiegen. Die<br />
Indizierungsdauer für mehr als 256.000 Beiträge haben einen Faktor von über 200%. Eine<br />
mögliche Erklärung bietet <strong>der</strong> strukturelle Unterschied <strong>der</strong> beiden Indizes. Wie bereits<br />
im vorigen Kapitel erwähnt wurde, wird bei FACT-Fin<strong>der</strong> nur eine Datenbankdatei, die<br />
Konfigurationsdateien ausgenommen, angelegt, während bei Solr <strong>der</strong> Index aus mehreren<br />
Dateien besteht. Das hat zur Folge, dass bei Solr mehrere Dateien bei <strong>der</strong> Analyse<br />
und Aufnahme eines Terms in den Index angefasst und gegebenenfalls verän<strong>der</strong>t werden<br />
müssen. Jede Dateioperation erfor<strong>der</strong>t Ressourcen und kann sich auf diese Weise in <strong>der</strong><br />
Verarbeitungszeit auswirken.<br />
Es ist auch denkbar, dass die verschiedenen Herangehensweisen bei <strong>der</strong> algorithmischen<br />
Umsetzung <strong>der</strong> Prozesse zur Analyse, Aktualisierung und Optimierung <strong>der</strong> Indizes den<br />
maßgeblichen Anteil an dem Laufzeitunterschied bewirken.<br />
Neben<strong>der</strong>Laufzeit spieltdieIndex-Größe ebenfallseinewichtige RollefürdiePerformance<br />
<strong>der</strong> Suche. Wie verhält sich <strong>der</strong> Overhead, welcher bei <strong>der</strong> Indizierung <strong>der</strong> Daten immer<br />
vorhanden ist, in Abhängigkeit von dem Zuwachs an Daten.<br />
Eine nach oben skalierende Datenmenge impliziert einen mit wachsenden Index. Die Frage<br />
über die Skalierbarkeit des Overheads, welcher durch die Indizierung <strong>der</strong> Daten immer<br />
vorhanden ist, gibt ebenfalls eine Aussage über die Leistungsfähigkeit <strong>der</strong> verwendeten<br />
Algorithmen. Insbeson<strong>der</strong>e hat die Indexgröße den direkten Einfluss auf den Speicherverbrauch,weil<br />
für<strong>der</strong>performantenZugriff<strong>der</strong>IndexindenArbeitsspeichergeladen wird.In<br />
<strong>der</strong> Abbildung 5.6 sind die Index-Größen <strong>der</strong> jeweiligen Suchplattformen für verschiedene<br />
Datenmengen in einem Balkendiagramm veranschaulicht.<br />
Abbildung 5.6: Vergleich <strong>der</strong> Indexgrößen in Abhängigkeit von Beitragsanzahl<br />
DieGrößenausdemDiagrammsindimAnhangBin<strong>der</strong>TabelleB.3erfasst.DieMesswerte<br />
wurdendirekt aus dem Dateisystem, wo dieIndexdaten gespeichert werden, abgelesen. Die<br />
Originalgrößen wurden zum Vergleich ebenfalls dargestellt. Diese stammen aus <strong>der</strong> CSV-<br />
Datei, welche für den Importvorgang in dem FACT-Fin<strong>der</strong>-Indexordner erzeugt wird.