Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
KAPITEL 5. INTEGRATION IN SCOOBOX 61<br />
5.3.3 Indizierung<br />
Die Indizierung erfolgt bei dem Indexerstellungsprozess und ist grundlegend für jede Suchplattform.<br />
Bei je<strong>der</strong> Än<strong>der</strong>ungdes Datenbestandes ist die erneute Indizierungerfor<strong>der</strong>lich,<br />
damit die Suchergebnisse stets aktuell bleiben. Hierbei stellt sich die Frage wie aufwendig<br />
dieser Prozess ist und, ob die Aktualisierung automatisiert o<strong>der</strong> manuell ausgeführt<br />
werden sollte. Bei <strong>der</strong> automatischen Aktualisierung besteht die Gefahr, dass es im laufenden<br />
Betrieb zu Leistungseinbussen aufgrund des hohen Ressourcenverbrauchs kommen<br />
kann. Diesem Nachteil kann mit manueller Aktualisierung durch Akzeptanz von kurzen<br />
Inkonsistenzen<strong>der</strong>SucheausdemWeg gegangen werden.Somitkannbeispielsweisedieautomatisierte<br />
Aktualisierung in den Zeiträumen, wenn <strong>der</strong> Online-Shop kaum besucht wird,<br />
einen Kompromiss zwischen <strong>der</strong> manuellen und automatischen Aktualisierung bedeuten.<br />
Weiterhin ist das zeitliche Aktualisierungsverhalten <strong>der</strong> Suchplattformen mit leicht modifizierten<br />
Daten interessant. Ab welchen Än<strong>der</strong>ungsanteil ziehen die Suchplattformen den<br />
kompletter Update dem Teilupdate des Indexes vor. Da in <strong>der</strong> Standardimplementierung<br />
immereinekompletter Updatedurchgeführtwird,kannsoein Verhalten im Rahmendieser<br />
Arbeit nicht getestet werden.<br />
Aus den genannten Überlegungen wird das Interesse geweckt die Laufzeiten, welche die<br />
Suchserver für diesen Prozess benötigen, zu untersuchen. Um das Verhalten <strong>der</strong> Suchplattformen<br />
bei wachsendem Datenbestand zu untersuchen, wurden die Beiträge vervielfacht<br />
und erneut indiziert. Das hat zur Folge, dass die Anzahl <strong>der</strong> indizierten Wörter hierbei<br />
identisch bleibt und die Länge <strong>der</strong> Posting Liste (vgl. Abschnitt 2.2.2) einzelner Terme<br />
ansteigt. Somit ist dieses Beispielszenario nicht hun<strong>der</strong>tprozentig repräsentativ, es zeigt<br />
dennoch die Unterschiede in <strong>der</strong> Laufzeit bei<strong>der</strong> Plattformen auf.<br />
In <strong>der</strong> Abbildung 5.5 ist die durchschnittlich benötigte Zeit für die Indizierungsprozesse<br />
in Millisekunden für unterschiedliche Datenmengen dargestellt. Die Messwerte wurden in<br />
<strong>der</strong> System Management Console (SMC), welche in Enfinity Suite u.a. die zeitliche Überwachung<br />
<strong>der</strong> Performance erlaubt, abgelesen. Speziell wurde die Performance des Pipelets<br />
AddObjectsToSearchIndex, welches denDatenimport ausführt, betrachtet. Für jedeDatenmenge<br />
wurden pro Suchplattform drei Messwerte abgelesen, <strong>der</strong> Durchschnittswert sowie<br />
die Standardabweichung und in den Tabellen B.1 und B.2 (Anhang B) erfasst.<br />
Abbildung 5.5: Vergleich <strong>der</strong> Indizierungsdauer in Abhängigkeit von Beitragsanzahl