Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
KAPITEL 5. INTEGRATION IN SCOOBOX 63<br />
Man sieht deutlich, dass die Größe <strong>der</strong> Solr-Indizes, ausgenommen die Werte bei 2.000<br />
Beiträgen, mehr Speicherplatz als die FACT-Fin<strong>der</strong>-Indizes erfor<strong>der</strong>n. Dabei pendelt sich<br />
das Verhältnis <strong>der</strong> Index- zu <strong>der</strong> Originalgröße ab 128.000 Beiträgen bei beiden Suchplattformen<br />
um einen festen Wert ein. Bei FACT-Fin<strong>der</strong> ist <strong>der</strong> Overhead in etwa 40% und bei<br />
Solr 133% von <strong>der</strong> Originalgröße <strong>der</strong> indizierten Daten.<br />
Der deutliche Größenunterschied kann zum Einen wie<strong>der</strong> auf die Anzahl <strong>der</strong> für den Index<br />
angelegten Dateien und <strong>der</strong> Struktur dieser Dateien gesehen werden. Vermutlich liegt jedoch<br />
<strong>der</strong> Hauptunterschied in dem strukturellem Aufbau <strong>der</strong> Indizes in folge verschiedener<br />
Algorithmen, welche für die Suche eingesetzt werden. Des Weiteren muss auch in diesem<br />
Test die Tatsache, dass die Beiträge dupliziert worden sind, berücksichtigt werden.<br />
5.3.4 Qualität <strong>der</strong> Suche<br />
In diesem Abschnitt soll die Qualität <strong>der</strong> Suche durch die Analyse <strong>der</strong> von den Suchplattformen<br />
generierten Suchergebnisse analysiert und bewertet werden, wobei wie<strong>der</strong> <strong>der</strong><br />
Ausgangszustand von 1876 Beiträgen erzeugt wurde. Die Qualität <strong>der</strong> Suche impliziert in<br />
diesem Zusammenhang die schnelle Ausführung <strong>der</strong> Suche und sowie eine relevante Ergebnismenge<br />
von Dokumenten. Somit sind diese Kriterien fundamental für Information<br />
Retrieval (vgl. Definition von IR-Abschnitt 2.1). Da es kein automatisches Auswertungssystem<br />
für die Schätzung <strong>der</strong> Relevanz von Suchergebnissen vorhanden war, wurden die<br />
Suchergebnisse ” von Hand“ analysiert als relevant o<strong>der</strong> nicht relevant zu dem gestellten<br />
Suchbegriff angesehen. Aufgrund <strong>der</strong> manuellen Auswertung wurden die Suchbegriffe mit<br />
Absicht gewählt, um kleine Ergebnismengen zu erhalten. Weiterhin wurde in <strong>der</strong> Datenbank<br />
nach den Begriffen gesucht, um einen Referenzwert über die Menge von Beiträgen<br />
mit exakter Übereinstimmung zu erhalten. Um das Ergebnis <strong>der</strong> Datenbank zu erhalten<br />
wurde die SQL-Anfrage aus Listing 5.2 verwendet.<br />
1 SELECT title , text<br />
2 FROM scblogpost<br />
3 WHERE title like ’%Suchbegriff%’ OR text like ’%Suchbegriff%’<br />
Listing 5.2: SQL-Anfrage für den Referenzwert<br />
Das Ergebnis <strong>der</strong> Oracle-Anfrage dient somit als Referenzwert für das tatsächliche Aufkommen<br />
<strong>der</strong> Suchbegriffe ohne <strong>der</strong> Texttransformationen wie z.B. Wortstammreduzierung<br />
und phonetische Analyse (vgl. Abschnitt 2.2.1). Für die im Anschluss aufgeführten<br />
Performance-Zahlen ist natürlich die Frage nach Indizes in Oracle interessant, um auch die<br />
dortigen Möglichkeiten FACT-Fin<strong>der</strong> und Solr gegenüberzustellen. Im zeitlichen Rahmen<br />
dieser Arbeit war dies jedoch einfach nicht machbar.<br />
Die Untersuchung basiert auf zwei Szenarien, bei den die Suche mit und ohne phonetische<br />
Analyse des Suchraums erfolgte. Hierfür wurde bei Solr <strong>der</strong> phonetische Filter aus<br />
<strong>der</strong> Konfiguration entfernt und die Stoppwortliste, welche für die deutsche und englische<br />
Sprache ausgelegt ist, mit den Standardeinträgen von dem FACT-Fin<strong>der</strong> Server gefüllt.<br />
Weitere Filter für die Stammwortzerlegung und Thesauri wurde bei Solr ebenfalls nicht<br />
aktiviert. Bei FACT-Fin<strong>der</strong> wurde <strong>der</strong> Regler für die Kompromisseinstellung zwischen <strong>der</strong><br />
Schnelligkeit und Präzision <strong>der</strong> Suche auf die maximale Stufe 9 gesetzt, so dass gemäß<br />
[Doc11] die Phonetik ausgeschaltet wurde und die Suche nach 2.000 durchsuchten Einträgen<br />
automatisch abbricht. Genauso wie bei Solr wurden auch bei FACT-Fin<strong>der</strong> keine<br />
Konfiguration im Bezug auf Thesauri und Stammwortreduzierung explizit vorgenommen.