10.10.2013 Aufrufe

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

KAPITEL 5. INTEGRATION IN SCOOBOX 63<br />

Man sieht deutlich, dass die Größe <strong>der</strong> Solr-Indizes, ausgenommen die Werte bei 2.000<br />

Beiträgen, mehr Speicherplatz als die FACT-Fin<strong>der</strong>-Indizes erfor<strong>der</strong>n. Dabei pendelt sich<br />

das Verhältnis <strong>der</strong> Index- zu <strong>der</strong> Originalgröße ab 128.000 Beiträgen bei beiden Suchplattformen<br />

um einen festen Wert ein. Bei FACT-Fin<strong>der</strong> ist <strong>der</strong> Overhead in etwa 40% und bei<br />

Solr 133% von <strong>der</strong> Originalgröße <strong>der</strong> indizierten Daten.<br />

Der deutliche Größenunterschied kann zum Einen wie<strong>der</strong> auf die Anzahl <strong>der</strong> für den Index<br />

angelegten Dateien und <strong>der</strong> Struktur dieser Dateien gesehen werden. Vermutlich liegt jedoch<br />

<strong>der</strong> Hauptunterschied in dem strukturellem Aufbau <strong>der</strong> Indizes in folge verschiedener<br />

Algorithmen, welche für die Suche eingesetzt werden. Des Weiteren muss auch in diesem<br />

Test die Tatsache, dass die Beiträge dupliziert worden sind, berücksichtigt werden.<br />

5.3.4 Qualität <strong>der</strong> Suche<br />

In diesem Abschnitt soll die Qualität <strong>der</strong> Suche durch die Analyse <strong>der</strong> von den Suchplattformen<br />

generierten Suchergebnisse analysiert und bewertet werden, wobei wie<strong>der</strong> <strong>der</strong><br />

Ausgangszustand von 1876 Beiträgen erzeugt wurde. Die Qualität <strong>der</strong> Suche impliziert in<br />

diesem Zusammenhang die schnelle Ausführung <strong>der</strong> Suche und sowie eine relevante Ergebnismenge<br />

von Dokumenten. Somit sind diese Kriterien fundamental für Information<br />

Retrieval (vgl. Definition von IR-Abschnitt 2.1). Da es kein automatisches Auswertungssystem<br />

für die Schätzung <strong>der</strong> Relevanz von Suchergebnissen vorhanden war, wurden die<br />

Suchergebnisse ” von Hand“ analysiert als relevant o<strong>der</strong> nicht relevant zu dem gestellten<br />

Suchbegriff angesehen. Aufgrund <strong>der</strong> manuellen Auswertung wurden die Suchbegriffe mit<br />

Absicht gewählt, um kleine Ergebnismengen zu erhalten. Weiterhin wurde in <strong>der</strong> Datenbank<br />

nach den Begriffen gesucht, um einen Referenzwert über die Menge von Beiträgen<br />

mit exakter Übereinstimmung zu erhalten. Um das Ergebnis <strong>der</strong> Datenbank zu erhalten<br />

wurde die SQL-Anfrage aus Listing 5.2 verwendet.<br />

1 SELECT title , text<br />

2 FROM scblogpost<br />

3 WHERE title like ’%Suchbegriff%’ OR text like ’%Suchbegriff%’<br />

Listing 5.2: SQL-Anfrage für den Referenzwert<br />

Das Ergebnis <strong>der</strong> Oracle-Anfrage dient somit als Referenzwert für das tatsächliche Aufkommen<br />

<strong>der</strong> Suchbegriffe ohne <strong>der</strong> Texttransformationen wie z.B. Wortstammreduzierung<br />

und phonetische Analyse (vgl. Abschnitt 2.2.1). Für die im Anschluss aufgeführten<br />

Performance-Zahlen ist natürlich die Frage nach Indizes in Oracle interessant, um auch die<br />

dortigen Möglichkeiten FACT-Fin<strong>der</strong> und Solr gegenüberzustellen. Im zeitlichen Rahmen<br />

dieser Arbeit war dies jedoch einfach nicht machbar.<br />

Die Untersuchung basiert auf zwei Szenarien, bei den die Suche mit und ohne phonetische<br />

Analyse des Suchraums erfolgte. Hierfür wurde bei Solr <strong>der</strong> phonetische Filter aus<br />

<strong>der</strong> Konfiguration entfernt und die Stoppwortliste, welche für die deutsche und englische<br />

Sprache ausgelegt ist, mit den Standardeinträgen von dem FACT-Fin<strong>der</strong> Server gefüllt.<br />

Weitere Filter für die Stammwortzerlegung und Thesauri wurde bei Solr ebenfalls nicht<br />

aktiviert. Bei FACT-Fin<strong>der</strong> wurde <strong>der</strong> Regler für die Kompromisseinstellung zwischen <strong>der</strong><br />

Schnelligkeit und Präzision <strong>der</strong> Suche auf die maximale Stufe 9 gesetzt, so dass gemäß<br />

[Doc11] die Phonetik ausgeschaltet wurde und die Suche nach 2.000 durchsuchten Einträgen<br />

automatisch abbricht. Genauso wie bei Solr wurden auch bei FACT-Fin<strong>der</strong> keine<br />

Konfiguration im Bezug auf Thesauri und Stammwortreduzierung explizit vorgenommen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!