16.12.2012 Aufrufe

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

7 Fusion<br />

Für die handschriftliche Suche würde ein analoges Vorgehen bedeuten, dass die Suchanfrage<br />

in Form mehrfacher Realisierungen des zu suchenden Begriffes erfolgen müsste. Damit<br />

wäre für den Benutzer ein gewisser Mehraufwand verbunden, welcher hier durch ein alternatives<br />

Vorgehen umgangen werden soll. Statt der mehrfachen Eingabe eines Suchbegriffes werden<br />

einzelne Treffer einer klassischen Suchanfrage in weiteren Durchläufen (Iterationen) als<br />

Suchbegriffe verwendet. Schematisch ist dieser Vorgang in Abbildung 7.3 dargestellt. Hierbei<br />

handelt es sich um eine Erweiterung des Schemas der einfachen Suche ohne Fusion aus Abbildung<br />

4.1 (Kapitel 4, S. 47). Ein entscheidender Parameter bei dieser Art <strong>von</strong> Fusion betrifft die<br />

Auswahl der für die Suchiterationen als Suchbegriffe verwendeten Treffer der ersten Suchanfrage.<br />

Zweckmäßig ist hierfür die Verwendung der n besten Treffer unter Berücksichtigung<br />

eines Schwellwertes für die maximal erlaubte Abweichung <strong>von</strong> der Suchanfrage.<br />

Die Fusion kann bei diesem Vorgehen auf der Vergleichs- oder der Entscheidungsebene<br />

erfolgen. Für eine Fusion der Treffermengen H0,H1,...,Hn der Einzelanfragen auf Entscheidungsebene<br />

können die Operationen der Mengenlehre verwendet werden. Insbesondere die<br />

Schnittmenge (engl. intersection) und die Vereinigungsmenge (engl. union) der einzelnen Treffermengen<br />

sind dabei denkbar:<br />

n�<br />

H∩ = Hi = H0 ∩ H1 ∩ ... ∩ Hn und<br />

n�<br />

H∪ = Hi = H0 ∪ H1 ∪ ... ∪ Hn (7.1)<br />

i=0<br />

i=0<br />

mit H∩ ,H∪ ,H0,H1,...,Hn ∈ H ∗ , 0 ≤ i ≤ n (7.2)<br />

Hierbei ist H0 die Treffermenge der originalen Suchanfrage; H1 bis Hn sind die Treffermengen<br />

der n Suchiterationen; H ∩ und H ∪ sind die durch Mengenschnitt beziehungsweise<br />

-vereinigung fusionierten Ergebnistreffermengen.<br />

Für eine Fusion der Ergebnisse der einzelnen Suchanfragen auf der Ebene der Ähnlichkeitswerte,<br />

das heißt der Vergleichsebene, ist es zweckmäßig, statt lediglich der Ähnlichkeitswerte<br />

der einzelnen Treffer vielmehr die Distanzmatrizen der einzelnen Suchvorgänge heranzuziehen.<br />

Wie in Abschnitt 6.2 zur approximativen Stringsuche erörtert, enthält die Distanzmatrix<br />

D eines Suchvorgangs die Editierabstände zwischen bestimmten Teilen der Such- und der Dokumentzeichenketten.<br />

Insbesondere die unterste Zeile Dm enthält die für die Suche relevanten<br />

Editierabstände zwischen der Suchzeichenkette und jeder Position der Dokumentzeichenkette<br />

(vergleiche Abbildung 6.4). Bei Berücksichtigung des Einflusses der Länge der Suchzeichenkette<br />

auf die Editierabstände lässt sich, wie in Gleichung 6.18 definiert, aus der Matrixzeile<br />

Dm der Vektor S der entsprechenden Ähnlichkeitswerte erzeugen.<br />

Die Fusion der Ergebnisse der verschiedenen Suchanfragen lässt sich somit durch eine Verknüpfung<br />

der jeweiligen Ähnlichkeitsvektoren realisieren. Bei Verwendung derselben Merkmalszeichenketten<br />

der Dokumentdaten (das heißt, bei Nutzung desselben Feature Extractor<br />

mit gleichbleibender Parametrisierung, beziehungsweise bei »Wiederverwendung« der einmal<br />

gewonnenen Merkmalsdaten) für alle Suchiterationen ergibt sich eine konstante Länge<br />

der n + 1 Ähnlichkeitsvektoren S 0 , S 1 bis S n . Die Verknüpfung dieser Ähnlichkeitsvektoren<br />

kann beispielsweise durch elementweises Bilden des arithmetischen Mittelwertes geschehen:<br />

92<br />

¯S = 1<br />

n + 1 ·<br />

n<br />

∑ S<br />

i=0<br />

i<br />

(7.3)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!