Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
7 Fusion<br />
Für die handschriftliche Suche würde ein analoges Vorgehen bedeuten, dass die Suchanfrage<br />
in Form mehrfacher Realisierungen des zu suchenden Begriffes erfolgen müsste. Damit<br />
wäre für den Benutzer ein gewisser Mehraufwand verbunden, welcher hier durch ein alternatives<br />
Vorgehen umgangen werden soll. Statt der mehrfachen Eingabe eines Suchbegriffes werden<br />
einzelne Treffer einer klassischen Suchanfrage in weiteren Durchläufen (Iterationen) als<br />
Suchbegriffe verwendet. Schematisch ist dieser Vorgang in Abbildung 7.3 dargestellt. Hierbei<br />
handelt es sich um eine Erweiterung des Schemas der einfachen Suche ohne Fusion aus Abbildung<br />
4.1 (Kapitel 4, S. 47). Ein entscheidender Parameter bei dieser Art <strong>von</strong> Fusion betrifft die<br />
Auswahl der für die Suchiterationen als Suchbegriffe verwendeten Treffer der ersten Suchanfrage.<br />
Zweckmäßig ist hierfür die Verwendung der n besten Treffer unter Berücksichtigung<br />
eines Schwellwertes für die maximal erlaubte Abweichung <strong>von</strong> der Suchanfrage.<br />
Die Fusion kann bei diesem Vorgehen auf der Vergleichs- oder der Entscheidungsebene<br />
erfolgen. Für eine Fusion der Treffermengen H0,H1,...,Hn der Einzelanfragen auf Entscheidungsebene<br />
können die Operationen der Mengenlehre verwendet werden. Insbesondere die<br />
Schnittmenge (engl. intersection) und die Vereinigungsmenge (engl. union) der einzelnen Treffermengen<br />
sind dabei denkbar:<br />
n�<br />
H∩ = Hi = H0 ∩ H1 ∩ ... ∩ Hn und<br />
n�<br />
H∪ = Hi = H0 ∪ H1 ∪ ... ∪ Hn (7.1)<br />
i=0<br />
i=0<br />
mit H∩ ,H∪ ,H0,H1,...,Hn ∈ H ∗ , 0 ≤ i ≤ n (7.2)<br />
Hierbei ist H0 die Treffermenge der originalen Suchanfrage; H1 bis Hn sind die Treffermengen<br />
der n Suchiterationen; H ∩ und H ∪ sind die durch Mengenschnitt beziehungsweise<br />
-vereinigung fusionierten Ergebnistreffermengen.<br />
Für eine Fusion der Ergebnisse der einzelnen Suchanfragen auf der Ebene der Ähnlichkeitswerte,<br />
das heißt der Vergleichsebene, ist es zweckmäßig, statt lediglich der Ähnlichkeitswerte<br />
der einzelnen Treffer vielmehr die Distanzmatrizen der einzelnen Suchvorgänge heranzuziehen.<br />
Wie in Abschnitt 6.2 zur approximativen Stringsuche erörtert, enthält die Distanzmatrix<br />
D eines Suchvorgangs die Editierabstände zwischen bestimmten Teilen der Such- und der Dokumentzeichenketten.<br />
Insbesondere die unterste Zeile Dm enthält die für die Suche relevanten<br />
Editierabstände zwischen der Suchzeichenkette und jeder Position der Dokumentzeichenkette<br />
(vergleiche Abbildung 6.4). Bei Berücksichtigung des Einflusses der Länge der Suchzeichenkette<br />
auf die Editierabstände lässt sich, wie in Gleichung 6.18 definiert, aus der Matrixzeile<br />
Dm der Vektor S der entsprechenden Ähnlichkeitswerte erzeugen.<br />
Die Fusion der Ergebnisse der verschiedenen Suchanfragen lässt sich somit durch eine Verknüpfung<br />
der jeweiligen Ähnlichkeitsvektoren realisieren. Bei Verwendung derselben Merkmalszeichenketten<br />
der Dokumentdaten (das heißt, bei Nutzung desselben Feature Extractor<br />
mit gleichbleibender Parametrisierung, beziehungsweise bei »Wiederverwendung« der einmal<br />
gewonnenen Merkmalsdaten) für alle Suchiterationen ergibt sich eine konstante Länge<br />
der n + 1 Ähnlichkeitsvektoren S 0 , S 1 bis S n . Die Verknüpfung dieser Ähnlichkeitsvektoren<br />
kann beispielsweise durch elementweises Bilden des arithmetischen Mittelwertes geschehen:<br />
92<br />
¯S = 1<br />
n + 1 ·<br />
n<br />
∑ S<br />
i=0<br />
i<br />
(7.3)