forschungsbericht 1998 - Friedrich-Alexander-Universität Erlangen ...
forschungsbericht 1998 - Friedrich-Alexander-Universität Erlangen ...
forschungsbericht 1998 - Friedrich-Alexander-Universität Erlangen ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
120 Forschungsbericht der WiSo <strong>1998</strong><br />
Rechercheunterstützung:<br />
Zum Zwecke der optimalen Benutzerführung wurde hier entschieden, die Recherchen auf einzelne<br />
Worte herunterzubrechen. Dazu wurden die die Zeitreihen beschreibenden Texte außer als zusam-<br />
menhängender Text jeweils in einzelne Worte aufgesplittet gespeichert, wobei insgesamt doppelt vor-<br />
kommende Worte natürlich nicht redundant, also nur einmal gespeichtert wurden. Dadurch ergab sich<br />
die Möglichkeit, einen Thesaurus als Suchunterstützung einzuführen. Je nach gewünschter Treffer-<br />
quote kann dieser in verschiedener Intensität hinzugeschaltet werden, d.h. in erster Linie können z.B.<br />
nur gleiche Wörter in anderer oder abgekürzter Schreibweise in die Suche einbezogen werden (statt<br />
Unfall oder Aktiengesellschaft auch Suche nach Unfälle und Unfälle oder AG), und erst in zweiter Linie<br />
können Synonyme oder immer globalere Wörter mit zur Suche verwendet werden (z.B. statt Arbeits-<br />
hosen in zweiter Stufe nach Latzhosen und Jeans und in dritter Stufe nach Hosen allgemein).<br />
Ein solches System bringt folgende Vorteile mit sich:<br />
• Entsprechend der Anzahl der gefundenen Treffer kann das System dem Benutzer entsprechende<br />
Hilfehinweise geben.<br />
• Das System kann auch derart gestaltet werden, daß es automatisch den Thesaurus hinzuschaltet.<br />
• Es werden wesentlich weitere Verknüpfungsmöglichkeiten innerhalb der Daten geschaffen, die<br />
durch deren gegebene Struktur sonst nicht möglich wären.<br />
• Fehler in den Daten (z.B. uneinheitliche Verwendung von Umlauten) können umgangen werden.<br />
Es müssen aber auch folgende neue Probleme berücksichtigt werden: Einerseits werden Daten jetzt<br />
doch mehrfach gespeichert. Es müssen also Sicherheitsmechanismen geschaffen werden, die solche<br />
Redundanzen unter Kontrolle halten, z.B. indem bei der Löschung eines Datensatzes an einer Stelle<br />
der restliche Datenbestand entsprechend angepaßt wird. Die meisten großen Datenbanken bieten<br />
solche Sicherheitsmechanismen bereits an. Andererseits kann sich die Suchzeit durch das Einbe-<br />
ziehen vieler zusätzlicher Worte aus dem Thesaurus wesentlich verschlechtern. Da die Abfrageperfor-<br />
mance aber durch die Art und Weise der Speicherung sowie durch verschiedene Abfragemittel beein-<br />
flusst werden kann, wurden beide Wege eingehender untersucht. Dazu ließen sich die nachfolgenden<br />
Ergebnisse zur Datenspeicherung und Abfragegestaltung festhalten.<br />
Datenspeicherung:<br />
• Nach der Datenbanktheorie müssen Datenbestände in verschiedene Tabellen aufgeteilt werden,<br />
damit Abhängigkeiten innerhalb einer Tabelle auf ein Minimum reduziert werden (Normalisierung).<br />
Um die Daten für Anfragen später wieder zu verknüpfen und aufbereitet darzustellen, sind aber<br />
sehr komplexe SQL-Abfragen notwendig. Diese haben zudem in der Regel eine sehr schlechte<br />
Performance. Abhilfe bietet eine Denormalisierung in der Art, daß die Daten entsprechend ihrer<br />
späteren Abfragen zusammen in Tabellen gespeichert werden. Diesbezüglich im Rahmen der Ar-<br />
beit durchgeführte Versuche zeigten einen Performancegewinn um den Faktor 50.