02.12.2012 Aufrufe

forschungsbericht 1998 - Friedrich-Alexander-Universität Erlangen ...

forschungsbericht 1998 - Friedrich-Alexander-Universität Erlangen ...

forschungsbericht 1998 - Friedrich-Alexander-Universität Erlangen ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

120 Forschungsbericht der WiSo <strong>1998</strong><br />

Rechercheunterstützung:<br />

Zum Zwecke der optimalen Benutzerführung wurde hier entschieden, die Recherchen auf einzelne<br />

Worte herunterzubrechen. Dazu wurden die die Zeitreihen beschreibenden Texte außer als zusam-<br />

menhängender Text jeweils in einzelne Worte aufgesplittet gespeichert, wobei insgesamt doppelt vor-<br />

kommende Worte natürlich nicht redundant, also nur einmal gespeichtert wurden. Dadurch ergab sich<br />

die Möglichkeit, einen Thesaurus als Suchunterstützung einzuführen. Je nach gewünschter Treffer-<br />

quote kann dieser in verschiedener Intensität hinzugeschaltet werden, d.h. in erster Linie können z.B.<br />

nur gleiche Wörter in anderer oder abgekürzter Schreibweise in die Suche einbezogen werden (statt<br />

Unfall oder Aktiengesellschaft auch Suche nach Unfälle und Unfälle oder AG), und erst in zweiter Linie<br />

können Synonyme oder immer globalere Wörter mit zur Suche verwendet werden (z.B. statt Arbeits-<br />

hosen in zweiter Stufe nach Latzhosen und Jeans und in dritter Stufe nach Hosen allgemein).<br />

Ein solches System bringt folgende Vorteile mit sich:<br />

• Entsprechend der Anzahl der gefundenen Treffer kann das System dem Benutzer entsprechende<br />

Hilfehinweise geben.<br />

• Das System kann auch derart gestaltet werden, daß es automatisch den Thesaurus hinzuschaltet.<br />

• Es werden wesentlich weitere Verknüpfungsmöglichkeiten innerhalb der Daten geschaffen, die<br />

durch deren gegebene Struktur sonst nicht möglich wären.<br />

• Fehler in den Daten (z.B. uneinheitliche Verwendung von Umlauten) können umgangen werden.<br />

Es müssen aber auch folgende neue Probleme berücksichtigt werden: Einerseits werden Daten jetzt<br />

doch mehrfach gespeichert. Es müssen also Sicherheitsmechanismen geschaffen werden, die solche<br />

Redundanzen unter Kontrolle halten, z.B. indem bei der Löschung eines Datensatzes an einer Stelle<br />

der restliche Datenbestand entsprechend angepaßt wird. Die meisten großen Datenbanken bieten<br />

solche Sicherheitsmechanismen bereits an. Andererseits kann sich die Suchzeit durch das Einbe-<br />

ziehen vieler zusätzlicher Worte aus dem Thesaurus wesentlich verschlechtern. Da die Abfrageperfor-<br />

mance aber durch die Art und Weise der Speicherung sowie durch verschiedene Abfragemittel beein-<br />

flusst werden kann, wurden beide Wege eingehender untersucht. Dazu ließen sich die nachfolgenden<br />

Ergebnisse zur Datenspeicherung und Abfragegestaltung festhalten.<br />

Datenspeicherung:<br />

• Nach der Datenbanktheorie müssen Datenbestände in verschiedene Tabellen aufgeteilt werden,<br />

damit Abhängigkeiten innerhalb einer Tabelle auf ein Minimum reduziert werden (Normalisierung).<br />

Um die Daten für Anfragen später wieder zu verknüpfen und aufbereitet darzustellen, sind aber<br />

sehr komplexe SQL-Abfragen notwendig. Diese haben zudem in der Regel eine sehr schlechte<br />

Performance. Abhilfe bietet eine Denormalisierung in der Art, daß die Daten entsprechend ihrer<br />

späteren Abfragen zusammen in Tabellen gespeichert werden. Diesbezüglich im Rahmen der Ar-<br />

beit durchgeführte Versuche zeigten einen Performancegewinn um den Faktor 50.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!