07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.3. REPRÄSENTATION VON DOKUMENTEN 56<br />

oder zu konsolidieren. Beispielsweise gehört dazu, unvollständige oder fehlerhaf-<br />

te Daten zu erkennen <strong>und</strong> zu entfernen. Auch können an dieser Stelle Summen<br />

gebildet werden, falls diese für den Anwendungsfall anstatt der eigentlichen<br />

Daten interessant sind. In jedem Falle wird hier bereits auf simple Weise ein<br />

bereinigtes Modell der Daten erzeugt, das der nächste Schritt als Eingabe ver-<br />

wendet.<br />

Dabei handelt es sich um den Schritt Transformation. Er ist notwendig, weil<br />

der Algorithmus üblicherweise Daten in einem speziellen, für den Ablauf des<br />

Algorithmus optimalen, Format benötigt, in das die vorhandenen Daten erst<br />

gewandelt werden müssen.<br />

Der Algorithmus selber wird durch den darauf folgenden Schritt Data Mi-<br />

ning dargestellt. Hier konzentriert sich das Forschungsinteresse, da die ande-<br />

ren Schritte mit wohlbekanntem Programmierhandwerk ohne größere Probleme<br />

durchgeführt werden können. Die Probleme in den obigen Schritten sind eher<br />

organisatorischer Natur (es müssen gut ausgebildete Mitarbeiter existieren, die<br />

nicht nur technisches sondern auch fachliches Know-how besitzen). Daten um-<br />

zuwandeln ist beispielweise eine inzwischen sehr gut beherrschte Anforderung<br />

an Computersysteme. Data Mining Algorithmen dagegen sind häufig mit kom-<br />

plexer Mathematik ausgestattet <strong>und</strong> lassen sich in das vergleichsweise neue<br />

Forschungsfeld der Künstlichen Intelligenz (KI) einordnen (kommerziell erfolg-<br />

reiche Anwendungen ca. seit Mitte der 1980er Jahre 1 ).<br />

Der letzte Schritt nach dem Data Mining steht für die Interpretation bzw.<br />

Auswertung der Ausgaben des Algorithmus. Diese kann beispielsweise darin<br />

münden, dass die Ausgaben als neue, stärker abstrahierte Daten in der Daten-<br />

bank abgelegt werden, die später in anderen Prozessen Anwendung finden. Es<br />

könnte jedoch ebenso eine Art Report erzeugt <strong>und</strong> präsentiert werden.<br />

5.3. Repräsentation von Dokumenten<br />

Auf dem Weg zu Dokumenten-Clustern stehen wir zunächst der Frage ge-<br />

genüber, auf welche Weise die vorliegenden Dokumente im System repräsen-<br />

tiert werden, so dass die inhaltlichen Aspekte vergleichbar werden. Hier gibt<br />

es einige Ansätze, die von sog. Word-Bags bis hin zu linguistischen Systemen<br />

reichen. In den meisten Fällen wird für die Repräsentation der Dokumente das<br />

Vektorraummodell (Vector Space Model, VSM) verwendet. Dies basiert letzt-<br />

1 Seite 24 in [RN95]

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!