Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.3. REPRÄSENTATION VON DOKUMENTEN 56<br />
oder zu konsolidieren. Beispielsweise gehört dazu, unvollständige oder fehlerhaf-<br />
te Daten zu erkennen <strong>und</strong> zu entfernen. Auch können an dieser Stelle Summen<br />
gebildet werden, falls diese für den Anwendungsfall anstatt der eigentlichen<br />
Daten interessant sind. In jedem Falle wird hier bereits auf simple Weise ein<br />
bereinigtes Modell der Daten erzeugt, das der nächste Schritt als Eingabe ver-<br />
wendet.<br />
Dabei handelt es sich um den Schritt Transformation. Er ist notwendig, weil<br />
der Algorithmus üblicherweise Daten in einem speziellen, für den Ablauf des<br />
Algorithmus optimalen, Format benötigt, in das die vorhandenen Daten erst<br />
gewandelt werden müssen.<br />
Der Algorithmus selber wird durch den darauf folgenden Schritt Data Mi-<br />
ning dargestellt. Hier konzentriert sich das Forschungsinteresse, da die ande-<br />
ren Schritte mit wohlbekanntem Programmierhandwerk ohne größere Probleme<br />
durchgeführt werden können. Die Probleme in den obigen Schritten sind eher<br />
organisatorischer Natur (es müssen gut ausgebildete Mitarbeiter existieren, die<br />
nicht nur technisches sondern auch fachliches Know-how besitzen). Daten um-<br />
zuwandeln ist beispielweise eine inzwischen sehr gut beherrschte Anforderung<br />
an Computersysteme. Data Mining Algorithmen dagegen sind häufig mit kom-<br />
plexer Mathematik ausgestattet <strong>und</strong> lassen sich in das vergleichsweise neue<br />
Forschungsfeld der Künstlichen Intelligenz (KI) einordnen (kommerziell erfolg-<br />
reiche Anwendungen ca. seit Mitte der 1980er Jahre 1 ).<br />
Der letzte Schritt nach dem Data Mining steht für die Interpretation bzw.<br />
Auswertung der Ausgaben des Algorithmus. Diese kann beispielsweise darin<br />
münden, dass die Ausgaben als neue, stärker abstrahierte Daten in der Daten-<br />
bank abgelegt werden, die später in anderen Prozessen Anwendung finden. Es<br />
könnte jedoch ebenso eine Art Report erzeugt <strong>und</strong> präsentiert werden.<br />
5.3. Repräsentation von Dokumenten<br />
Auf dem Weg zu Dokumenten-Clustern stehen wir zunächst der Frage ge-<br />
genüber, auf welche Weise die vorliegenden Dokumente im System repräsen-<br />
tiert werden, so dass die inhaltlichen Aspekte vergleichbar werden. Hier gibt<br />
es einige Ansätze, die von sog. Word-Bags bis hin zu linguistischen Systemen<br />
reichen. In den meisten Fällen wird für die Repräsentation der Dokumente das<br />
Vektorraummodell (Vector Space Model, VSM) verwendet. Dies basiert letzt-<br />
1 Seite 24 in [RN95]