07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.3. REPRÄSENTATION VON DOKUMENTEN 58<br />

Feature zugeordnet. Ein Feature beschreibt dann für ” sein“ Wort die Häufigkeit<br />

dessen Auftretens im Text. Dies folgt dem Gedanken, dass Begriffe, die häufig<br />

vorkommen, eher dem Inhalt des Textes entsprechen als solche, die nur selten<br />

oder gar nie im Text vorkommen. Dieser Logik folgend entsprechen Features,<br />

die für ein bestimmtes Dokument mit einem hohen Wert ausgestattet sind,<br />

besonders gut dem Inhalt dieses Dokuments.<br />

Luhn [Luh58] fügt dieser Idee noch eine weitere hinzu. Und zwar schlägt<br />

er vor, zusätzlich noch die relative Position der Wörter im Satz zu bewerten<br />

<strong>und</strong> somit eine kombinierte Bewertung von Begriffen zu verwenden. Das ließe<br />

sich zum Beispiel so umsetzen, dass sich benachbarte Begriffe gegenseitig Boni<br />

geben. Dadurch erhöht sich die Bewertung <strong>eines</strong> Begriffs allein dadurch, dass<br />

es neben einem stark bewerteten Begriff steht.<br />

In der Praxis werden vor der statistischen Verarbeitung die betrachteten Wor-<br />

te mindestens auf ihre Wortstämme reduziert (genannt ” Stemming“), um die<br />

vielen Variationen, die aufgr<strong>und</strong> von Konjugationen oder unterschiedlichen Aus-<br />

prägungen in Einzahl <strong>und</strong> Mehrzahl entstehen, auf einen gemeinsamen Begriff<br />

zurückzuführen. Zudem werden sogenannte Stoppwörter aus der Menge der<br />

betrachteten Begriffe entfernt, die mit ausreichender Sicherheit keine bedeu-<br />

tungstragende Funktion haben. Dabei handelt es sich hauptsächlich um Artikel<br />

oder Pronomen sowie einige Verben. Zum Beispiel: ” ist“, ” ein“, ” für“, ” der“<br />

<strong>und</strong> weitere ähnliche Worte.<br />

Spätestens dann hat man eine einfache aber wirksame Repräsentation des<br />

Dokumenten-Inhalts geschaffen. Dennoch ist sie natürlich weit davon entfernt,<br />

perfekt zu sein. Insbesondere erschließt sich der Sinn <strong>eines</strong> Wortes mitunter<br />

erst aus seinem Kontext. Den Kontext nicht zu berücksichtigen, kann beson-<br />

ders bei kurzen Texten zu falschen Schlüssen führen. Auch das Stemming ist<br />

nicht in allen Fällen perfekt. Mitunter reduziert es Begriffe auf die gleichen<br />

Wortstämme, die eine völlig andere Bedeutung haben. Auch andersherum wird<br />

ein Schuh daraus: es reduziert Begriffe auf unterschiedliche Wortstämme, ob-<br />

wohl sie völlig identische Bedeutungen haben. Weiterhin werden derart ermit-<br />

telte Feature-Vektoren sehr groß <strong>und</strong> spannen einen riesigen Raum mit sehr<br />

vielen Dimensionen auf. Dadurch werden Berechnungen im Vektorraum sehr<br />

rechenintensiv. Folglich entsteht der Wunsch, die Dimensionalität der Vektoren<br />

zu verringern <strong>und</strong> gleichzeitig die inhaltliche Übereinstimmung der Vektoren<br />

mit der Zielsetzung des Textes zu erhöhen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!