Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.3. REPRÄSENTATION VON DOKUMENTEN 58<br />
Feature zugeordnet. Ein Feature beschreibt dann für ” sein“ Wort die Häufigkeit<br />
dessen Auftretens im Text. Dies folgt dem Gedanken, dass Begriffe, die häufig<br />
vorkommen, eher dem Inhalt des Textes entsprechen als solche, die nur selten<br />
oder gar nie im Text vorkommen. Dieser Logik folgend entsprechen Features,<br />
die für ein bestimmtes Dokument mit einem hohen Wert ausgestattet sind,<br />
besonders gut dem Inhalt dieses Dokuments.<br />
Luhn [Luh58] fügt dieser Idee noch eine weitere hinzu. Und zwar schlägt<br />
er vor, zusätzlich noch die relative Position der Wörter im Satz zu bewerten<br />
<strong>und</strong> somit eine kombinierte Bewertung von Begriffen zu verwenden. Das ließe<br />
sich zum Beispiel so umsetzen, dass sich benachbarte Begriffe gegenseitig Boni<br />
geben. Dadurch erhöht sich die Bewertung <strong>eines</strong> Begriffs allein dadurch, dass<br />
es neben einem stark bewerteten Begriff steht.<br />
In der Praxis werden vor der statistischen Verarbeitung die betrachteten Wor-<br />
te mindestens auf ihre Wortstämme reduziert (genannt ” Stemming“), um die<br />
vielen Variationen, die aufgr<strong>und</strong> von Konjugationen oder unterschiedlichen Aus-<br />
prägungen in Einzahl <strong>und</strong> Mehrzahl entstehen, auf einen gemeinsamen Begriff<br />
zurückzuführen. Zudem werden sogenannte Stoppwörter aus der Menge der<br />
betrachteten Begriffe entfernt, die mit ausreichender Sicherheit keine bedeu-<br />
tungstragende Funktion haben. Dabei handelt es sich hauptsächlich um Artikel<br />
oder Pronomen sowie einige Verben. Zum Beispiel: ” ist“, ” ein“, ” für“, ” der“<br />
<strong>und</strong> weitere ähnliche Worte.<br />
Spätestens dann hat man eine einfache aber wirksame Repräsentation des<br />
Dokumenten-Inhalts geschaffen. Dennoch ist sie natürlich weit davon entfernt,<br />
perfekt zu sein. Insbesondere erschließt sich der Sinn <strong>eines</strong> Wortes mitunter<br />
erst aus seinem Kontext. Den Kontext nicht zu berücksichtigen, kann beson-<br />
ders bei kurzen Texten zu falschen Schlüssen führen. Auch das Stemming ist<br />
nicht in allen Fällen perfekt. Mitunter reduziert es Begriffe auf die gleichen<br />
Wortstämme, die eine völlig andere Bedeutung haben. Auch andersherum wird<br />
ein Schuh daraus: es reduziert Begriffe auf unterschiedliche Wortstämme, ob-<br />
wohl sie völlig identische Bedeutungen haben. Weiterhin werden derart ermit-<br />
telte Feature-Vektoren sehr groß <strong>und</strong> spannen einen riesigen Raum mit sehr<br />
vielen Dimensionen auf. Dadurch werden Berechnungen im Vektorraum sehr<br />
rechenintensiv. Folglich entsteht der Wunsch, die Dimensionalität der Vektoren<br />
zu verringern <strong>und</strong> gleichzeitig die inhaltliche Übereinstimmung der Vektoren<br />
mit der Zielsetzung des Textes zu erhöhen.