Konzeption und Implementierung eines ... - Stephan, Daniel

Empfehlungen

Info

5.3. REPRÄSENTATION VON DOKUMENTEN 58 Feature zugeordnet. Ein Feature beschreibt dann für ” sein“ Wort die Häufigkeit dessen Auftretens im Text. Dies folgt dem Gedanken, dass Begriffe, die häufig vorkommen, eher dem Inhalt des Textes entsprechen als solche, die nur selten oder gar nie im Text vorkommen. Dieser Logik folgend entsprechen Features, die für ein bestimmtes Dokument mit einem hohen Wert ausgestattet sind, besonders gut dem Inhalt dieses Dokuments. Luhn [Luh58] fügt dieser Idee noch eine weitere hinzu. Und zwar schlägt er vor, zusätzlich noch die relative Position der Wörter im Satz zu bewerten und somit eine kombinierte Bewertung von Begriffen zu verwenden. Das ließe sich zum Beispiel so umsetzen, dass sich benachbarte Begriffe gegenseitig Boni geben. Dadurch erhöht sich die Bewertung eines Begriffs allein dadurch, dass es neben einem stark bewerteten Begriff steht. In der Praxis werden vor der statistischen Verarbeitung die betrachteten Wor- te mindestens auf ihre Wortstämme reduziert (genannt ” Stemming“), um die vielen Variationen, die aufgrund von Konjugationen oder unterschiedlichen Aus- prägungen in Einzahl und Mehrzahl entstehen, auf einen gemeinsamen Begriff zurückzuführen. Zudem werden sogenannte Stoppwörter aus der Menge der betrachteten Begriffe entfernt, die mit ausreichender Sicherheit keine bedeu- tungstragende Funktion haben. Dabei handelt es sich hauptsächlich um Artikel oder Pronomen sowie einige Verben. Zum Beispiel: ” ist“, ” ein“, ” für“, ” der“ und weitere ähnliche Worte. Spätestens dann hat man eine einfache aber wirksame Repräsentation des Dokumenten-Inhalts geschaffen. Dennoch ist sie natürlich weit davon entfernt, perfekt zu sein. Insbesondere erschließt sich der Sinn eines Wortes mitunter erst aus seinem Kontext. Den Kontext nicht zu berücksichtigen, kann besonders bei kurzen Texten zu falschen Schlüssen führen. Auch das Stemming ist nicht in allen Fällen perfekt. Mitunter reduziert es Begriffe auf die gleichen Wortstämme, die eine völlig andere Bedeutung haben. Auch andersherum wird ein Schuh daraus: es reduziert Begriffe auf unterschiedliche Wortstämme, ob- wohl sie völlig identische Bedeutungen haben. Weiterhin werden derart ermit- telte Feature-Vektoren sehr groß und spannen einen riesigen Raum mit sehr vielen Dimensionen auf. Dadurch werden Berechnungen im Vektorraum sehr rechenintensiv. Folglich entsteht der Wunsch, die Dimensionalität der Vektoren zu verringern und gleichzeitig die inhaltliche Übereinstimmung der Vektoren mit der Zielsetzung des Textes zu erhöhen.
59 5.3. REPRÄSENTATION VON DOKUMENTEN 5.3.3. Methoden für die Beschränkung auf wesentliche Features Aufgrund der genannten Beschränkungen ist es sinnvoll, nach Wegen zu suchen, die Dimensionalität der Feature Vektoren einzuschränken. Yang und Pedersen [YP97] sind eben dieser Frage nachgegangen und haben verschiedene Methoden auf ihre Wirksamkeit hin überprüft. Die Gewinner der Studie sollen an dieser Stelle kurz vorgestellt werden. Inverse Document Frequency Dieser Ansatz wurde bereits in [SJ72] beschrieben, wo er als ” Collection Fre- quency Weight“ bezeichnet wurde. Die Annahme dahinter ist, dass offenbar solche Begriffe für die Klassifikation besonders nützlich sind, die in einzelnen Dokumenten besonders häufig vorkommen, gleichzeitig aber in der gesamten Sammlung nur selten auftauchen. Solche Begriffe trennen einzelne Dokumente sehr gut von anderen und sind daher von Vorteil. idfi = log N ni (5.3) Rechnerisch kann IDF recht einfach als das Verhältnis zwischen der Zahl an Dokumenten insgesamt (N) und der Anzahl jener Dokumente, in denen der jeweilige Begriff bzw. das Feature i vorkommt (ni) angegeben werden, so dass letztendlich für jedes einzelne Feature ein entsprechender IDF-Wert existiert. Um entscheiden zu können, welche Features in den meisten Dokumenten vorkommen und welche nicht, wäre ein Schwellenwert denkbar, der die allgemeine Umschreibung ” die meisten“ expliziert. Features, deren IDF nun über diesem Schwellenwert läge, könnten aus der Betrachtung ausgeschlossen werden. Häufiger dürfte IDF jedoch als Mittel zur Gewichtung der ermittelten Häufig- keiten angewandt werden. In dieser Funktion nennt man es auch TF-IDF, kurz für Term Frequency and Inverse Document Frequency. Dabei multipliziert man einfach die ermittelten Häufigkeiten (TF) eines Terms i in einem Dokument j mit der passenden IDF für den Term i. Information Gain Information Gain (IG) beschreibt den Informationsgewinn, der durch ein Fea- ture in Bezug auf die Klassifikation erbracht wird. Um den Gewinn ausdrücken zu können, benötigt man zunächst ein Maß für den Informationsgehalt. Ein
Seite 1:
auth+xml+doc=sxdoc gpg Konzeption u
Seite 4 und 5:
Inhaltsverzeichnis iv II. Definitio
Seite 6 und 7:
Inhaltsverzeichnis vi
Seite 8 und 9:
Tabellenverzeichnis viii
Seite 10 und 11:
Abbildungsverzeichnis x 7.1. Wort H
Seite 13 und 14:
1. Überblick über Inhalt und Proz
Seite 15 und 16:
5 1.3. ENTWICKLUNGSUMGEBUNG Kunde A
Seite 17 und 18: 7 1.3. ENTWICKLUNGSUMGEBUNG zu kön
Seite 19 und 20: 2. Business Analyse 2.1. Ausgangssi
Seite 21 und 22: 11 2.3. HERAUSFORDERUNGEN boten wer
Seite 23 und 24: 13 2.3. HERAUSFORDERUNGEN zesse von
Seite 25 und 26: 3. Marktanalyse 3.1. Kriterien Ausw
Seite 27 und 28: 17 3.2. KONKURRENTEN Die Ergebnisse
Seite 29 und 30: 19 3.2. KONKURRENTEN schulen zahlen
Seite 31 und 32: 21 3.2. KONKURRENTEN lungen, inform
Seite 33 und 34: 23 3.3. WISSENSCHAFTLICHE ANGEBOTE
Seite 39 und 40: 29 3.4. TECHNISCH RELEVANTES 3.4) f
Seite 41 und 42: 31 3.4. TECHNISCH RELEVANTES gestel
Seite 43: Teil II. Definition
Seite 46 und 47: 4.1. IST-ANALYSE 36 id Component Mo
Seite 48 und 49: 4.1. IST-ANALYSE 38 Thesaurus aktua
Seite 50 und 51: 4.1. IST-ANALYSE 40 Bezeichner Typ
Seite 52 und 53: 4.1. IST-ANALYSE 42 4.1.4. Einschr
Seite 54 und 55: 4.2. PROTOTYP 44 Abbildung 4.5.: Re
Seite 56 und 57: 4.2. PROTOTYP 46 nächstes Dokument
Seite 58 und 59: 4.2. PROTOTYP 48 parent Writes all
Seite 60 und 61: 4.2. PROTOTYP 50
Seite 62 und 63: 5.1. INFORMATION RETRIEVAL 52 versi
Seite 64 und 65: We now leave the speculations about
Seite 66 und 67: 5.3. REPRÄSENTATION VON DOKUMENTEN
Seite 76 und 77: 5.4. CLUSTERING 66 5.4. Clustering
Seite 78 und 79: 5.4. CLUSTERING 68 w j h w j+1 h =
Seite 81 und 82: 6. Statisches Modell Das System war
Seite 83 und 84: 73 6.2. DATA ACCESS OBJECTS Seriali
Seite 85 und 86: 75 6.3. DATA ACCESS COMMANDS änder
Seite 87 und 88: 77 6.3. DATA ACCESS COMMANDS Dao rf
Seite 89 und 90: 79 6.3. DATA ACCESS COMMANDS FetchT
Seite 91 und 92: 81 6.3. DATA ACCESS COMMANDS Cluste
Seite 93 und 94: 7. Dynamisches Modell Ohne im Klass
Seite 95 und 96: 85 7.2. TERM-DOKUMENT-MATRIX ERSTEL
Seite 97 und 98: auf Wortstämme reduzieren Stopp- W
Seite 99 und 100: Roh-Matrix anlegen Term-Frequenz-Ma
Seite 101 und 102: 91 7.5. CLUSTER BENENNUNG UND MATRI
Seite 103 und 104: 8. Verwendung des Programms 8.1. In
Seite 105 und 106: 95 8.2. BENUTZEROBERFLÄCHE Abbildu
Seite 107 und 108: 97 8.3. KONFIGURATION vielen Kompon
Seite 109: Teil IV. Abschluss
Seite 112 und 113: 9.1. TECHNISCHE PERSPEKTIVE 102 Abs
Seite 114 und 115: 9.1. TECHNISCHE PERSPEKTIVE 104 Sch
Seite 116 und 117: 9.2. FACHLICHE PERSPEKTIVE 106 Die
Seite 118 und 119:
9.2. FACHLICHE PERSPEKTIVE 108 eine
Seite 120 und 121:
9.3. FAZIT 110 einbinden lässt, we
Seite 122 und 123:
112 tenmodellen umgehen kann. Sie p
Seite 124 und 125:
114
Seite 126 und 127:
Literaturverzeichnis 116 [BI04] Bar
Seite 128 und 129:
Literaturverzeichnis 118 ISBN 0-897
Seite 130 und 131:
Literaturverzeichnis 120 München/D
Seite 132 und 133:
Literaturverzeichnis 122
Seite 134 und 135:
Index 124 Feature, 46, 49, 57, 58,
Seite 136:
Index 126 Vlog, 109 Volltext, 11, 2
Alle anzeigen

Konzeption und Implementierung eines ... - Stephan, Daniel

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?