Automatisiertes Priorisieren von RSS Feed Beiträgen mittels ...

1 

Automatisiertes Priorisieren von RSS Feed Beiträgen mittels 

maschinellem Lernen 

Tobias Zeising 

tobias.zeising@aditu.de ▪ http://www.aditu.de 

Hauptseminar im Studiengang Informatik Master ▪ Hochschule München ▪ Juli 2010 

Zusammenfassung 

Um auch größere Mengen an täglich anfallende 

Informationen effizient verarbeiten zu können, wird 

in dieser Arbeit nach einer Möglichkeit zur 

automatisierten Priorisierung von RSS Feed 

Beiträgen gesucht. Gezielt werden Verfahren des 

maschinellen Lernens auf ihre Eignung zur 

Klassifikation eingehender Nachrichten untersucht 

und näher beleuchtet. Das k-nächste-Nachbarn 

Verfahren, basierend auf dem simulierten Abkühlen 

wird vorgestellt und hinsichtlich seiner 

Leistungsfähigkeit mit dem naiven Bayes 

Klassifikator verglichen. 

1. Einführung 

1.1 Problemstellung 

Durch den steigenden Grad an Vernetzung, nimmt 

auch die Menge an Informationen, die täglich auf 

uns einwirkt zu. So ist es eine Herausforderung für 

jeden Einzelnen, sich so zu organisieren, dass 

wichtige Informationen, Nachrichten und 

Mitteilungen in den täglich anfallenden 

Datenbergen nicht verloren gehen. Speziell im 

Internet entsteht die Schwierigkeit, dass wir 

zahlreiche Quellen nutzen und aus den 

verschiedensten Inhalten wichtige Informationen 

beziehen. 

Eine Lösung um diesem Problem zu begegnen, ist 

die Verwendung von RSS Aggregatoren. Diese 

Programme tragen Informationen, über 

Plattformgrenzen hinweg, zusammen und 

sammeln diese in einem zentralen System. Hierzu 

verwenden RSS Aggregatoren sogenannte RSS 

Feeds (RSS für Really Simple Syndication), die 

durch zahlreiche Plattformen wie Blogs, Soziale 

Netzwerke, Nachrichtendienste und andere Web- 

Applikationen zur Verfügung gestellt werden. 

Diese RSS Feeds werden laufend durch die Quell- 

Applikation aktualisiert und enthalten in 

strukturierter Form (als XML Datei), sämtliche 

aktuelle Beiträge, News oder den jeweiligen 

Content der Anwendung. Auf diese Weise werden 

dem Anwender, an einer zentralen Stelle, alle 

aktuellen Mitteilungen präsentiert, wobei dieser 

sich selbst die Quellliste zusammenstellen und 

seinem Interessengebiet entsprechend eine 

Aboliste mit RSS Feeds aufbauen kann. 

Diese Vorgehensweise führt aber mitunter dazu, 

dass sehr viele Informationen anfallen und die 

Sichtung der Nachrichten zu einer Geduldsprobe 

wird. Ein Beispiel aus der Praxis zeigt, dass bei 

etwa 140 abonnierten Quellen, täglich zwischen 

200 und 250 Nachrichten pro Tag anfallen. Es liegt 

also nahe, eine automatisierte Priorisierung der 

Informationen vorzunehmen und ausgehend vom 

individuellen Interesse des Benutzers, Beiträge, 

die von größerer Relevanz sind höher zu 

platzieren. Hierzu muss das System vom 

Anwender lernen, welche Inhalte von größerer 

Bedeutung und welche eher nebensächlich sind. 

Bei näherer Betrachtung wird schnell klar, dass es 

sich um ein Problem der automatisierten 

Klassifikation von Texten handelt. 

Im Rahmen dieser Arbeit soll ein Verfahren 

entwickelt werden, das dazu geeignet ist, vom 

Benutzer zu lernen und automatisch die 

Priorisierung vorzunehmen. Eine webbasierte 

Applikation für das Aggregieren der RSS Feeds 

liegt bereits vor und muss entsprechend der 

Anforderungen so modifiziert werden, dass eine 

automatisierte Priorisierung möglich wird. 

1.2 Der RSS Aggregator "rsslounge" 

Als Basis für diese Arbeit, wird der webbasierte 

RSS Aggregator "rsslounge" (Zeising, 2010) 

verwendet. Diese Anwendung basiert auf der 

Programmiersprache PHP und baut auf dem Zend 

Framework auf. Ein klassischer Apache Server mit 

installiertem PHP Modul, sowie eine MySQL 

Datenbank dienen als Laufzeitumgebung. Das 

Frontend bildet eine HTML und CSS Seite, welche 

mittels dem JavaScript Framework jQuery 

dynamische Interaktionen ermöglicht. 

"rsslounge" steht unter GPLv3 Lizenz und steht 

kostenfrei zum Download zur Verfügung. 

Anwender müssen sich die Applikation 

herunterladen und auf einem eigenen Server 

installieren. Er steht nicht als Dienst zur 

Verfügung und kann ausschließlich auf einem 

eigenen Server betrieben werden. 

Eine automatische Priorisierung mittels dem 

naiven Bayes Klassifikator wurde bereits vor 

dieser Arbeit implementiert. Dieser liefert aber

2 

keine zufriedenstellenden Ergebnisse, da 

besonders beim Auftauchen sehr gegensätzlicher 

Begriffe der naive Ansatz versagt. Im Rahmen 

dieser Arbeit soll also auch die Überlegenheit 

eines vektorbasierten Verfahrens nachgewiesen 

oder widerlegt werden. 

1.3 Anforderungen 

Da der RSS Aggregator "rsslounge" eine 

Applikation ist, welche zum freien Download zur 

Verfügung steht und die Installation auf einem 

individuell durch den Endanwender gewählten 

Server erfolgt, gibt es eine Reihe an 

Anforderungen, die eingehalten werden müssen: 

• Die Lösung muss echtzeitfähig sein. Weder der 

Lern-, noch der Klassifikationsprozess dürfen 

übermäßig viel Laufzeit in Anspruch nehmen. 

Da der Lernprozess durch eine 

Benutzerinteraktion entsteht, darf dieser 

maximal 500 Millisekunden in Anspruch 

nehmen. Der Klassifikationsprozess wird für 

gewöhnlich durch einen zyklisch aufgerufenen 

Prozess automatisch durch den Server 

gestartet. Hierfür herrschen weniger 

restriktive Laufzeitschranken, dennoch darf 

angesichts der möglichen Menge an Quellen 

der Klassifikationsprozess nicht zu lange 

dauern (im Bereich von Sekunden). 

• Da der Reader auf einem unbekannten Server 

installiert wird, dürfen keine Abhängigkeiten 

zu externen Bibliotheken und Komponenten 

bestehen. Eine Ausnahme bilden PHP 

Bibliotheken, die mit dem Programmpaket 

ausgeliefert werden können. Hierbei ist darauf 

zu achten, dass die Lizenzbestimmungen eine 

Weiterverteilung erlauben. 

• Es stehen nicht unbegrenzt Ressourcen zur 

Verfügung. So muss darauf geachtet werden, 

dass die Lösung nicht zu viel Speicher oder 

CPU Zeit benötigt. Die Daten für die 

Klassifikation sollten hierzu möglichst nicht 

mehr als 100 MB in Anspruch nehmen. 

• Der Reader wird von Benutzer der 

verschiedensten Nationalität verwendet. Die 

Lösung muss von der aktuell verwendeten 

Sprache unabhängig sein. 

• Der Lernprozess muss inkrementell erfolgen. 

Der Anwender soll im laufenden Betrieb die 

Möglichkeit haben das System zu trainieren 

und an seine Bedürfnisse anzupassen. 

• Die Bedienung des Lernprozesses muss 

einfach und intuitiv sein. Deshalb wird eine 

einfache Eingabe (Beitrag als interessant oder 

langweilig markieren) bevorzugt. 

• Das eingesetzte Verfahren muss frei von 

Patentansprüchen sein. 

2. Überblick über die 

Textklassifikation 

2.1 Textklassifikation mittels maschinellem 

Lernen 

Die Klassifikation von Text umfasst das 

automatisierte Zuordnen von Dokumenten zu 

vordefinierten Klassen (Themengebieten). Es wird 

hierbei unterschieden zwischen der nicht 

exklusiven Klassifikation (ein Dokument kann 

mehreren Klassen zugeordnet werden) und der 

exklusiven Klassifikation. Eine Klassifikation setzt 

voraus, dass die Kategorisierung bereits vor der 

Zuordnung feststeht. Wird während des Prozesses 

der Zuordnung eine Bildung der Kategorien 

vorgenommen, so spricht man vom Clustering 

(Hoffmann, 2002). 

Für das vorliegende Problem ist eine automatische 

Klassifikation erforderlich. Ein System muss also 

automatisiert, ausgehend von Trainingsdaten, ein 

Text-Dokument in eine Kategorie einordnen. Man 

spricht hier von maschinellem Lernen, da neues 

Wissen aus Erfahrung heraus gebildet wird. Die 

Textklassifikation besteht bei den meisten 

Verfahren aus zwei Schritten: dem Lernen und 

dem Klassifizieren. 

2.2 Extraktion von Merkmalen 

Um ein Lernen oder Klassifizieren zu ermöglichen, 

müssen aus dem vorliegenden Dokument zuerst 

Merkmale extrahiert werden. Bei den gängigen 

Vorgehensweisen, die in der Literatur zu finden 

sind, wird ein Text in seine Einzelwörter zerlegt, 

wobei dessen Reihenfolge nicht weiter beachtet 

und verworfen wird. Man spricht deshalb auch oft 

von einem "bag of words"-Modell (Blankenhorn, 

2002, S. 19). Wie (Sebastiani, 2002, S. 11) 

beschreibt, ist es auch möglich Phrasen zu 

verwenden, wobei diese basierend auf der 

Grammatik oder mittels statistischer Verfahren 

ermittelt werden. Die Verwendung von 

Wortgruppen ist aber problematisch, da diese eine 

geringere Häufigkeit haben und für eine 

Merkmalsreduktion nur schlecht geeignet sind. In 

dieser Arbeit wird dieser Ansatz deshalb nicht 

weiter verfolgt und das "bag of words"-Modell 

verwendet. 

Es hängt von den eingesetzten Verfahren ab, wie 

die einzelnen Merkmale interpretiert werden. So 

verarbeitet der naive Bayes Klassifikator die 

einzelnen Wörter direkt, während beispielsweise 

beim Rocchio Verfahren die Wörter eines

3 

Abbildung 1: Ein Merkmalsvektor wird aus einem Text gebildet. Die zwei Wörter "aller" und 

"Säugetiere" wurden in einem anderen Dokument extrahiert, kommen in der aktuel len Nachricht aber 

nicht vor. Quelle: (Blankenhorn, 2002, S. 19) 

Dokuments als Merkmalsvektor interpretiert 

werden. 

Die meisten weiterführenden Verfahren der 

Klassifikation, wie beispielsweise Support Vektor 

Maschinen oder der k-nächste-Nachbarn 

Algorithmus basieren auf Merkmalsvektoren und 

gehen von einem mehrdimensionalen 

Merkmalsraum aus. In diesem Raum werden die 

Vektoren als Punkte platziert. Es wird die 

Grundannahme gemacht, dass ähnliche 

Merkmalsvektoren näher beieinander liegen als 

solche, die sich weniger ähneln. 

Die Abbildung 1 zeigt, wie aus einem Dokument 

ein Merkmalsvektor gebildet werden kann. Die 

einzelnen Wörter entsprechen dabei den 

Dimensionen im Merkmalsraum, die Häufigkeit 

legt dabei die Länge der einzelnen Dimension des 

Vektors fest. Anstelle der Häufigkeiten werden 

meist Gewichte, wie die TF-IDF verwendet. 

Denkbar wäre es aber auch einfach binär eine 1 zu 

setzen, falls das entsprechende Wort im Text vor 

kommt, oder sonst eine 0 einzusetzen. 

Es ist auch möglich anwendungsspezifische 

Merkmale, wie beispielsweise Metadaten 

einfließen zu lassen und so in der Klassifikation zu 

berücksichtigen. Häufig wird das Dokument auch 

vorverarbeitet, beispielsweise Sprachkonstrukte 

aus HTML oder XML zuvor entfernt. 

2.3 Verkleinerung des Merkmalraums 

Besonders beim Vektormodell wächst die Anzahl 

der Dimensionen nach nur wenigen 

Lernvorgängen stark an. Zudem besteht das 

Problem, dass durch die Vielfalt und Semantik 

einer Sprache zu viele Merkmale entstehen. So 

werden gleichbedeutende Begriffe doppelt gelistet 

oder unbedeutende Wörter wie Artikel mit in den 

Merkmalsvektor mit aufgenommen. Um diesem 

Problem zu begegnen, werden verschiedene 

Ansätze verfolgt. George Forman schlägt in dem 

Buch "Computational Methods of Feature 

Selection" (Forman, 2007) mehrere Möglichkeiten 

vor: 

Verschmelzen von Wörtern 

Wörter vollständig in Kleinbuchstaben 

umzuwandeln ist der einfachste Weg Wörter 

zusammenzufassen. Darüber hinaus werden auch 

linguistische Verfahren, basierend auf 

Wörterbücher verwendet. So werden alle Wörter 

eines Wortstamms zusammengefasst (z.B. "cat", 

"cats", "catlike" usw.). Auch eine 

Rechtschreibkorrektur ist vor allem bei Blogs ein 

weiterer Weg den Merkmalsraum zu reduzieren. 

Auch das Verwenden von Thesaurus 

Datenbanken, um gleichbedeutende Wörter auf 

ein einzelnes Synonym abzubilden wird 

empfohlen. Weiterführend werden auch 

Datenbanken mit Abkürzungen und Akronymen 

verwendet, wobei dies aufgrund der großen 

Überschneidungen in unterschiedlichen 

Themengebieten nur mäßig erfolgsversprechend 

ist. Es gibt auch regelbasierte, linguistische 

Verfahren zur Merkmalsreduktion. Diese sind 

allerdings sprachspezifisch und führen zu einem 

Informationsverlust, da sie nicht so präzise sind 

wie Wörterbuchverfahren. 

Wort Phrasen 

Das Zusammenfassen von mehreren Wörtern zu 

einem Merkmal, basierend auf Wörterbüchern, ist 

ebenfalls ein vielversprechender Ansatz. Ein 

Beispiel ist "user interface", welches nur in seiner 

Gesamtheit seinem Sinn entspricht. 

n-Gramme 

Besonders Rechtschreibfehler oder das mehrfache 

Vorkommen von Wörtern eines Wortstammes 

sind große Probleme. n-Gramme bieten eine 

elegante Möglichkeit den genannten 

Schwierigkeiten zu begegnen und den 

Merkmalsraum zu begrenzen. Ein n-Gramm ist 

eine feste Anzahl an Zeichen, die

4 

Abbildung2: Es wird aus einem gegebenen Text Trigramme gebildet. Quelle: (Blankenhorn, 2002, S. 

43) 

zusammengefasst weiterverarbeitet werden. Da 

die Anzahl an Möglichkeiten bei n-Grammen 

begrenzt ist, wird der Merkmalsraum limitiert. 

Abbildung 2 zeigt, wie aus einem Beispieltext ein 

Trigramm (3-Gramm) erzeugt wird. 

Stopp-Wort-Elimination 

Es gibt zahlreiche Wörter in der Sprache, die keine 

Informationen in sich tragen (beispielsweise 

Artikel oder Bindewörter) und daher eliminiert 

werden können. Es gibt hier die Möglichkeit 

basierend auf einer Stop-Wort-Liste zu arbeiten, 

wodurch eine Sprachabhängigkeit entsteht. 

Daneben kann aber auch über die Worthäufigkeit 

die Relevanz eines Wortes ermittelt werden. 

Kommt ein Wort in allen Dokumenten vor, so hat 

es eine geringe Bedeutung für die Unterscheidung 

von Texten. 

Alter eines Worts 

Ein weiterer Ansatz ist das Altern von Wörtern. 

Das in dem von (Blankenhorn, 2002, S. 41ff) 

vorgestellte Klassifikationssystem iFile eingesetzte 

Verfahren, löscht Wörter aus dem Merkmalsraum, 

welche ein bestimmtes Alter überschritten haben. 

Dabei wird als Schwellwert log alter − 1 gebildet 

und falls die Häufigkeit des Wortes kleiner ist als 

der Schwellwert, so wird es gelöscht. Dies hat den 

Vorteil, dass Wörter, die häufig auftreten und noch 

nicht sehr alt sind, beibehalten werden. 

Merkmalsauswahl 

Fabrizio Sebastiani gibt in seiner Arbeit "Machine 

Learning in Automated Text Categorization" 

(Sebastiani, 2002) einen Überblick über 

verschiedene Verfahren zur Auswahl von 

Merkmalen anhand ihres Informationsgehaltes. 

Unbedeutende Merkmale werden so ausgemustert 

und gelöscht. 

Merkmalsreduktion für rsslounge 

Für das vorliegende Problem eignen sich keine 

wörterbuchbasierte Verfahren, da der 

Benutzerkreis von rsslounge mehrsprachig ist. Es 

müsste für jede Sprache ein passendes 

Wörterbuch mitgeliefert werden, was einen 

unverhältnismäßigen Aufwand darstellen würde. 

Das Umwandeln aller Wörter in Kleinbuchstaben 

und die Verwendung von n-Grammen wird für die 

vorliegende Lösung in Betracht gezogen. Auch das 

Löschen von alten Worten wird für eine Lösung 

unumgänglich sein, da der Endanwender beliebig 

viele Beiträge klassifizieren kann und es 

unvermeidlich zu einer Explosion des benötigten 

Speicherplatzes kommen würde. Die Stopp-Wort- 

Elimination oder Auswahl von Merkmalen wird 

aufgrund der Gewichtung der Features nicht 

verwendet. Wörter, die in nahezu allen 

Dokumenten vorkommen, erhalten eine niedrige 

Gewichtung und gehen in die Entscheidung nur 

sehr schwach ein. Eine Eliminierung von 

Merkmalen mittels Auswahl würde zudem 

wertvolle Rechenzeit beim Training kosten und 

wird deshalb nicht in Betracht gezogen. 

2.4 Gewichtung der einzelnen Merkmale 

Neben dem Verkleinern des Merkmalsraumes, ist 

es üblich die einzelnen Wörter zu gewichten. 

Dieses Gewicht legt die Bedeutung dieses 

Merkmals in dem vorliegenden Dokument (und 

damit auch Merkmalsvektor) fest. Abbildung 1 

zeigt, wie die Anzahl des Vorkommens als Gewicht 

gewählt wird. Dies ist aber denkbar schlecht, 

weshalb andere Verfahren zur Bestimmung der 

Relevanz eines Wortes verwendet werden. 

Die bekannteste Vorgehensweise um Wörter zu 

gewichten, ist das Term Frequency Inverse 

Document Frequency (TF-IDF) Verfahren. Diese 

Gewichtung geht davon aus, dass Wörter, die im 

aktuellen Dokument sehr häufig vorkommen, in 

allen anderen Dokumenten aber nur sehr selten 

auftauchen, das aktuelle Dokument sehr gut 

repräsentieren und für eine Klassifikation sehr gut 

geeignet sind. 

Die Termfrequenz ist dabei wie folgt definiert: 

tf w, d = w 

d 

d ist die Häufigkeit, mit der ein Wort w im 

Dokument d vorkommt und d ist die gesamte

5 

Anzahl aller Wörter in dem aktuellen Dokument d. 

Wörter, die also sehr oft im aktuellen Dokument 

vorkommen, haben also eine hohe Termfrequenz. 

Die inversen Dokumentfrequenz hat einen hohen 

Wert, wenn das Wort in möglichst wenigen 

anderen Dokumenten auftaucht und ist wie folgt 

definiert: 

d 

idf w = log 

df(w) 

Wobei d die Gesamtzahl an Dokumenten ist und 

df(w) die Anzahl an Dokumenten ist, welche das 

Wort w enthalten. 

Das resultierende Gesamtgewicht TF-IDF ergibt 

sich aus der Kombination von beiden Werten: 

d 

tfidf = tf w, d ∗ log 

df w 

Neben der TF-IDF Gewichtung gibt es noch 

zahlreiche andere Verfahren (siehe Abbildung 3), 

um die Bedeutung eines Terms zu bestimmen. 

Eine gängige Vorgehensweise ist die Verwendung 

von informationstheoretischen und statistischen 

Kennzahlen. So ist der Wert Information gain 

(Informationsgewinn) ein weit verbreitetes Maß, 

um die Bedeutung eines Terms zu bestimmen. Sie 

basiert auf der Entropie und misst, wie hoch der 

Informationsgehalt des jeweiligen Terms für eine 

Trennung ist. 

Die Mutual Information ist ein weiteres Gewicht, 

welches häufig verwendet wird. Dabei gilt "Eine 

größere Mutual Information steht für eine hohe 

statistische Abhängigkeit und damit Aussagekraft 

eines Merkmals" (Blankenhorn, 2002, S. 40). 

Soucy und Mineau (2005) führen das Maß 

ConfWeight ein, welches auf Konfidenz-Intervallen 

beruht. Es werden Intervalle für das Auftreten 

eines Wortes innerhalb der einzelnen Klassen 

festgelegt. Es wird ein Stärkemaß definiert, das 

angibt, wie gut dieser Term die einzelnen Klassen 

voneinander unterscheidet und daraus ein 

ConfWeight gebildet. Ziel dieses Verfahrens ist es, 

auch die Zugehörigkeit eines Terms zu einer 

Kategorie in die Gewichtung mit einfließen zu 

lassen. Diese Gewichtung wird also für den 

vorliegenden Fall, der lediglich zwei Klassen kennt 

(interessante und langweilige Beiträge), keine 

Verbesserung erbringen. Eine Übersicht über 

gängige Gewichtungen, basierend auf statistischen 

Metriken gibt die Tabelle in Abbildung 3. 

Auch lernende Verfahren werden häufig 

eingesetzt um passende Gewichte zu wählen. 

Dabei wird mit einem linearen Klassifizierer das 

passende Maß für die aktuelle Datenbasis gewählt 

(Lan, Tan, & Low, 2006, S. 2). 

Für die Wahl eines passenden Gewichtes für diese 

Arbeit, wurde die Studie von (Lan, Tan, & Low, 

2006) herangezogen. Dort werden verschiedene 

Gewichte kombiniert (beispielsweise die Term 

Frequenz mit dem χ²-Maß. Es wird die Effektivität 

für die Verwendung bei Support Vektor 

Maschinen und dem k-nächste-Nachbarn Ansatz 

gemessen und ausgewertet. 

Dabei führen sie ein neues Maß, die relevance 

frequency ein, welche die inverse 

Abbildung 3: Folgende Tabelle Zeigt Funktionen, mit dessen Hilfe der Merkmalsraum reduziert wird. 

Quelle: (Sebastiani, 2002, S. 16)

6 

Dokumentfrequenz ersetzen soll. Abbildung 4 

zeigt beispielhaft einen gravierenden Nachteil bei 

der Verwendung der inversen Dokumentfrequenz. 

Der Term t1 und t3 separieren die beiden Klassen 

"interessant" und "langweilig" sehr gut, 

wohingegen der Term t2 nur sehr schlecht für 

eine Klassifizierung geeignet ist (siehe Ratio Wert, 

welcher anzeigt, wie ungleich/gleich die Terme in 

den beiden Klassen verteilt sind). Trotzdem haben 

alle drei Terme das gleiche Gewicht (IDF). 

Term 

Summe(int 

eressant, 

langweilig) 

interessant : 

langweilig 

Ratio 

inverse Dokumentfreq. 

t1 100 10 : 1 log(N/100) = 3.322 

t2 100 1 : 1 log(N/100) = 3.322 

t3 100 1 : 10 log(N/100) = 3.322 

Abbildung 4: Die Tabelle zeigt, dass die inverse 

Termfrequenz nicht geeignet ist, um die 

Bedeutung von Termen für eine Klassifizierung zu 

kennzeichnen. Quelle (frei nach): (Lan, Tan, & 

Low, 2006, S. 2) 

Die Idee von (Lan, Tan, & Low, 2006) besteht 

darin, gut separierende Terme mit der relevance 

frequency höher zu bewerten: 

rf = log⁡(2 + interessant 

langweilig ) 

Die 2 wurde als Wert gewählt, da es sich um den 

Logarithmus zur Basis 2 handelt. In Kombination 

mit der Term Frequenz ergibt sich das neue 

Gewicht TF-RF. Die Abbildung 5 zeigt deutlich die 

Überlegenheit des TF-RF Maßes gegenüber den 

gängigen Gewichten. Im selektierten Verfahren 

wird deshalb eine Gewichtung der Terme mittels 

dem TF-RF-Maß in Betracht gezogen und neben 

dem TF-IDF-Gewicht bewertet. 

2.5 Abstandsmaße zur 

Ähnlichkeitsbestimmung 

Die meisten Verfahren basieren auf dem 

Vektorraummodell. Das bedeutet, dass die 

Merkmale als Vektor im mehrdimensionalen 

Raum dargestellt werden können. Abbildung 6 

visualisiert dies für den 3 dimensionalen Raum. 

Um nun die die Ähnlichkeit der extrahierten 

Vektoren miteinander zu vergleichen, stehen 

verschiedene Abstandsmaße zur Verfügung. Ein 

einfaches Maß ist das Skalarprodukt: 

scalar x, y = 

n 

i=1 

x i y i 

Dabei besteht allerdings das Problem, dass die 

Merkmalsvektoren zuvor normalisiert werden 

müssen, da sonst durch die Linearität, die Länge 

des Vektors ausschlaggebend ist. Auch der 

euklidische Abstand kann als Abstandsmaß 

verwendet werden, ist aber ebenso wie das 

Skalarprodukt von der Länge der Vektoren 

abhängig. 

Ein gut geeignetes Maß, welches auch in der 

Literatur (Hoffmann, 2002) häufig angeführt wird, 

ist der Kosinusabstand: 

cos x, y = 

n 

i=1 

x i y i 

n 

x 

2 n 

i=1 i y 

2 

i=1 i 

Dieser misst den Winkel zwischen zwei Vektoren 

und ist unabhängig von der Länge der Vektoren. 

Umso näher die Richtungen der 

Merkmalsvektoren beieinander liegen, umso 

ähnlicher sind sie. Das Pseudo-Cosinus-Maß 

verzichtet auf die Quadrate und die Wurzeln in der 

Formel für den Kosinusabstand. Dadurch wird das 

Maß weniger stark anfällig für große Werte, wobei 

vorausgesetzt wird, dass es nur positive Gewichte 

gibt. 

Abbildung 5: Vergleich der verschiedenen 

Gewichten bei Verwendung des k -nächste- 

Nachbarn Verfahrens. Auf der Y -Achse ist das F1 

Maß aufgetragen. TF-RF erscheint als eine 

interessante Alternative zu dem etablierten TF - 

IDF Gewicht. 

Abbildung 6: zwei Vektoren im Merkmalsraum. 

Quelle: (Hoffmann, 2002) 

Weiterführend gibt es das Overlap-Maß, das Dice- 

Maß und das Jaccard-Maß. In (Hadi, Thabtah, & 

Abdel-jaber, 2007) werden verschiedene

7 

Abstandsmaße verglichen und es zeigt sich, dass 

das Kosinusmaß dem Dice- und Jaccard-Maß 

überlegen ist. Allerdings handelt es sich hier nur 

um sehr geringe Differenzen in der 

Klassifikationsgenauigkeit, so dass eine weitere 

Analyse alternativer Maße an dieser Stelle kaum 

Verbesserungsmöglichkeiten aufwerfen wird und 

deshalb nicht weiter verfolgt wird. 

3. Verfahren und Algorithmen zur 

Klassifizierung von Texten 

3.1 Übersicht Algorithmen 

In diesem Kapitel werden alle Algorithmen, die 

sich für eine Textklassifikation eignen, vorgestellt. 

Dabei werden sie nicht im Detail erläutert, 

sondern nur ein kurzer Überblick über die 

Funktionsweise gegeben. Ziel ist es, die Verfahren 

hinsichtlich ihrer Eignung für die gegebene 

Problemstellung zu analysieren und zu bewerten. 

Als endgültiges Ergebnis, soll ein Verfahren 

gewählt werden, welches für die Lösung dieses 

Problems herangezogen werden soll. 

Detailliertere Übersichten über die Verfahren sind 

in (Hoffmann, 2002), (Sebastiani, 2002) und 

(Blankenhorn, 2002) zu finden. Für den 

tiefergehenden Einstieg in die einzelnen Verfahren 

wird an dieser Stelle auf die zahlreich verfügbare, 

weiterführende Literatur verwiesen, in der die 

einzelnen Algorithmen ausführlich vorgestellt 

werden. 

3.2 Naive Bayes-Klassifikation 

Der naive Bayes Klassifikator ist der am stärksten 

verbreitete Klassifikationsalgorithmus und wird 

primär für die Spamerkennung angewendet. Er 

basiert auf dem berühmten Bayestheorem, das ein 

Umkehren von Schlussfolgerungen erlaubt: 

P B A ∗ P(A) 

P A B = 

P(B) 

Um den Bayes Klassifikator für die 

Textklassifikation einzusetzen, wird das 

Dokument in seine Einzelwörter zerlegt. Beim 

Lernen wird für jedes Wort ein Zählwert für die 

jeweilige Klasse erhöht (bzw. das neue Wort 

eingefügt und dem Wert 1 für die jeweilige Klasse 

belegt). Mit der Summe aller Lernvorgänge, für die 

einzelnen Kategorien, entsteht so eine 

Wahrscheinlichkeit für jedes Wort. Diese gibt an, 

wie wahrscheinlich es ist, dass das Wort in der 

jeweiligen Klasse auftaucht. 

Für die Klassifikation wird die 

Gesamtwahrscheinlichkeit errechnet. Dazu 

werden die Einzelwahrscheinlichkeiten aller 

Wörter miteinander multipliziert und so eine a- 

Priori Gesamtwahrscheinlichkeit für die einzelnen 

Klassen errechnet. Durch das Bayestheorem wird 

dann die a-Posteriori Wahrscheinlichkeit, also die 

Wahrscheinlichkeiten für die Zugehörigkeit des 

Dokumentes zu einzelnen Klassen errechnet. Die 

Klasse, für welche die Wahrscheinlichkeit am 

größten ist, wird als Zielklasse gewählt. 

Dieses Verfahren wurde bereits vor dem Beginn 

dieser Arbeit implementiert und liefert leider 

keine ausreichend hohe Trefferraten. Eine Analyse 

hat gezeigt, dass der "naive" Ansatz eine zu starke 

Vereinfachung ist. Beim Bilden der 

Gesamtwahrscheinlichkeit einer Klasse, werden 

einfach die Einzelwahrscheinlichkeiten der 

einzelnen Wörter miteinander multipliziert. Dies 

basiert auf der Annahme, dass die 

Einzelwahrscheinlichkeiten 

unabhängig 

voneinander sind. Das ist aber nicht der Fall und 

macht sich besonders dann bemerkbar, wenn 

Dokumente sehr gegensätzliche Begriffe 

enthalten. Im Rahmen dieser Arbeit wird der 

naive Bayes Klassifikator zum Vergleich für das 

neue Verfahren herangezogen. 

3.3 Fisher-Methode 

Die Fisher-Methode (Segaran, 2008, S. 144) ist wie 

der Bayes Klassifikator ein probabilistisches 

Verfahren. Der Lernvorgang ist identisch mit dem 

des Bayes Klassifikators. Beim Klassifizieren 

werden allerdings in einem ersten Schritt die 

Wahrscheinlichkeiten für alle einzelnen Wörter 

ermittelt und normalisiert (je Klasse). Dann 

werden die so normalisierten 

Einzelwahrscheinlichkeiten multipliziert und 

logarithmiert. Eine Menge von 

Einzelwahrscheinlichkeiten wird auf diese Weise 

zusammengesetzt. 

"Fisher hat gezeigt, dass das Ergebnis dieser 

Berechnung bei unabhängigen und zufälligen 

Wahrscheinlichkeiten zu einer Chi-Quadrat- 

Verteilung passt." (Segaran, 2008, S. 144). Daher 

liefert dieser Wert, eingesetzt in die inverse Chi- 

Quadrat-Funktion, eine Wahrscheinlichkeit dafür, 

dass diese zufällig zusammengesetzte Menge eine 

hohe Wahrscheinlichkeit hat. 

Trotz der Normalisierung und dem Ansatz über 

die Chi-Quadrat-Verteilung, welche versucht zu 

ermitteln, ob es reiner Zufall ist, dass diese 

Sammlung an Wörter eine hohe 

Wahrscheinlichkeit für eine Klasse hat, ist dieser 

Ansatz nicht vielversprechend. Die Verwendung 

der Chi-Quadrat-Verteilung ist ein Versuch die 

"Naivität" des Bayesklassifikators auszugleichen. 

Laut (Segaran, 2008, S. 146) ist die Qualität der 

Fisher-Methode mit denen des Bayesklassifikators

8 

vergleichbar. Ein Einsatz für die Lösung des hier 

vorliegenden Problems ist daher ausgeschlossen. 

3.4 Entscheidungsbäume 

Eine einfache Form von Klassifikatoren stellen die 

Entscheidungsbäume (siehe Abbildung 7) dar. Sie 

stellen in einer Baumstruktur Regeln auf, um 

Vektoren zu klassifizieren. Der Baum wird von 

oben nach unten durchlaufen und es wird, 

basierend auf den Merkmalen, eine Serie von ifthen-else 

Bedingungen geprüft. 

Ein Entscheidungsbaum kann automatisch erstellt 

werden. Dazu werden die Trainingsvektoren der 

einzelnen Klassen gegenüber gestellt und es wird 

als Merkmal, nach dem als erstes getrennt wird 

gesucht. Dabei wird ein Merkmal gewählt, das eine 

besonders gute Trennschärfe liefert. So kann über 

die Entropie festgestellt werden, welches Merkmal 

sich am besten eignet um eine Datenmenge in 

zwei Teile aufzuteilen (vgl. Information Gain). 

Eine sehr ausführliche Anleitung, wie man 

Entscheidungsbäume erzeugen kann, ist in dem 

Buch "Kollektive Intelligenz" (Segaran, 2008) zu 

finden. 

Das zentrale Problem von Entscheidungsbäumen 

ist die Menge an Bedingungen und die Größe des 

Baumes. Da der Merkmalsraum sehr groß ist, sind 

entsprechend viele Stufen notwendig, die für eine 

Klassifikation dann auch durchlaufen werden 

müssen. Ein weiteres Problem ist das 

inkrementelle Lernen, denn der Baum muss nach 

jedem Training neu erstellt werden. Zudem 

werden Entscheidungsbäume als anfällig für 

Overfitting beschrieben, was ein zusätzliches 

"Pruning" notwendig macht (Wikipedia, 2010). 

3.5 Regelbasierter Klassifikator 

Beim regelbasierten Verfahren werden, mit Hilfe 

eines Regel-Lerners, Regeln aufgestellt, die genau 

festlegen wann ein Dokument zu einer Klasse 

gehört. Die Regeln werden in disjunktiver 

Normalform erstellt und sind leicht lesbar und 

verständlich (Blankenhorn, 2002, S. 25). 

Gegenüber Entscheidungsbäumen sind die 

Klassifikatoren kompakter und werden meist von 

unten nach oben generiert (im Gegensatz zu 

Entscheidungsbäumen). Dabei wird immer nur 

eine einzelne Klasse betrachtet. Eine leere Regel 

wird so lange um neue Bedingungen ergänzt, bis 

sie auf möglichst viele Elemente der jeweiligen 

Klasse passt. 

Bei diesem Verfahren ist das inkrementelle Lernen 

ein Problem. Nach jeder Änderung müssten alle 

Regeln für die jeweilige Klasse neu generiert 

werden. Ähnlich wie beim Entscheidungsbaum 

wird auch die große Menge an Regeln ein Problem 

darstellen. Benutzer können zahlreiche 

Themengebiete in ihrem RSS Reader abonnieren. 

Regeln können dadurch sehr komplex und 

umfangreich werden, so dass ein Erzeugen der 

Regeln, wie auch ein Auswerten sehr 

rechenintensiv werden kann. 

Leider gibt es kaum Studien zur Praxistauglichkeit 

von regelbasierten Verfahren. 

3.6 Rocchio Verfahren 

Der Rocchio Algorithmus ist ein sehr verbreitetes 

Verfahren, das dafür ausgelegt ist, in Kombination 

mit Relevance-Feedback verwendet zu werden. 

Die Vorgaben des Benutzers können direkt für 

eine neue Anfrage weiterverarbeitet werden. 

Die Grundidee des Rocchio Verfahrens ist einfach: 

Abbildung 7 : Ein Entscheidungsbaum. Für die einzelnen Merkmale werden von oben nach 

unten die einzelnen Bedingungen geprüft.Quelle: (Segaran, 2008, S. 161)

9 

in einer Trainingsphase werden 

Merkmalsvektoren den jeweiligen Klassen 

zugeteilt. Anschließend werden die Vektoren der 

einzelnen Klassen gemittelt. Es entsteht ein 

Zentroid-Vektor für jede Klasse i: 

c i = {w 1i , w 2i , w 3i , … . , w ki } 

Wobei die einzelnen Gewichte des Zentroid- 

Vektors mit folgender Formel (Sebastiani, 2002, S. 

26) bestimmt werden können: 

w ki = α ∗ 

d ∈D interessant 

∗ 

w ki 

D interessant 

d ∈D langweilig 

− β 

w ki 

D langweilig 

Der Zentroid-Vektor besteht also aus den 

gemittelten Gewichten der Einzelvektoren der 

Klasse. Mit den Parameter α und β kann festgelegt 

werden, wie stark die einzelnen Klassen in das 

Ergebnis einbezogen werden. 

Zum Klassifizieren wird nun das Kosinusmaß 

zwischen den gemittelten Vektoren der jeweiligen 

Klassen und dem unbekannten Merkmalsvektor 

ermittelt. Der Vektor wird der Klasse zugeordnet 

zu deren Mittelwertvektor der Abstand am 

kleinsten ist. 

Dem Bayes Klassifikator und der Fisher-Methode 

ist das Rocchio Verfahren eindeutig vorzuziehen. 

Die Vektoren mit den jeweiligen Worten bleiben 

erhalten und besonders die zusammenhängenden 

Worte bleiben im Kontext erhalten. Durch die 

Mittelung findet aber eine Vereinfachung statt, die 

sich zwar positiv auf die 

Klassifikationsgeschwindigkeit auswirkt, aber 

auch eine starke Unschärfe einführt, welche das k- 

nächste-Nachbar Verfahren oder Support-Vektor- 

Maschinen nicht aufweisen. Zu diesem Ergebnis 

kommt auch (Sebastiani, 2002, S. 40) und 

beschreibt das Rocchio Verfahren gegenüber dem 

k-nächste Nachbar Verfahren, Support-Vektor- 

Maschinen und neuronalen Netzen als eindeutig 

unterlegen. 

3.7 k-nächste Nachbarn 

Das k-nächste Nachbarn Verfahren ist eine leicht 

zu verstehende und sehr verbreitete Methode der 

Textklassifikation. Auch dieser Klassifikator geht 

von Merkmalsvektoren im n-dimensionalen Raum 

aus. Es werden die Abstände zu allen 

vorklassifizierten Trainingsvektoren berechnet. 

Die k nächstliegenden Vektoren werden ermittelt 

und als Zielklasse für den unbekannten Vektor, 

wird die Klasse gewählt, welche die Mehrzahl der 

k Nachbarn angehört: 

y(d i ) = arg max k Sim d i , x j y(x j , c k ) 

x j ∈kNN 

y(d) gibt hierbei an, zu welcher Klasse der 

unbekannte Vektor d gehört. x sind die k nächsten 

Trainingsvektoren. Sim ist eine 

Ähnlichkeitsfunktion (z. B. Kosinusabstand) und 

y(x,c) ist 1 oder 0, je nachdem ob x zu c gehört 

oder nicht. 

Dieser Algorithmus ist sehr rechenintensiv, da der 

Abstand zwischen dem vorliegenden Vektor und 

allen Vektoren der Trainingsmenge notwendig ist. 

Hier gibt es mehrere Methoden um die Laufzeit zu 

optimieren. So werden beispielsweise Bäume oder 

heuristische Verfahren eingesetzt. 

Zur Lösung des vorliegenden Problems wurde der 

k-nächste Nachbarn Klassifikator gewählt. Um die 

Laufzeit zu begrenzen, wurde ein heuristisches 

Verfahren mit Hilfe von Simulated Annealing 

realisiert (siehe 4. Kapitel). 

3.8 Neuronale Netze 

Bei der Klassifizierung mittels Neuronalen Netzen, 

werden menschliche Nervenzellen im Gehirn 

nachgebildet. Mehrere Neuronen werden 

hintereinander geschalten und miteinander 

verknüpft. Diese Neuronen haben Eingangswerte, 

welche im Falle der Text Klassifikation, die 

Gewichte der Merkmalsvektoren sind. Diese 

werden mit Gewichten multipliziert, miteinander 

verknüpft und bilden wiederum den Eingangswert 

für das nächste Neuron bzw. des abschließenden 

Ausgangs. Freiheiten bestehen bei der Wahl der 

Schichten und der Anzahl der Neuronen pro 

Schicht. Zudem wird eine nichtlineare 

Aktivierungsfunktion 

(Sigmoidfunktion) 

nachgeschalten. 

Abbildung 8: Skizze eines dreischichtigen 

Neuronalen Netzes (Quelle: 

http://www.neuronalesnetz.de ) 

Ein Neuronales Netz wird dadurch trainiert, dass 

die Trainingsvektoren am Eingang angelegt 

werden und das Netz (die Multiplikatoren am 

Eingang der Neuronen) so verändert werden, dass 

ein gewünschter Ausgangswert angenommen 

wird. Ausgehend von einem Funktional als 

Gütekriterium kann dies beispielsweise mit dem 

Gradientenabstiegsverfahren erreicht werden.

10 

Neuronale Netze haben den gravierenden 

Nachteil, dass deren Lerndauer und Konvergenz 

nicht optimal festgelegt werden können. Das 

Verfahren ist nicht transparent: auch wenn ein 

Neuronales Netzwerk zufriedenstellende 

Ergebnisse liefert, ist nicht nachvollziehbar 

warum das so ist. Zudem ist das Training ein 

nicht-konvexes Problem, es ist also nicht 

sichergestellt, dass die optimale Konfiguration 

gefunden wird. 

Primärer Nachteil, wieso Neuronale Netze für die 

Lösung dieses Problems nicht weiter verfolgt 

werden, ist der hohe Trainingsaufwand. Der RSS 

Reader benötigt ein Verfahren, das inkrementell 

lernen kann. Bei Neuronalen Netzen ist dies nur 

schwer möglich. Zudem ist das Training sehr 

aufwendig: ein nicht-konvexes 

Minimierungsproblem muss gelöst werden. 

3.9 Support Vektor Maschinen 

Support Vektor Maschinen sind das neueste und 

derzeit beliebteste Klassifikationsverfahren. 

Besonders bei komplexen Problemen stellen 

Support Vektor Maschinen einen Klassifikator dar, 

der eine gute Generalisierbarkeit aufweist und 

eine eingebaute Komplexitätsbremse besitzt. 

Primär wird dabei dem Problem des Overfittings 

begegnet. Overfitting bedeutet, dass der 

Klassifizierer zu genau auf die Trainingsmenge 

abgestimmt wird und für diese extrem hohe 

Trefferraten aufweist, bei neuen Werten aber 

nicht allgemein genug ist und versagt. 

Um einen Support Vektor Maschinen Klassifikator 

zu trainieren, wird eine Hyperebene im 

mehrdimensionalen Merkmalsraum berechnet, 

die einen maximalen Abstand zu den 

Trainingsvektoren aufweist. Ein Vorteil des 

Verfahrens ist die Tatsache, dass lediglich die 

Vektoren, welche der Hyperebene am nächsten 

liegen gespeichert werden müssen (die 

Supportvektoren). Für einen unbekannten Vektor 

wird geprüft, auf welcher Seite der Hyperebene er 

liegt und daraus die Klassenzugehörigkeit 

abgeleitet. 

Für nicht linear separable Klassen, bietet das 

Verfahren eine sogenannte Kernelfunktion an. 

Damit wird der Merkmalsvektor, sowie der 

Supportvektor in einen hochdimensionalen Raum 

transferiert und dort wird schließlich der Abstand 

(das Innenprodukt) berechnet. So lassen sich mit 

einem linearen Klassifikator auch nicht-lineare 

Klassifikationsprobleme lösen. 

Support Vektor Maschinen gelten in der Fachwelt 

als derzeit bestes Verfahren. Während nur ein 

Bruchteil der Trainingsdaten gespeichert werden 

müssen, kann der Klassifikator auch mit 

nichtlinearen Problemen umgehen und ist in 

seiner Komplexität steuerbar. 

Abbildung 9: Beispielhafte Darstellung einer 

Trennhyperebene im zweidimensionalen Raum. Die 

grünen Punkte sind die Supportvektoren, die 

gespeichert werden müssen. 

Für das vorliegende Problem kommt das 

Verfahren dennoch nicht in Betracht, da es für 

inkrementelles Lernen völlig ungeeignet ist. Das 

Trainieren ist nichts anderes als das Lösen eines 

quadratischen Optimierungsproblems mit 

linearen Nebenbedingungen. Dazu muss auf 

Lagrange Multiplikatoren zurückgegriffen werden. 

Besonders bei großen Merkmalsvektoren ist dies 

in der Rechenzeit sehr teuer. Das bedeutet, dass 

nach jedem Trainieren durch den Benutzer die 

Klassifikatorfunktion (also die Hyberebenen) 

komplett neu erstellt werden müsste. 

3.11 Bewertung der Algorithmen 

Für eine Textklassifikation gibt es eine Vielzahl an 

Algorithmen, die in ihren verschiedensten Formen 

bereits Verwendung finden und auch in der 

Literatur ausführlich beschrieben werden. Neben 

den oben genannten Verfahren gibt es auch 

weiterführende Techniken, die auf heuristische 

Algorithmen basieren (ein Beispiel sind 

genetische Algorithmen). Betrachtet man aber die 

gegebene Problemstellung mit ihren 

Einschränkungen, wie dem inkrementellen 

Lernen, oder der begrenzten Ressourcen, so ist 

der Einsatz vieler Methoden nicht mehr möglich. 

Probabilistische Algorithmen, wie der naive Bayes 

Klassifikator oder die Fisher Methode sind nicht 

geeignet, da der Ansatz, die einzelnen Wörter als 

unabhängig zu betrachten eine zu starke 

Vereinfachung ist. Selbst mit der Verbesserung 

durch die inverse Chi-Quadrat-Verteilung sind 

diese Methoden wenig aussichtsreich. 

Auch regelbasierte Algorithmen erscheinen 

ungeeignet, da die Menge an Bedingungen mit 

steigender Anzahl an Trainingsdaten explodieren 

wird. Zudem ist der Lernvorgang zu aufwendig: 

der Baum bzw. die Regeln müssen nach jedem 

Trainingsschritt neu generiert werden. Sie werden

11 

auch Verfahren wie dem k-nächste Nachbarn oder 

Support Vektor Maschinen als unterlegen 

beschrieben (Wikipedia, 2010). In einem 

Vergleich aller Algorithmen von (Sebastiani, 2002, 

S. 38f) schneiden diese ebenfalls sehr schlecht ab. 

Neuronale Netze stellen genauso wie Support 

Vektor Maschinen einen interessanten Ansatz dar, 

sind aber speziell in der Trainingsphase sehr 

aufwendig. Bei beiden muss ein nicht-lineares 

Optimierungsproblem gelöst werden. Insgesamt 

sind diese beiden Verfahren zu rechenintensiv im 

Training, da hier der Klassifikator komplett neu 

berechnet werden muss. Da die Lösung effizientes, 

inkrementelles Lernen unterstützen muss, geht 

auch der Vorteil der Support Vektor Maschinen, 

dass lediglich eine Teilmenge der 

Trainingsvektoren gespeichert werden muss, 

verloren. 

Für das vorliegende Problem wurde deshalb, im 

Rahmen dieser Arbeit, der k-nächste Nachbarn 

Klassifikator ausgewählt. Dieser ist exakter als der 

Rocchio Algorithmus, liefert gemäß der Literatur 

gute Ergebnisse (Baoli, Shiwen, & Quin, 2003, S. 1) 

und ist leicht verständlich und nachvollziehbar. 

Eine Studie, welche Support Vektor Maschinen mit 

dem k-nächste Nachbarn und Bayes Klassifikator 

vergleicht (Colas & Brazdil, 2006), zeigt, dass das 

k-nächste Nachbarn Verfahren den Support 

Vektor Maschinen nicht unterlegen ist. Auch 

(Sebastiani, 2002, S. 38f) kommt zu diesem 

Ergebnis und beschreibt Support Vektor 

Maschinen, regressionsbasierte Ansätze und k- 

nächste Nachbarn hinsichtlich ihrer 

Treffergenauigkeit als sehr ähnlich leistungsstark. 

Besonders bezüglich der 

Trainingsgeschwindigkeit liegt hier das k-nächste 

Nachbarn Verfahren vorne, da nicht der gesamte 

Klassifikator neu berechnet werden muss. 

Bei der Analyse des Verfahrens wird aber auch 

schnell klar, dass unbedingt die Klassifikation, die 

eine Abstandsberechnung mit allen anderen 

Vektoren vorsieht, beschleunigt werden muss. Da 

das k-nächste Nachbarn Verfahren sehr verbreitet 

ist, gibt es hier einige praxistaugliche Ansätze. Für 

diese Arbeit wurde ein heuristisches Verfahren 

gewählt, das auf dem simulierten Abkühlen, einer 

Methode aus der Optimierung basiert und etwa 10 

Mal schneller ist, als der gewöhnliche k-nächste 

Nachbarn Algorithmus (Yang, Li, Zhang, & Hu, 

2007). Es wurde ebenfalls der Einsatz einer 

Beschleunigungsmethode, basierend auf P-Trees 

(Rahal & Perrizo, 2004) erwogen, dieses hat sich 

allerdings als zu unflexibel und speicherintensiv 

erwiesen. Zudem besteht auf die P-Tree 

Technologie ein Patentanspruch. 

4. Realisierte Methode 

4.1 Vorgehensweise 

Wie im vorhergehenden Teilkapitel erläutert, wird 

das k-nächste Nachbarn Verfahren für diese Arbeit 

verwendet. Dabei wird für ein gegebenes 

Dokument ein Merkmalsvektor erzeugt und die 

Distanz zu allen Trainingsvektoren berechnet. Die 

vorgegebene Kategorie der k nächsten 

Trainingsvektoren, wird schließlich für die 

Klassifikation herangezogen. Bei der klassischen 

Klassifikation wird die Kategorie gewählt, zu der 

die meisten k nächsten Nachbarn zugehörig sind. 

Da dieses Vorgehen sehr rechenintensiv ist, wurde 

in dieser Arbeit ein optimiertes, heuristisches 

Verfahren, basierend auf das simulierte Abkühlen 

gewählt (Yang, Li, Zhang, & Hu, 2007). 

4.2 Merkmalsextraktion und 

Vorverarbeitung 

Bevor der Klassifikator angewendet werden kann, 

muss, wie im zweiten Kapitel genauer erläutert, 

der Merkmalsvektor gebildet werden. Dazu 

werden folgende Schritte durchlaufen: 

1. sämtliche HTML Tags werden entfernt 

2. alle Buchstaben werden in 

Kleinbuchstaben umgewandelt 

3. alle Sonderzeichen, mit Ausnahme des 

Bindestrichs '-' und des Leerzeichens, 

werden entfernt 

4. der Text wird in seine Einzelwörter 

zerlegt (Trennzeichen ist das 

Leerzeichen) 

5. die Häufigkeit jedes Wortes wird gezählt 

6. ein Gewicht wird ermittelt (z.B. TF IDF) 

Eine Stopp-Wort-Liste wurde nicht angelegt, da 

bedeutungslose Worte, wie beispielsweise Artikel, 

zuverlässig durch eine geringere Gewichtung 

erkannt werden können. 

Auch eine weitere Verarbeitung, z.B. die 

Rückbildung der einzelnen Worte auf den 

Wortstamm, wurde nicht realisiert, da hierfür 

Wörterbücher oder sprachenspezifische Regeln 

aufgestellt werden müssen. 

Um nun effizient auf die Merkmalsvektoren 

zugreifen zu können, führt (Yang, Li, Zhang, & Hu, 

2007, S. 2f) eine neue Speicherstruktur ein. So gibt 

es eine Liste die alle Dokumente enthält. Jedes 

Dokument in dieser Liste besitzt einen Zeiger auf 

eine verkettete Liste, die sämtliche Wörter des 

Dokumentes enthält, wobei diese absteigend nach 

Gewicht sortiert sind (vgl. Abbildung 10).

12 

Abbildung 10: Die Speicherstruktur für die Dokumente und die jeweiligen Worte, 

absteigend sortiert nach deren Gewicht. 

Abbildung 11: Das inverse Array enthält für jedes Wort sämtliche Dokumente, in denen 

dieses enthalten ist, sowie das Gewicht in dem jeweiligen Dokument. 

Eine zweite Liste enthält sämtliche Wörter, die 

jeweils einen Zeiger auf eine weitere verkettete 

Liste besitzen. Diese enthält alle Dokumente, die 

dieses Wort enthalten, sowie das Gewicht, das 

dieses Wort in dem jeweiligen Dokument besitzt. 

Auch diese Liste ist absteigend nach Gewicht 

sortiert (vgl. Abbildung 11). Auf diese Weise kann 

schnell auf die Dokumente, die ein Wort enthalten, 

zugegriffen werden. 

4.3 Einführung Simulated Annealing 

Simulated Annealing (deutsch "simuliertes 

Abkühlen") ist ein heuristisches Verfahren der 

Optimierung, das versucht approximativ ein 

globales Minimum zu finden. Hier wird das 

Problem mit dem physikalischen Vorgang des 

Abkühlens gleichgesetzt. Die Systemkonfiguration 

wird mittels verschiedener Parameter 

beschrieben. Ein Generator erzeugt einen 

zufälligen Wechsel der Konfigurationsparameter. 

Eine Zielfunktion misst die Energie und soll 

minimiert werden. 

Ausgehend von einer initialen Konfiguration 

(initiale Temperatur) wird eine neue 

Konfiguration gewählt. führt diese zu einer 

Verbesserung (Abkühlung), so wird diese 

Konfiguration gespeichert. Ist die neue 

Konfiguration schlechter, so wird diese trotzdem 

akzeptiert, mit der Suche fortgefahren und eine 

neue Konfiguration gewählt, auch wenn dadurch 

die Zielfunktion verschlechtert wird (d.h. einen 

höheren Wert annimmt, als das zuvor ermittelte 

Minimum). Auf diese Weise soll dafür gesorgt 

werden, dass bei der Suche nach der optimalen 

Konfiguration nicht bereits bei lokalen Minimas 

abgebrochen wird. So wird, um das globale 

Minimum zu finden, auch kurzzeitig eine 

Verschlechterung in Kauf genommen. 

Ein Abbruchkriterium legt fest, wann abgebrochen 

und die aktuelle Lösung als die optimale 

angesehen wird. Meist ist der Generator so 

gestaltet, das je länger der Prozess läuft, die 

Wahrscheinlichkeit für eine große Veränderung 

der Parameter sinkt und gleichzeitig die 

Wahrscheinlichkeit für einen Abbruch steigt. 

4.4 Training des Klassifikators 

Das Training gestaltet sich als sehr einfach und 

schnell: die Merkmale des vorgegebenen 

Dokuments werden extrahiert (siehe Kapitel 4.2), 

gewichtet und in die Speicherstrukturen abgelegt. 

So wird das neue Dokument in die Liste eingefügt, 

die Wörter absteigend sortiert in die verkettete 

Liste des neuen Dokumentes eingehängt 

(absteigend sortiert nach Gewicht) und für jedes 

Wort in die inverse Liste das Dokument, mit dem 

jeweiligen Gewicht einsortiert. 

Innerhalb dieser Arbeit wird hierfür eine 

relationale Datenbank verwendet. Abbildung 12 

Abbildung 12: Das UML Diagramm der Datenbankstruktur für e in relationales 

Datenbanksystem.

13 

zeigt ein UML Diagramm und verdeutlich die 

Struktur. 

4.5 Klassifikation 

Der Prozess der Klassifikation ist nun nach dem 

simulated Annealing Ansatz aufgebaut und 

besteht aus den folgenden Schritten: 

1. die Merkmale des unbekannten, zu 

klassifizierenden Dokuments, werden 

extrahiert (Ergebnis: Liste mit allen 

Wörtern und den jeweiligen Gewicht) 

2. eine Ergebnis-Kandidatenmenge mit k 

leeren Plätzen wird initialisiert 

3. die Variable markov wird mit k 

initialisiert 

Nun wird folgender Vorgang so lange wiederholt, 

bis das Ergebnisset nicht mehr verändert wird: 

1. das am höchsten bewertete Wort des 

unbekannten, zu klassifizierenden 

Dokuments wird entnommen 

2. es werden die markov ersten Dokumente 

aus der inversen Wortliste entnommen 

und in ein temporäres Ergebnisset 

abgelegt 

3. die Kosinusdistanz zwischen dem Vektor 

des unbekannten Dokuments und jedem 

Dokument im temporären Ergebnisset 

wird berechnet. 

4. Alle Dokumente in der Ergebnis- 

Kandidatenmenge, die weiter entfernt 

sind, als Dokumente im temporären 

Ergebnissets, werden durch diese ersetzt. 

5. Die Variable markov wird mit folgendem 

Wert neu gesetzt, wobei n die Anzahl an 

Dokumente ist, die vom temporären 

Ergebnisset in den aktuellen Ergebnisset 

verschoben wurde: 

markov = lg n ∗ 10 + 0.1 ∗ k 

k 

6. Fand keine Ersetzung statt, so wird 

dieser Vorgang abgebrochen. 

Am Ende enthält die Ergebnis-Kandidatenmenge 

die k nächsten Nachbarn. 

5. Analyse 

5.1 Testumfeld 

Für gewöhnlich wird für die Analyse von 

Textklassifikationsalgorithmen auf fertige Text- 

Korpuse zurückgegriffen. Verbreitet ist der 

Reuters Korpora, aber auch auf die chinesische 

Sprache ausgelegte Datenbanken, mit 

verschiedenen Texten werden verwendet. In 

dieser Arbeit soll aber explizit die 

Leistungsfähigkeit für RSS Feeds und damit 

Inhalte von Webseiten analysiert werden. Daher 

wurden in dieser Arbeit zwei Sätze an Daten 

erhoben, die möglichst genau der realen 

Datenmenge entsprechen. 

Ein erster Datensatz besteht aus 1100 

vollständigen, deutschsprachigen Newsartikel der 

Webseite zeit.de (Zeit, 2010) und wurde im 

Zeitraum vom 21.04.2010 bis zum 22.05.2010 

erfasst. Die Ressorts Politik und Wirtschaft, mit 

zusammen 549 Dokumenten, wurden als 

interessant bewertet, die verbleibenden Ressorts, 

mit insgesamt 621 Dokumenten, als uninteressant 

vorklassifiziert. Die durchschnittliche Textlänge 

liegt bei ca. 10000 Zeichen, wobei einzelne 

Dokumente eine ähnliche Zeichenmenge 

aufweisen. Diese erste Menge stellt einen ersten, 

einfachen Testfall dar, mit dem grundsätzlich die 

Funktionalität der Implementierung 

nachgewiesen werden soll. 

Eine zweite Datenmenge (im Weiteren als "real" 

bezeichnet) besteht aus deutschsprachigen, mit 

rsslounge eingelesenen Feedeinträgen, die aus elf 

RSS Feeds entstammen. Diese Feeds decken 

inhaltlich die Themen IT News, Schlagzeilen und 

Webentwicklung ab und wurden entsprechend 

der festen Interessenlage eines Probanden 

vorklassifiziert (als interessant und 

uninteressant). Insgesamt wurden 2100 reale 

Feed-Einträge verwendet, die im Zeitraum vom 

31.03.2010 und dem 22.04.2010 erfasst wurden. 

Diese Datenmenge stellt den realen 

Anwendungsfall dar und soll als Grundlage dafür 

dienen, wie gut sich der 

Klassifikationsalgorithmus im realen Umfeld 

bewährt. 

Es gibt zwei Kategorien: interessant oder 

uninteressant. Jedes Dokument kann eindeutig 

einer der beiden Kategorien zugeordnet werden. 

Die Implementierung erfolgte in PHP, für den 

Bayes-Klassifikator wurde die OpenSource 

Bibliothek b8 (Leupold, 2010) verwendet. 

5.2 Messwerte 

Für eine Auswertung der Leistungsfähigkeit der 

vorhandenen Klassifikatoren, wurden die zwei 

Werte precision (Genauigkeit) und recall 

(Trefferquote) aus dem Bereich des Information 

Retrievals verwendet. Die "Genauigkeit ist die 

Wahrscheinlichkeit, mit der ein gefundenes 

Dokument relevant ist" (Wikipedia.org, 2010). Die 

"Trefferquote ist die Wahrscheinlichkeit, mit der 

ein relevantes Dokument gefunden wird" 

(Wikipedia.org, 2010). Beide Maße können Werte

14 

Abbildung 13: F1 Score Wert für die zeit.de Datenmenge 

Abbildung 14: F1 Score Wert für die real Datenmenge 

zwischen 0 und 1 (bzw. 0% und 100%) annehmen 

und hängen voneinander ab. Neben der 

Genauigkeit und der Trefferquote findet man in 

der Literatur daher auch sehr oft das F-Maß, 

welches beide Werte miteinander kombiniert. In 

dieser Arbeit wird das F1 Maß ermittelt. Die 

Maßzahlen können über folgende Formeln 

bestimmt werden: 

precision = 

recall = 

relevant ∩ gefunden 

gefunden 

relevant ∩ gefunden 

relevant 

2 ∗ precision ∗ recall 

F1 = 

precision + recall 

5.3 Auswertung 

Für ein Training der Klassifikatoren wurde eine 

unterschiedliche Anzahl an Dokumenten 

verwendet. Anschließend wurden je Testlauf 100 

Dokumente klassifiziert und daraus die Messwerte 

ermittelt. 

Abbildung 13 und 14 zeigen die F1 Scorewerte für 

die beiden Datenmengen. Auf der x-Achse ist die 

Anzahl der Dokumente der Lernmenge 

aufgetragen. Die Grafiken enthalten das Ergebnis 

des naiven Bayes Klassifikators und das Ergebnis 

des k-nächste-Nachbarn Klassifikators, basierend 

auf simuliertem Abkühlen unter Verwendung der 

8 nächsten Nachbarn. Einmal wurden die 

Dokumente unverändert in den Klassifikator 

eingegeben (rote Linie). Ein weiteres Mal wurden 

alle Dokumente auf 500 und 300 Zeichen gekürzt 

(grüne und lila Linie).

15 

Abbildung 13 zeigt, dass beide Klassifikatoren mit 

einer steigenden Anzahl an Trainingsdaten besser 

werden. Die Überlegenheit des Bayes 

Klassifikators ist, besonders bei kleinen 

Datenmengen, deutlich sichtbar. Eine Reduktion 

der Textlänge führt hier zu einer Verschlechterung 

der Klassifizierungsleistung, was aus dem 

reduzierten Informationsgehalt folgert. Besonders 

der Bayes Klassifikator bringt hier gute 

Trefferraten, da die Themengebiete der 

zugrundeliegenden Datenmenge klar voneinander 

getrennt sind (Politik und Wirtschaft besitzt eine 

andere Wortmenge als die restlichen Ressorts wie 

Sport oder Wissen). Die Unterlegenheit des k- 

nächste-Nachbarn Verfahren ist in der kleinen 

Trainingsmenge begründet. Dies deckt sich mit 

den Beobachtungen verschiedener Paper, die für 

das k-nächste-Nachbarn Verfahren, basierend auf 

verschiedene Text-Korpuse, ähnliche 

Ergebniswerte aufweisen (Lan, Tan, & Low, 2006, 

S. 4f.), (Colas & Brazdil, 2006, S. 7). 

Wird eine Datenbasis herangezogen, die eine reale 

Klassifikation durch einen Benutzer 

wiederspiegelt, so ändert sich dieses klare Bild, 

wie Abbildung 14 aufzeigt. Während sich der 

Bayes Klassifikator mit steigender Anzahl an 

Trainingsdokumenten verbessert und einer 

Treffergenauigkeit von 80% annähert, weißt der 

k-nächste-Nachbarn Klassifikator eine konstant 

niedrige Erfolgsquote auf, die etwa bei 50% 

anzusiedeln ist und auch bei einer Erhöhung der 

Lernmenge nicht ansteigt. Für diesen Effekt gibt es 

eine klare Ursache, die eine Analyse der 

Debugausgaben der Implementierung offenbart. 

Aufgrund der kurzen durchschnittlichen Länge 

von (im Mittel) 1000 Zeichen der Dokumente wird 

ein Vergleich zweier Vektoren nur über sehr 

wenige Worte durchgeführt. Zwei Vektoren haben 

im Durchschnitt lediglich drei Wörter gemeinsam. 

Die Entscheidung, wie nahe also ein Vektor an 

dem unbekannten, zu klassifizierenden Vektor 

liegt (errechnet über die Kosinusdistanz), basiert 

also auf ein bis drei Worte. Auch wenn diese im 

Kontext auftauchen (also gegenüber dem naiven 

Bayes Verfahren hier mehr Informationen 

enthalten), reicht diese Menge nicht aus, um eine 

Aussage darüber zu treffen, ob dieser Vektor dem 

unbekannten Vektor ähnlich ist oder nicht. Auch 

bei einer steigenden Trainingsmenge wird dieses 

Problem nicht gelöst, da die Bewertungsgrundlage 

für die Ähnlichkeit zu schwach ist und sich die 

Menge an falschen Möglichkeiten nur erhöht. 

Diese Erkenntnis wiegt schwer, denn sie besagt, 

dass auch alle anderen vektorbasierten Verfahren, 

die in dieser Arbeit aufgezeigt werden (wie 

beispielsweise Support Vektor Maschinen) für 

eine Klassifikation nicht in Frage kommen. Auch 

hier findet ein Vergleich zweier Vektoren über die 

Einzelwörter statt und auch hier wäre die 

Schnittmenge für eine verlässliche Aussage zu 

klein. 

Weiterführende Versuche haben gezeigt, dass 

auch die Anzahl der nächsten Nachbarn, also eine 

Veränderung des k, keine Verbesserung 

herbeiführt und auch kein herausragend stabiler 

Wert angegeben werden kann, der auffallend gute 

Ergebnisse liefert. 

Abbildung 14 zeigt auch ein zweites Phänomen, 

dass ein großes Problem darstellt: wird die 

Textlänge auf 500 Zeichen limitiert, so verbessert 

sich die Erkennungsleistung signifikant auf ca. 

65%. Ein Vergleich mit dem Datenbestand aus 

Abbildung 13 (das diesen Effekt nicht aufweist) 

und einer Analyse der Datenmenge zeigt, dass dies 

durch die stark variierende Textlänge 

hervorgerufen wird. 

max Textlänge kein Limit 500 

korrekt 

interessant 

17 15 

falsch interessant 12 14 

korrekt 

langweilig 

34 62 

falsch 

langweilig 

37 9 

Textlänge 

Traininmenge 

interessant 

Textlänge 

Traininmenge 

langweilige 

1354 368 

752 335 

Abbildung 15: Die Tabelle zeigt die Anzahl 

korrekt und falsch klassifizierter Elemente, 

abhängig von der maximal möglichen Textlänge. 

Die Werte wurden bei einer Trainingsmenge von 

1000 Dokumente und mit k=8 ermittelt 

Die Tabelle in Abbildung 15 zeigt exemplarisch für 

1000 Dokumente als Trainingsmenge, wie groß 

der Einfluss der Textlänge ist. Ohne eine 

Limitierung der Textlänge werden 37 Dokumente, 

die eigentlich uninteressant sind, als interessant 

eingestuft. Wird hingegen die Textlänge auf 500 

Zeichen begrenzt (also lediglich die ersten 500 

Zeichen verwendet), so sinkt diese Anzahl an 

fälschlicherweise als interessant eingruppierten 

Dokumenten auf 9. Dieses Verhalten ist für 

mehrere Konfigurationen rekonstruierbar. 

Die Ursache hierfür liegt in dem Ungleichgewicht 

der Merkmale. Der unbekannte Merkmalsvektor 

wird nur mit einem Trainingsvektor verglichen, 

wenn dieser mindestens ein Wort mit diesem 

gemeinsam hat, also überhaupt eine Schnittmenge 

vorhanden ist. Ansonsten ist die Distanz 0 (vgl. die 

Formel für das Kosinusmaß). Ein Vergleich macht 

hier auch intuitiv keinen Sinn, denn beide 

Vektoren haben ja nichts gemeinsam. Haben nun 

interessante Texte höhere Textlängen, so erhöht

16 

Abbildung 16: Anteil korrekt klassifizierter Dokumente für eine Trainingsmenge 

von 500 und 1000 Dokumenten für die Datenmenge "real" 

sich die Wahrscheinlichkeit, dass zwischen einem 

neuen, unbekannten Vektor und einem aus der 

Menge der interessanten Trainingsvektoren 

stammender Merkmalsvektor, eine Schnittmenge 

besteht, also beide Vektoren gleiche Wörter 

enthalten. Der unbekannte Vektor wird also mit 

mehr Trainingsvektoren der interessanten Menge 

verglichen (hier ist die Textlänge doppelt so hoch, 

wie bei uninteressanten Trainingsvektoren), 

womit auch die Wahrscheinlichkeit steigt, das ein 

solcher in die Menge der k nächsten Nachbarn 

kommt. Resultierend daraus werden unbekannte 

Vektoren verstärkt als interessant klassifiziert. 

Erst wenn durch eine künstliche Kürzung der 

Texte gleiche Textlängen erzeugt werden, gleicht 

sich dieser Effekt aus. 

Die erste Datenmenge (zeit.de) besteht aus etwa 

gleich langen Texten, daher tritt hier dieser Effekt 

nicht auf. Da aber RSS Feeds stark variierende 

Textlängen aufweisen (so enthält beispielsweise 

ein Download-Feed oft nur den Namen der 

Anwendung, ein Feed mit detaillierten 

Informationen oft weit mehr als 10000 Zeichen) 

und im Vorfeld nicht gewährt ist, dass diese 

Längen über beide Kategorien gleichverteilt sind, 

ist für dieses Problem unbedingt eine Lösung 

erforderlich. 

Sämtliche hier klassifizierten Dokumente wurden 

mittels der TF-IDF Gewichtung verarbeitet. Im 

Rahmen dieser Arbeit wurde aber auch das TF-RF 

Maß in Erwägung gezogen (vgl. 2.4 Gewichtung 

der einzelnen Merkmale) und ausgewertet. 

Abbildung 16 stellt den Anteil der korrekt 

klassifizierten Dokumente für die verschiedenen 

Klassifikationsalgorithmen dar. Ein deutlicher 

Abfall der Erkennungsleistung ist bei der 

Verwendung der TF-RF Gewichtung sichtbar und 

auch hier offenbart sich die Ursache bei einer 

Analyse der Debug-Ausgaben der 

Implementierung. Das TF-RF Maß ist zwar 

sensibel für Ungleichgewichte, repräsentiert aber 

kaum die Häufigkeit des Auftauchens eines 

Wortes. Das bedeutet, dass die Stop Wörter, also 

häufig auftretende und wenig aussagekräftige 

Worte, wie beispielsweise Artikel, kein signifikant 

niedrigeres Gewicht bekommen als seltene Worte. 

Daher haben diese Worte einen großen Einfluss 

auf die Bestimmung der Ähnlichkeit. Dieses 

Problem lässt sich auch im Paper, das dieses 

Gewicht einführt, zwischen den Zeilen 

herauslesen: "Stop words, punctuation and 

numbers were removed…" (Lan, Tan, & Low, 

2006, S. 3). Für dieses Projekt kommen allerdings, 

aus Gründen der Sprachenunabhängigkeit keine 

Wörterlisten in Frage. Daher wurde das TF-RF 

Gewicht nicht weiter verfolgt. 

Hinsichtlich der Verarbeitungsgeschwindigkeit 

hat sich das k-nächste-Nachbarn Verfahren, 

basierend auf dem simulierten Abkühlen als 

praxistauglich herausgestellt. Für die 

Klassifikation lag die Rechenzeit (ausgehen von 8 

nächsten Nachbarn und 1000 Trainingsdaten) 

unter 500 Millisekunden und damit in einem 

vertretbaren Bereich. 

6. Ergebnis 

In dieser Arbeit wurden die verschiedenen 

Möglichkeiten einer Textklassifikation erläutert 

und vorgestellt. Nach den vorliegenden 

Informationen wurde das geeignetste Verfahren, 

die Klassifikation über ein optimiertes k-nächste- 

Nachbarn-Verfahren, mittels simulierten 

Abkühlens implementiert und mit dem naiven 

Bayes Klassifikator verglichen. In diesem Zuge

17 

wurde die in (Lan, Tan, & Low, 2006) vorgestellte, 

neue Gewichtungsmethode, term frequenz 

relevance feedback (TF-RF) vorgestellt und in der 

Praxis erprobt. 

Ein praktischer Test mit zwei Datenmengen (einer 

vereinfachten Testmenge und einer zweiten, 

praxisnahen Beispielmenge) hat gezeigt, dass der 

k-nächste-Nachbarn Klassifikator, aufgrund der 

geringen Lernmenge, der kurzen Textinhalte von 

RSS Feeds und der stark variierenden Textlängen 

für das vorliegende Problem nicht geeignet ist. 

Ebenso zeigt diese Arbeit, dass sämtliche 

Verfahren, die auf dem Vektorraummodell 

basieren, für eine Lösung dieses Problems 

ungeeignet sind, da die Schnittmengen zwischen 

den Vektoren keinen verlässlichen Vergleich 

erlauben. 

Das TF-RF Gewicht ist ausschließlich in 

Kombination mit einer Stop Wort Elimination 

sinnvoll. Eine Verbesserung der 

Erkennungsleistung durch das TF-RF Gewichtung 

konnte daher nicht nachgewiesen, aber auch nicht 

widerlegt werden. 

Weitere Informationen, wie sie beispielsweise die 

Methoden des semantischen Webs bieten, könnten 

einen Ansatz dafür bieten, aus den kurzen Texten 

weitere Merkmale zu extrahieren. Auch das 

Heranziehen externer Inhalte (beispielsweise 

durch das Herunterladen der gesamten Webseite 

des RSS Beitrages) könnte Inhalt weiterer 

Arbeiten sein. 

7. Literaturverzeichnis 

Baoli, L. and Shiwen, Y. and Qin, L. 2003. A 

Improved k-Nearest Neighbor Algorithm for Text 

Categorization. Institute of Computational 

Linguistics, Department of Computer Science and 

Technology, Peking University, Beijing, China 

Blankenhorn, K. 2002. Spam-Filterung mittels 

Maschinellem Lernen. Diplomarbeit im 

Fachbereich Digitale Medien. Fachhohschule 

Furtwangen 

Colas, F. and Brazdil, P. 2006. Comparison of svm 

and some older classification algorithms in text 

classification tasks. Artificial Intelligence in theory 

and Practice. Springer Verlag Boston. Leiden 

University, Netherlands. University of Porto, 

Portugal. 169-178 

Forman, G. 2007. Feature Selection for Text 

Classification. Computational Methods of Feature 

Selection. Information Services and Process 

Innovation Laboratory. HP Laboratories Palo Alto. 

CRC Press 

Hadi, W. M., Thabtah, F., & Abdel-jaber, H. 2007. A 

Comparative Study using Vector Space Model with 

K-Nearest Neighbor on Text Categorization. 

Proceedings of the World Congress on 

Engineering Vol 1 (London, U.K., July 2 – 4, 2007), 

Amman, Jordan. University Bradforn, U.K. 

Hoffmann, R. (2002). Entwicklung einer 

benutzerunterstützten 

automatisierten 

Klassifikation von Web - Dokumenten. 

Diplomarbeit, Institut für 

Informationsverarbeitung 

und 

Computerunterstützte neue Medien, Technischen 

Universität Graz 

Lan, M. nad Tan, C. and Low, H. 2006. Proposing a 

new term weighting scheme for text categorization. 

In Proceedings of the 21 st National Conference on 

Artificial Intelligence – Volume 1 (Boston, 

Massachusetts, July 16 – 20, 2006). A. Cohn, Ed. 

Aaai Conference On Artificial Intelligence. AAAI 

Press, 763-768 

Leupold, T. 2010. PHP Bibliothek b8. Stand: 2. Juni 

2010. URL: http://nasauber.de/opensource/b8/ 

(Abgerufen: 26. Juli 2010) 

Rahal, I. and Perrizo, W. 2004. An optimized 

approach for KNN text categorization using P-trees. 

In Proceedings of the 2004 ACM Symposium on 

Applied Computing (Nicosia, Cyprus, March 14 – 

17, 2004). SAC’04. ACM, New York, NY, 613-617 

Sebastiani, F. 2002. Machine Learning in 

Automated Text Categorization. ACM Computing 

Surveys, Vol. 34, No.1, pp.1-47, March 2002. 

Italien. 

Segaran, T. (2008). Kollektive Intelligenz. erste 

Auflage. O'Reilly Verlag. Köln. ISBN: 3897217805. 

Soucy, P. and Mineau, G. W. 2005. Beyond TFIDF 

weighting for text categorization in the vector 

space model. In Proceedings of the 19 th 

international Joint Conference on Artificial 

intelligence (Edinburgh, Scotland, July 30 – August 

05, 2005). International Joint Conference On 

Artificial Intelligence. Morgan Kaufmann 

Publishers, San Francisco, CA, 1130-1135 

Wikipedia. 2010a. Entscheidungsbaum. Stand: 17. 

Juni 2010. URL: 

http://de.wikipedia.org/w/index.php?title=Entsc 

heidungsbaum&oldid=75679426 (Abgerufen: 26. 

Juli 2010) 

Wikipedia. 2010b. Recall und Precision. Stand: 27. 

April 2010. URL: 

http://de.wikipedia.org/w/index.php?title=Recall

18 

_und_Precision&oldid=73673979 (Abgerufen: 26. 

Juli 2010) 

Yang, C., Li, Y., Zhang, C., & Hu, Y. (2007). A Fast 

KNN Algorithm Based on Simulated Annealing. 

Shanghai, China: Department of Computing & 

Information Technology, Fudan University, 

Shanghai, China 

Zeising, T. (2010). rsslounge Aggregator. Stand: 2. 

Februar 2010. URL: http://rsslounge.aditu.de 

(Abgerufen: 26. Juli 2010) 

Zeit. 2010. Zeit.de Archiv. Stand: 1. Mai 2010. URL: 

http://www.zeit.de/news/index?page=1&sort=re 

ssort (Abgerufen: 1. Mai 2010)

Automatisiertes Priorisieren von RSS Feed Beiträgen mittels ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?