Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU
Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU
Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Inkrementelle</strong> <strong>Thesauri</strong><br />
<strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong><br />
Phishing-Mails<br />
Praktikum Text Mining and Retrieval<br />
<strong>von</strong> Sviatlana Danilava<br />
Magdalena Koj<br />
Tatsiana Maleika
Rückblick<br />
Definition <strong>von</strong> Thesaurus:<br />
• Kontrolliertes Vokabular, dass durch hierarchische<br />
Assoziations- <strong>und</strong> Äquivalenzrelationen miteinander<br />
verb<strong>und</strong>en ist<br />
• Ein inkrementeller Thesaurus baut sich selbst auf, ein<br />
Endzustand ist nicht vordefiniert<br />
Definition <strong>von</strong> Sp<strong>am</strong>:<br />
• Sp<strong>am</strong> ist die massenhafte Verbreitung <strong>von</strong><br />
unerwünschten Nachrichten (meist Werbung) via E-<br />
Mail, News- <strong>und</strong> Mailinglisten<br />
2 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Motivation<br />
• Sp<strong>am</strong> hat eine enorme Bandbreite.<br />
• Eine manuelle Aktualisierung eines so umfassenden<br />
Gebiets ist schier unmöglich; ein inkrementeller<br />
Thesaurus ist vorteilhaft.<br />
• Er ermöglicht eine schnelle Abarbeitung <strong>von</strong> großen<br />
Datenmengen <strong>und</strong> benötigt kein Expertenwissen oder<br />
menschliches Input.<br />
• Dazu muss die Maschine fähig sein Texte zu verstehen<br />
<strong>und</strong> zu unterscheiden (in Sp<strong>am</strong> <strong>und</strong> Nicht-Sp<strong>am</strong>).<br />
• Kann man tatsächlich auf schon gewonnenes Wissen<br />
<strong>und</strong> Erfahrungswerte verzichten?<br />
3 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
State <strong>of</strong> the Art: Rückblick<br />
Online-Projekte, die sich mit der Erstellung <strong>von</strong> Thesauren<br />
beschäftigen:<br />
• Eines der größten ist WordNet,<br />
ein lexikalisches Referenzsystem,<br />
also ein Wörterbuch.<br />
• WordNet ist auf englisch<br />
• Die Benutzung <strong>von</strong> WordNet<br />
kostenlos.<br />
4 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
State <strong>of</strong> the Art: Rückblick<br />
• OpenThesaurus ist ein Open Source Projekt<br />
• Jeder angemeldete User kann <strong>am</strong> Thesaurus mitarbeiten.<br />
• Er steht in den Sprachen deutsch, polnisch, spanisch, slowakisch<br />
<strong>und</strong> norwegisch zur Verfügung.<br />
5 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
<strong>Inkrementelle</strong>r Thesaurus für Sp<strong>am</strong><br />
• Ausgangsdaten: 13.298 Sp<strong>am</strong>-Mails<br />
• Großes Ziel:<br />
•<strong>Inkrementelle</strong>r Thesaurus (englisch) für<br />
Sp<strong>am</strong> aus dem pharmazeutischen Bereich<br />
• Kleines Ziel:<br />
•Automatisch aufgebauter Thesaurus für<br />
Subjectlines aus diesen E-Mails<br />
6 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
<strong>Inkrementelle</strong>r Thesaurus für Sp<strong>am</strong><br />
• Unser Plan war:<br />
• Daten vorbereiten (zuerst nur subject lines<br />
abarbeiten) – manuell <strong>und</strong> automatisch<br />
• Manuell:<br />
• Besondere Schreibweisen <strong>von</strong> Wörtern entdecken<br />
• Eine Liste mit wichtigen Stichwörtern aus den nicht<br />
pharmazeutischen Bereichen zus<strong>am</strong>menstellen<br />
• Automatisch:<br />
• Subject lines vom Rest trennen<br />
• Mit regulären Ausdrücken Spellingvariationen beschreiben<br />
• Statistische Analyse der Daten<br />
• <strong>Inkrementelle</strong> Version entwerfen<br />
7 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Stop-Wording<br />
• Entfernen <strong>von</strong> Wörtern, die nicht sinnrelevant<br />
sind: Konjunktionen, Pronomen, Artikel,<br />
Hilfsverben, Negationen, Modalverben<br />
9 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Stemming<br />
• Alle Wörter auf ihre Gr<strong>und</strong>form bringen<br />
• Porter Stemmer<br />
• 1979 <strong>von</strong> Martin Porter <strong>und</strong> anderen an C<strong>am</strong>bridge<br />
University entwickelt<br />
• Der Algorithmus ermittelt Suffixe <strong>und</strong> entfernt sie in einer<br />
bestimmten Reihenfolge<br />
• Kein optimaler Algorithmus (viele Ausnahmen werden nicht<br />
behandelt), aber der einfachste <strong>und</strong> häufig benutzte<br />
10 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Automatische Indexierung<br />
• Mit Ansatz aus dem Apriori-Algorithmus:<br />
• Suche aus den gestemmten Daten alle Terme aus,<br />
die in der Dokumentmenge nicht weniger als 5 Mal<br />
vorkommen (diese Schranke wurde intuitiv gewählt)<br />
• Aus 5.225 Wörtern in den 5.790 Subjectlines kommen nur<br />
655 Wörter häufig genug vor, dies sind späteren Einträge<br />
unseres Thesaurus<br />
• Bilde Wortpaare, die im selben Kontext vorkommen,<br />
diejenigen, die mindestens 5 Mal vorkommen,<br />
werden später für die Bildung der Relationen benutzt<br />
• Aus 9.256 Tupel wurden 488 für die weiteren Berechnungen<br />
ausgewählt<br />
11 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Automatische Indexierung<br />
• Aus den Wortpaaren werden Worttripel erstellt,<br />
aus den Tripel werden später die 2:1 Relationen<br />
gebildet:<br />
• Aus 587 Tupel wurden 355 für die weiteren<br />
Berechnungen ausgewählt<br />
12 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Clusteranalyse<br />
• Für alle Termpaare (T k, T j) <strong>und</strong> (T j, T k) , die <strong>von</strong> Apriori<br />
bestimmt wurden, berechne die Clustergewichte CW:<br />
CW ( Tj,<br />
T<br />
k<br />
)<br />
n<br />
!<br />
!<br />
i=<br />
1<br />
dfj<br />
dij<br />
= ,<br />
dijk<br />
=<br />
N<br />
d<br />
!<br />
ijk<br />
= i=<br />
1<br />
n ; CW ( Tk,<br />
Tj)<br />
= i=<br />
1<br />
n<br />
d<br />
ij<br />
df<br />
N<br />
jk<br />
!<br />
dabei ist df j die Anzahl<br />
der Dokumente, in den<br />
Term j vorkommt (df jk für Paare)<br />
13 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006<br />
n<br />
i=<br />
1<br />
d<br />
d<br />
ikj<br />
ik
Thesaurus<br />
• Ein Eintrag unseres Thesaurus sieht danach wie<br />
folgt aus:<br />
Wortst<strong>am</strong>m <strong>von</strong> T j: ([Wortformen, die im Text<br />
gef<strong>und</strong>en sind], df j, d ij, [Relationsliste])<br />
Struktur der Relationsliste: [T k, CW jk, d ijk]<br />
<strong>Beispiel</strong>:<br />
„s<strong>of</strong>tab“: [['s<strong>of</strong>tabs'], 38, 0.0066, [['ciali', 0.8006, 0.0059],<br />
['best', 0.0693, 0.0017]]]<br />
14 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
<strong>Inkrementelle</strong>r Ansatz<br />
• Teile die Datenmenge in 3 Abschnitte:<br />
1. Vom 05.01 bis 31.03 – 4.286 E-Mails<br />
2. Vom 01.04 bis 31.05 – 4.778 E-Mails<br />
3. Vom 1.06 bis 23.09 – 4.234 E-Mails<br />
Die Perioden sind verschieden lang, aber die<br />
Datenmengen ungefähr gleich groß.<br />
• Mache aus dem ersten Abschnitt die<br />
Trainingsmenge für den Thesaurus, baue den<br />
Startthesaurus auf.<br />
15 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
<strong>Inkrementelle</strong>r Ansatz<br />
• Bereite die Daten aus der zweiten Menge vor<br />
(inklusive Stopwording, Stemming, Apriori)<br />
• Aktualisiere den Thesaurus indem neue<br />
Clustergewichte für die neue<br />
Dokumentenmenge ausgerechnet werden.<br />
• Bereite die Daten aus der dritten Menge vor<br />
(inklusive Stopwording, Stemming, Apriori)<br />
• Aktualisiere den Thesaurus (Neuberechnung der<br />
Gewichte)<br />
16 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
<strong>Inkrementelle</strong>r Thesaurus<br />
• Vorteile:<br />
• Jede Teilmenge <strong>von</strong> Dokumenten wird nur einmal<br />
durchsucht, bei der Aktualisierung werden nur<br />
Zahlenoperationen erneut durchgeführt.<br />
• Erneuerung des Thesaurus auch mit großen<br />
Zeitabständen effizient möglich, weil die<br />
Dokumentenmenge, die durchsucht wird, nicht viel<br />
großer wird.<br />
• Nachteil:<br />
• Datenverlust möglich<br />
17 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Ergebnisse<br />
Dokumente<br />
Einträge<br />
Ohne<br />
Relationen<br />
Das häufigste<br />
Wort<br />
Teil 1<br />
2035<br />
336<br />
188<br />
Online<br />
90<br />
Teil 2<br />
2081<br />
350<br />
198<br />
Viagra<br />
83<br />
Teil 3<br />
2075<br />
313<br />
180<br />
Viagra<br />
117<br />
18 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Ergebnisse<br />
Einträge<br />
Ungleiche<br />
Elemente<br />
Ohne<br />
Beziehungen<br />
Inkrementell<br />
486<br />
2<br />
258<br />
Noninkrementell<br />
861<br />
377<br />
428<br />
19 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Ergebnisse<br />
• Die Güte des Thesaurus im Vergleich zu der<br />
manuell erstellten Blacklist:<br />
Länge der Blacklist: 103<br />
Gemeins<strong>am</strong>e Elemente: 33 (inkrementell),<br />
44 (noninkrementell)<br />
Verschiedene Elemente: 70 (inkrementell),<br />
59 (noninkrementell)<br />
20 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Überblick: Medik<strong>am</strong>ente<br />
Wirkst<strong>of</strong>f /<br />
Medik<strong>am</strong>ent<br />
Adipex<br />
Alprazol<strong>am</strong><br />
(Lorazep<strong>am</strong>;<br />
Valium; Xanax)<br />
Cialis; Levitra;<br />
Viagra<br />
Codein; Paracodin<br />
Meridia<br />
Prozac<br />
Tr<strong>am</strong>adol<br />
Xenical<br />
Wirkung<br />
Appetithämmung<br />
Beruhigend, schlafinduzierend,<br />
angstlindernd, antiagressiv,<br />
muskelrelaxierend, kr<strong>am</strong>pflösend<br />
führt bei erektiler Dysfunktion zu<br />
einer Erektion<br />
Kommt als Hustenhämmer <strong>und</strong><br />
als Schmerzmittel vor<br />
Appetitzügler<br />
antidepressiv, psychomotorisch<br />
aktivierend<br />
schmerzlindernd, beruhigend,<br />
atemdepressiv,hustenhemmend,<br />
Erbrechen fördernd<br />
Abmagerungsmittel<br />
Nebenwirkung<br />
Gewöhnung, Abhängigkeit, Psychosen, Depression, Nervosität,<br />
Schlafstörungen, Schwindel, Kr<strong>am</strong>pfanfälle,<br />
Herzrhythmusstörungen, Kopfschmerzen, Magen-Darm-<br />
Beschwerden, Störungen der Sexualfunktion <strong>und</strong> der<br />
Blasenentleerung. In Deutschland verboten<br />
Müdigkeit, Benommenheit, Verwirrtheit, paradoxe Reaktionen,<br />
Atemdepression, psychische <strong>und</strong> physische Abhängigkeit<br />
Kopfschmerz, Schwindel, Ohnmacht, Sehstörungen, Angina<br />
Pectoris, Priaptismus (Dauererrektion)<br />
Atemdepression, Beruhigung, Verstopfung,<br />
Abhängigkeitspotential da geringe Metabolisierung zu Morphin<br />
Trockener M<strong>und</strong>, Schläfrigkeit, Verstopfung,Schlafstörungen,<br />
Angstgefühl<br />
Schlaflosigkeit, Unruhe als gesteigerterBewegungsdrang,<br />
Übelkeit, Erbrechen, Kopfschmerz,<br />
Durchfall,Herzrythmusstörungen, Ejakulationsstörungen<br />
Schwindel, Unruhe, Verstopfung, Kopfschmerz, Übelkeit,<br />
inKombination mit Alkohol toxisch<br />
Bauchschmerzen, Fettstuhl, Fatulenz mitStuhlabgang,<br />
Stuhldrang, Kopfschmerz, Abgeschlagenheit,Vit<strong>am</strong>inmangel<br />
26 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Monty Python's Flying Circus<br />
27 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006
Literaturangaben<br />
• <strong>Wiki</strong>pedia - Die freie Enzyklopedie (deutsch). http://de.wikipedia.org/wiki/Hauptseite<br />
• Hsinchun Chen, Bruce Schatz, Joanne Martinez, Tobun Dorbin Ng; 1994: Generating<br />
a Domain-specific Thesaurus Automatically: An Experiment on FlyBase;<br />
http://ai.bpa.arizona.edu/papers/ijmms94/ijmms94.html<br />
• WordNet - a lexical database for the English language. http://wordnet.princeton.edu<br />
• GermaNet. http://www.sfs.uni-tuebingen.de/lsd/<br />
• OpenThesaurus - Deutscher Thesaurus. http://www.openthesaurus.de<br />
• Herg. Andreas Ruß <strong>und</strong> Stefan Enders; Nov. 2004: Arzneimittel pocket plus 2005;<br />
Auflage 1; Bröm Bruckmeier Verlag<br />
• Thomas Karow <strong>und</strong> Ruth Lang-Roth; Okt. 2004: Allgemeine <strong>und</strong> spezielle<br />
Pharmakologie <strong>und</strong> Toxikologie 2005; Auflage 13;<br />
• Pschyrembel - Klinisches Wörterbuch; Juni 2004; Auflage 260; Walter de Gruyter<br />
Verlag, Berlin<br />
28 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006