08.10.2013 Aufrufe

Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU

Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU

Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Inkrementelle</strong> <strong>Thesauri</strong><br />

<strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong><br />

Phishing-Mails<br />

Praktikum Text Mining and Retrieval<br />

<strong>von</strong> Sviatlana Danilava<br />

Magdalena Koj<br />

Tatsiana Maleika


Rückblick<br />

Definition <strong>von</strong> Thesaurus:<br />

• Kontrolliertes Vokabular, dass durch hierarchische<br />

Assoziations- <strong>und</strong> Äquivalenzrelationen miteinander<br />

verb<strong>und</strong>en ist<br />

• Ein inkrementeller Thesaurus baut sich selbst auf, ein<br />

Endzustand ist nicht vordefiniert<br />

Definition <strong>von</strong> Sp<strong>am</strong>:<br />

• Sp<strong>am</strong> ist die massenhafte Verbreitung <strong>von</strong><br />

unerwünschten Nachrichten (meist Werbung) via E-<br />

Mail, News- <strong>und</strong> Mailinglisten<br />

2 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Motivation<br />

• Sp<strong>am</strong> hat eine enorme Bandbreite.<br />

• Eine manuelle Aktualisierung eines so umfassenden<br />

Gebiets ist schier unmöglich; ein inkrementeller<br />

Thesaurus ist vorteilhaft.<br />

• Er ermöglicht eine schnelle Abarbeitung <strong>von</strong> großen<br />

Datenmengen <strong>und</strong> benötigt kein Expertenwissen oder<br />

menschliches Input.<br />

• Dazu muss die Maschine fähig sein Texte zu verstehen<br />

<strong>und</strong> zu unterscheiden (in Sp<strong>am</strong> <strong>und</strong> Nicht-Sp<strong>am</strong>).<br />

• Kann man tatsächlich auf schon gewonnenes Wissen<br />

<strong>und</strong> Erfahrungswerte verzichten?<br />

3 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


State <strong>of</strong> the Art: Rückblick<br />

Online-Projekte, die sich mit der Erstellung <strong>von</strong> Thesauren<br />

beschäftigen:<br />

• Eines der größten ist WordNet,<br />

ein lexikalisches Referenzsystem,<br />

also ein Wörterbuch.<br />

• WordNet ist auf englisch<br />

• Die Benutzung <strong>von</strong> WordNet<br />

kostenlos.<br />

4 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


State <strong>of</strong> the Art: Rückblick<br />

• OpenThesaurus ist ein Open Source Projekt<br />

• Jeder angemeldete User kann <strong>am</strong> Thesaurus mitarbeiten.<br />

• Er steht in den Sprachen deutsch, polnisch, spanisch, slowakisch<br />

<strong>und</strong> norwegisch zur Verfügung.<br />

5 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


<strong>Inkrementelle</strong>r Thesaurus für Sp<strong>am</strong><br />

• Ausgangsdaten: 13.298 Sp<strong>am</strong>-Mails<br />

• Großes Ziel:<br />

•<strong>Inkrementelle</strong>r Thesaurus (englisch) für<br />

Sp<strong>am</strong> aus dem pharmazeutischen Bereich<br />

• Kleines Ziel:<br />

•Automatisch aufgebauter Thesaurus für<br />

Subjectlines aus diesen E-Mails<br />

6 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


<strong>Inkrementelle</strong>r Thesaurus für Sp<strong>am</strong><br />

• Unser Plan war:<br />

• Daten vorbereiten (zuerst nur subject lines<br />

abarbeiten) – manuell <strong>und</strong> automatisch<br />

• Manuell:<br />

• Besondere Schreibweisen <strong>von</strong> Wörtern entdecken<br />

• Eine Liste mit wichtigen Stichwörtern aus den nicht<br />

pharmazeutischen Bereichen zus<strong>am</strong>menstellen<br />

• Automatisch:<br />

• Subject lines vom Rest trennen<br />

• Mit regulären Ausdrücken Spellingvariationen beschreiben<br />

• Statistische Analyse der Daten<br />

• <strong>Inkrementelle</strong> Version entwerfen<br />

7 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Stop-Wording<br />

• Entfernen <strong>von</strong> Wörtern, die nicht sinnrelevant<br />

sind: Konjunktionen, Pronomen, Artikel,<br />

Hilfsverben, Negationen, Modalverben<br />

9 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Stemming<br />

• Alle Wörter auf ihre Gr<strong>und</strong>form bringen<br />

• Porter Stemmer<br />

• 1979 <strong>von</strong> Martin Porter <strong>und</strong> anderen an C<strong>am</strong>bridge<br />

University entwickelt<br />

• Der Algorithmus ermittelt Suffixe <strong>und</strong> entfernt sie in einer<br />

bestimmten Reihenfolge<br />

• Kein optimaler Algorithmus (viele Ausnahmen werden nicht<br />

behandelt), aber der einfachste <strong>und</strong> häufig benutzte<br />

10 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Automatische Indexierung<br />

• Mit Ansatz aus dem Apriori-Algorithmus:<br />

• Suche aus den gestemmten Daten alle Terme aus,<br />

die in der Dokumentmenge nicht weniger als 5 Mal<br />

vorkommen (diese Schranke wurde intuitiv gewählt)<br />

• Aus 5.225 Wörtern in den 5.790 Subjectlines kommen nur<br />

655 Wörter häufig genug vor, dies sind späteren Einträge<br />

unseres Thesaurus<br />

• Bilde Wortpaare, die im selben Kontext vorkommen,<br />

diejenigen, die mindestens 5 Mal vorkommen,<br />

werden später für die Bildung der Relationen benutzt<br />

• Aus 9.256 Tupel wurden 488 für die weiteren Berechnungen<br />

ausgewählt<br />

11 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Automatische Indexierung<br />

• Aus den Wortpaaren werden Worttripel erstellt,<br />

aus den Tripel werden später die 2:1 Relationen<br />

gebildet:<br />

• Aus 587 Tupel wurden 355 für die weiteren<br />

Berechnungen ausgewählt<br />

12 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Clusteranalyse<br />

• Für alle Termpaare (T k, T j) <strong>und</strong> (T j, T k) , die <strong>von</strong> Apriori<br />

bestimmt wurden, berechne die Clustergewichte CW:<br />

CW ( Tj,<br />

T<br />

k<br />

)<br />

n<br />

!<br />

!<br />

i=<br />

1<br />

dfj<br />

dij<br />

= ,<br />

dijk<br />

=<br />

N<br />

d<br />

!<br />

ijk<br />

= i=<br />

1<br />

n ; CW ( Tk,<br />

Tj)<br />

= i=<br />

1<br />

n<br />

d<br />

ij<br />

df<br />

N<br />

jk<br />

!<br />

dabei ist df j die Anzahl<br />

der Dokumente, in den<br />

Term j vorkommt (df jk für Paare)<br />

13 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006<br />

n<br />

i=<br />

1<br />

d<br />

d<br />

ikj<br />

ik


Thesaurus<br />

• Ein Eintrag unseres Thesaurus sieht danach wie<br />

folgt aus:<br />

Wortst<strong>am</strong>m <strong>von</strong> T j: ([Wortformen, die im Text<br />

gef<strong>und</strong>en sind], df j, d ij, [Relationsliste])<br />

Struktur der Relationsliste: [T k, CW jk, d ijk]<br />

<strong>Beispiel</strong>:<br />

„s<strong>of</strong>tab“: [['s<strong>of</strong>tabs'], 38, 0.0066, [['ciali', 0.8006, 0.0059],<br />

['best', 0.0693, 0.0017]]]<br />

14 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


<strong>Inkrementelle</strong>r Ansatz<br />

• Teile die Datenmenge in 3 Abschnitte:<br />

1. Vom 05.01 bis 31.03 – 4.286 E-Mails<br />

2. Vom 01.04 bis 31.05 – 4.778 E-Mails<br />

3. Vom 1.06 bis 23.09 – 4.234 E-Mails<br />

Die Perioden sind verschieden lang, aber die<br />

Datenmengen ungefähr gleich groß.<br />

• Mache aus dem ersten Abschnitt die<br />

Trainingsmenge für den Thesaurus, baue den<br />

Startthesaurus auf.<br />

15 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


<strong>Inkrementelle</strong>r Ansatz<br />

• Bereite die Daten aus der zweiten Menge vor<br />

(inklusive Stopwording, Stemming, Apriori)<br />

• Aktualisiere den Thesaurus indem neue<br />

Clustergewichte für die neue<br />

Dokumentenmenge ausgerechnet werden.<br />

• Bereite die Daten aus der dritten Menge vor<br />

(inklusive Stopwording, Stemming, Apriori)<br />

• Aktualisiere den Thesaurus (Neuberechnung der<br />

Gewichte)<br />

16 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


<strong>Inkrementelle</strong>r Thesaurus<br />

• Vorteile:<br />

• Jede Teilmenge <strong>von</strong> Dokumenten wird nur einmal<br />

durchsucht, bei der Aktualisierung werden nur<br />

Zahlenoperationen erneut durchgeführt.<br />

• Erneuerung des Thesaurus auch mit großen<br />

Zeitabständen effizient möglich, weil die<br />

Dokumentenmenge, die durchsucht wird, nicht viel<br />

großer wird.<br />

• Nachteil:<br />

• Datenverlust möglich<br />

17 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Ergebnisse<br />

Dokumente<br />

Einträge<br />

Ohne<br />

Relationen<br />

Das häufigste<br />

Wort<br />

Teil 1<br />

2035<br />

336<br />

188<br />

Online<br />

90<br />

Teil 2<br />

2081<br />

350<br />

198<br />

Viagra<br />

83<br />

Teil 3<br />

2075<br />

313<br />

180<br />

Viagra<br />

117<br />

18 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Ergebnisse<br />

Einträge<br />

Ungleiche<br />

Elemente<br />

Ohne<br />

Beziehungen<br />

Inkrementell<br />

486<br />

2<br />

258<br />

Noninkrementell<br />

861<br />

377<br />

428<br />

19 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Ergebnisse<br />

• Die Güte des Thesaurus im Vergleich zu der<br />

manuell erstellten Blacklist:<br />

Länge der Blacklist: 103<br />

Gemeins<strong>am</strong>e Elemente: 33 (inkrementell),<br />

44 (noninkrementell)<br />

Verschiedene Elemente: 70 (inkrementell),<br />

59 (noninkrementell)<br />

20 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Überblick: Medik<strong>am</strong>ente<br />

Wirkst<strong>of</strong>f /<br />

Medik<strong>am</strong>ent<br />

Adipex<br />

Alprazol<strong>am</strong><br />

(Lorazep<strong>am</strong>;<br />

Valium; Xanax)<br />

Cialis; Levitra;<br />

Viagra<br />

Codein; Paracodin<br />

Meridia<br />

Prozac<br />

Tr<strong>am</strong>adol<br />

Xenical<br />

Wirkung<br />

Appetithämmung<br />

Beruhigend, schlafinduzierend,<br />

angstlindernd, antiagressiv,<br />

muskelrelaxierend, kr<strong>am</strong>pflösend<br />

führt bei erektiler Dysfunktion zu<br />

einer Erektion<br />

Kommt als Hustenhämmer <strong>und</strong><br />

als Schmerzmittel vor<br />

Appetitzügler<br />

antidepressiv, psychomotorisch<br />

aktivierend<br />

schmerzlindernd, beruhigend,<br />

atemdepressiv,hustenhemmend,<br />

Erbrechen fördernd<br />

Abmagerungsmittel<br />

Nebenwirkung<br />

Gewöhnung, Abhängigkeit, Psychosen, Depression, Nervosität,<br />

Schlafstörungen, Schwindel, Kr<strong>am</strong>pfanfälle,<br />

Herzrhythmusstörungen, Kopfschmerzen, Magen-Darm-<br />

Beschwerden, Störungen der Sexualfunktion <strong>und</strong> der<br />

Blasenentleerung. In Deutschland verboten<br />

Müdigkeit, Benommenheit, Verwirrtheit, paradoxe Reaktionen,<br />

Atemdepression, psychische <strong>und</strong> physische Abhängigkeit<br />

Kopfschmerz, Schwindel, Ohnmacht, Sehstörungen, Angina<br />

Pectoris, Priaptismus (Dauererrektion)<br />

Atemdepression, Beruhigung, Verstopfung,<br />

Abhängigkeitspotential da geringe Metabolisierung zu Morphin<br />

Trockener M<strong>und</strong>, Schläfrigkeit, Verstopfung,Schlafstörungen,<br />

Angstgefühl<br />

Schlaflosigkeit, Unruhe als gesteigerterBewegungsdrang,<br />

Übelkeit, Erbrechen, Kopfschmerz,<br />

Durchfall,Herzrythmusstörungen, Ejakulationsstörungen<br />

Schwindel, Unruhe, Verstopfung, Kopfschmerz, Übelkeit,<br />

inKombination mit Alkohol toxisch<br />

Bauchschmerzen, Fettstuhl, Fatulenz mitStuhlabgang,<br />

Stuhldrang, Kopfschmerz, Abgeschlagenheit,Vit<strong>am</strong>inmangel<br />

26 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Monty Python's Flying Circus<br />

27 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006


Literaturangaben<br />

• <strong>Wiki</strong>pedia - Die freie Enzyklopedie (deutsch). http://de.wikipedia.org/wiki/Hauptseite<br />

• Hsinchun Chen, Bruce Schatz, Joanne Martinez, Tobun Dorbin Ng; 1994: Generating<br />

a Domain-specific Thesaurus Automatically: An Experiment on FlyBase;<br />

http://ai.bpa.arizona.edu/papers/ijmms94/ijmms94.html<br />

• WordNet - a lexical database for the English language. http://wordnet.princeton.edu<br />

• GermaNet. http://www.sfs.uni-tuebingen.de/lsd/<br />

• OpenThesaurus - Deutscher Thesaurus. http://www.openthesaurus.de<br />

• Herg. Andreas Ruß <strong>und</strong> Stefan Enders; Nov. 2004: Arzneimittel pocket plus 2005;<br />

Auflage 1; Bröm Bruckmeier Verlag<br />

• Thomas Karow <strong>und</strong> Ruth Lang-Roth; Okt. 2004: Allgemeine <strong>und</strong> spezielle<br />

Pharmakologie <strong>und</strong> Toxikologie 2005; Auflage 13;<br />

• Pschyrembel - Klinisches Wörterbuch; Juni 2004; Auflage 260; Walter de Gruyter<br />

Verlag, Berlin<br />

28 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!