25.07.2013 Aufrufe

IT-Management in der Praxis Seminar ? WS 2004/05 - am ...

IT-Management in der Praxis Seminar ? WS 2004/05 - am ...

IT-Management in der Praxis Seminar ? WS 2004/05 - am ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

82 Nils L. Roßmann: Anti-Sp<strong>am</strong> Techniken<br />

NS steht für die Anzahl <strong>der</strong> Sp<strong>am</strong>-Mails und NH für die Anzahl <strong>der</strong> H<strong>am</strong>-Mails aus <strong>der</strong><br />

Tra<strong>in</strong><strong>in</strong>gsmenge.<br />

Beim Analysieren e<strong>in</strong>er neuen E-mail wird mit Hilfe <strong>der</strong> Bayes Formel ermittelt, wie wahrsche<strong>in</strong>lich<br />

es ist, dass es sich um e<strong>in</strong>e Sp<strong>am</strong>-Mail handelt. Dazu wählt <strong>der</strong> Filter aus je<strong>der</strong> Email<br />

M = {w1, w2, ..., wN} automatisch die n aussagekräftigsten Wörter { ˙w1, ˙w2, ..., ˙wn} ⊆ M<br />

aus. Wörter s<strong>in</strong>d aussagekräftig, wenn sie häufig <strong>in</strong> Sp<strong>am</strong>-, bzw. H<strong>am</strong>-Mails vorkommen. Also<br />

P ( ˙wi|C = S) ≈ 1 bzw. P ( ˙wi|C = S) ≈ 0 ist. n sollte dabei nicht zu groß gewählt werden (ca.<br />

15-20 Wörter), da ansonsten die Gefahr besteht, dass größere Sp<strong>am</strong>-mails, die größtenteils<br />

unverfänglichen Text enthalten, übersehen werden (siehe: [Grah03]).<br />

P (C = S| P (C = S)<br />

W = M) =<br />

n<br />

P (W = ˙wi|C = S)<br />

i=1<br />

P (C = S) n<br />

P (W = ˙wi|C = S) + P (C = H) n<br />

P (W = ˙wi|C = H)<br />

i=1<br />

Bayes basierte Filter haben den großen Vorteil, dass sie sich an neue Sp<strong>am</strong>-Typen schnell<br />

anpassen können und dass im Vorfeld ke<strong>in</strong>e Regeln erstellt werden müssen.<br />

Diesen Vorteil erkauft man sich allerd<strong>in</strong>gs mit dem Nachteil, den Filter erst e<strong>in</strong>mal mit e<strong>in</strong>er<br />

großen Anzahl (mehrere hun<strong>der</strong>t) möglichst aktueller H<strong>am</strong>- und Sp<strong>am</strong>-Mails tra<strong>in</strong>ieren<br />

zu müssen. Außerdem muss die Wortdatenbank ständig aktualisiert werden. Es sollten also<br />

möglichst alle falsch klassifizierten E-mails als neue Tra<strong>in</strong><strong>in</strong>gsdaten verwendet werden.<br />

3 Beispiel Sp<strong>am</strong>Assass<strong>in</strong><br />

3.1 Warum Sp<strong>am</strong>Assass<strong>in</strong>?<br />

Sp<strong>am</strong>Assass<strong>in</strong> ist zurzeit <strong>der</strong> populärste Sp<strong>am</strong>-Filter für den E<strong>in</strong>satz auf e<strong>in</strong>em E-mail-Server.<br />

Er ist modular aufgebaut und kann vom Benutzer an die eigenen Wünsche angepasst werden.<br />

Neben regelbasierten Filtern unterstützt es außerdem Blacklist<strong>in</strong>g und verfügt über e<strong>in</strong> Bayes-<br />

Modul. Sp<strong>am</strong>Assass<strong>in</strong> kann sowohl an den MTA als auch an den MDA gekoppelt werden.<br />

Außerdem besteht die Möglichkeit ihn als POP3-Proxy zu verwenden.<br />

Sp<strong>am</strong>Assass<strong>in</strong> steht unter <strong>der</strong> GNU Public License und ist somit für jeden frei verfügbar. E<strong>in</strong>e<br />

ausführlichere Beschreibung f<strong>in</strong>det man auf <strong>der</strong> Homepage von Sp<strong>am</strong>Assass<strong>in</strong> [Spa] bzw. <strong>in</strong><br />

dem Buch ” Sp<strong>am</strong>Assass<strong>in</strong>“ aus dem O’Reilly Verlag [Schw04].<br />

3.2 Pr<strong>in</strong>zip<br />

Sp<strong>am</strong>Assass<strong>in</strong> überprüft jede E-mail anhand e<strong>in</strong>er Vielzahl von Regeln. Erfüllt diese die Regelbed<strong>in</strong>gung,<br />

wird die Gewichtung (positiv o<strong>der</strong> negativ) <strong>der</strong> Regel zu dem Ges<strong>am</strong>twert<br />

(Score) <strong>der</strong> E-mail addiert. Je höher dieser Wert ist, desto eher handelt es sich um Sp<strong>am</strong>.<br />

Diese Bewertung wird im Hea<strong>der</strong> <strong>der</strong> E-mail e<strong>in</strong>getragen. Außerdem kann noch e<strong>in</strong>e Schwelle<br />

festgelegt werden, ab <strong>der</strong> Sp<strong>am</strong>Assass<strong>in</strong> die E-mail als Sp<strong>am</strong> klassifiziert:<br />

X-Sp<strong>am</strong>-Status: Yes, hits=13.0 tag1=3.0 tag2=5.1 kill=5.1 tests=BAYES_99,<br />

DATE_IN_FUTURE_24_48, HTML_70_80, HTML_FONTCOLOR_BLUE, HTML_FONTCOLOR_RED,<br />

HTML_FONT_BIG, HTML_MESSAGE, HTML_T<strong>IT</strong>LE_UNT<strong>IT</strong>LED, IMPOTENCE,<br />

MIME_BASE64_TEXT, MIME_HTML_NO_CHARSET, MIME_HTML_ONLY, PENIS_ENLARGE<br />

X-Sp<strong>am</strong>-Level: ************<br />

Sem<strong>in</strong>ar – <strong>IT</strong>-<strong>Management</strong> <strong>in</strong> <strong>der</strong> <strong>Praxis</strong><br />

i=1

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!