25.07.2013 Aufrufe

IT-Management in der Praxis Seminar ? WS 2004/05 - am ...

IT-Management in der Praxis Seminar ? WS 2004/05 - am ...

IT-Management in der Praxis Seminar ? WS 2004/05 - am ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

84 Nils L. Roßmann: Anti-Sp<strong>am</strong> Techniken<br />

In <strong>der</strong> Standardkonfiguration ist Sp<strong>am</strong>Assass<strong>in</strong> so e<strong>in</strong>gestellt, dass <strong>der</strong> Bayes-Filter erst nach<br />

dem Tra<strong>in</strong><strong>in</strong>g von 200 Sp<strong>am</strong>- und 200 H<strong>am</strong>-Mails verwendet wird. In <strong>der</strong> <strong>Praxis</strong> hat sich allerd<strong>in</strong>gs<br />

gezeigt, dass m<strong>in</strong>destens 1000 Sp<strong>am</strong>- und 1000 H<strong>am</strong>-Mails notwendig s<strong>in</strong>d (supervised<br />

tra<strong>in</strong><strong>in</strong>g).<br />

Sp<strong>am</strong>Assass<strong>in</strong> unterstützt die beiden Strategien ‘tra<strong>in</strong> everyth<strong>in</strong>g‘ und ‘tra<strong>in</strong>-on-error‘. Bei<br />

<strong>der</strong> ersten Strategie werden alle zur Verfügung stehenden E-mails als Tra<strong>in</strong><strong>in</strong>gsdaten verwendet.<br />

Wobei darauf zu achten ist, dass H<strong>am</strong>- und Sp<strong>am</strong>-Mails aus dem gleichen Zeitraum<br />

st<strong>am</strong>men. Ansonsten würde das Datum als Klasssifizierungskriterium verwendet. Nach ca.<br />

10.000 tra<strong>in</strong>ierten Sp<strong>am</strong>- und H<strong>am</strong>-Mails ist es s<strong>in</strong>nvoll auf die tra<strong>in</strong>-on-error Strategie zu<br />

wechseln. Hierbei werden nur noch falsch klassifizierte E-mails tra<strong>in</strong>iert.<br />

Neben dem supervised-tra<strong>in</strong><strong>in</strong>g unterstützt Sp<strong>am</strong>Assass<strong>in</strong> auch noch das unsupervised-tra<strong>in</strong><strong>in</strong>g.<br />

Beim eigenständigen Lernen geht Sp<strong>am</strong>Assass<strong>in</strong> allerd<strong>in</strong>gs sehr konservativ vor. Es<br />

werden nur E-mails berücksichtigt, die e<strong>in</strong>en sehr hohen Wert anhand <strong>der</strong> statischen Regeln<br />

erreichen (ohne die Werte des Bayes-Filters). Außerdem müssen m<strong>in</strong>destens drei Body- und<br />

drei Hea<strong>der</strong>-Regeln zutreffen und die E-mail darf nicht bereits durch den Bayes-Filter richtig<br />

e<strong>in</strong>geordnet worden se<strong>in</strong> (siehe [Gord04]).<br />

Jede E-mail (hea<strong>der</strong> und body!) wird wie <strong>in</strong> Abschnitt 2.3.3 beschrieben <strong>in</strong> Tokens (Zeichenketten<br />

mit e<strong>in</strong>er Länge von 3-15 Zeichen) zerlegt und <strong>in</strong> jeweils e<strong>in</strong>er Datenbank für Wörter<br />

aus Sp<strong>am</strong>-Mails und e<strong>in</strong>er für Wörter aus H<strong>am</strong>-Mails gespeichert. Tokens, die lange nicht<br />

mehr <strong>in</strong> e<strong>in</strong>er E-mail vorkommen, werden zur Verbesserung <strong>der</strong> Performance entfernt.<br />

Beim Überprüfen e<strong>in</strong>er neu e<strong>in</strong>treffenden E-mail, wird auch diese <strong>in</strong> Tokens zerlegt und bis<br />

zu 150 <strong>der</strong> aussagekräftigsten Tokens werden zur Berechnung <strong>der</strong> Wahrsche<strong>in</strong>lichkeit (wie <strong>in</strong><br />

Abschnitt 2.3.3 beschrieben) verwendet.<br />

4 E<strong>in</strong>satz im Rechenzentrum <strong>der</strong> Universität Karlsruhe<br />

Im Rechenzentrum wird <strong>der</strong>zeit <strong>der</strong> ISP-Ansatz verfolgt. Das heißt, alle e<strong>in</strong>gehenden und<br />

ausgehenden E-mails werden zentral über e<strong>in</strong> Mail-Server geleitet. Auf diesem Server wird<br />

Sp<strong>am</strong>Assass<strong>in</strong> 2.6 <strong>in</strong>klusive Bayes-Filter e<strong>in</strong>gesetzt. Es wird also die Spalte 3 <strong>der</strong> Scores verwendet<br />

(mit Bayes, ohne Netzwerktests). Im Juni 20<strong>05</strong> ist e<strong>in</strong> Releasewechsel auf Sp<strong>am</strong>Assass<strong>in</strong><br />

3.0 angedacht. Blacklist<strong>in</strong>g wurde aus Performancegründen wie<strong>der</strong> deaktiviert. In Zukunft<br />

ist aber angedacht, die Blacklist lokal vorzuhalten. Auch <strong>der</strong> E<strong>in</strong>satz von Greylist<strong>in</strong>g ist aufgrund<br />

von Problemen mit <strong>der</strong> Geschw<strong>in</strong>digkeit nicht vorgesehen.<br />

Die Ausbeute liegt <strong>in</strong>klusive des Bayes-Filters bei ca. 90%, wobei ohne Bayes nur ca. 40%<br />

des Sp<strong>am</strong>s ausgefiltert würde. Dies liegt unter an<strong>der</strong>em daran, dass E-mails, die Bayes 99<br />

erfüllen, direkt als Sp<strong>am</strong> markiert werden.<br />

Als weitere Maßnahme werden nur noch E-mails angenommen, wenn <strong>der</strong> adressierte Empfänger<br />

im Bereich <strong>der</strong> Universität existiert (siehe [Preu04]). Dies reduzierte das Mailaufkommen<br />

um bis zu 250.000 E-mails pro Tag und <strong>der</strong> Sp<strong>am</strong>-Anteil (Sp<strong>am</strong>Assass<strong>in</strong> Score > 7) g<strong>in</strong>g von<br />

70% auf 50% zurück (siehe Abbildung 2).<br />

Der Bayes-Filter wurde mit ca. 4000 H<strong>am</strong>-Mails und 2300 Sp<strong>am</strong>-Mails tra<strong>in</strong>iert. Danach<br />

wurden nur noch falsch klassifizierte Mails zum Lernen verwendet. Das automatische Lernen<br />

wurde abgeschaltet, da mehr Sp<strong>am</strong>- als H<strong>am</strong>-Mails ankommen und somit e<strong>in</strong>fache Worte<br />

durch die Masse an Sp<strong>am</strong> e<strong>in</strong>e falsche Gewichtung bekommen würden. Um die Erkennung<br />

zu verbessern sollen <strong>in</strong> Zukunft wie<strong>der</strong> vermehrt neue H<strong>am</strong>-Mails e<strong>in</strong>sortiert werden. Dies<br />

geht allerd<strong>in</strong>gs nur, wenn Benutzer ihre E-mails freiwillig zur Verfügung stellen. Auch e<strong>in</strong><br />

vermehrtes E<strong>in</strong>sortierung von falsch klassifizierten E-mails Zurzeit melden allerd<strong>in</strong>gs nur sehr<br />

Sem<strong>in</strong>ar – <strong>IT</strong>-<strong>Management</strong> <strong>in</strong> <strong>der</strong> <strong>Praxis</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!