17.07.2013 Views

Spam version 8 Andreas Tandersten 2004-12-21 - BADA

Spam version 8 Andreas Tandersten 2004-12-21 - BADA

Spam version 8 Andreas Tandersten 2004-12-21 - BADA

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Bayesianskt angrepp, av Sahami, Dumais, Heckerman och Horowitz.<br />

Sahami et al. fokuserar speciellt på det faktum att det är ytterst viktigt att de legitima emailen<br />

inte klassificeras som spam, med detta som fokus sätter de en tröskel på 99,9%<br />

precision för att inte klassificera ett legitimt e-mail som spam. Vidare kombinerar de tre<br />

olika angrepp tillsammans med den bayesianska metoden. Dessa tre är (med bayes):<br />

enbart ord (tokens), ord+fraser samt ord+fraser+domänspecifik information (t.ex. ägare,<br />

organisation, upphovsman mfl.). Både recall och precision ökar för varje ytterligare<br />

variabel som tillförs. När det gällde spaminsamlingen var precisionen 97,1%, 97,5%<br />

och 100%, recall var här 94,3%, 94,3% och 98,3%. När det gällde legitima e-mail var<br />

siffrorna sämre för både precision och recall. 87,7%, 87,8% och 96,2%, samt för recall:<br />

93,4%, 94,7% och 100%. De här siffrorna skapades i en testmiljö, när de sedan<br />

genomförde undersökningen i en riktig miljö (två riktiga användares inboxar) blev<br />

siffrorna sämre. 3 legitima e-mail (av 39) klassificerades som skräp och 9 spam (av 183)<br />

klassificerades som legitima e-mail. Att hela 8% av den legitima e-mailen<br />

klassificerades fel, gjorde att författarna själva ifrågasatte den bayesianska<br />

effektiviteten, varför de rekommenderade ytterligare forskning för att effektivisera<br />

metoden. 74<br />

Naive Bayes vs Keyword av Androutsopoulos et al.<br />

Liksom Sahami et al. jämförs här N.B. med nyckelordsfiltrering.<br />

Nyckelordsfiltreringens korpus, består av de egna e-mail-kollektionerna och tas från<br />

Microsoft Outlook 2000 och dess lagrade mönster avsedda att identifiera spam. Redan<br />

från början påpekar Androutsopoulos et al. att Outlooks filter och mönster måste ha<br />

konstruerats för hand. I Outlook fanns det vid tillfället som undersökningen företogs 58<br />

olika mönster avsedda att söka efter vissa speciella nyckelord, dessa riktas in både mot<br />

sidhuvudet (Header) och mot själva meddelandet (Body) i e-mailet. Till skillnad från<br />

Sahami et al. mäter de flera andra variabler, och undersöker hur dessa påverkar<br />

insamlandet av spam. Dessa variabler var storleken på attribut-seten, storleken på<br />

träningskorpusen, lemmatisering och stopplistor. De fann att N.B. klart överglänste<br />

nyckelordsansatsen när det gällde recall 78% jämfört med måttliga 53% för<br />

nyckelordsansatsen. Sifforna för precision var mycket bättre för nyckelordsansatsen:<br />

95% men även här vann N.B. med en precision på 98%. De påpekar dock att alla<br />

sådana här undersökningar som genomförs måste sättas i ljuset av hur mycket man<br />

lägger ner i form av pengar för att utveckla systemen. 75<br />

Naive Bayesian vs. Memory Based Approach av Androutsopoulos et al.<br />

De tidigare egna föreslagna komplementen till N.B. utvecklas här ytterligare av<br />

Androutsopoulos et al i deras tidigare forskning. Den här gången jämför de N.B. med<br />

en annan självlärande metod, TiMBL (memory-based classifier). En sådan<br />

klassificerare är ämnad att försöka klassificera e-mail baserat på minnen av liknande<br />

tidigare mottagna e-mail. Både N.B. och TiMBL utförde insamlingen av spam ungefär<br />

lika bra. Liksom tidigare experiment jämfördes även N.B. och TiMBL mot den<br />

74 Sahami, Mehran. Dumais, Susan. Heckerman, David. Horvitz, Eric (1998) A Bayesian Approach to<br />

Filtering Junk E-Mail. Learning for Text Categorization: Papers from the 1998 Workshop<br />

även tillgänglig som: http://citeseer.ist.psu.edu/sahami98bayesian.html [<strong>2004</strong>-10-<strong>12</strong>]<br />

75 Androutsopoulos et al (2000a)<br />

32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!