17.07.2013 Views

Spam version 8 Andreas Tandersten 2004-12-21 - BADA

Spam version 8 Andreas Tandersten 2004-12-21 - BADA

Spam version 8 Andreas Tandersten 2004-12-21 - BADA

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

inevitably have a different character. And the spammers would also,<br />

of course, have to change (and keep changing) their whole<br />

infrastructure, because otherwise the headers would look as bad to<br />

the Bayesian filters as ever, no matter what they did to the message<br />

body. 79<br />

Han tror att det här i förlängningen leder till spam så småningom oundvikligen kommer<br />

att reduceras ner till några få rader: 80<br />

”Hey there. Thought you should check out the following:<br />

http://www.27meg.com/foo”<br />

Det är en övertro på de bayesianska filtren och samtidigt ett resonemang som inte<br />

stämmer överens med vad han tidigare diskuterat. Ingenting talar emot att denna<br />

menings oberoende förekomster av ord skulle kunna klara av att identifieras av ett<br />

bayesianskt spamfilter, om användaren ofta tar emot snarlika legitima brev av bekanta<br />

är det förstås troligt att de inte sållas bort, men lägg sedan till en förekomst av en<br />

hyperlänk och det blir än lättare att samla in ett sådant spam.<br />

Graham poängterade dock att det är mycket svårare för en mänsklig hjärna att sätta sig<br />

in i hur den som skapat e-mailet (spam) tänker när de utformar sina spam och att det<br />

därför är både praktiskt och tidsbesparande med bayesianska filter, det betvivlar jag<br />

inte.<br />

Den viktigaste enskilda fördelen med bayesianska filter är enligt Graham, att man vet<br />

exakt vilken slags information man verkligen mäter, till skillnad från t.ex. program som<br />

<strong>Spam</strong>Assassin som tilldelar varje spam en ”poäng” (score) för varje e-mail. Det är inte<br />

helt korrekt att generalisera utifrån <strong>Spam</strong>Assasin som Graham gör, i många andra<br />

system vet man också exakt vad man mäter, t.ex. de vanliga regelbaserade systemen<br />

(mer om dessa senare).<br />

Det finns dock ett stort problem med bayesianska filter anser Graham. Han utgår från<br />

sig själv och sin forskning kring spam och det faktum att spam-filtren sällan - för att<br />

inte säga aldrig - utgår från en samlad mängd idealdokument 81 , för att komma till rätta<br />

med det här önskar han att filtren istället lärde sig sannolikheter utifrån varje unik<br />

användare. Här har han en viktig poäng, och det verkar också som om denna idé till viss<br />

del har slagit igenom, när en användare ges möjligheten att klassificera ett inkommande<br />

e-mail som spam, är det exakt det här som sker. För varje ny klassificering blir det<br />

bayesianska filtret bättre på att beräkna sannolikheter. Det är inte viktigt att utgå från de<br />

sk. idealdokumenten, det viktiga är själva inträningen av filtret.<br />

79<br />

Graham, Paul. http://www.paulgraham.com/spamfaq.html En lista över tillgängliga filter finns här:<br />

http://www.paulgraham.com/filters.html<br />

80<br />

Ibid.<br />

81<br />

Idealdokument i det här sammanhanget betyder ungefär, det perfekta spammet eller det perfekta icke-<br />

spammet.<br />

34

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!