Spam version 8 Andreas Tandersten 2004-12-21 - BADA
Spam version 8 Andreas Tandersten 2004-12-21 - BADA
Spam version 8 Andreas Tandersten 2004-12-21 - BADA
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
inevitably have a different character. And the spammers would also,<br />
of course, have to change (and keep changing) their whole<br />
infrastructure, because otherwise the headers would look as bad to<br />
the Bayesian filters as ever, no matter what they did to the message<br />
body. 79<br />
Han tror att det här i förlängningen leder till spam så småningom oundvikligen kommer<br />
att reduceras ner till några få rader: 80<br />
”Hey there. Thought you should check out the following:<br />
http://www.27meg.com/foo”<br />
Det är en övertro på de bayesianska filtren och samtidigt ett resonemang som inte<br />
stämmer överens med vad han tidigare diskuterat. Ingenting talar emot att denna<br />
menings oberoende förekomster av ord skulle kunna klara av att identifieras av ett<br />
bayesianskt spamfilter, om användaren ofta tar emot snarlika legitima brev av bekanta<br />
är det förstås troligt att de inte sållas bort, men lägg sedan till en förekomst av en<br />
hyperlänk och det blir än lättare att samla in ett sådant spam.<br />
Graham poängterade dock att det är mycket svårare för en mänsklig hjärna att sätta sig<br />
in i hur den som skapat e-mailet (spam) tänker när de utformar sina spam och att det<br />
därför är både praktiskt och tidsbesparande med bayesianska filter, det betvivlar jag<br />
inte.<br />
Den viktigaste enskilda fördelen med bayesianska filter är enligt Graham, att man vet<br />
exakt vilken slags information man verkligen mäter, till skillnad från t.ex. program som<br />
<strong>Spam</strong>Assassin som tilldelar varje spam en ”poäng” (score) för varje e-mail. Det är inte<br />
helt korrekt att generalisera utifrån <strong>Spam</strong>Assasin som Graham gör, i många andra<br />
system vet man också exakt vad man mäter, t.ex. de vanliga regelbaserade systemen<br />
(mer om dessa senare).<br />
Det finns dock ett stort problem med bayesianska filter anser Graham. Han utgår från<br />
sig själv och sin forskning kring spam och det faktum att spam-filtren sällan - för att<br />
inte säga aldrig - utgår från en samlad mängd idealdokument 81 , för att komma till rätta<br />
med det här önskar han att filtren istället lärde sig sannolikheter utifrån varje unik<br />
användare. Här har han en viktig poäng, och det verkar också som om denna idé till viss<br />
del har slagit igenom, när en användare ges möjligheten att klassificera ett inkommande<br />
e-mail som spam, är det exakt det här som sker. För varje ny klassificering blir det<br />
bayesianska filtret bättre på att beräkna sannolikheter. Det är inte viktigt att utgå från de<br />
sk. idealdokumenten, det viktiga är själva inträningen av filtret.<br />
79<br />
Graham, Paul. http://www.paulgraham.com/spamfaq.html En lista över tillgängliga filter finns här:<br />
http://www.paulgraham.com/filters.html<br />
80<br />
Ibid.<br />
81<br />
Idealdokument i det här sammanhanget betyder ungefär, det perfekta spammet eller det perfekta icke-<br />
spammet.<br />
34