29.07.2013 Views

Master of Science thesis Fighting Spam

Master of Science thesis Fighting Spam

Master of Science thesis Fighting Spam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

er dog, at ønskede uopfordrede emails også holdes ude, hvilket gør, at systemer, der<br />

benytter sig af whitelists <strong>of</strong>te vil være meget lukkede. Et sted, hvor whitelists næsten altid<br />

med fordel kan benyttes, er i kombination med andre spamløsninger. Whitelists kan<br />

nemlig generelt benyttes til at skabe en fornuftig overgangsfase, hvor kun få brugere<br />

endnu er med i spamløsningen. Hermed gives der mulighed for at modtage email fra<br />

brugere, som endnu ikke er en del af systemet, ved at placere disse på whitelisten.<br />

3.1.1.c Intelligente og naive filtre<br />

I stort set enhver email-klient er det muligt at blokere for emails fra bestemte afsendere<br />

eller for emails, som indeholder bestemte ord eller sætninger. Denne simple<br />

regelbaserede form for filtrering kaldes normalt mønstergenkendelses-filtrering (patternmatching).<br />

Filtreringsmetoden er meget ineffektiv, da spammere med vilje introducerer<br />

f.eks. stavefejl i deres spammails for at slippe igennem disse filtre. Blokering af<br />

afsenderadresser har stort set ingen effekt, da spammere næsten altid benytter falske<br />

afsenderadresser, og sjældent den samme i to forskellige spammails. Udover at være<br />

ineffektivt er der risiko for, at filteret fanger og blokerer legitime emails. Man kunne<br />

f.eks. forestille sig at man for at slippe for spam med erotisk indhold har tilføjet ordet<br />

anal til mængden af strenge filteret skal reagere på. Dette vil dog betyde at udover<br />

spammails indeholdende ordet anal , vil alle legitime mails, som f.eks. indeholder<br />

ordene analyse eller kanal , pludselig også blive fanget af filteret (idet anal indgår i<br />

disse ord). For at opnå en effektiv filtrering, som kun i få tilfælde fejlagtigt vil<br />

klassificere en legitim mail som spam, er det derfor nødvendigt at introducere mere<br />

avancerede filtre.<br />

Heuristisk Filtrering er baseret på mønstergenkendelses-filtrering hvor reglerne, for<br />

hvornår en email betragtes som spam, er dannet gennem lang tids erfaring. Filtreringen<br />

foregår så ved at evaluere hver ny email på baggrund af det tilpassede regelsæt og give<br />

meddelelsen en score baseret på statistiske beregninger, som herefter bruges til at<br />

afgøre, om emailen skal kategoriseres som værende spam eller ej. Da regelsættet i den<br />

heuristiske filtrering er dannet ud fra analyser af mange tusinder af emails, såvel legitime<br />

som spammails, er det relativt pålideligt.<br />

En anden type avanceret filtrering er den såkaldte Bayesiske filtrering (Bayesian) [7]. Her<br />

analyseres først et stort antal af hhv. legitime emails og spammails. Hele emailen (header,<br />

emnelinie, domænenavn, etc.) analyseres i hvert tilfælde, og der tildeles spamsandsynligheder<br />

til hvert eneste ord, domæne eller anden token i emailen. Disse<br />

sandsynligheder kan så efterfølgende benyttes til at afgøre, hvorvidt en modtaget email<br />

kan klassificeres som spam eller ej. Derudover kan filteret oplæres af den enkelte<br />

bruger, ved at denne tilføjer nye kendte spammails til filteret. Hvis en bruger opdager at<br />

filteret fejlagtigt har klassificeret en email som spam, kan denne rette fejlen og filteret vil<br />

så lære af fejlen, og på den måde blive bedre.<br />

3.1.1.d Duplikat detektion ved samarbejde<br />

At danne filtre ud fra tidligere modtagne emails er effektivt, som beskrevet i foregående<br />

afsnit. Problemet kan dog være, at det der karakteriserer spammails, kan ændres fra dag<br />

til dag. Her vil selv et intelligent filter komme til kort, da et sådant filter ikke vil kunne<br />

16

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!