18.11.2014 Views

Anais - Engenharia de Redes de Comunicação - UnB

Anais - Engenharia de Redes de Comunicação - UnB

Anais - Engenharia de Redes de Comunicação - UnB

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Diante das razões e <strong>de</strong>finições <strong>de</strong>scritas acima, o método <strong>de</strong> aprendizagem <strong>de</strong><br />

máquina baseado em conjunto <strong>de</strong> classificadores é aplicado neste artigo ao problema <strong>de</strong><br />

<strong>de</strong>tecção <strong>de</strong> intrusão através do RSM. Os classificadores membros foram k-NNs, sendo<br />

utilizado o voto majoritário para combinar as <strong>de</strong>cisões dos k-NNs.<br />

3.2. Classificadores Híbridos<br />

Esta abordagem proposta por [Tsai e Lin 2010] é dividida em três estágios: (1) extração<br />

<strong>de</strong> centrói<strong>de</strong>s das amostras; (2) formação <strong>de</strong> uma nova base <strong>de</strong> dados; e (3) treino e teste<br />

do classificador. No primeiro estágio, todas as amostras da base <strong>de</strong> dados são projetadas<br />

no espaço <strong>de</strong> características original para que o algoritmo não-supervisionado k-means<br />

seja aplicado a fim <strong>de</strong> agrupar as amostras <strong>de</strong> acordo com o número <strong>de</strong> classes do<br />

problema, e calcular os centrói<strong>de</strong>s <strong>de</strong> cada grupo. No segundo estágio, um novo espaço<br />

<strong>de</strong> características é gerado através do cálculo <strong>de</strong> área triangular (<strong>de</strong>scrito com <strong>de</strong>talhes a<br />

seguir). Por fim, k-NN é treinado e usado para classificar as amostras <strong>de</strong>sconhecidas.<br />

Para calcular a área triangular, são consi<strong>de</strong>rados três pontos <strong>de</strong> dados: dois<br />

centrói<strong>de</strong>s obtidos por k-means e uma amostra da base <strong>de</strong> dados. Os autores utilizaram a<br />

mesma base <strong>de</strong> dados investigada neste artigo, isto é KDD Cup 99, que é composta por<br />

amostras <strong>de</strong> cinco classes, das quais uma é do tipo tráfego normal e as quatro restantes<br />

do tipo ataque. Por serem cinco classes, k-means é direcionado a encontrar cinco<br />

centrói<strong>de</strong>s. A Figura 2 mostra um exemplo dos cinco grupos e seus respectivos<br />

centrói<strong>de</strong>s (A, B, C, D, E) e um ponto <strong>de</strong> dado (X i ).<br />

Figura 2. Formação da área triangular. Fonte: [Tsai e Lin 2010].<br />

Portanto, para a base KDD-Cup, <strong>de</strong>z áreas são obtidas para formar um novo<br />

vetor <strong>de</strong> caracteríticas para o ponto <strong>de</strong> dado (X i ):<br />

∆X<br />

iCE<br />

∆X<br />

i<br />

AB<br />

e<br />

∆XiDE<br />

.<br />

,<br />

∆Xi<br />

AC<br />

,<br />

∆X<br />

i<br />

AD ,<br />

∆Xi<br />

AE<br />

,<br />

∆X<br />

iBC<br />

,<br />

∆XiBD<br />

,<br />

∆X<br />

iBE<br />

,<br />

∆X<br />

iCD<br />

,<br />

Em seguida é calculado o perímetro <strong>de</strong> cada triângulo através da distância<br />

Euclidiana, <strong>de</strong>terminando o ponto <strong>de</strong> dado X i (i =1,..., m, on<strong>de</strong> m é o total do número <strong>de</strong><br />

amostras). Sendo a distância Euclidiana entre dois pontos A = ( a1, a2,..., a n<br />

)<br />

e<br />

B = ( b1 , b2<br />

,..., b n<br />

)<br />

no espaço <strong>de</strong> n características, <strong>de</strong>finida pela equação 2.<br />

AB = ( a ) 2 ( ) 2 ( ) 2<br />

( ) 2<br />

1<br />

− b1 + a2 − b2 + ... + an − bn = ∑ ai − bi<br />

(2)<br />

203

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!