05.08.2013 Views

M.Sc. thesis - Fei

M.Sc. thesis - Fei

M.Sc. thesis - Fei

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

(ρ) é um caso especial da correlação de Pearson (r) (CHEN; POPOVICH, 2002). Pela definição clássica,<br />

a correlação de Pearson para duas variáveis X e Y é dada pela covariância normalizada,<br />

51<br />

r = Σ (Xi− ¯X)(Yi− ¯Y )<br />

n , (4.8)<br />

sXsY<br />

onde n é o número de observações (pares X e Y ) e sX e sY são os desvios padrão de X e Y (CHEN;<br />

POPOVICH, 2002).<br />

Para o cálculo da correlação de Spearman, ao invés de utilizar-se diretamente os valores de X e<br />

Y , utiliza-se os índices da ordenação de X e Y , assim temos<br />

ρ = 1 − 6(Σ(Ordem(Xi) − Ordem(Yi))) 2<br />

n3 . (4.9)<br />

− n<br />

Enquanto a correlação de Pearson mede a força das relações lineares entre variáveis, a correlação<br />

de Spearman mede a força das relações monotônicas entre variáveis (CHEN; POPOVICH, 2002).<br />

Assim como no Agrupamento de Observações (Clustering) utilizamos uma métrica de distância (ou<br />

similaridade) entre observações, para o Agrupamento de Variáveis (Variable Clustering), utilizamos<br />

a correlação ao quadrado como métrica.<br />

4.2.2 Agrupamento de Observações (Clustering)<br />

O Agrupamento de Observações, ou simplesmente Clustering, consiste na partição de um conjunto<br />

de dados em classes. Existem inúmeras técnicas de clustering, mas não há uma descrição universal-<br />

mente aceita sobre o que é um cluster, mas pode-se dizer que um cluster é um conjunto de entidades<br />

similares. Neste trabalho utiliza-se o algoritmo K-medoids que baseia-se no conhecido algoritmo<br />

K-means, contudo menos sensível a outliers e ruído (XU; WUNSCH, 2008).<br />

Algoritmo 7: k-means clustering<br />

início<br />

Atribua aleatoriamente aos K clusters Ci, i = 1,2,...,K valores do conjunto de dados;<br />

repita<br />

para cada ponto do conjunto de dados faça<br />

Atribua para o ponto do conjunto de dados o cluster Ci mais próximo através de<br />

uma métrica de dissimilaridade;<br />

para cada atribuição de cluster Ci faça<br />

Atualize o valor do cluster Ci pela média do conjunto de pontos atribuídos ao<br />

cluster;<br />

até até não houver variação dos Ci

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!