Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
(ρ) é um caso especial da correlação de Pearson (r) (CHEN; POPOVICH, 2002). Pela definição clássica,<br />
a correlação de Pearson para duas variáveis X e Y é dada pela covariância normalizada,<br />
51<br />
r = Σ (Xi− ¯X)(Yi− ¯Y )<br />
n , (4.8)<br />
sXsY<br />
onde n é o número de observações (pares X e Y ) e sX e sY são os desvios padrão de X e Y (CHEN;<br />
POPOVICH, 2002).<br />
Para o cálculo da correlação de Spearman, ao invés de utilizar-se diretamente os valores de X e<br />
Y , utiliza-se os índices da ordenação de X e Y , assim temos<br />
ρ = 1 − 6(Σ(Ordem(Xi) − Ordem(Yi))) 2<br />
n3 . (4.9)<br />
− n<br />
Enquanto a correlação de Pearson mede a força das relações lineares entre variáveis, a correlação<br />
de Spearman mede a força das relações monotônicas entre variáveis (CHEN; POPOVICH, 2002).<br />
Assim como no Agrupamento de Observações (Clustering) utilizamos uma métrica de distância (ou<br />
similaridade) entre observações, para o Agrupamento de Variáveis (Variable Clustering), utilizamos<br />
a correlação ao quadrado como métrica.<br />
4.2.2 Agrupamento de Observações (Clustering)<br />
O Agrupamento de Observações, ou simplesmente Clustering, consiste na partição de um conjunto<br />
de dados em classes. Existem inúmeras técnicas de clustering, mas não há uma descrição universal-<br />
mente aceita sobre o que é um cluster, mas pode-se dizer que um cluster é um conjunto de entidades<br />
similares. Neste trabalho utiliza-se o algoritmo K-medoids que baseia-se no conhecido algoritmo<br />
K-means, contudo menos sensível a outliers e ruído (XU; WUNSCH, 2008).<br />
Algoritmo 7: k-means clustering<br />
início<br />
Atribua aleatoriamente aos K clusters Ci, i = 1,2,...,K valores do conjunto de dados;<br />
repita<br />
para cada ponto do conjunto de dados faça<br />
Atribua para o ponto do conjunto de dados o cluster Ci mais próximo através de<br />
uma métrica de dissimilaridade;<br />
para cada atribuição de cluster Ci faça<br />
Atualize o valor do cluster Ci pela média do conjunto de pontos atribuídos ao<br />
cluster;<br />
até até não houver variação dos Ci