Uma análise de desempenho dos métodos SCAN e ...

geoinfo.info

Uma análise de desempenho dos métodos SCAN e ...

vendo um número mínimo de parâmetros não cruciais paraserem escolhidos pelo usuário.Seja Z o conjunto das áreas z candidatos a formaremum conglomerado. Estes candidatos são os círculos de raior arbitrário centrados em cada um dos n centróides definidosna região de estudo. Basicamente, os raios dos círculos sãodefinidos de forma que, o aumento do raio implica na inclusãode um novo centróide. Utilizando esta abordagem,partindo de um centróide, tem-se um conjunto de possíveisconglomerados com os raios variando desde a situação ondesomente o centróide em questão esteja inserido na regiãocircular, até um círculo que contenha em seu interior, todoso centróides da região. Este número de áreas candidataspode ser reduzido se for definido um limite para o raio, demodo que nenhum candidato a conglomerado z contenhamais do que uma certa porcentagem, como por exemplo20% da população total da área.O teste SCAN é fundamentado no método de máximaverossimilhança. O parâmetro é definido por (z, p, r), ondez representa o círculo em Z, p é a probabilidade de queum indivíduo qualquer dentro de z seja um caso e r é aprobabilidade de que um indivíduo fora de z seja um caso.A região de interesse é definida pelo conglomerado ontep > r. Uma vez que a hipótese nula é na forma H o : p =r (cada indivíduo é igualmente provável de se tornar umcaso), a hipótese alternativa pode ser descrita como: H 1 :z ∈ Z, p > r.Definindo n z como o número de indivíduos (populaçãoem risco) na região circular z, c z o número observado de casosnesta mesma região, ˆp = c z /n z e ˆr = (C − c z )/(M −n z ). A função de verossimilhança referente ao modelo deBernoulli é dada por:L(z, p, r) = p cz (1−p) (nz−cz) r (C−cz) (1−r) (M−nz−C+cz)(5)É importante observar que o valor do parâmetro quemaximiza esta função não é necessariamente aquele correspondenteao círculo com maior taxa ˆp, nem aquele como maior número de casos. Para encontrar o conglomeradomais verossímil fixa-se z ∈ Z e calcula-se p(z) e r(z) quemaximiza a Equação 5 e, a seguir trabalha-se com L(z, p, r)para obter a solução que maximiza em z. Um possível candidatoa conglomerado é definido por:L (z, p(z), r(z)) =p cz (1 − p) (nz−cz) r (C−cz) (1 − r) (M−nz−C+cz)supz∈Z,p>r(6)De maneira suscinta, é realizada uma varredura sobretodos os candidatos a conglomerados definido em Z, o conglomeradocom máxima verossímilhança é a região ẑ, paraa qual L(z, p(z), r(z)) é maximizada:L(ẑ, p(ẑ), r(ẑ)) ≥ L(z, p(z), r(z))para todo z ∈ Z.Ao conglomerado verossímil é atribuída uma estatísticado teste da razão de verossimilhança:κ =onde o denominador L o é obtido como:L(ẑ, p(ẑ), r(ẑ))L o(7)L o = CC (M − C) M−CM MA distribuição de κ depende da distribuição da populaçãoe é muito difícil obtê-la analiticamente. Mas, a suadistribuição exata condicionada ao número total de casosobservados pode ser obtida utilizando um procedimento desimulação Monte Carlo, através do seguinte algoritmo:1 - S conjuntos independentes de dados possuindo o mesmonúmero de casos C que o conjunto original, obtidos comorealizações de um distribuição multinomial e proporcionala população de cada área, são gerados. Para cada conjunto,calcula-se a estatística do teste da razão de verossimilhança(κ 1 , ..., κ S ).2 - A partir da ordenação dos valores de κ para os S conjuntossimulados, compara-se o valor de κ, associado aoconjunto de dados original. Se este estiver entre os maiores100(1 − α)% valores, rejeitar H o ao nível de significânciaα.3 - Uma vez rejeitada H o , o conglomerado ẑ associado aovalor de máxima verossimilhança do modelo não nulo é oconglomerado mais verossímil.A principal vantagem do método SCAN, além do númeromínimo de parâmetros não cruciais, consiste na capacidadedo mesmo de reduzir o erro tipo I através da simulaçãoMonte Carlo. O resultado final identifica uma região circularao qual é associado o valor obtido da função de verossimilhançae um p valor referente à simulação Monte Carlo.Um exemplo do uso do teste SCAN para a detecçãode conglomerado pode ser visto na Figura 2. O método,além de determinar a posição geográfica do conglomerado,cálcula a estatística κ e obtém sua distribuição e nível designificância via simulação Monte Carlo sob hipótese nulade aleatoriedade.4 Metodologia PropostaObservando os métodos SCAN e BESAG&NEWELL descritosanteriormente, verifica-se que, aparentemente, representamabordagens bem distintas. O primeiro procuraidentificar uma única região circular candidata a conglomeradoverossímil, calculando uma estatística κ e atribuíndoum p valor, obtido sob H o , a essa estatística. O segundo


108k. Este parâmetro, definido a princípio pelo usuário, podeser incorporado ao novo método desde que o teste possaser realizado para diferentes valores de k. Por exemplo:2 ≤ k ≤ 30. Define-se, então, uma nova estatística T emfunção da minimização de p k .12 x 104 xy6420−2−40 2 4 6 8 10 12 14Figure 2: Exemplo do teste SCAN (varredura) para omesmo cenário apresentado na Figura 1. O conglomeradoverossímil, neste caso, é identificado pela circunferência.O teste obteve uma estatística κ = 74.085 e um p valor =0.001 (Simulação Monte Carlo sob H o )método calcula um nível de significância (p valor) para todosos conglomerados circulares que contenham pelo menosk casos, desenhando-os caso o valor da estatística estejaabaixo de um valor também fornecido pelo usuário. Nesteúltimo caso, o conglomerado candidato pode apresentamuma geometria não circular obtida através da sobreposiçãode círculos.A metodologia proposta procura padronizar os métodosapresentados, descrevendo uma variação para o método deBESAG&NEWELL. A sua descrição é apresentada a seguir.Inicialmente, deve-se tratar o problema da geometria.Como o método de Besag realiza o cálculo sob regiões circulares,pode-se definir, neste caso, que um círculo candidatoa conglomerado verossímil é representado pela áreaz contida em Z que apresenta o menor valor possível parao nível de significância descrito pela Equação 4. O p valorde interesse é definido por:p k = minz k ∈Z k{p valor(k)} (8)Onde Z k representa o conjunto de todas as regiões circularesz k contendo os k primeiros casos, contandos a partirde cada centróide. Ou seja, para n centróides existem nregiões circulares, cada uma delas centralizadas em um respectivocentróide. Cada região contém um mínimo de kcasos.Apesar da padronização em relação à geometria daregião de busca, a Equação 8 está condicionada ao valor dex 10 4T = minkp k (9)A Equação 9 informa que o candidato a conglomeradoverossímil é a região z que, para possíveis valoresde k, apresenta o menor valor da estatística definida pelaEquação 4. Tal característica é apresentada a seguir atravésda substituição do valor de p k na Equação 9.}T = min min {p valor(k)} (10)z k ∈Z kk{Utilizando esta nova abordagem, é possível compararo poder dos testes SCAN e BESAG&NEWELL (proposto),uma vez que ambos irão apresentar como resultado umaregião de geometria circular e um p valor (nível de significância,sob H o ). Também é possível calcular, no testede Besag, a distribuição exata da estatística T condicionadaao número total de casos observados, sob H o . A abordagemé idêntica à descrita para o método SCAN: utiliza-se umprocedimento de simulação Monte Carlo. Tal abordagempermite o controle do erro do tipo I.5 O Banco de DadosPara realizar os testes de comparação dos métodos SCANe BESAG&NEWELL será utilizada uma base de dados dedomínio público disponível em formato eletrônico: http://www.commed.uchc.edu/biostat/datasets/.Esta base de dados é constituída por um conjunto de coordenadasespaciais completando um total de 245 centróides.Cada centróide representa um município da região nordestedos Estados Unidos da América que abrange os seguintesestados: Maine, New Hampshire, Vermont, Massachusetts,Rhode Island, Connecticut, New York, New Jersey, Pennsylvania,Delaware, Maryland e o Distrito de Columbia. Apopulação em risco atribuída a cada centróide é definidapelo número de mulheres de acordo com o censo realizadoem 1990. Esta base de dados foi previamente utilizado paraavaliar a existência de conglomerados de mortalidade porcâncer de mama [3].Os métodos serão avalidados quanto à sua capacidadede detecção de uma única região circular ou conglomerado(one hot spot cluster). A base de dados apresenta cenáriosonde 600 casos encontram-se distribuídos sob a forma deconglomerados com 1, 2, 4, 8 e 6 municípios. Cada cenáriorepresenta um determinada distribuição dos casos (600) entreos centróides, totalizando um total de 10.000 cenáriospara cada dimensão de conglomerado. Os centros dos conglomeradossão conhecidos e são classificados de acordo


com a sua posição: o conglomerado rural está centrado nomunicípio de Grand Isle na região norte de Vermont, o conglomeradourbano está centrado em Manhattan, New Yorke o conglomerado misto (intercessão da região rural e urbana),em Pittsburg, Allegheny. O tamanho e posição doconglomerado que se deseja identificar pode ser definidopelo seu centro e pelo seu tamanho, observando-se que oconglomerado é formato pelos vizinhos geográficos maispróximos do centro. Por exemplo, um conglomerado de 8municípios centrado em New York é identificado agrupandoseos 7 municípios mais próximos (distância euclidiana).Utilizando esta abordagem é possível comparar o conglomeradoidentificado pelo método e o conglomerado real.Uma descrição detalhada do banco de dados, bem comodiferentes opções para os cenários é descrita na literatura[4] e no endereço eletrônico indicado.[4] Martin Kulldorff, Toshiro Tango, and Peter J. Park.Power comparisons for disease clustering tests. ComputationalStatistics & Data Analysis, 42:665–684,2003.[5] S. Openshaw, A. W. Craft, M Charlton, and J. M. Birch.Investigation of leukaemia clusters by use of a geographicalanalysis machine. Lancet, i:272–273, 1988.6 ConclusõesO presente trabalho é dividido em duas etapas: a primeiraetapa encontra-se em fase de conclusão e é caracterizadapela metodologia proposta, ou seja, a adaptação do métodode BESAG&NEWELL para a análise de conglomeradoscirculares e a escolha automática dos parâmetros críticos,definidos anteriormente pelo usuário. A segunda etapa, aser realizada, consiste no teste exaustivo dos métodos citados,procurando identificar as suas características de simulaçãoe as respectivas capacidades de identificação.Espera-se que, ao final do trabalho, seja possível caracterizaro método de melhor desempenho, ou determinaras situações nas quais os métodos apresentam desempenhosdistintos: ora superior ora inferior, quantificando a capacidadede identificação dos mesmos.AgradecimentosOs autores agradecem ao CNPq pelo apoio financeiro.References[1] Julian Besag and James Newell. The detection of clustersin rare diseases. Jornal of the Royal Statistic SocietyA, (154):143–155, 1991.[2] Martin Kulldorff. A spatial scan statistic. Communicationsin Statistics - Theory and Methods, 26(6):1481–1496, 1997.[3] Martin Kulldorff, Eric J. Feuer, Barry A. Miller, andLaurence S. Freedman. Breast cancer clusters in thenortheast united states: A geographic analysis. AmericanJournal of Epidemiology, 146(2):161–170, 1997.

More magazines by this user
Similar magazines