16.04.2013 Views

Qualidade de Dados - Dataprev

Qualidade de Dados - Dataprev

Qualidade de Dados - Dataprev

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Escalabilida<strong>de</strong> e Eficiência em Técnicas <strong>de</strong> Resolução <strong>de</strong> Entida<strong>de</strong>s<br />

Wagner Meira Junior<br />

E o que temos feito atualmente? Continuamos o trabalho <strong>de</strong> limpeza e padronização<br />

<strong>de</strong> nomes, fonetização <strong>de</strong> nomes e en<strong>de</strong>reços. Um importante recurso utilizado<br />

por quem tem <strong>de</strong>manda <strong>de</strong> pareamento tem sido o software Reclink, <strong>de</strong>senvolvido<br />

pela Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio <strong>de</strong> Janeiro (UFRJ) e a Universida<strong>de</strong> Estadual<br />

do Rio <strong>de</strong> Janeiro (UERJ), em<br />

parceria com outras instituições<br />

como o IBGE e a<br />

Ministério da Saú<strong>de</strong>. Executado<br />

em máquina individual,<br />

permite um processo <strong>de</strong><br />

limpeza e padronização <strong>de</strong><br />

en<strong>de</strong>reços muito interessante.<br />

Estamos trabalhando na<br />

integração com o Reclink, <strong>de</strong><br />

modo a integrar efetivamente<br />

essa tecnologia já <strong>de</strong>senvolvida<br />

por eles.<br />

A exploração <strong>de</strong> ontologias e<br />

hierarquias <strong>de</strong> conceito<br />

geográficas é uma das áreas<br />

on<strong>de</strong> temos feito mais<br />

pesquisas, pois o pareamento<br />

<strong>de</strong>pen<strong>de</strong> do uso <strong>de</strong><br />

critérios sintáticos. Normalmente,<br />

utiliza-se a mesma<br />

cida<strong>de</strong>, o mesmo município.<br />

Só que incorporar o conhecimento<br />

<strong>de</strong> ontologias e hierarquias <strong>de</strong> conceito geográficas nesse contexto permite<br />

ver coisas muito mais interessantes. Por exemplo, dificilmente se consi<strong>de</strong>ra o<br />

canal que um rio ou uma rodovia gera. Há muitos casos <strong>de</strong> municípios vizinhos<br />

separados por uma montanha, o que torna a distância efetiva entre eles muito<br />

maior do que a distância linear, o que é diferente dos municípios conectados por<br />

uma rodovia. A construção da linha <strong>de</strong> cuidado do paciente permite ver nitidamente<br />

os fluxos migratórios entre, por exemplo, posto <strong>de</strong> Saú<strong>de</strong> da Família e clínicas<br />

localizadas em pólos regionais, que são mais acessíveis por contar com uma<br />

rodovia ligando as localida<strong>de</strong>s. Outra <strong>de</strong>stacada frente <strong>de</strong> trabalho tem sido as<br />

novas técnicas <strong>de</strong> blocagem, com ênfase na questão da pon<strong>de</strong>ração. Utilizando<br />

técnicas <strong>de</strong> computação natural, temos buscado quais são os mecanismos <strong>de</strong><br />

pon<strong>de</strong>ração da blocagem mais interessantes e mais importantes.<br />

Por fim, o uso <strong>de</strong> Graphical Processor Unit (GPU) tem nos permitido aumentar<br />

ainda mais o po<strong>de</strong>r das estações <strong>de</strong> trabalho. A placa <strong>de</strong> ví<strong>de</strong>o é um coprocessador<br />

po<strong>de</strong>rosíssimo, <strong>de</strong>s<strong>de</strong> que se saiba utilizá-la. A placa que utilizamos, a<br />

NVidia, custa cerca <strong>de</strong> mil reais e permite acelerar o processamento na or<strong>de</strong>m <strong>de</strong><br />

trinta a quarenta vezes. Os números que mostrei foram gerados sem a placa <strong>de</strong><br />

ví<strong>de</strong>o. A geração <strong>de</strong> dados com essa placa <strong>de</strong> ví<strong>de</strong>o tem sido ainda mais rápida.<br />

Gostaria <strong>de</strong> mencionar outros casos <strong>de</strong> pareamento envolvendo várias combinações<br />

<strong>de</strong> bases. Um exemplo interessante diz respeito ao trabalho executado com a<br />

Caixa Econômica Fe<strong>de</strong>ral para avaliar a regra <strong>de</strong> unicida<strong>de</strong> até então utilizada. A<br />

nova regra <strong>de</strong> unicida<strong>de</strong> tem se mostrado muito boa. Melhorou em 60% a eficácia<br />

em relação à anterior. Aproveitamos a oportunida<strong>de</strong> para aplicar um pareamento<br />

probabilístico e conseguimos <strong>de</strong>monstrar que, se fosse o caso, seria possível<br />

encontrar 8% mais pares nas amostras, que eram da or<strong>de</strong>m <strong>de</strong> 2 milhões <strong>de</strong><br />

Fórum <strong>de</strong> TIC <strong>Dataprev</strong><br />

Figura 6<br />

Arquitetura Geral do<br />

Sistema<br />

Fonte: Projeto Pareia.<br />

Disponível em: www.speed.dcc.ufmg.br/trac/feraparda/.<br />

<strong>Qualida<strong>de</strong></strong> <strong>de</strong> <strong>Dados</strong> 43

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!