Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Escalabilida<strong>de</strong> e Eficiência em Técnicas <strong>de</strong> Resolução <strong>de</strong> Entida<strong>de</strong>s<br />
Wagner Meira Junior<br />
E o que temos feito atualmente? Continuamos o trabalho <strong>de</strong> limpeza e padronização<br />
<strong>de</strong> nomes, fonetização <strong>de</strong> nomes e en<strong>de</strong>reços. Um importante recurso utilizado<br />
por quem tem <strong>de</strong>manda <strong>de</strong> pareamento tem sido o software Reclink, <strong>de</strong>senvolvido<br />
pela Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio <strong>de</strong> Janeiro (UFRJ) e a Universida<strong>de</strong> Estadual<br />
do Rio <strong>de</strong> Janeiro (UERJ), em<br />
parceria com outras instituições<br />
como o IBGE e a<br />
Ministério da Saú<strong>de</strong>. Executado<br />
em máquina individual,<br />
permite um processo <strong>de</strong><br />
limpeza e padronização <strong>de</strong><br />
en<strong>de</strong>reços muito interessante.<br />
Estamos trabalhando na<br />
integração com o Reclink, <strong>de</strong><br />
modo a integrar efetivamente<br />
essa tecnologia já <strong>de</strong>senvolvida<br />
por eles.<br />
A exploração <strong>de</strong> ontologias e<br />
hierarquias <strong>de</strong> conceito<br />
geográficas é uma das áreas<br />
on<strong>de</strong> temos feito mais<br />
pesquisas, pois o pareamento<br />
<strong>de</strong>pen<strong>de</strong> do uso <strong>de</strong><br />
critérios sintáticos. Normalmente,<br />
utiliza-se a mesma<br />
cida<strong>de</strong>, o mesmo município.<br />
Só que incorporar o conhecimento<br />
<strong>de</strong> ontologias e hierarquias <strong>de</strong> conceito geográficas nesse contexto permite<br />
ver coisas muito mais interessantes. Por exemplo, dificilmente se consi<strong>de</strong>ra o<br />
canal que um rio ou uma rodovia gera. Há muitos casos <strong>de</strong> municípios vizinhos<br />
separados por uma montanha, o que torna a distância efetiva entre eles muito<br />
maior do que a distância linear, o que é diferente dos municípios conectados por<br />
uma rodovia. A construção da linha <strong>de</strong> cuidado do paciente permite ver nitidamente<br />
os fluxos migratórios entre, por exemplo, posto <strong>de</strong> Saú<strong>de</strong> da Família e clínicas<br />
localizadas em pólos regionais, que são mais acessíveis por contar com uma<br />
rodovia ligando as localida<strong>de</strong>s. Outra <strong>de</strong>stacada frente <strong>de</strong> trabalho tem sido as<br />
novas técnicas <strong>de</strong> blocagem, com ênfase na questão da pon<strong>de</strong>ração. Utilizando<br />
técnicas <strong>de</strong> computação natural, temos buscado quais são os mecanismos <strong>de</strong><br />
pon<strong>de</strong>ração da blocagem mais interessantes e mais importantes.<br />
Por fim, o uso <strong>de</strong> Graphical Processor Unit (GPU) tem nos permitido aumentar<br />
ainda mais o po<strong>de</strong>r das estações <strong>de</strong> trabalho. A placa <strong>de</strong> ví<strong>de</strong>o é um coprocessador<br />
po<strong>de</strong>rosíssimo, <strong>de</strong>s<strong>de</strong> que se saiba utilizá-la. A placa que utilizamos, a<br />
NVidia, custa cerca <strong>de</strong> mil reais e permite acelerar o processamento na or<strong>de</strong>m <strong>de</strong><br />
trinta a quarenta vezes. Os números que mostrei foram gerados sem a placa <strong>de</strong><br />
ví<strong>de</strong>o. A geração <strong>de</strong> dados com essa placa <strong>de</strong> ví<strong>de</strong>o tem sido ainda mais rápida.<br />
Gostaria <strong>de</strong> mencionar outros casos <strong>de</strong> pareamento envolvendo várias combinações<br />
<strong>de</strong> bases. Um exemplo interessante diz respeito ao trabalho executado com a<br />
Caixa Econômica Fe<strong>de</strong>ral para avaliar a regra <strong>de</strong> unicida<strong>de</strong> até então utilizada. A<br />
nova regra <strong>de</strong> unicida<strong>de</strong> tem se mostrado muito boa. Melhorou em 60% a eficácia<br />
em relação à anterior. Aproveitamos a oportunida<strong>de</strong> para aplicar um pareamento<br />
probabilístico e conseguimos <strong>de</strong>monstrar que, se fosse o caso, seria possível<br />
encontrar 8% mais pares nas amostras, que eram da or<strong>de</strong>m <strong>de</strong> 2 milhões <strong>de</strong><br />
Fórum <strong>de</strong> TIC <strong>Dataprev</strong><br />
Figura 6<br />
Arquitetura Geral do<br />
Sistema<br />
Fonte: Projeto Pareia.<br />
Disponível em: www.speed.dcc.ufmg.br/trac/feraparda/.<br />
<strong>Qualida<strong>de</strong></strong> <strong>de</strong> <strong>Dados</strong> 43