Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Escalabilida<strong>de</strong> e Eficiência em Técnicas <strong>de</strong> Resolução <strong>de</strong> Entida<strong>de</strong>s<br />
Wagner Meira Junior<br />
pesos válidos para a base como um todo. No nosso caso, implementamos vários<br />
tipos <strong>de</strong> blocagem e fizemos a união <strong>de</strong>ssas múltiplas blocagens como sendo<br />
parte do processo <strong>de</strong> paralelização. Isso aumentou a eficácia do nosso processo.<br />
A comparação é a fase que consome mais tempo, pois <strong>de</strong>ixamos <strong>de</strong> lado os índices<br />
e passamos a trabalhar com os registros inteiros. Experimentamos várias funções<br />
<strong>de</strong> comparação, <strong>de</strong> modo a chegar a uma maior tolerância com os erros <strong>de</strong> digitação.<br />
O pareamento probabilístico dispõe <strong>de</strong> um sistema <strong>de</strong> notas por meio do qual<br />
é possível atribuir peso ao que se encontra <strong>de</strong> concordante ou discrepante em cada<br />
região. Vejamos isso por meio <strong>de</strong> exemplos (Figura 4). O primeiro correspon<strong>de</strong> ao<br />
caso <strong>de</strong> uma<br />
p e s s o a q u e<br />
provavelmente<br />
se casou, ou seja,<br />
ao nome inicial<br />
foi acrescentado<br />
um sobrenome<br />
no fim, mas os<br />
o u t ros d a d o s<br />
eram muito semelhantes. Esse registro tem uma nota alta. O outro sinaliza,<br />
aparentemente, uma coincidência <strong>de</strong> data <strong>de</strong> nascimento, pois os <strong>de</strong>mais dados<br />
são diferentes. Esse tem uma nota menor.<br />
No contexto do pareamento probabilístico, a distribuição <strong>de</strong> freqüência das notas<br />
encontrada na comparação vai <strong>de</strong>pen<strong>de</strong>r das características da base. A dificulda<strong>de</strong><br />
é, apenas, <strong>de</strong>terminar exatamente o esquema <strong>de</strong> peso quando diante <strong>de</strong>ssas<br />
distribuições. Mas é justamente aí que entra o pareamento probabilístico. Ele é<br />
uma técnica teoricamente fundamentada, proposta há quarenta anos, que traz<br />
um processo estatístico pelo qual, olhando as modas das distribuições <strong>de</strong> frequência<br />
<strong>de</strong>ssas notas, fica possível<br />
<strong>de</strong>terminar o que são pares<br />
verda<strong>de</strong>iros, o que <strong>de</strong>manda a<br />
reavaliação e o que não são pares,<br />
in<strong>de</strong>pen<strong>de</strong>ntemente da base<br />
(Figura 5). Isso torna o processo<br />
realmente interessante. Foi o que<br />
permitiu que tivéssemos a<br />
flexibilida<strong>de</strong> para, num período <strong>de</strong><br />
pouco mais <strong>de</strong> um ano, fazer<br />
vários pareamentos entre bases<br />
diferentes - nesse caso, entre o<br />
SIA, o SIH e o SIM.<br />
À luz do que foi dito até agora,<br />
consi<strong>de</strong>ro já ser possível apresentar<br />
a arquitetura geral do sistema<br />
(Quadro 6). Ela segue aquela<br />
dinâmica <strong>de</strong> análise e padronização,<br />
blocagem, comparação,<br />
várias funções <strong>de</strong> codificação,<br />
comparação, associações semânticas<br />
e os resultados que se po<strong>de</strong>m obter. Observem que até mesmo a <strong>de</strong>terminação<br />
dos cortes ou a distribuição <strong>de</strong> frequência dos pesos ensina muito sobre a base<br />
e suas características específicas.<br />
Fórum <strong>de</strong> TIC <strong>Dataprev</strong><br />
Figura 4<br />
Exemplo <strong>de</strong> resultados<br />
comparados<br />
Fonte: Odilon Vanni <strong>de</strong><br />
Queiroz. Relacionamento<br />
probabilístico <strong>de</strong> registros na<br />
integração <strong>de</strong> sistema <strong>de</strong><br />
informação do SUS...<br />
Figura 5<br />
Classificação <strong>de</strong> Pares<br />
no Pareamento<br />
Fonte: Odilon Vanni <strong>de</strong><br />
Queiroz. Relacionamento<br />
probabilístico <strong>de</strong> registros na<br />
integração <strong>de</strong> sistema <strong>de</strong><br />
informação do SUS.<br />
<strong>Qualida<strong>de</strong></strong> <strong>de</strong> <strong>Dados</strong> 42