16.04.2013 Views

Qualidade de Dados - Dataprev

Qualidade de Dados - Dataprev

Qualidade de Dados - Dataprev

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Escalabilida<strong>de</strong> e Eficiência em Técnicas <strong>de</strong> Resolução <strong>de</strong> Entida<strong>de</strong>s<br />

Wagner Meira Junior<br />

pesos válidos para a base como um todo. No nosso caso, implementamos vários<br />

tipos <strong>de</strong> blocagem e fizemos a união <strong>de</strong>ssas múltiplas blocagens como sendo<br />

parte do processo <strong>de</strong> paralelização. Isso aumentou a eficácia do nosso processo.<br />

A comparação é a fase que consome mais tempo, pois <strong>de</strong>ixamos <strong>de</strong> lado os índices<br />

e passamos a trabalhar com os registros inteiros. Experimentamos várias funções<br />

<strong>de</strong> comparação, <strong>de</strong> modo a chegar a uma maior tolerância com os erros <strong>de</strong> digitação.<br />

O pareamento probabilístico dispõe <strong>de</strong> um sistema <strong>de</strong> notas por meio do qual<br />

é possível atribuir peso ao que se encontra <strong>de</strong> concordante ou discrepante em cada<br />

região. Vejamos isso por meio <strong>de</strong> exemplos (Figura 4). O primeiro correspon<strong>de</strong> ao<br />

caso <strong>de</strong> uma<br />

p e s s o a q u e<br />

provavelmente<br />

se casou, ou seja,<br />

ao nome inicial<br />

foi acrescentado<br />

um sobrenome<br />

no fim, mas os<br />

o u t ros d a d o s<br />

eram muito semelhantes. Esse registro tem uma nota alta. O outro sinaliza,<br />

aparentemente, uma coincidência <strong>de</strong> data <strong>de</strong> nascimento, pois os <strong>de</strong>mais dados<br />

são diferentes. Esse tem uma nota menor.<br />

No contexto do pareamento probabilístico, a distribuição <strong>de</strong> freqüência das notas<br />

encontrada na comparação vai <strong>de</strong>pen<strong>de</strong>r das características da base. A dificulda<strong>de</strong><br />

é, apenas, <strong>de</strong>terminar exatamente o esquema <strong>de</strong> peso quando diante <strong>de</strong>ssas<br />

distribuições. Mas é justamente aí que entra o pareamento probabilístico. Ele é<br />

uma técnica teoricamente fundamentada, proposta há quarenta anos, que traz<br />

um processo estatístico pelo qual, olhando as modas das distribuições <strong>de</strong> frequência<br />

<strong>de</strong>ssas notas, fica possível<br />

<strong>de</strong>terminar o que são pares<br />

verda<strong>de</strong>iros, o que <strong>de</strong>manda a<br />

reavaliação e o que não são pares,<br />

in<strong>de</strong>pen<strong>de</strong>ntemente da base<br />

(Figura 5). Isso torna o processo<br />

realmente interessante. Foi o que<br />

permitiu que tivéssemos a<br />

flexibilida<strong>de</strong> para, num período <strong>de</strong><br />

pouco mais <strong>de</strong> um ano, fazer<br />

vários pareamentos entre bases<br />

diferentes - nesse caso, entre o<br />

SIA, o SIH e o SIM.<br />

À luz do que foi dito até agora,<br />

consi<strong>de</strong>ro já ser possível apresentar<br />

a arquitetura geral do sistema<br />

(Quadro 6). Ela segue aquela<br />

dinâmica <strong>de</strong> análise e padronização,<br />

blocagem, comparação,<br />

várias funções <strong>de</strong> codificação,<br />

comparação, associações semânticas<br />

e os resultados que se po<strong>de</strong>m obter. Observem que até mesmo a <strong>de</strong>terminação<br />

dos cortes ou a distribuição <strong>de</strong> frequência dos pesos ensina muito sobre a base<br />

e suas características específicas.<br />

Fórum <strong>de</strong> TIC <strong>Dataprev</strong><br />

Figura 4<br />

Exemplo <strong>de</strong> resultados<br />

comparados<br />

Fonte: Odilon Vanni <strong>de</strong><br />

Queiroz. Relacionamento<br />

probabilístico <strong>de</strong> registros na<br />

integração <strong>de</strong> sistema <strong>de</strong><br />

informação do SUS...<br />

Figura 5<br />

Classificação <strong>de</strong> Pares<br />

no Pareamento<br />

Fonte: Odilon Vanni <strong>de</strong><br />

Queiroz. Relacionamento<br />

probabilístico <strong>de</strong> registros na<br />

integração <strong>de</strong> sistema <strong>de</strong><br />

informação do SUS.<br />

<strong>Qualida<strong>de</strong></strong> <strong>de</strong> <strong>Dados</strong> 42

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!