Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Visão única do paciente para a gestão pública <strong>de</strong> sáu<strong>de</strong><br />
Mônica Aparecida Marcon<strong>de</strong>s Cecílio e Dalvani Lima<br />
ou melhor, do Brasil. Também é capaz dividir o nome completo em partes –<br />
distingue que “Vechini” é um último nome e “Masser”, o nome do meio - , ao<br />
mesmo tempo em que i<strong>de</strong>ntifica “Paulo César” como um nome composto brasileiro<br />
(Figura 5).<br />
Isso é especialmente importante<br />
porque, quando formos<br />
tentar <strong>de</strong>scobrir se essa pessoa<br />
teve outros atendimentos e/ou<br />
aparece em outras bases <strong>de</strong><br />
dados, ficará muito mais fácil<br />
comparar essas informações<br />
com as <strong>de</strong> outros registros a<br />
partir do sobrenome e do<br />
en<strong>de</strong>reço. O mesmo não seria<br />
possível se os dados não<br />
tivessem passado por essa<br />
qualificação. Ou seja, reduzimos<br />
consi<strong>de</strong>ravelmente as<br />
chances <strong>de</strong> não encontrar as<br />
outras ocorrências do mesmo<br />
paciente, bem como o custo <strong>de</strong><br />
processamento <strong>de</strong> duplicação.<br />
Para fazer <strong>de</strong>duplicação, existem algumas barreiras. Parte <strong>de</strong>las é freqüente para<br />
qualquer projeto <strong>de</strong> qualida<strong>de</strong> <strong>de</strong> dados, outras são específicas <strong>de</strong> informações da<br />
área <strong>de</strong> saú<strong>de</strong>. Por exemplo, CPF que é uma chave forte. Chave forte é uma informação<br />
que nos permite, com muita certeza, fazer a unificação <strong>de</strong> cadastros só a<br />
partir <strong>de</strong>la. Voltando, CPF é uma chave forte, mas não suficiente, ainda que tivesse<br />
disponível para todas as bases. Para complicar ainda mais, essa informação só<br />
está presente em uma <strong>de</strong>ssas fontes <strong>de</strong> informação. Por sua vez, o nome, que é<br />
uma chave fraca, tem múltiplas grafias. Assim, temos <strong>de</strong> fazer o uso do nome<br />
como parte da chave <strong>de</strong> comparação, não sem antes fonetizar e recorrer à observação<br />
das singularida<strong>de</strong>s.<br />
Há uma série <strong>de</strong> tecnologias disponíveis para se fazer a comparação a partir <strong>de</strong><br />
informações como nome, mas a maior parte foi <strong>de</strong>senvolvida para o trabalho com<br />
dados em língua inglesa. Mesmo aquelas que usam fonéticas da língua portuguesa<br />
<strong>de</strong> Portugal, não se aplicam bem ao caso brasileiro, porque o som <strong>de</strong> alguns<br />
fonemas é diferente. Com efeito, temos <strong>de</strong> fonetizar e usar comparação <strong>de</strong> singularida<strong>de</strong><br />
com algoritmos para a língua portuguesa do Brasil.<br />
Sexo é outra informação que não está disponível em todas as bases, sendo possível,<br />
em vários casos, fazer inferência a respeito. As informações sobre data <strong>de</strong><br />
nascimento também apresentam inconsistências. Não é <strong>de</strong>mais lembrar que<br />
muitos <strong>de</strong>sses dados são preenchidos à mão e só <strong>de</strong>pois digitalizados. No momento<br />
da digitalização, seja em virtu<strong>de</strong> <strong>de</strong> alguma rasura, seja por alguma confusão do<br />
próprio paciente ao informar seus dados, po<strong>de</strong> ocorrer duplicação <strong>de</strong> dados. Vimos<br />
muitos casos <strong>de</strong> registros quase idênticos, com apenas o dia da data <strong>de</strong> nascimento<br />
diferente. Sendo essa informação um critério importante, o melhor é fazer o<br />
tratamento. Não raros foram os casos <strong>de</strong> registros duplicados sanados.<br />
Se a princípio os procedimentos adotados para a qualificação <strong>de</strong> dados po<strong>de</strong>m<br />
parecer simples, sobretudo do ponto <strong>de</strong> vista tecnológico, a coisa muda <strong>de</strong> figura<br />
quando atentamos para o volume <strong>de</strong> informação e as dificulda<strong>de</strong>s que temos para<br />
Fórum <strong>de</strong> TIC <strong>Dataprev</strong><br />
Figura 5<br />
Qualificação <strong>de</strong> <strong>Dados</strong><br />
por nome<br />
Fonte: Secretaria <strong>de</strong> Estado<br />
da Saú<strong>de</strong> <strong>de</strong> São Paulo.<br />
<strong>Qualida<strong>de</strong></strong> <strong>de</strong> <strong>Dados</strong> 50