Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
Qualidade de Dados - Dataprev
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Análise como estratégia <strong>de</strong> agregação <strong>de</strong> valor<br />
em dados<br />
Marcelo Stopanovski Ribeiro<br />
Secretário <strong>de</strong> Prevenção da Corrupção e Informações Estratégicas<br />
Controladoria-Geral da União (CGU)<br />
O maior problema <strong>de</strong> trabalho que trazemos para esse <strong>de</strong>bate é a questão do<br />
mensurar. Antes <strong>de</strong> qualquer coisa, é preciso colher um grupo <strong>de</strong> informações e<br />
esse grupo tem <strong>de</strong> fazer sentido a partir <strong>de</strong> um método. Para se ter confiança nessa<br />
mensuração, é necessário, então, trabalhar com a qualida<strong>de</strong> dos dados. A preocupação<br />
<strong>de</strong>corre do fato <strong>de</strong> que, no ambiente <strong>de</strong> trabalho em que atuamos, a equipe<br />
tem <strong>de</strong> lidar com processos informacionais iniciados por meio <strong>de</strong> papéis, coisas<br />
físicas. Se estiverem bagunçados, a informatização tão-somente gerará uma<br />
bagunça informatizada, ou seja, um problema muito maior, posto que colocado na<br />
casa dos terabytes. Por essa razão, trataremos aqui da análise <strong>de</strong> dados baseada,<br />
principalmente, na qualida<strong>de</strong> que esses dados disponibilizam para a tomada <strong>de</strong><br />
<strong>de</strong>cisão.<br />
Do ponto <strong>de</strong> vista da produção <strong>de</strong> informação estratégica, um sonho <strong>de</strong> todo<br />
analista é, mais ou menos, o que se apresenta no filme Minority Report, <strong>de</strong> Steven<br />
Spielberg. A história trata <strong>de</strong> um personagem que, em virtu<strong>de</strong> <strong>de</strong> uma <strong>de</strong>manda,<br />
se vê capaz <strong>de</strong> acessar, por meio <strong>de</strong> uma tela touch screen gigantesca, todas as<br />
bases <strong>de</strong> dados integradas. A trama faz-nos imediatamente pensar num processo<br />
em que o Cadastro Nacional <strong>de</strong> Informações Sociais (CNIS) <strong>de</strong>mandaria o cruzamento<br />
<strong>de</strong> dados com as bases do Departamento Nacional <strong>de</strong> Trânsito (Denatran),<br />
dos cartórios, <strong>de</strong> modo a fazer um levantamento do patrimônio. O acesso a essas<br />
informações seria feito num clique, haveria uma alta capacida<strong>de</strong> <strong>de</strong> integração e<br />
monitoramento e, principalmente, contaríamos com o tal do Precog, uma espécie<br />
<strong>de</strong> vi<strong>de</strong>nte, que ficaria ao lado dizendo o que iria acontecer. Mas o fato é que esse<br />
sistema não existe.<br />
Seja como for, essa projeção remete a <strong>de</strong>talhes que são da or<strong>de</strong>m da própria<br />
estrutura da informação. Po<strong>de</strong>mos colher infinitas informações a partir <strong>de</strong> qualquer<br />
objeto. Isso, por sua vez, leva à impossibilida<strong>de</strong> <strong>de</strong> uma mensuração <strong>de</strong>finitiva.<br />
No que tange à geração <strong>de</strong> prova, que é uma peça central da nossa área, tal<br />
impossibilida<strong>de</strong> afetaria a viabilida<strong>de</strong> do nosso próprio trabalho. Então, o gran<strong>de</strong><br />
<strong>de</strong>safio passa por diminuir incertezas e criar condições <strong>de</strong> confiabilida<strong>de</strong> nas<br />
informações. Aqui entra a necessida<strong>de</strong> <strong>de</strong> aplicação <strong>de</strong> um método que torne<br />
possível chegarmos a uma conclusão cientificamente válida ou, pelo menos,<br />
apropriada para fins <strong>de</strong> tomada <strong>de</strong> <strong>de</strong>cisão.<br />
Essa característica da informação se dá, principalmente, porque, numa base <strong>de</strong><br />
dados, po<strong>de</strong> haver trilhões <strong>de</strong> registros. O Portal da Transparência, por exemplo,<br />
está com R$ 5,4 trilhões dispostos centavo a centavo em mais <strong>de</strong> 700 milhões <strong>de</strong><br />
registros. Se cruzarmos, sem querer, um campo com outro ali <strong>de</strong>ntro, geraremos<br />
um monte <strong>de</strong> informações duplas, um sem número <strong>de</strong> informações não validadas.<br />
Isso po<strong>de</strong> acontecer em qualquer base <strong>de</strong> dados, é algo natural da informação.<br />
Como <strong>de</strong>monstrado pela segunda lei da termodinâmica, a famosa lei da entropia,<br />
se pegarmos um sistema fechado e chacoalhá-lo, o contato das moléculas presentes<br />
gerará um monte <strong>de</strong> informações. Se todo sistema ten<strong>de</strong> ao caos, isso não é<br />
diferente em relação aos sistemas <strong>de</strong> informação. Mesmo se <strong>de</strong>ixarmos uma base<br />
<strong>de</strong> dados parada – sobretudo uma tão antiga como a do CNIS, <strong>de</strong> 1974 - , só com<br />
pessoas a alimentando, só com o pessoal consultando, naturalmente os dados<br />
ten<strong>de</strong>rão ao caos. O trabalho <strong>de</strong> qualida<strong>de</strong> <strong>de</strong> dados, <strong>de</strong> análise <strong>de</strong> agregação <strong>de</strong><br />
Fórum <strong>de</strong> TIC <strong>Dataprev</strong><br />
<strong>Qualida<strong>de</strong></strong> <strong>de</strong> <strong>Dados</strong> 33