16.04.2013 Views

Qualidade de Dados - Dataprev

Qualidade de Dados - Dataprev

Qualidade de Dados - Dataprev

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Análise como estratégia <strong>de</strong> agregação <strong>de</strong> valor<br />

em dados<br />

Marcelo Stopanovski Ribeiro<br />

Secretário <strong>de</strong> Prevenção da Corrupção e Informações Estratégicas<br />

Controladoria-Geral da União (CGU)<br />

O maior problema <strong>de</strong> trabalho que trazemos para esse <strong>de</strong>bate é a questão do<br />

mensurar. Antes <strong>de</strong> qualquer coisa, é preciso colher um grupo <strong>de</strong> informações e<br />

esse grupo tem <strong>de</strong> fazer sentido a partir <strong>de</strong> um método. Para se ter confiança nessa<br />

mensuração, é necessário, então, trabalhar com a qualida<strong>de</strong> dos dados. A preocupação<br />

<strong>de</strong>corre do fato <strong>de</strong> que, no ambiente <strong>de</strong> trabalho em que atuamos, a equipe<br />

tem <strong>de</strong> lidar com processos informacionais iniciados por meio <strong>de</strong> papéis, coisas<br />

físicas. Se estiverem bagunçados, a informatização tão-somente gerará uma<br />

bagunça informatizada, ou seja, um problema muito maior, posto que colocado na<br />

casa dos terabytes. Por essa razão, trataremos aqui da análise <strong>de</strong> dados baseada,<br />

principalmente, na qualida<strong>de</strong> que esses dados disponibilizam para a tomada <strong>de</strong><br />

<strong>de</strong>cisão.<br />

Do ponto <strong>de</strong> vista da produção <strong>de</strong> informação estratégica, um sonho <strong>de</strong> todo<br />

analista é, mais ou menos, o que se apresenta no filme Minority Report, <strong>de</strong> Steven<br />

Spielberg. A história trata <strong>de</strong> um personagem que, em virtu<strong>de</strong> <strong>de</strong> uma <strong>de</strong>manda,<br />

se vê capaz <strong>de</strong> acessar, por meio <strong>de</strong> uma tela touch screen gigantesca, todas as<br />

bases <strong>de</strong> dados integradas. A trama faz-nos imediatamente pensar num processo<br />

em que o Cadastro Nacional <strong>de</strong> Informações Sociais (CNIS) <strong>de</strong>mandaria o cruzamento<br />

<strong>de</strong> dados com as bases do Departamento Nacional <strong>de</strong> Trânsito (Denatran),<br />

dos cartórios, <strong>de</strong> modo a fazer um levantamento do patrimônio. O acesso a essas<br />

informações seria feito num clique, haveria uma alta capacida<strong>de</strong> <strong>de</strong> integração e<br />

monitoramento e, principalmente, contaríamos com o tal do Precog, uma espécie<br />

<strong>de</strong> vi<strong>de</strong>nte, que ficaria ao lado dizendo o que iria acontecer. Mas o fato é que esse<br />

sistema não existe.<br />

Seja como for, essa projeção remete a <strong>de</strong>talhes que são da or<strong>de</strong>m da própria<br />

estrutura da informação. Po<strong>de</strong>mos colher infinitas informações a partir <strong>de</strong> qualquer<br />

objeto. Isso, por sua vez, leva à impossibilida<strong>de</strong> <strong>de</strong> uma mensuração <strong>de</strong>finitiva.<br />

No que tange à geração <strong>de</strong> prova, que é uma peça central da nossa área, tal<br />

impossibilida<strong>de</strong> afetaria a viabilida<strong>de</strong> do nosso próprio trabalho. Então, o gran<strong>de</strong><br />

<strong>de</strong>safio passa por diminuir incertezas e criar condições <strong>de</strong> confiabilida<strong>de</strong> nas<br />

informações. Aqui entra a necessida<strong>de</strong> <strong>de</strong> aplicação <strong>de</strong> um método que torne<br />

possível chegarmos a uma conclusão cientificamente válida ou, pelo menos,<br />

apropriada para fins <strong>de</strong> tomada <strong>de</strong> <strong>de</strong>cisão.<br />

Essa característica da informação se dá, principalmente, porque, numa base <strong>de</strong><br />

dados, po<strong>de</strong> haver trilhões <strong>de</strong> registros. O Portal da Transparência, por exemplo,<br />

está com R$ 5,4 trilhões dispostos centavo a centavo em mais <strong>de</strong> 700 milhões <strong>de</strong><br />

registros. Se cruzarmos, sem querer, um campo com outro ali <strong>de</strong>ntro, geraremos<br />

um monte <strong>de</strong> informações duplas, um sem número <strong>de</strong> informações não validadas.<br />

Isso po<strong>de</strong> acontecer em qualquer base <strong>de</strong> dados, é algo natural da informação.<br />

Como <strong>de</strong>monstrado pela segunda lei da termodinâmica, a famosa lei da entropia,<br />

se pegarmos um sistema fechado e chacoalhá-lo, o contato das moléculas presentes<br />

gerará um monte <strong>de</strong> informações. Se todo sistema ten<strong>de</strong> ao caos, isso não é<br />

diferente em relação aos sistemas <strong>de</strong> informação. Mesmo se <strong>de</strong>ixarmos uma base<br />

<strong>de</strong> dados parada – sobretudo uma tão antiga como a do CNIS, <strong>de</strong> 1974 - , só com<br />

pessoas a alimentando, só com o pessoal consultando, naturalmente os dados<br />

ten<strong>de</strong>rão ao caos. O trabalho <strong>de</strong> qualida<strong>de</strong> <strong>de</strong> dados, <strong>de</strong> análise <strong>de</strong> agregação <strong>de</strong><br />

Fórum <strong>de</strong> TIC <strong>Dataprev</strong><br />

<strong>Qualida<strong>de</strong></strong> <strong>de</strong> <strong>Dados</strong> 33

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!