geração (semi)automática de metadados - Universidad Autónoma ...
geração (semi)automática de metadados - Universidad Autónoma ...
geração (semi)automática de metadados - Universidad Autónoma ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
ISBN: 978–972–8924–45-4 © 2007 IADIS<br />
A linguagem <strong>de</strong> programação utilizada foi o Java (Date, 2000), (Gamma, 2000) e o bando <strong>de</strong> dados<br />
implementado para simular um banco <strong>de</strong> dados <strong>de</strong> uma biblioteca digital foi o MySQL. Inicialmente foram<br />
<strong>de</strong>finidos os termos para 3 categorias.<br />
Primeiramente o documento é recuperado e a informação contida nele é extraída, sendo armazenada em<br />
uma string. O segundo passo é a realização do pré-processamento on<strong>de</strong> todo o conteúdo armazenado na<br />
string é convertido para maiúsculo, as stopwords são retiradas e um formato padrão é gerado. Esse formato<br />
padrão nada mais é do que um vetor com as palavras-chave do documento e a quantida<strong>de</strong> <strong>de</strong> vezes que cada<br />
uma ocorreu.<br />
Finalmente, é feita uma comparação dos termos referentes a <strong>de</strong>terminada categoria com as palavras-chave<br />
do documento. Nessa comparação levou-se em consi<strong>de</strong>ração quantas palavras pertencentes ao conjunto <strong>de</strong><br />
palavras-chave do documento também pertencem ao conjunto <strong>de</strong> termos da categoria à qual o documento<br />
po<strong>de</strong> ou não pertencer, bem como a quantida<strong>de</strong> total <strong>de</strong> ocorrência <strong>de</strong>ssas palavras no documento. A<br />
princípio, após alguns testes realizados, chegamos a conclusão <strong>de</strong> que para um documento pertencer a uma<br />
categoria é preciso que sejam obe<strong>de</strong>cidas duas regras: que o documento contenha no mínimo 25% dos termos<br />
referentes a categoria e que tenha uma ocorrência média <strong>de</strong> 5 ou mais termos iguais ou diferentes por página.<br />
Por exemplo, para um documento com 100 páginas pertencer a uma categoria com 160 termos <strong>de</strong>finidos,<br />
pelo menos 40 termos referentes a categoria <strong>de</strong>vem ser encontrados no conjunto <strong>de</strong> palavras-chave <strong>de</strong>sse<br />
documento e cada página do documento <strong>de</strong>ve conter, em média, 5 ou mais <strong>de</strong>stes termos que foram comuns<br />
ao documento e a categoria.<br />
Foram <strong>de</strong>finidos termos para três categorias: Informática, Física e Direito, além <strong>de</strong> duas sub-categorias da<br />
categoria Informática: Re<strong>de</strong>s e Programação. Cinqüenta documentos foram selecionados para serem<br />
categorizados e a ferramenta obteve um percentual <strong>de</strong> acerto <strong>de</strong> 84,6%. Para avaliar os resultados obtidos foi<br />
utilizada a métrica <strong>de</strong> precisão (Gomes, 2006):<br />
Precisão = Número <strong>de</strong> Itens Corretamente Classificados<br />
Número Total <strong>de</strong> Itens<br />
Na seção a seguir será <strong>de</strong>scrita a conclusão do trabalho.<br />
4. CONCLUSÃO<br />
O presente trabalho tem por objetivo classificar documentos digitais automaticamente utilizando<br />
categorias pré-estabelecidas das bibliotecas digitais. Esta classificação <strong>automática</strong>, contribuirá para que as<br />
classificações sejam mais rápidas e eficientes. Este trabalho esta em fase <strong>de</strong> teste. Os resultados obtidos até<br />
então foram satisfatórios, porém a necessida<strong>de</strong> <strong>de</strong> <strong>de</strong>finição <strong>de</strong> termos para mais categorias e sub-categorias<br />
se faz necessária, além da realização <strong>de</strong> testes com uma quantida<strong>de</strong> mais elevada <strong>de</strong> documentos para que se<br />
possa avaliar melhor os resultados obtidos pela ferramenta.<br />
De acordo com o mo<strong>de</strong>lo da ferramenta e com a <strong>de</strong>finição <strong>de</strong> termos para mais categorias e subcategorias,<br />
bem como a realização <strong>de</strong> testes mais amplos, novas avaliações dos resultados serão feitas e<br />
mudanças po<strong>de</strong>rão ser realizadas visando melhorar a aplicação até que seja realizada a integração com uma<br />
biblioteca digital para que o processo seja realizado em um ambiente real.<br />
A biblioteca está num momento <strong>de</strong> transição, passando <strong>de</strong> uma organização totalmente ligada ao material<br />
impresso para outra em que tudo, ou quase tudo, será armazenado sob a forma digital (Cunha, 1999).<br />
O que percebemos hoje é uma necessida<strong>de</strong> cada vez maior <strong>de</strong> ferramentas para organizar a enorme<br />
quantida<strong>de</strong> <strong>de</strong> documentos digitalizados. No caso específico <strong>de</strong> uma biblioteca digital (Pereira, 2002), o<br />
processo <strong>de</strong> categorização é feito manualmente, ou seja, o bibliotecário ou responsável <strong>de</strong>ve acessar o<br />
conteúdo do documento e associá-lo a uma <strong>de</strong>terminada categoria. Muitas vezes este processo manual po<strong>de</strong><br />
ser realizado <strong>de</strong> forma errada, pois na maioria das vezes o profissional da área <strong>de</strong> biblioteca que categoriza o<br />
documento, não tem o conhecimento necessário sobre o assunto o qual o documento realmente trata. É<br />
justamente esse problema que a ferramenta <strong>de</strong>senvolvida se propõe a resolver, realizando <strong>de</strong> forma<br />
<strong>automática</strong> a associação <strong>de</strong> um documento a uma ou mais categorias e/ou sub-categorias.<br />
354