30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ISBN: 978–972–8924–45-4 © 2007 IADIS<br />

A linguagem <strong>de</strong> programação utilizada foi o Java (Date, 2000), (Gamma, 2000) e o bando <strong>de</strong> dados<br />

implementado para simular um banco <strong>de</strong> dados <strong>de</strong> uma biblioteca digital foi o MySQL. Inicialmente foram<br />

<strong>de</strong>finidos os termos para 3 categorias.<br />

Primeiramente o documento é recuperado e a informação contida nele é extraída, sendo armazenada em<br />

uma string. O segundo passo é a realização do pré-processamento on<strong>de</strong> todo o conteúdo armazenado na<br />

string é convertido para maiúsculo, as stopwords são retiradas e um formato padrão é gerado. Esse formato<br />

padrão nada mais é do que um vetor com as palavras-chave do documento e a quantida<strong>de</strong> <strong>de</strong> vezes que cada<br />

uma ocorreu.<br />

Finalmente, é feita uma comparação dos termos referentes a <strong>de</strong>terminada categoria com as palavras-chave<br />

do documento. Nessa comparação levou-se em consi<strong>de</strong>ração quantas palavras pertencentes ao conjunto <strong>de</strong><br />

palavras-chave do documento também pertencem ao conjunto <strong>de</strong> termos da categoria à qual o documento<br />

po<strong>de</strong> ou não pertencer, bem como a quantida<strong>de</strong> total <strong>de</strong> ocorrência <strong>de</strong>ssas palavras no documento. A<br />

princípio, após alguns testes realizados, chegamos a conclusão <strong>de</strong> que para um documento pertencer a uma<br />

categoria é preciso que sejam obe<strong>de</strong>cidas duas regras: que o documento contenha no mínimo 25% dos termos<br />

referentes a categoria e que tenha uma ocorrência média <strong>de</strong> 5 ou mais termos iguais ou diferentes por página.<br />

Por exemplo, para um documento com 100 páginas pertencer a uma categoria com 160 termos <strong>de</strong>finidos,<br />

pelo menos 40 termos referentes a categoria <strong>de</strong>vem ser encontrados no conjunto <strong>de</strong> palavras-chave <strong>de</strong>sse<br />

documento e cada página do documento <strong>de</strong>ve conter, em média, 5 ou mais <strong>de</strong>stes termos que foram comuns<br />

ao documento e a categoria.<br />

Foram <strong>de</strong>finidos termos para três categorias: Informática, Física e Direito, além <strong>de</strong> duas sub-categorias da<br />

categoria Informática: Re<strong>de</strong>s e Programação. Cinqüenta documentos foram selecionados para serem<br />

categorizados e a ferramenta obteve um percentual <strong>de</strong> acerto <strong>de</strong> 84,6%. Para avaliar os resultados obtidos foi<br />

utilizada a métrica <strong>de</strong> precisão (Gomes, 2006):<br />

Precisão = Número <strong>de</strong> Itens Corretamente Classificados<br />

Número Total <strong>de</strong> Itens<br />

Na seção a seguir será <strong>de</strong>scrita a conclusão do trabalho.<br />

4. CONCLUSÃO<br />

O presente trabalho tem por objetivo classificar documentos digitais automaticamente utilizando<br />

categorias pré-estabelecidas das bibliotecas digitais. Esta classificação <strong>automática</strong>, contribuirá para que as<br />

classificações sejam mais rápidas e eficientes. Este trabalho esta em fase <strong>de</strong> teste. Os resultados obtidos até<br />

então foram satisfatórios, porém a necessida<strong>de</strong> <strong>de</strong> <strong>de</strong>finição <strong>de</strong> termos para mais categorias e sub-categorias<br />

se faz necessária, além da realização <strong>de</strong> testes com uma quantida<strong>de</strong> mais elevada <strong>de</strong> documentos para que se<br />

possa avaliar melhor os resultados obtidos pela ferramenta.<br />

De acordo com o mo<strong>de</strong>lo da ferramenta e com a <strong>de</strong>finição <strong>de</strong> termos para mais categorias e subcategorias,<br />

bem como a realização <strong>de</strong> testes mais amplos, novas avaliações dos resultados serão feitas e<br />

mudanças po<strong>de</strong>rão ser realizadas visando melhorar a aplicação até que seja realizada a integração com uma<br />

biblioteca digital para que o processo seja realizado em um ambiente real.<br />

A biblioteca está num momento <strong>de</strong> transição, passando <strong>de</strong> uma organização totalmente ligada ao material<br />

impresso para outra em que tudo, ou quase tudo, será armazenado sob a forma digital (Cunha, 1999).<br />

O que percebemos hoje é uma necessida<strong>de</strong> cada vez maior <strong>de</strong> ferramentas para organizar a enorme<br />

quantida<strong>de</strong> <strong>de</strong> documentos digitalizados. No caso específico <strong>de</strong> uma biblioteca digital (Pereira, 2002), o<br />

processo <strong>de</strong> categorização é feito manualmente, ou seja, o bibliotecário ou responsável <strong>de</strong>ve acessar o<br />

conteúdo do documento e associá-lo a uma <strong>de</strong>terminada categoria. Muitas vezes este processo manual po<strong>de</strong><br />

ser realizado <strong>de</strong> forma errada, pois na maioria das vezes o profissional da área <strong>de</strong> biblioteca que categoriza o<br />

documento, não tem o conhecimento necessário sobre o assunto o qual o documento realmente trata. É<br />

justamente esse problema que a ferramenta <strong>de</strong>senvolvida se propõe a resolver, realizando <strong>de</strong> forma<br />

<strong>automática</strong> a associação <strong>de</strong> um documento a uma ou mais categorias e/ou sub-categorias.<br />

354

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!