30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ISBN: 978–972–8924–45-4 © 2007 IADIS<br />

po<strong>de</strong>-se verificar as aplicações <strong>de</strong>stas técnicas em diferentes áreas, sendo que em bibliotecas digitais é uma<br />

área <strong>de</strong> aplicação recente.<br />

Este trabalho tem o foco sobre documentos em formato PDF, pois esse formato <strong>de</strong> arquivo po<strong>de</strong> ser<br />

consi<strong>de</strong>rado o formato padrão <strong>de</strong> documentos digitais disponibilizados nas bibliotecas digitais.<br />

Na seção 2, é feita a preparação dos dados textuais e envolve alguns passos – preparação da lista <strong>de</strong><br />

stopwords, <strong>de</strong>finição dos termos referentes às categorias, recuperação da informação, remoção <strong>de</strong> stopwords,<br />

case folding e obtenção <strong>de</strong> um formato padrão. Na seção 3 é apresentado o protótipo da ferramenta, e<br />

finalmente a seção 4 é conclusão do artigo.<br />

2. CATEGORIZAÇÃO DE DOCUMENTOS DE BIBLIOTECAS DIGITAIS<br />

Na Figura 1 são apresentadas as etapas que compõe o trabalho <strong>de</strong>senvolvido, com o objetivo <strong>de</strong> classificar<br />

automaticamente em categorias os documentos pertencentes a uma biblioteca digital, a primeira etapa para a<br />

realização da categorização é a seleção do documento a ser categorizado, esses documentos estão<br />

armazenados na base <strong>de</strong> dados da biblioteca digital.<br />

Figura 1. Etapas da Ferramenta<br />

Selecionados alguns documentos para a realização do trabalho, a próxima etapa é o tratamento dos<br />

documentos PDF, pois no trabalho foram processados documentos neste formato, por serem os mais<br />

utilizados.<br />

Após o tratamento do documento PDF, a próxima etapa é o pré-processamento, on<strong>de</strong> a priori foi <strong>de</strong>finida<br />

um a lista <strong>de</strong> stopwords, para que o documento contivesse apenas palavras <strong>de</strong> maior importância. Neste<br />

trabalho, a etapa <strong>de</strong> pré-processamento foi composta <strong>de</strong> duas partes: case folding e remoção <strong>de</strong> stopwords,<br />

que após executadas geram o formato padrão para o passo seguinte que é a categorização. Nesta etapa é<br />

necessário que os termos que pertençam as categorias já estejam <strong>de</strong>finidos para que as comparações<br />

necessárias possam ser executadas e um documento possa ser associado a uma ou mais categorias <strong>de</strong> acordo<br />

com o seu conteúdo.<br />

Após a categorização ter sido finalizada, é feita a avaliação e interpretação dos resultados obtidos, on<strong>de</strong><br />

será levada em consi<strong>de</strong>ração a porcentagem dos documentos que foram corretamente associados às<br />

categorias e os que não foram. Caso os resultados não sejam satisfatórios, ou seja, se uma parte consi<strong>de</strong>rável<br />

<strong>de</strong> documentos forem erroneamente categorizados uma ou mais mudanças são estudadas e implementadas e o<br />

processo se repete <strong>de</strong>s<strong>de</strong> o início até que os resultados tenham a qualida<strong>de</strong> <strong>de</strong>sejada.<br />

Neste trabalho foi <strong>de</strong>senvolvida consulta por categorias, mas essas consultas seriam realizadas com o<br />

intuito <strong>de</strong> avaliar os resultados obtidos, ou seja, localmente. A disponibilida<strong>de</strong> <strong>de</strong>sse tipo <strong>de</strong> consulta por<br />

parte dos usuários <strong>de</strong> uma biblioteca digital fica como responsabilida<strong>de</strong> da própria biblioteca.<br />

Na seção a seguir, <strong>de</strong>monstraremos como foi <strong>de</strong>senvolvida o protótipo da ferramenta.<br />

352

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!