30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS<br />

PDF PARA BIBLIOTECAS DIGITAIS<br />

Geórgia R. Rodrigues Gomes 1 , Igor Primo Curttis 1 , Erlon Márcio Couto Alves 1 ,<br />

Sahudy Montenegro González 1 , Annabell Del Real Tamariz 1<br />

1 Universida<strong>de</strong> Candido Men<strong>de</strong>s-Campos - NPD- Núcleo <strong>de</strong> Pesquisa e Desenvolvimento<br />

Campos dos Goytacazes – RJ – Brasil<br />

georgia@ucam-campos.br,igorcurttis@gmail.com,erlonmarcio@yahoo.com.br,<br />

sahudy@ucam-campos.br, annabell@ucam-campos.br<br />

RESUMO<br />

Existe um aumento significativo no numero <strong>de</strong> bibliotecas digitais e conseqüentemente nos documentos digitais<br />

armazenados nas mesmas, e ao mesmo tempo cresce a necessida<strong>de</strong> <strong>de</strong> meios que possam prover <strong>de</strong> forma rápida e<br />

eficiente a organização <strong>de</strong> tais documentos, facilitando assim o acesso aos mesmos. Nas bibliotecas digitais, existe a<br />

necessida<strong>de</strong> <strong>de</strong> uma ferramenta que possa categorizar automaticamente os documentos, visto que o processo <strong>de</strong><br />

categorização ainda é feito <strong>de</strong> forma manual, isto torna-se mais lento e dispendioso.<br />

Este trabalho apresenta o <strong>de</strong>senvolvimento <strong>de</strong> uma ferramenta que classifica automaticamente documentos digitais <strong>de</strong><br />

bibliotecas digitais, em categorias pré-estabelecidas, on<strong>de</strong> cada documento pertencerá a uma ou mais categorias <strong>de</strong><br />

acordo com seu conteúdo, tornando assim, mais eficaz e rápido a classificação dos documentos.<br />

PALAVRAS-CHAVE<br />

Bibliotecas Digitais, Mineração <strong>de</strong> Texto, Categorização.<br />

1. INTRODUÇÃO<br />

Conferência IADIS Ibero-Americana WWW/Internet 2007<br />

Na última década, as pesquisas na área <strong>de</strong> extração <strong>de</strong> conhecimento a partir <strong>de</strong> dados eram focadas nos<br />

dados do tipo estruturado, utilizando um conjunto <strong>de</strong> técnicas <strong>de</strong>nominada Mineração <strong>de</strong> Dados (Data<br />

Mining). Porém, há alguns anos, essas pesquisas se voltaram para os dados do tipo <strong>semi</strong> ou não estruturados,<br />

e conseqüentemente foram <strong>de</strong>senvolvidas técnicas <strong>de</strong> Mineração <strong>de</strong> Texto(Text Mining), para que esses tipos<br />

<strong>de</strong> dados pu<strong>de</strong>ssem ser manipulados (Tan, 1999). Desta forma, o <strong>de</strong>senvolvimento <strong>de</strong> ferramentas baseadas<br />

nestas técnicas, que extraiam conhecimento <strong>de</strong> uma forma <strong>automática</strong> são <strong>de</strong> gran<strong>de</strong> valia. A categorização<br />

<strong>automática</strong> é uma <strong>de</strong>ssas técnicas que proporciona uma melhor organização dos documentos.<br />

A cada dia que passa, a quantida<strong>de</strong> <strong>de</strong> documentos digitalizados que são disponibilizados na Web<br />

aumentam exponencialmente. Segundo (Bastos, 2005), as bibliotecas digitais dispõem <strong>de</strong> uma quantida<strong>de</strong><br />

enorme <strong>de</strong> documentos digitalizados como artigos, teses, dissertações, e tais documentos são separados em<br />

categorias que já são pré-<strong>de</strong>finidas e pertencem a um padrão adotado pela maioria das bibliotecas digitais<br />

existentes. Desta forma, torna-se imprescindível que utilize técnicas apropriadas para que tais documentos<br />

sejam organizados e separados em suas respectivas categorias <strong>de</strong> modo que uma possível busca futura seja<br />

feita <strong>de</strong> uma maneira mais rápida e eficiente. Entretanto, a organização <strong>de</strong> tais documentos em suas<br />

categorias ainda é feita <strong>de</strong> forma manual.<br />

Levando em consi<strong>de</strong>ração que as bibliotecas digitais utilizam um padrão já estabelecido <strong>de</strong> categorias,<br />

este trabalho consiste em realizar a categorização <strong>automática</strong> <strong>de</strong> documentos digitais das bibliotecas digitais<br />

<strong>de</strong> acordo com categorias pré-<strong>de</strong>finidas, on<strong>de</strong> cada documento <strong>de</strong>verá pertencer a uma ou mais categorias <strong>de</strong><br />

acordo com seu conteúdo.<br />

Para fazer esta categorização <strong>automática</strong>, será utilizada técnicas <strong>de</strong> mineração <strong>de</strong> textos, hoje muito<br />

pesquisada. Em (Almeida,2004), (Galho, 2004), (Honrado, 2000), (Lam, 1999), (Lopes, 2004), (Silva, 2002)<br />

351

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!