30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.2 Módulo <strong>de</strong> Inteligência<br />

Figura 2. Tela <strong>de</strong> cadastro na base <strong>de</strong> textos<br />

Conferência IADIS Ibero-Americana WWW/Internet 2007<br />

Neste módulo, os documentos da base <strong>de</strong> textos serão processados para permitir a recuperação<br />

da melhor resposta possível, sempre que o conteúdo da base e a pergunta estejam no<br />

idioma português. Os passos envolvidos no processamento dos documentos são <strong>de</strong>scritos a<br />

seguir.<br />

1. Limpeza dos índices: no caso <strong>de</strong> existência <strong>de</strong> índices antigos é feita uma limpeza na<br />

estrutura, pois a cada processo <strong>de</strong> mineração <strong>de</strong> texto é feita uma releitura <strong>de</strong> toda a<br />

base <strong>de</strong> textos. O tempo <strong>de</strong> processamento está diretamente relacionado ao tamanho<br />

da base <strong>de</strong> textos anterior e configuração <strong>de</strong> hardware/software que se está utilizando.<br />

2. Leitura das stopwords: neste passo ocorre a leitura <strong>de</strong> todos os documentos existentes<br />

na base <strong>de</strong> textos. O tempo para este processamento está diretamente ligado<br />

ao tamanho da base <strong>de</strong> textos e da configuração <strong>de</strong> hardware/software que se está<br />

utilizando.<br />

3. Leitura dos documentos: neste passo ocorre a leitura <strong>de</strong> todos os documentos existentes<br />

na base <strong>de</strong> textos. O tempo para este processamento está diretamente ligado<br />

ao tamanho da base <strong>de</strong> textos e da configuração <strong>de</strong> hardware/software que se está<br />

utilizando. Para cada documento:<br />

4. Limpeza <strong>de</strong> pontos e símbolos: o documento é varrido à procura <strong>de</strong> caracteres que<br />

estão na faixa <strong>de</strong> 1 a 31 e <strong>de</strong> 127 a 191, além da procura pelos símbolos, por exemplo:<br />

\ . ? ; * ( " ) - < > = + / % | & ˆ ˜<br />

5. Limpeza do texto: já com o documento sem pontuação e outros símbolos, todas as<br />

stopwords encontradas no texto são eliminadas. É importante ressaltar a importância<br />

<strong>de</strong> uma boa lista <strong>de</strong> stopwords, pois do contrário, palavras sem significado para<br />

pesquisa serão in<strong>de</strong>xadas.<br />

6. In<strong>de</strong>xação do texto: este é o passo final do algoritmo. Neste ponto, o documento<br />

tornou-se um conjunto finito <strong>de</strong> palavras com significado para nosso contexto (a<br />

pergunta feita pelo aluno). Para realizar a in<strong>de</strong>xação, a primeira ação é verificar<br />

47

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!