13.07.2015 Views

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

• Palavras-chave – informações que caracterizam o conteúdo de uma página;• Título – informações sobre o título de uma página;• Textos destacados – diferentes tipos, tamanhos e estilos de fontes demonstram textosque provavelmente possuem maior importância na descrição da página;• Primeira frase – normalmente fornece informações essenciais para a descrição dapágina.A indexação e formulação de consultas adotam diferentes técnicas para a normalização detextos: tokenization, stopwords e stemming. Para exemplificar essas técnicas, tomemos otexto apresentado na Figura 2-5 como exemplo.Capítulo 1Introdução1.1. A política de revisita é necessária devido à natureza dinâmica da Web.À medida que o rastejador percorre a Web, vários eventos, tais comoinclusões, atualizações e exclusões, modificam os recursos existentes.Figura 2-5 – Exemplo de texto formatado.A técnica de tokenization consiste em dividir o texto em uma seqüência de símbolos, em quecada símbolo é considerado uma palavra. Para tanto, remove a pontuação e caracteresespeciais. Números podem ou não ser incluídos. Em alguns idiomas, tais como o português eo inglês, esta técnica é eficiente e relativamente simples, porém em outros idiomas, como ochinês, este processo torna-se mais complexo. O resultado desta técnica de normalização éuma versão pura de um texto completo. A Figura 2-6 apresenta o texto após a aplicação datécnica de tokenization.capítulo 1 introdução 1 1 a política de revisita é necessária devido ànatureza dinâmica da Web à medida que o rastejador percorre a Web várioseventos tais como inclusões atualizações e exclusões modificam os recursosexistentesFigura 2-6 – Texto após a técnica de tokenization.36

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!