INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP
INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP
INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Brasil e Prefeitura do Rio, com patrocínio da Antarctica e promoção do<br />
JORNAL DO BRASIL.<br />
Clair está se preparando desde novembro de 95 para essa maratona e<br />
acredita que se o domingo for muito úmido e quente será ruim para<br />
todos.<br />
Dono do sexto melhor tempo (2h14min10) entre os 12 atletas com<br />
índice, Clair acredita que seus principais adversários serão Valdenor<br />
Pereira dos Santos, Daniel Ferreira e Luís Carlos da Silva.<br />
Na Maratona do Rio, Clair tem uma preocupação extra. "Não quero me<br />
desgastar demais, porque, caso me classifique, tenho de estar em forma<br />
para os Jogos Olímpicos".<br />
Análise do SUMÁRIO1<br />
A partir da leitura do SUMÁRIO1, pode-se notar, inicialmente, que logo no<br />
primeiro parágrafo ocorre um segmento de texto non-sequitur 3 , devido à existência do<br />
pronome demonstrativo ‘Esta’, cujo termo referenciado, existente originalmente,<br />
encontra-se ausente no sumário. De fato, este termo correspondia à primeira sentença do<br />
texto original, que foi omitida do sumário por não conter a palavra-chave CLAIR.<br />
Apesar de haver outros problemas, que se referem sobremaneira a escolhas lexicais que<br />
interferem no estilo do sumário e poderiam ser mais bem elaboradas, o restante do<br />
mesmo apresenta uma boa progressão temática. A ausência de progressão temática<br />
também pode ser notada em alguns segmentos textuais, sendo este um problema que<br />
também pode implicar a ocorrência de textos non-sequitur, conforme apontam<br />
pesquisas anteriores (refira-se à Seção 3).<br />
Comparando o SUMÁRIO1 com o texto original, nota-se que foram retiradas<br />
deste (a) a segunda sentença do primeiro parágrafo; (b) a primeira sentença do segundo<br />
parágrafo; (c) a primeira e a última sentença do terceiro. Com exceção de (a), que<br />
caracteriza o problema de non-sequitur já descrito, os demais parágrafos são<br />
distribuídos da seguinte forma:<br />
1. Segundo parágrafo: da segunda sentença em diante, temos detalhes da primeira.<br />
Logo, os detalhes foram compreensivelmente extraídos do sumário.<br />
2. Terceiro parágrafo: De modo análogo ao anterior, a segunda sentença é<br />
detalhamento da primeira e, logo, também é justificável sua exclusão do sumário.<br />
A última sentença, por sua vez, repete o nome do esportista CLAIR, e,assim,<br />
pode refletir a importância da informação textual. De fato, introduz-se nessa<br />
sentença uma nova informação (e, portanto, a mudança de tópico): a preocupação<br />
extra de CLAIR. Justifica-se, assim, sua inclusão no sumário.<br />
3. Quarto e quinto parágrafos: Totalmente excluídos do sumário, a justificativa se<br />
encontra no fato destes apresentarem informações complementares para a<br />
participação na maratona, sendo que elas não indicam a idéia central do sumário.<br />
Vale notar que essa análise é, de certa forma, subjetiva, podendo haver outros<br />
sumários a partir da escolha de outras palavras-chave igualmente relevantes ou de outras<br />
interpretações para o mesmo texto. Entretanto, ela corrobora critérios de sumarização<br />
3<br />
Textos caracterizados pela ocorrência de “lacunas” de raciocínio, sem garantia de<br />
progressão temática<br />
18