08.05.2013 Views

INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP

INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP

INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Brasil e Prefeitura do Rio, com patrocínio da Antarctica e promoção do<br />

JORNAL DO BRASIL.<br />

Clair está se preparando desde novembro de 95 para essa maratona e<br />

acredita que se o domingo for muito úmido e quente será ruim para<br />

todos.<br />

Dono do sexto melhor tempo (2h14min10) entre os 12 atletas com<br />

índice, Clair acredita que seus principais adversários serão Valdenor<br />

Pereira dos Santos, Daniel Ferreira e Luís Carlos da Silva.<br />

Na Maratona do Rio, Clair tem uma preocupação extra. "Não quero me<br />

desgastar demais, porque, caso me classifique, tenho de estar em forma<br />

para os Jogos Olímpicos".<br />

Análise do SUMÁRIO1<br />

A partir da leitura do SUMÁRIO1, pode-se notar, inicialmente, que logo no<br />

primeiro parágrafo ocorre um segmento de texto non-sequitur 3 , devido à existência do<br />

pronome demonstrativo ‘Esta’, cujo termo referenciado, existente originalmente,<br />

encontra-se ausente no sumário. De fato, este termo correspondia à primeira sentença do<br />

texto original, que foi omitida do sumário por não conter a palavra-chave CLAIR.<br />

Apesar de haver outros problemas, que se referem sobremaneira a escolhas lexicais que<br />

interferem no estilo do sumário e poderiam ser mais bem elaboradas, o restante do<br />

mesmo apresenta uma boa progressão temática. A ausência de progressão temática<br />

também pode ser notada em alguns segmentos textuais, sendo este um problema que<br />

também pode implicar a ocorrência de textos non-sequitur, conforme apontam<br />

pesquisas anteriores (refira-se à Seção 3).<br />

Comparando o SUMÁRIO1 com o texto original, nota-se que foram retiradas<br />

deste (a) a segunda sentença do primeiro parágrafo; (b) a primeira sentença do segundo<br />

parágrafo; (c) a primeira e a última sentença do terceiro. Com exceção de (a), que<br />

caracteriza o problema de non-sequitur já descrito, os demais parágrafos são<br />

distribuídos da seguinte forma:<br />

1. Segundo parágrafo: da segunda sentença em diante, temos detalhes da primeira.<br />

Logo, os detalhes foram compreensivelmente extraídos do sumário.<br />

2. Terceiro parágrafo: De modo análogo ao anterior, a segunda sentença é<br />

detalhamento da primeira e, logo, também é justificável sua exclusão do sumário.<br />

A última sentença, por sua vez, repete o nome do esportista CLAIR, e,assim,<br />

pode refletir a importância da informação textual. De fato, introduz-se nessa<br />

sentença uma nova informação (e, portanto, a mudança de tópico): a preocupação<br />

extra de CLAIR. Justifica-se, assim, sua inclusão no sumário.<br />

3. Quarto e quinto parágrafos: Totalmente excluídos do sumário, a justificativa se<br />

encontra no fato destes apresentarem informações complementares para a<br />

participação na maratona, sendo que elas não indicam a idéia central do sumário.<br />

Vale notar que essa análise é, de certa forma, subjetiva, podendo haver outros<br />

sumários a partir da escolha de outras palavras-chave igualmente relevantes ou de outras<br />

interpretações para o mesmo texto. Entretanto, ela corrobora critérios de sumarização<br />

3<br />

Textos caracterizados pela ocorrência de “lacunas” de raciocínio, sem garantia de<br />

progressão temática<br />

18

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!