05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

distinguent comme nous les termes qui viennent du titre en les considérant comme étant<br />

plus importants.<br />

Comme nous l’avons déjà évoqué précé<strong>de</strong>mment dans le cas <strong>de</strong> la position<br />

textuelle, il n’y a pas toujours dans le contexte d’un indicateur un ou plusieurs indices<br />

permettant <strong>de</strong> déterminer la portée d’un segment associé à une catégorie discursive.<br />

Ainsi, tout comme la position textuelle, les termes thématiques peuvent offrir <strong>de</strong>s<br />

indices supplémentaires très utiles pour déterminer la portée du segment au même titre<br />

que pourrait le faire un indice linguistique comme cet article, ou ce chapitre. Nous<br />

avons dit qu’une conclusion ou une récapitulation en fin <strong>de</strong> texte était un bon indice<br />

pour penser que ce type <strong>de</strong> segment porte effectivement sur le texte en entier, ce qui<br />

serait plus difficilement le cas si le segment était en milieu <strong>de</strong> texte. Sur le même<br />

principe, si une conclusion ou une récapitulation comporte l’un <strong>de</strong>s termes les plus<br />

représentatifs du thème présent dans le texte, alors la portée <strong>de</strong> ce segment a <strong>de</strong> gran<strong>de</strong>s<br />

chances <strong>de</strong> porter sur le texte entier.<br />

Nous cherchons pour cela, en plus <strong>de</strong> la présence <strong>de</strong>s marques discursives dans les<br />

phrases, ce que nous avons appelé <strong>de</strong>s termes thématiques, c’est-à-dire les entités qui<br />

correspon<strong>de</strong>nt aux termes les plus représentatifs du sujet (ou thème) principal qui est<br />

contenu dans le texte. L’intérêt <strong>de</strong> les exploiter s’appuie sur le fait que les segments<br />

associés aux catégories les plus pertinentes, comme les présentations thématiques, les<br />

objectifs ou les conclusions, exposent généralement une ou plusieurs propositions en<br />

très forte relation avec le thème principal du texte qui domine l’ensemble <strong>de</strong>s<br />

propositions du texte (ou bien d’une <strong>de</strong> ses parties si c’est un thème lié à un chapitre ou<br />

à une section). <strong>Le</strong>s termes thématiques sont <strong>de</strong> fait très souvent présents dans les<br />

éléments qui constituent ces propositions, car c’est leur présence qui exprime la relation<br />

<strong>de</strong>s segments avec le thème que décrivent ces ces termes.<br />

Concrètement, nous avons décidé <strong>de</strong> retenir comme termes thématiques les entités<br />

nominales contenues dans les titres et les sous-titres majeurs du document, car bien<br />

souvent les termes <strong>de</strong> ce lexique sont réutilisés dans les parties que ces titres annoncent.<br />

C’est leur présence dans les phrases qui relie en gran<strong>de</strong> partie celles-ci à un thème, en<br />

l’occurrence celui <strong>de</strong> la partie thématique où elles s’insèrent. Cependant, si ce lexique<br />

fait partie <strong>de</strong> l’ensemble <strong>de</strong>s termes caractéristiques d’un thème, nous le différencierons<br />

tout <strong>de</strong> même en admettant qu’il est plus fiable qu’un autre ensemble <strong>de</strong> termes<br />

thématiques qui pourraient être obtenus par <strong>de</strong>s métho<strong>de</strong>s statistiques, par exemple, en<br />

267

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!