05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

la typographie <strong>de</strong>s <strong>textes</strong>. On obtient alors un fichier textuel segmenté, qui va être<br />

exploité dans les étapes suivantes dans le but final <strong>de</strong> construire un <strong>résumé</strong>.<br />

1 ère étape : Extraction <strong>de</strong>s termes thématiques. On repère et extrait les termes<br />

thématiques, c’est-à-dire <strong>de</strong>s termes représentatifs du sujet principal présent dans le<br />

document (ici les noms communs et les noms propres). Nous les extrayons dans les<br />

titres et sous-titres du document en partant du principe que ceux-ci contiennent ces<br />

termes en raison <strong>de</strong> leur fonction textuelle d’introducteur <strong>de</strong> référents [Jacques 2005].<br />

2 ème étape : Annotation <strong>automatique</strong> du texte en fonction <strong>de</strong>s catégories<br />

discursives pertinentes pour le <strong>résumé</strong>. <strong>Le</strong> moteur EXCOM repère les différents<br />

marqueurs linguistiques qui peuvent être présents dans le texte et y applique <strong>de</strong>s règles<br />

d’exploration contextuelle afin <strong>de</strong> pouvoir annoter les segments textuels. On note qu’il<br />

est possible que les règles exploitent (comme indices notamment) les termes<br />

thématiques extraits dans la première étape. On dispose alors à la suite <strong>de</strong> cette étape<br />

d’un texte enrichi par <strong>de</strong>s annotations sémantiques.<br />

3 ème étape : Nettoyage <strong>de</strong>s segments jugés peu fiables quant à leur pertinence. A<br />

la suite <strong>de</strong> la phase d’annotation précé<strong>de</strong>nte, on effectue un nettoyage <strong>de</strong>s différents<br />

segments textuels du texte qui sont jugés peu fiables et a priori non pertinents pour la<br />

constitution <strong>de</strong>s <strong>résumé</strong>s. Des règles d’exploration contextuelle permettent alors <strong>de</strong> les<br />

repérer et <strong>de</strong> les annoter. On peut alors retirer tous les segments annotés par <strong>de</strong> telles<br />

règles, tels que les exemples, ceux dont le contenu n’est correct que dans certaines<br />

conditions, et ceux dont le contenu n’est pas soutenu explicitement par l’auteur.<br />

4 ème étape : Application d’une stratégie résumante. On évalue la pertinence <strong>de</strong><br />

toutes les phrases annotées du texte en fonction <strong>de</strong> leur catégorie discursive<br />

correspondante, leur position dans la structure textuelle, et <strong>de</strong> la présence ou non dans<br />

celles-ci <strong>de</strong> termes thématiques. Comme nous l’avons dit, il existe <strong>de</strong>s catégories<br />

discursives plus pertinentes que d’autres, nous les trions donc suivant une certaine<br />

hiérarchie qui dépend du type <strong>de</strong> <strong>résumé</strong> que l’on cherche à construire. La position <strong>de</strong> la<br />

phrase dans la structure textuelle <strong>de</strong>vient ici un critère d’évaluation complémentaire<br />

associé à la valeur <strong>de</strong> l’annotation. Enfin, nous regardons aussi la présence ou non <strong>de</strong><br />

termes thématiques dans la phrase. Si elle en comporte, alors on peut la rattacher au<br />

sujet principal du document ou <strong>de</strong> l’une <strong>de</strong> ses sous-parties. Précisons néanmoins que<br />

c’est l’annotation attribuée à la phrase qui correspond au principal critère d’évaluation<br />

<strong>de</strong> sa pertinence pour le <strong>résumé</strong>. La position dans la structure textuelle et la présence <strong>de</strong><br />

260

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!