05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

2.3.5. Conclusion<br />

A partir <strong>de</strong> cette i<strong>de</strong>ntification <strong>de</strong>s segments peu fiables, on s’assure <strong>de</strong> mieux<br />

dégager les segments les plus pertinents. Cependant, ce procédé <strong>de</strong> « nettoyage » <strong>de</strong>s<br />

segments peu fiables par la présence <strong>de</strong> marques linguistiques <strong>de</strong> surface dans les<br />

phrases est <strong>de</strong> nature heuristique. Ce procédé est vali<strong>de</strong> dans la plus gran<strong>de</strong> partie <strong>de</strong>s<br />

cas parce que l’on s’appuie sur <strong>de</strong>s connaissances linguistiques et <strong>de</strong>s emplois<br />

argumentatifs dans les <strong>textes</strong> scientifiques, mais il peut se montrer inefficace dans<br />

certains cas où d’autres possibilités <strong>de</strong> l’argumentation permettent à une phrase dont le<br />

contenu est incertain ou purement illustratif d’être très pertinente. Cependant, étant<br />

donné la difficulté d’une telle tâche, nous en restons à ce procédé suffisamment efficace<br />

pour s’assurer <strong>de</strong> la fiabilité d’un segment sans ambiguïté.<br />

2.4. Hiérarchisation et sélection <strong>de</strong>s segments pour le <strong>résumé</strong><br />

C’est à la suite <strong>de</strong> la phase d’annotation discursive <strong>automatique</strong> (étape 2) que nous<br />

obtenons un texte annoté où nous pourrons alors i<strong>de</strong>ntifier les segments les plus<br />

pertinents. <strong>Le</strong> texte annoté est dans un format XML, où la structure physique et les<br />

informations discursives sont décrites par <strong>de</strong>s balises et <strong>de</strong>s attributs, c’est-à-dire sous la<br />

forme <strong>de</strong> métadonnées superposées au texte.<br />

Nous avons expliqué que la décision d’extraire un segment textuel se faisait<br />

essentiellement à partir <strong>de</strong> son annotation. Cependant, la répartition <strong>de</strong>s annotations en<br />

fonction <strong>de</strong> leur localisation physique dans le texte n’est pas encore faite à la suite <strong>de</strong> la<br />

phase d’annotation, et nous avons dit que ce critère supplémentaire pouvait être très<br />

utile, en plus <strong>de</strong> l’annotation, pour déci<strong>de</strong>r <strong>de</strong> l’extraction d’une phrase pour le <strong>résumé</strong>.<br />

Pour ce faire, nous précisons pour chaque segment annoté sa localisation au sein <strong>de</strong> la<br />

structure physique du texte. Du point <strong>de</strong> vue informatique cela correspond à l’ajout d’un<br />

attribut XML supplémentaire aux balises <strong>de</strong> phrases annotées sémantiquement. Trois<br />

valeurs sont actuellement affectées : <strong>de</strong>but si le segment est dans les premiers 10% <strong>de</strong><br />

phrases du texte, fin si le segment est dans les <strong>de</strong>rniers 10% <strong>de</strong> phrases du texte, et<br />

enfin corps s’il se situe entre les <strong>de</strong>ux. Ces valeurs sont totalement arbitraires, et il est<br />

largement suffisant dans notre cas. Toutefois, il est possible également <strong>de</strong> donner à<br />

287

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!