05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

contexte, l’application d’une règle d’exploration contextuelle s’assure bien <strong>de</strong><br />

l’annotation sémantique qu’elle attribue au segment textuel sans risque d’erreurs. Nous<br />

renvoyons au chapitre 5 partie 2.2.1. pour une discussion sur les avantages <strong>de</strong> la<br />

métho<strong>de</strong> d’exploration contextuelle en terme <strong>de</strong> traitement <strong>automatique</strong>, notamment par<br />

rapport à d’autres techniques comme les expressions régulières, ou autres dérivés<br />

(grammaires JAPE [Cunningham 1999], transducteurs, etc.), qui sont plus couramment<br />

employées dans l’annotation <strong>automatique</strong>.<br />

2.2.2. La segmentation <strong>de</strong> <strong>textes</strong><br />

<strong>Le</strong> laboratoire <strong>LaLIC</strong> a conçu un segmenteur textuel SEGATEX ([Mourad 2001])<br />

qui travaille sur la typographie <strong>de</strong>s <strong>textes</strong> pour les segmenter. En comparaison avec<br />

d’autres systèmes ayant la même tâche, le logiciel CORDIAL segmente les <strong>textes</strong> à<br />

partir d’un apprentissage initial sur <strong>de</strong>s corpus <strong>de</strong> langue française (société Synapse<br />

Développement), alors que le logiciel INTEX s’appuie sur l’utilisation d’automates finis<br />

et <strong>de</strong> transducteurs [Silberstein 1997]. A partir du fichier texte brut (Image5) résultant<br />

d’un prétraitement d’un fichier HTML/XML/TXT reçu en entrée du système EXCOM,<br />

SEGATEX renvoie en sortie un fichier en format XML (Image 6) où la structure<br />

physique du texte apparaît sous la forme <strong>de</strong> balises délimitant les différents éléments <strong>de</strong><br />

la structure textuelle (titres, sections, paragraphes et phrases).<br />

Image 5 : Texte brut<br />

113

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!