05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

1.1.2. Description par étape<br />

Nous allons décrire désormais le processus <strong>de</strong> construction <strong>de</strong> <strong>résumé</strong>s à travers<br />

l’agencement <strong>de</strong>s principales étapes <strong>de</strong> traitements successifs sans entrer pour toutefois<br />

dans le détail <strong>de</strong> chacune (nous les détaillerons dans la secon<strong>de</strong> partie <strong>de</strong> ce chapitre).<br />

L’idée est ici <strong>de</strong> montrer l’ordre <strong>de</strong>s traitements pour donner un aperçu global <strong>de</strong> la<br />

composition du processus résumant qui intègre en particulier l’annotation vue au<br />

précé<strong>de</strong>nt chapitre. Préalablement à la <strong>de</strong>scription qui va suivre, nous indiquons dans la<br />

figure 21 l’emplacement <strong>de</strong>s différentes étapes dans un schéma décrivant le processus<br />

résumant afin d’ai<strong>de</strong>r le lecteur à mieux comprendre.<br />

Etape 1<br />

Extraction<br />

<strong>de</strong> termes<br />

Etape 4<br />

Stratégie<br />

résumante<br />

Carte sémantique<br />

Sortie<br />

Texte<br />

segmenté<br />

Annotation<br />

EXCOM<br />

Texte<br />

annoté<br />

Sélection /<br />

Extraction<br />

Texte<br />

<strong>résumé</strong><br />

Entrée<br />

Etape 2<br />

Etape 3<br />

Nettoyage<br />

segments<br />

peu fiables<br />

Nettoyage<br />

lisibilité<br />

Etape 5<br />

Figure 21 : Synthèse du processus résumant<br />

Entrée du processus : Comme nous l’avons expliqué dans le chapitre 3, le<br />

système <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong> que nous proposons repose sur la plate-forme EXCOM<br />

qui prend en entrée <strong>de</strong>s <strong>textes</strong> <strong>de</strong> types HTML, XML ou TXT. A la suite d’un premier<br />

prétraitement, le texte original (qui peut contenir plus que du simple texte) est mis sous<br />

forme <strong>de</strong> texte brut. A partir <strong>de</strong> ce fichier texte brut, on exécute SEGATEX qui va<br />

segmenter le texte en faisant apparaître la structure physique avec ses différents<br />

composants (phrases, paragraphes, sections, titres), ceci à l’ai<strong>de</strong> <strong>de</strong> règles reposant sur<br />

259

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!