05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

actuellement en cours au laboratoire sur l’annotation <strong>de</strong> la temporalité dans les <strong>textes</strong> et<br />

aussi sur la causalité, il sera possible <strong>de</strong> proposer, comme nous le faisons ici, une<br />

stratégie <strong>de</strong> <strong>résumé</strong> portant sur les <strong>textes</strong> narratifs puisque nous aurons alors les<br />

ressources suffisantes pour leur annotation et pour la prise en compte <strong>de</strong> ses nouveaux<br />

critères.<br />

2. Description technique et informatique du processus<br />

2.1. Remarques préalables<br />

Cette <strong>de</strong>uxième partie va présenter les détails techniques et informatiques liés à<br />

quatre traitements distincts prenant place dans le processus résumant : l’extraction <strong>de</strong>s<br />

termes thématiques (étape 1 du processus, voir partie 1.1.2.), le nettoyage <strong>de</strong>s segments<br />

peu fiables (étape 3), l’application <strong>de</strong> la stratégie résumante avec l’extraction <strong>de</strong>s<br />

phrases pertinentes (étape 4), et enfin le nettoyage final du <strong>résumé</strong> pour améliorer sa<br />

lisibilité (étape 5). Nous renvoyons au chapitre 3 pour une explication technique <strong>de</strong> la<br />

phase d’annotation discursive sur les <strong>textes</strong> (étape 2). Pour terminer, nous montrerons<br />

quelques résultats informatiques afin d’illustrer l’ensemble <strong>de</strong> ce travail, notamment les<br />

interfaces <strong>de</strong> visualisation (qui prennent place dans l’étape 6).<br />

Avant <strong>de</strong> commencer, nous voulons préciser que le programme général <strong>de</strong> <strong>résumé</strong><br />

<strong>automatique</strong>, que nous avons conçu et qui contient tous les traitements évoqués ici, a été<br />

développé en langage PERL. <strong>Le</strong> choix du langage PERL (Pratical Extraction and Report<br />

Language) a été motivé par son efficacité reconnue pour manipuler et traiter le contenu<br />

<strong>de</strong> fichiers <strong>textes</strong> et XML. En effet lors du processus résumant, le contenu textuel du<br />

fichier source est manipulé <strong>de</strong> nombreuse fois, car la construction <strong>automatique</strong> d’un<br />

<strong>résumé</strong> nécessite <strong>de</strong> nombreuses opérations sur celui-ci (recherche <strong>de</strong> marqueurs par<br />

expressions régulières, opérations sur l’arbre XML correspondant à la représentation<br />

physique du texte, etc.). De plus, le langage PERL n’est pas dépendant d’un type <strong>de</strong><br />

système d’exploitation et peut fonctionner parfaitement sur <strong>de</strong>s systèmes Linux, Unix,<br />

ou Windows. <strong>Le</strong> programme général se charge pour l’essentiel <strong>de</strong> la gestion <strong>de</strong>s fichiers<br />

traités (ouverture, écriture, etc.) et du lancement successif <strong>de</strong>s différents traitements.<br />

276

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!