05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

linguistiques (règles et marqueurs linguistiques) et en l’interfaçage entre le système et<br />

l’utilisateur pour la visualisation <strong>de</strong>s <strong>textes</strong> annotés.<br />

Voici quelques chiffres donnant une idée sur le travail réalisé :<br />

- Plus <strong>de</strong> 75 règles d’exploration contextuelle ont été conçues et écrites dans le<br />

système EXCOM pour 15 catégories discursives.<br />

- Pour chaque catégorie discursive, il y a en moyenne entre 5 et 8 fichiers<br />

contenant <strong>de</strong>s marqueurs linguistiques (indicateurs ou indices),<br />

essentiellement sous formes d’expressions régulières.<br />

- Chaque fichier contient en moyenne entre 5 et 20 expressions régulières.<br />

- Une expression régulière exprimant une classe <strong>de</strong> formes linguistiques<br />

contient <strong>de</strong> quelques lexèmes (pour la classe <strong>de</strong>s déictiques temporels par<br />

exemple) jusqu’à plus <strong>de</strong> 200 lexèmes pour certaines (pour la classe <strong>de</strong>s<br />

verbes d’opinion conjugués par exemple), voir l’annexe 1 pour un aperçu <strong>de</strong><br />

<strong>de</strong>ux fichiers contenant <strong>de</strong>s expressions régulières.<br />

Par conséquent, on voit que le nombre <strong>de</strong> formes linguistiques pouvant être<br />

reconnues par les expressions régulières semble assez grand. Pour cela, nous réaliserons<br />

une validation <strong>de</strong> ces ressources dans la fin <strong>de</strong> ce chapitre pour s’assurer <strong>de</strong> leur bonne<br />

construction et <strong>de</strong> leur efficacité à repérer les formes que l’on souhaite initialement<br />

repérer.<br />

4.2. Présentation <strong>de</strong> l’interface <strong>de</strong> visualisation<br />

Afin <strong>de</strong> pouvoir lancer <strong>de</strong>s annotations sur <strong>de</strong>s <strong>textes</strong> et ensuite <strong>de</strong> visualiser les<br />

résultats, nous avons développé une interface graphique en PHP gérant en amont tous<br />

les traitements nécessaires aux tâches <strong>de</strong>mandées par l’utilisateur. Par ailleurs, cette<br />

interface regroupera aussi tous les autres traitements que nous présenterons dans la<br />

suite, comme celui du <strong>résumé</strong> <strong>automatique</strong> sur un ou plusieurs documents, ou encore la<br />

construction <strong>de</strong> fiches <strong>de</strong> synthèse (chapitre 4 et 6).<br />

L’intérêt d’utiliser PHP (avec XHTML et Javascript) est <strong>de</strong> pouvoir fournir une<br />

interface légère et accessible à distance à travers un simple navigateur Web du style<br />

241

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!