05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

3.3. Catégories discursives et règles d’exploration contextuelle<br />

3.3.1. Remarques préalables<br />

Dans cette partie, nous allons décrire l’ensemble <strong>de</strong>s catégories discursives que<br />

nous retenons au sein <strong>de</strong> notre travail sur l’annotation <strong>de</strong>s <strong>textes</strong> scientifiques. Nous<br />

proposerons pour chacune une définition simple et générale, ceci afin <strong>de</strong> couvrir un<br />

ensemble large <strong>de</strong> phrases pouvant y répondre, plutôt qu’une définition complexe (ou<br />

trop rigi<strong>de</strong>) pouvant apporter une difficulté dans l’estimation <strong>de</strong>s phrases prétendantes.<br />

Pour chacune <strong>de</strong>s catégories, nous présenterons les principaux ensembles <strong>de</strong> formes<br />

linguistiques auxquels appartiennent les marqueurs (les indicateurs et les indices) sans<br />

développer toutefois toutes ces formes (<strong>de</strong>ux ensembles complets <strong>de</strong> marqueurs sont<br />

fournis en exemple dans l’annexe 1), puis nous dévoilerons les règles et les annotations<br />

correspondantes. Nous précisons une fois <strong>de</strong> plus que les règles qui sont exposées ici<br />

correspon<strong>de</strong>nt à celles que nous avons dégagées principalement pour la tâche du <strong>résumé</strong><br />

<strong>automatique</strong> (chapitre 4), et pour la fouille textuelle sémantique avec les fiches <strong>de</strong><br />

synthèse (chapitre 6) dans les <strong>textes</strong> scientifiques.<br />

Nous décrirons ici les ensembles <strong>de</strong> formes linguistiques à partir d’expressions<br />

régulières assez simples. Elles permettent d’indiquer formellement les agencements au<br />

sein d’une classe <strong>de</strong> formes entre les différentes catégories d’éléments (lexèmes) qui la<br />

compose. L’opérateur binaire + renvoie à la concaténation entre <strong>de</strong>ux catégories <strong>de</strong><br />

lexèmes avec espace (pronom_possessif + terme_objectif génère la forme le but) ou<br />

sans espace (verbe_<strong>de</strong>_presentation + conjugaison1 génère la forme présenterai).<br />

L’opérateur binaire | correspond à une disjonction entre <strong>de</strong>ux éléments. <strong>Le</strong>s parenthèses<br />

délimitent quant à elles <strong>de</strong>s éléments facultatifs dans une expression régulière<br />

(équivalent <strong>de</strong> l’opérateur unaire ? dans les expressions régulières en informatique).<br />

136

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!