23.06.2013 Views

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

La rédaction du présent mémoire est pour moi l’occasion d’une pause, urgente et<br />

salutaire, dans le développement du logiciel et dans la course aux applications, pour<br />

reprendre mes interrogations sur théorie linguistique et développement informatique en<br />

ingénierie linguistique.<br />

1.2. Analyse <strong>syntaxique</strong> locale<br />

LEXTER est un logiciel d’extraction de terminologie. Il prend en entrée un corpus de<br />

textes, préalablement étiqueté 4 , puis effectue une extraction de candidats termes<br />

nominaux en deux étapes : (1) découpage, (2) décomposition. Au cours de l’étape de<br />

découpage, LEXTER isole dans la chaîne étiquetée des groupes nominaux maximaux en<br />

repérant des patrons morpho<strong>syntaxique</strong>s de frontières. Il s’agit par exemple des mots de<br />

catégorie Verbe, Pronom, Conjonction de subordination, etc., ou des séquences de<br />

catégories morpho<strong>syntaxique</strong>s, par exemple certaines suites Nom + Préposition ou<br />

Préposition + Déterminant, qui ne peuvent être constituants de termes. Au cours de<br />

l’étape de décomposition, LEXTER analyse les groupes nominaux maximaux dégagés lors<br />

de l’étape de découpage pour les décomposer récursivement de façon binaire en une tête<br />

et une expansion 5 . Par exemple, le groupe nominal maximal pompe de refoulement<br />

rapide est décomposé en une tête, le groupe nominal pompe de refoulement et une<br />

expansion, l’adjectif rapide, et le groupe nominal pompe de refoulement est lui-même<br />

décomposé en une tête, pompe, et une expansion, refoulement. Pour résoudre les<br />

ambiguïtés de rattachement adjectival au sein des groupes nominaux maximaux ou<br />

certaines ambiguïtés de rattachement prépositionnel lors de l’étape de découpage,<br />

LEXTER met en œuvre le principe de l’apprentissage endogène : il acquiert lui-même,<br />

par analyse de configurations non ambiguës au sein corpus en cours de traitement, les<br />

informations lexico-<strong>syntaxique</strong>s qui lui sont nécessaires pour traiter les configurations<br />

ambiguës. Par exemple, LEXTER effectue l’analyse donnée ci-dessus du groupe pompe<br />

de refoulement rapide parce qu’il a repéré dans le corpus des occurrences non ambiguës<br />

des groupes pompe rapide ou pompe de refoulement, et aucune occurrence non ambiguë<br />

de refoulement rapide. De même, c’est parce qu’il aura repéré plusieurs contextes non<br />

ambigus dans lesquels le nom action est construit avec la préposition sur que le logiciel<br />

ne coupera pas à la séquence sur + le dans la phrase « Le système déclenche une action<br />

sur le bouton poussoir », et extraira ainsi le groupe nominal maximal action sur le<br />

bouton poussoir. En revanche, il considérera cette même séquence comme une frontière<br />

dans la phrase « on raccorde le câble d’alimentation sur le coffre de décharge » au motif<br />

qu’il n’aura repéré aucune occurrence non ambiguë de alimentation + sur dans le<br />

corpus.<br />

4 L’étiqueteur utilisé au départ du projet est AlethIPCat de la société GSI-Erli.<br />

5 Je reviens à la fin de la section 1.5 sur les motivations de cette décomposition binaire récursive.<br />

10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!