Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
La rédaction du présent mémoire est pour moi l’occasion d’une pause, urgente et<br />
salutaire, dans le développement du logiciel et dans la course aux applications, pour<br />
reprendre mes interrogations sur théorie linguistique et développement informatique en<br />
ingénierie linguistique.<br />
1.2. Analyse <strong>syntaxique</strong> locale<br />
LEXTER est un logiciel d’extraction de terminologie. Il prend en entrée un corpus de<br />
textes, préalablement étiqueté 4 , puis effectue une extraction de candidats termes<br />
nominaux en deux étapes : (1) découpage, (2) décomposition. Au cours de l’étape de<br />
découpage, LEXTER isole dans la chaîne étiquetée des groupes nominaux maximaux en<br />
repérant des patrons morpho<strong>syntaxique</strong>s de frontières. Il s’agit par exemple des mots de<br />
catégorie Verbe, Pronom, Conjonction de subordination, etc., ou des séquences de<br />
catégories morpho<strong>syntaxique</strong>s, par exemple certaines suites Nom + Préposition ou<br />
Préposition + Déterminant, qui ne peuvent être constituants de termes. Au cours de<br />
l’étape de décomposition, LEXTER analyse les groupes nominaux maximaux dégagés lors<br />
de l’étape de découpage pour les décomposer récursivement de façon binaire en une tête<br />
et une expansion 5 . Par exemple, le groupe nominal maximal pompe de refoulement<br />
rapide est décomposé en une tête, le groupe nominal pompe de refoulement et une<br />
expansion, l’adjectif rapide, et le groupe nominal pompe de refoulement est lui-même<br />
décomposé en une tête, pompe, et une expansion, refoulement. Pour résoudre les<br />
ambiguïtés de rattachement adjectival au sein des groupes nominaux maximaux ou<br />
certaines ambiguïtés de rattachement prépositionnel lors de l’étape de découpage,<br />
LEXTER met en œuvre le principe de l’apprentissage endogène : il acquiert lui-même,<br />
par analyse de configurations non ambiguës au sein corpus en cours de traitement, les<br />
informations lexico-<strong>syntaxique</strong>s qui lui sont nécessaires pour traiter les configurations<br />
ambiguës. Par exemple, LEXTER effectue l’analyse donnée ci-dessus du groupe pompe<br />
de refoulement rapide parce qu’il a repéré dans le corpus des occurrences non ambiguës<br />
des groupes pompe rapide ou pompe de refoulement, et aucune occurrence non ambiguë<br />
de refoulement rapide. De même, c’est parce qu’il aura repéré plusieurs contextes non<br />
ambigus dans lesquels le nom action est construit avec la préposition sur que le logiciel<br />
ne coupera pas à la séquence sur + le dans la phrase « Le système déclenche une action<br />
sur le bouton poussoir », et extraira ainsi le groupe nominal maximal action sur le<br />
bouton poussoir. En revanche, il considérera cette même séquence comme une frontière<br />
dans la phrase « on raccorde le câble d’alimentation sur le coffre de décharge » au motif<br />
qu’il n’aura repéré aucune occurrence non ambiguë de alimentation + sur dans le<br />
corpus.<br />
4 L’étiqueteur utilisé au départ du projet est AlethIPCat de la société GSI-Erli.<br />
5 Je reviens à la fin de la section 1.5 sur les motivations de cette décomposition binaire récursive.<br />
10