Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Un</strong>iversité Toulouse-Le Mirail<br />
<strong>Un</strong> <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong> : <strong>SYNTEX</strong><br />
Didier BOURIGAULT<br />
Laboratoire CLLE-<strong>ERSS</strong> (UMR 5263)<br />
CNRS & <strong>Un</strong>iversité Toulouse-Le Mirail<br />
Mémoire présenté pour l’obtention d’une<br />
Habilitation à Diriger les Recherches<br />
Spécialité : sciences du langage<br />
Le samedi 9 juin 2007<br />
M. B. HABERT, Professeur, <strong>Un</strong>iversité de Paris 10 (rapporteur)<br />
M. S. KAHANE, Professeur, <strong>Un</strong>iversité de Paris 10 (rapporteur)<br />
Mme M.-P. PERY-WOODLEY, Professeure, <strong>Un</strong>iversité de Toulouse Le Mirail<br />
(rapporteur)<br />
M. J.-P. CHANOD, Manager, Xerox Research Centre Europe<br />
M. J. VERONIS, Professeur, <strong>Un</strong>iversité d’Aix-en-Provence<br />
M. B. VICTORRI, Directeur de recherche, Ecole Normale Supérieure<br />
1
Résumé<br />
Dans ce mémoire, rédigé pour l’obtention de l’Habilitation à Diriger les Recherches, je<br />
présente les recherches que j’ai menées ces dix dernières années autour de la réalisation<br />
logiciel <strong>SYNTEX</strong>, un <strong>analyseur</strong> <strong>syntaxique</strong> automatique du français. Dans la première<br />
partie du mémoire, je retrace le chemin qui m’a conduit de LEXTER, un <strong>analyseur</strong><br />
<strong>syntaxique</strong> robuste dédié au repérage des syntagmes nominaux terminologiques dans les<br />
corpus spécialisés, à <strong>SYNTEX</strong>, un <strong>analyseur</strong> à plus large couverture. La deuxième partie<br />
du mémoire est consacrée à un panorama historique du domaine du Traitement<br />
Automatique des Langues, dans lequel je montre que les recherches dans ce domaine ont<br />
toujours été partagées entre les travaux théoriques et les applications à visée industrielle.<br />
Ce panorama est suivi d'une revue de travaux en analyse <strong>syntaxique</strong> robuste, qui<br />
identifie une lignée dans laquelle s'inscrivent mes propres travaux de recherche. Dans la<br />
troisième partie, je présente d’abord les concepts clés qui ont guidé la conception de<br />
l'<strong>analyseur</strong> <strong>SYNTEX</strong>, en défendant l’idée que l'analyse <strong>syntaxique</strong> automatique peut être<br />
vue comme un problème de reconnaissance de formes, représentées par des structures de<br />
dépendance <strong>syntaxique</strong>. Je décris ensuite en détail l’architecture et les principes de<br />
fonctionnement de <strong>SYNTEX</strong>, qui est un <strong>analyseur</strong> procédural à cascades. Je montre enfin<br />
comment, sur le plan épistémologique, <strong>SYNTEX</strong> peut être caractérisé comme un objet<br />
technique, au sens de la philosophie des techniques de G. Simondon, en tant que ses<br />
progrès se développent selon les deux dimensions de l'adaptation et de l'auto corrélation.<br />
3
Table des matières<br />
Chapitre 1 De LEXTER à <strong>SYNTEX</strong> : ruptures, continuités, évolutions ................ 7<br />
1.1. Recherches en ingénierie linguistique............................................................... 8<br />
1.2. Analyse <strong>syntaxique</strong> locale............................................................................... 10<br />
1.3. La fonction initiale de LEXTER : extraire des étiquettes de concepts .............. 12<br />
1.4. LEXTER à l’épreuve des usages : revirement théorique................................... 13<br />
1.5. <strong>Un</strong> outil d’aide à l’analyse sémantique de textes spécialisés .......................... 16<br />
1.6. <strong>Un</strong> outil d’identification de contextes <strong>syntaxique</strong>s pour l’analyse<br />
distributionnelle .......................................................................................................... 19<br />
1.7. Bilan : LEXTER a servi, vive <strong>SYNTEX</strong>.............................................................. 22<br />
Chapitre 2 Etat de l’art en analyse <strong>syntaxique</strong> robuste .................................... 25<br />
2.1. L’analyse <strong>syntaxique</strong> automatique au sein du TAL ........................................ 25<br />
2.2. Panorama historique du Traitement Automatique des Langues...................... 27<br />
2.2.1. Les débuts de la traduction automatique ................................................. 27<br />
2.2.2. L’avènement de la « computational linguistics ».................................... 32<br />
2.2.3. Le « tournant déclaratif » et les grammaires d’unification...................... 35<br />
2.2.4. Le Natural Language Processing............................................................. 38<br />
2.3. Travaux en analyse <strong>syntaxique</strong> robuste........................................................... 42<br />
2.3.1. La robustesse en analyse <strong>syntaxique</strong>....................................................... 42<br />
2.3.2. L’<strong>analyseur</strong> FULCRUM de P. S. Garvin.................................................... 45<br />
2.3.3. L’<strong>analyseur</strong> du projet TDAP................................................................... 46<br />
2.3.4. L’<strong>analyseur</strong> de F. Debili.......................................................................... 48<br />
2.3.5. Le projet PLNLP..................................................................................... 50<br />
2.3.6. L’analyse par chunks de S. Abney .......................................................... 53<br />
2.3.7. L’<strong>analyseur</strong> 98 de J. Vergne.................................................................... 58<br />
2.3.8. L’analyse <strong>syntaxique</strong> robuste selon J. P. Chanod.................................... 61<br />
2.3.9. Bilan : une lignée .................................................................................... 65<br />
Chapitre 3 Description de l’<strong>analyseur</strong> <strong>SYNTEX</strong>.................................................. 67<br />
3.1. Principes de base............................................................................................. 67<br />
3.1.1. Analyseur <strong>syntaxique</strong> <strong>opérationnel</strong> ......................................................... 67<br />
3.1.2. <strong>Un</strong> problème de reconnaissance de formes ............................................. 68<br />
3.1.3. Fonctionnement simplifié........................................................................ 71<br />
3.1.4. Architecture............................................................................................. 74<br />
3.1.5. Algorithmes de reconnaissance............................................................... 76<br />
5
3.2. Description des modules ................................................................................. 77<br />
3.2.1. Enchaînement des modules de reconnaissance ....................................... 77<br />
3.2.2. Formalisation du parcours....................................................................... 78<br />
3.2.3. Les relations locales ................................................................................ 84<br />
3.2.4. Coordination............................................................................................ 89<br />
3.2.5. Objet et attribut ....................................................................................... 97<br />
3.2.6. Sujet ...................................................................................................... 101<br />
3.2.7. Les relations ambiguës : apprentissage endogène ................................. 106<br />
3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation 109<br />
3.2.9. Antécédence relative ............................................................................. 111<br />
3.2.10. Attachement des prépositions................................................................ 114<br />
3.2.11. Attachement des adjectifs ..................................................................... 120<br />
3.2.12. Procédure de désambiguïsation globale ................................................ 121<br />
3.2.13. Analyse profonde .................................................................................. 123<br />
3.2.14. Evaluation ............................................................................................. 126<br />
3.3. Discussion ..................................................................................................... 131<br />
3.3.1. Situation par rapport au paradigme formel............................................ 131<br />
3.3.2. <strong>SYNTEX</strong>, un « objet technique » ............................................................ 137<br />
3.3.3. Savoirs................................................................................................... 144<br />
6
Chapitre 1<br />
De LEXTER à <strong>SYNTEX</strong> : ruptures,<br />
continuités, évolutions<br />
Dans ce chapitre, je retrace le chemin qui m’a conduit de LEXTER à <strong>SYNTEX</strong>. La période<br />
couverte s’étend de juin 1994, date de la soutenance de ma thèse sur LEXTER, à<br />
l’automne 1999, quand je décide à mon arrivée dans l’Equipe de Recherches en Syntaxe<br />
et Sémantique de Toulouse, de me lancer, avec C. Fabre, dans la réalisation d’un nouvel<br />
<strong>analyseur</strong> <strong>syntaxique</strong>. Cette période m’a vu changer radicalement de position sur un<br />
certain nombre de points, techniques, méthodologiques ou théoriques, et maintenir mes<br />
convictions sur d’autres. Ce sont ces ruptures et ces continuités que je tente de mettre en<br />
évidence ici. Je reste fidèle à une approche ingénierique des recherches en Traitement<br />
Automatique des Langues (section 1.1). Sur le plan de la couverture, LEXTER réalise une<br />
analyse <strong>syntaxique</strong> locale et partielle, dédiée au repérage de syntagmes nominaux à<br />
allure dénominative (section 1.2), alors que <strong>SYNTEX</strong> est un <strong>analyseur</strong> <strong>syntaxique</strong> de<br />
phrase. La principale évolution concerne la conception de l’utilisation de l’<strong>analyseur</strong> :<br />
LEXTER est conçu au départ comme un outil d’extraction de « candidats termes », vus<br />
comme des étiquettes de concepts, pour l’élaboration ou l’enrichissement de thesaurus<br />
(section 1.3). Les expériences d’utilisation de LEXTER dans des contextes d’usages<br />
diversifiés me poussent à changer radicalement mes appuis théoriques : j’abandonne les<br />
postulats de la doctrine terminologique classique pour m’inspirer de la sémantique<br />
interprétative de F. Rastier (section 1.4). La nécessité de définir un cadre<br />
méthodologique cohérent pour l’utilisation de LEXTER m’amène à le présenter non plus<br />
comme un simple pourvoyeur d’étiquettes de concepts, mais comme un outil d’aide à<br />
l’interprétation de textes et à la modélisation des connaissances (section 1.5). <strong>Un</strong>e<br />
seconde rupture avec la fonction initiale de LEXTER se produit quand différentes<br />
expériences montrent l’utilité des analyses <strong>syntaxique</strong>s de groupes nominaux produites<br />
par LEXTER comme entrées d’outils d’analyse distributionnelle (section 1.6). <strong>Un</strong> bilan<br />
rétrospectif de ce chemin mouvementé éclaire les raisons pour lesquelles je décide fin<br />
1999 de m’attaquer la réalisation d’un nouvel <strong>analyseur</strong> <strong>syntaxique</strong> à la couverture et<br />
aux fonctions élargies (section 1.7).<br />
7
1.1. Recherches en ingénierie linguistique<br />
J’ai effectué ma thèse dans un contexte industriel, à la Direction des Etudes et<br />
Recherches (DER) d’EDF, au sein du service Informatique et Mathématiques<br />
Appliquées (septembre 1990-juin 1994) 1 . Le sujet de recherche avait été déterminé suite<br />
à la question précise et concrète adressée par les responsables du Service Information,<br />
Prospective et Normalisation de la DER à leur collègues du service Informatique et<br />
Mathématiques Appliquées : comment enrichir et maintenir à jour le thesaurus<br />
électronique utilisé par le système d’indexation automatique de la DER. J’ai été<br />
d’emblée plongé dans le contexte d’une recherche guidée par un problème à résoudre.<br />
Ingénieur de formation, et après trois années d’études en linguistique théorique et<br />
formelle à l’<strong>Un</strong>iversité Paris VII, je n’ai pas été rebuté par ces conditions de travail, que<br />
j’ai toujours considérées comme stimulantes 2 . Au long de mon parcours de chercheur, de<br />
la DER d’EDF au CNRS, cette « obligation de résultats », contrainte subie et acceptée au<br />
départ de ma recherche, est devenue une dimension constitutive assumée de ma<br />
conception du travail de chercheur en Traitement Automatique des Langues (TAL).<br />
Dans le paysage de la recherche en TAL, marqué par « la cohabitation paradoxale et<br />
nécessaire des recherches théoriques et des applications à visée industrielle » (Cori &<br />
Léon, 2002), je revendique une démarche ingénierique, où la définition du programme<br />
de recherche est, pour partie, liée à l’identification d’applications cibles ou de problèmes<br />
concrets, et où la validation des résultats passe par la confrontation des outils réalisés<br />
avec des contextes d’usages aussi réels que possible.<br />
Ce parti pris d’une recherche située en ingénierie linguistique est clairement assumé et<br />
affiché dans ma thèse soutenue en juin 1994. Il est révélé par l’architecture même du<br />
mémoire, et en particulier par les choix concernant la traditionnelle partie « état de<br />
l’art ». Le premier chapitre est consacré à la présentation des principes de base du<br />
logiciel. Il commence par l’énoncé du problème à résoudre, à savoir la constitution et<br />
l’enrichissement de thesaurus, et par la présentation de la solution visée : la réalisation<br />
d’un logiciel d’extraction de terminologie, prenant en entrée un corpus étiqueté portant<br />
sur un domaine spécialisé, et effectuant une analyse <strong>syntaxique</strong> pour extraire des<br />
syntagmes nominaux susceptibles de représenter les concepts du domaine. Pour la mise<br />
en contexte de la recherche, plutôt que d’inscrire mon travail dans un champ particulier<br />
de la linguistique ou du Traitement Automatique des Langues, je choisis de le situer en<br />
évoquant la « demande », c’est-à-dire les domaines d’application de la terminologie<br />
(traduction automatique, informatique documentaire, gestion de la connaissance). En<br />
restant dans la même veine « génie logiciel », je définis ensuite un cahier des charges<br />
minimal pour la réalisation du logiciel en imposant deux contraintes : généralité – le<br />
1 Je dois beaucoup à Gérard Hatabian, alors chef du groupe Statistiques, Optimisation, Aide à la Décision, qui<br />
m’a fait confiance à ce moment crucial de mon parcours professionnel.<br />
2 Il faut bien reconnaître qu’à cette époque la Direction des Etudes et Recherches d’EDF constituait un lieu<br />
extrêmement favorable et confortable pour des recherches à visée applicatives certes, mais avec une pression<br />
quant aux résultats beaucoup moindre que dans les entreprises industrielles du secteur privé.<br />
8
logiciel doit être capable de traiter des corpus de domaines quelconques, et robustesse –<br />
le logiciel doit être capable de traiter des corpus de taille importante dans des temps<br />
raisonnables. C’est à la fin de ce premier chapitre que se glisse une discussion<br />
bibliographique sur les techniques de Traitement Automatique des Langues, dans<br />
laquelle je décris en détail et j’évalue par rapport à mes propres choix de conception<br />
deux séries de travaux : ceux de F. Debili d’une part, et ceux de S. David et P. Plante<br />
d’autre part. Le tout en une douzaine de pages. La « vraie » partie état de l’art est placée<br />
dans le dernier chapitre (chapitre 6). J’y expose un état de l’art très complet et détaillé<br />
(une soixantaine de pages) sur la problématique de l’acquisition des connaissances à<br />
partir de textes, domaine d’application que j’ai choisi pour le logiciel. Je présente,<br />
décortique et critique un bon nombre de travaux en acquisition des connaissances à partir<br />
de textes, et je propose en conclusion une typologie des outils d’analyse de textes pour<br />
l’acquisition des connaissances.<br />
Ce rapide retour en arrière sur l’architecture de mon mémoire de thèse révèle bien ma<br />
volonté de valoriser ma recherche selon le point de vue de l’utilisation de LEXTER, et<br />
donc de sa validation, plutôt que sur sa conception, en négligeant de me situer, dans le<br />
domaine du TAL, par rapport aux travaux sur l’analyse <strong>syntaxique</strong> automatique 3 . En ce<br />
qui concerne ma position par rapport aux théories et travaux en linguistique, je fais<br />
référence dans ma thèse à la Théorie Générale de la Terminologie et à certains linguistes<br />
reconnus (Benveniste, Guilbert). Je peux dire maintenant que ce positionnement est un<br />
habillage rapidement cousu au moment de la rédaction de la thèse pour justifier des<br />
choix de conception et d’implémentation que j’avais effectués sur des bases entièrement<br />
pragmatiques.<br />
En 1999, quand j’attaque la conception de l’<strong>analyseur</strong> <strong>syntaxique</strong> <strong>SYNTEX</strong>, je suis bien<br />
décidé à problématiser enfin la distance entre les théories linguistiques et la conception<br />
d’un <strong>analyseur</strong> <strong>opérationnel</strong>. Au moment où nous commençons à travailler sur ce nouvel<br />
<strong>analyseur</strong>, C. Fabre et moi rédigeons, pour un numéro spécial des Cahiers de Grammaire<br />
sur « Sémantique et corpus », un article qui constitue l’acte de baptême de <strong>SYNTEX</strong> et<br />
qui restera pendant plusieurs années sa seule référence bibliographique (Bourigault et<br />
Fabre, 2000). Dans cet article, j’amorce une réflexion sur les rapports entre certains des<br />
choix méthodologiques effectués pour le développement d’un <strong>analyseur</strong> <strong>syntaxique</strong><br />
<strong>opérationnel</strong> et certaines des positions théoriques défendues par J.-C. Milner dans son<br />
Introduction à une science du langage (Milner, 1999). Mais une fois la rédaction de<br />
l’article achevée, je me plonge à nouveau dans les développements informatiques,<br />
pendant 5 années, période au bout de laquelle est achevée une première version stable de<br />
l’<strong>analyseur</strong>.<br />
3 Cette disproportion entre une étude bibliographique hypertrophiée sur l’acquisition des connaissances à partir<br />
de textes et une discussion relativement légère sur les techniques de traitement automatique des langues n’a pas<br />
manqué de surprendre Jean Véronis, qui écrit dans son rapport sur la thèse : « J’ai été surpris tout d’abord par<br />
la place de cette étude qui constitue en quelque sorte un état de l’art, et il m’a semblé qu’elle aurait mieux eu<br />
sa place au début du mémoire, de façon à ce que l’exposé s’appuie sur elle. Mais il est vrai qu’elle ne porte<br />
pas exactement sur le thème général de la thèse, mais sur le seul aspect particulier de l’acquisition des<br />
connaissances. On peut alors se demander pourquoi une bibliographie si élaborée sur ce thème et pas sur le<br />
thème central de la thèse. »<br />
9
La rédaction du présent mémoire est pour moi l’occasion d’une pause, urgente et<br />
salutaire, dans le développement du logiciel et dans la course aux applications, pour<br />
reprendre mes interrogations sur théorie linguistique et développement informatique en<br />
ingénierie linguistique.<br />
1.2. Analyse <strong>syntaxique</strong> locale<br />
LEXTER est un logiciel d’extraction de terminologie. Il prend en entrée un corpus de<br />
textes, préalablement étiqueté 4 , puis effectue une extraction de candidats termes<br />
nominaux en deux étapes : (1) découpage, (2) décomposition. Au cours de l’étape de<br />
découpage, LEXTER isole dans la chaîne étiquetée des groupes nominaux maximaux en<br />
repérant des patrons morpho<strong>syntaxique</strong>s de frontières. Il s’agit par exemple des mots de<br />
catégorie Verbe, Pronom, Conjonction de subordination, etc., ou des séquences de<br />
catégories morpho<strong>syntaxique</strong>s, par exemple certaines suites Nom + Préposition ou<br />
Préposition + Déterminant, qui ne peuvent être constituants de termes. Au cours de<br />
l’étape de décomposition, LEXTER analyse les groupes nominaux maximaux dégagés lors<br />
de l’étape de découpage pour les décomposer récursivement de façon binaire en une tête<br />
et une expansion 5 . Par exemple, le groupe nominal maximal pompe de refoulement<br />
rapide est décomposé en une tête, le groupe nominal pompe de refoulement et une<br />
expansion, l’adjectif rapide, et le groupe nominal pompe de refoulement est lui-même<br />
décomposé en une tête, pompe, et une expansion, refoulement. Pour résoudre les<br />
ambiguïtés de rattachement adjectival au sein des groupes nominaux maximaux ou<br />
certaines ambiguïtés de rattachement prépositionnel lors de l’étape de découpage,<br />
LEXTER met en œuvre le principe de l’apprentissage endogène : il acquiert lui-même,<br />
par analyse de configurations non ambiguës au sein corpus en cours de traitement, les<br />
informations lexico-<strong>syntaxique</strong>s qui lui sont nécessaires pour traiter les configurations<br />
ambiguës. Par exemple, LEXTER effectue l’analyse donnée ci-dessus du groupe pompe<br />
de refoulement rapide parce qu’il a repéré dans le corpus des occurrences non ambiguës<br />
des groupes pompe rapide ou pompe de refoulement, et aucune occurrence non ambiguë<br />
de refoulement rapide. De même, c’est parce qu’il aura repéré plusieurs contextes non<br />
ambigus dans lesquels le nom action est construit avec la préposition sur que le logiciel<br />
ne coupera pas à la séquence sur + le dans la phrase « Le système déclenche une action<br />
sur le bouton poussoir », et extraira ainsi le groupe nominal maximal action sur le<br />
bouton poussoir. En revanche, il considérera cette même séquence comme une frontière<br />
dans la phrase « on raccorde le câble d’alimentation sur le coffre de décharge » au motif<br />
qu’il n’aura repéré aucune occurrence non ambiguë de alimentation + sur dans le<br />
corpus.<br />
4 L’étiqueteur utilisé au départ du projet est AlethIPCat de la société GSI-Erli.<br />
5 Je reviens à la fin de la section 1.5 sur les motivations de cette décomposition binaire récursive.<br />
10
Le concept fondateur de LEXTER est celui de frontière. Dès le début de ma réflexion sur<br />
une méthode d’identification de termes dans des corpus, j’ai eu à ma disposition un<br />
étiqueteur, et l’observation de corpus de test étiquetés m’a guidé vers l’idée d’une<br />
extraction de groupes nominaux maximaux par repérage de marqueurs de frontière.<br />
Pourquoi avoir choisi une méthode « en négatif », par patrons de frontière, plutôt qu’une<br />
méthode beaucoup plus classique par patrons de termes (Nom Adjectif, Nom Prep Nom,<br />
etc.) ? Sans doute parce que le premier corpus sur lequel j’ai travaillé avait cette<br />
particularité de regorger de syntagmes nominaux extraordinairement complexes, avec de<br />
magnifiques enchâssements (par exemple : amélioration des connaissances actuelles sur<br />
les propriétés électriques et mécaniques des accéléromètres à fibre otique). Ce corpus de<br />
200 000 mots était constitué de textes rédigés par les ingénieurs de la DER qui<br />
décrivaient leurs thèmes et actions de recherche pour l’année à venir. Devant la diversité<br />
et la complexité des groupes nominaux utilisés pour nommer ces thèmes et actions, il<br />
m’est apparu plus facile de travailler dans un premier temps sur la caractérisation des<br />
limites extérieures de ces groupes que sur celle de leur structure interne. Dans une<br />
perspective de prototypage rapide, la mise au point d’une liste initiale de patrons de<br />
frontière m’est apparue chose aisée. <strong>Un</strong>e première version satisfaisante du module<br />
découpage a été prête assez vite. Comme prévu, les structures des séquences isolées à<br />
l’issue de la phase de découpage étaient très complexes et diversifiées. Pour extraire des<br />
sous-séquences, qui avaient plus de chances d’être des termes du domaine que les<br />
séquences maximales, je me suis lancé dans la mise au point des règles de<br />
décomposition. J’ai adopté une approche énumérative, totalement inductive, basée sur<br />
l’observation de ces syntagmes nominaux maximaux. En simplifiant, pour chaque motif<br />
possible de syntagme nominal maximal, décrit en terme de succession de catégories<br />
morpho<strong>syntaxique</strong>s (noms, adjectifs, participes passés, prépositions, adverbes,<br />
déterminants), j’ai construit une règle du module de décomposition, qui indique quels<br />
sont les constituants à extraire, ainsi que, dans le cas d’une ambiguïté de rattachement<br />
adjectival, quels sont les groupes dont il faut chercher des occurrences non ambiguës.<br />
Dans un premier temps, les règles énuméraient les sous-groupes à extraire, sans produire<br />
d’analyse en Tête et Expansion. J’ai introduit cette analyse dans un second temps,<br />
d’abord pour faciliter la navigation dans l’interface de consultation des résultats<br />
(section 1.5). <strong>Un</strong>e des grandes richesses de LEXTER est la connaissance accumulée dans<br />
les dizaines de règles du module décomposition.<br />
Pour qualifier le type d’analyse effectuée par LEXTER, j’ai parlé d’« analyse <strong>syntaxique</strong><br />
locale » (Bourigault, 1993). Cette mention concerne l’analyse effectuée par le module de<br />
découpage, qui s’appuie sur des patrons catégoriels de faible empan (séquences d’une ou<br />
deux, voire trois, catégories) pour extraire des syntagmes nominaux <strong>syntaxique</strong>ment<br />
valides 6 . Dans ma thèse, je justifie le non recours à une analyse <strong>syntaxique</strong> globale des<br />
phrases de la façon suivante : (1) mon objectif est limité à l’identification de syntagmes<br />
6 Alors que le module de décomposition, lui, met en œuvre une analyse <strong>syntaxique</strong> globale des syntagmes<br />
nominaux maximaux, en ce sens que chaque règle de décomposition correspond à un motif possible de<br />
syntagme nominal maximal décrivant l’intégralité du syntagme à analyser.<br />
comporte en partie gauche le mtof<br />
11
nominaux complexes dans des corpus de grande taille, (2) l’analyse <strong>syntaxique</strong> des<br />
phrases est rarement décisive pour identifier les frontières de syntagmes nominaux, (3) le<br />
fait d’adopter une méthode robuste autorise une démarche expérimentale par tests<br />
nombreux sur corpus de grande taille et une mise au point fine des règles d’extraction.<br />
J’argumente ainsi que la méthode de LEXTER est plus précise qu’une méthode par simple<br />
repérage de patrons de termes, et plus efficace et robuste qu’une méthode par analyse<br />
<strong>syntaxique</strong> globale 7 . J’affirme même : « La synergie entre repérage de termes et analyse<br />
<strong>syntaxique</strong> doit s’effectuer dans le sens inverse. D’un point de vue théorique, toute<br />
approche structurale de l’analyse de la langue qui fonde sur la compositionnalité une<br />
organisation des traitements en niveaux (<strong>syntaxique</strong>, sémantique) se doit de considérer<br />
les termes comme des unités sur le plan <strong>syntaxique</strong>, puisque ce sont des unités sur le<br />
plan interprétatif. D’un point de vue pratique, il est nécessaire de fournir à un <strong>analyseur</strong><br />
<strong>syntaxique</strong> la liste des termes (et des noms composés) qu’il est susceptible de rencontrer<br />
dans les textes, pour limiter le nombre de cas d’ambiguïtés auxquels il sera confronté. »<br />
(Bourigault, 1994b, p. 70). J’évoque à ce propos un « principe d’incertitude », qui<br />
interdirait d’obtenir, avec une égale précision et en exploitant les mêmes informations, à<br />
la fois la structure <strong>syntaxique</strong> d’une phrase et le repérage d’unités complexes qui la<br />
constitueraient. Je n’approfondirai jamais cette idée. A rebours, je réalise quelques<br />
années plus tard un <strong>analyseur</strong> <strong>syntaxique</strong> de phrase dont une des applications en aval est<br />
l’extraction de termes (section 1.7).<br />
1.3. La fonction initiale de LEXTER : extraire des étiquettes<br />
de concepts<br />
LEXTER est développé initialement pour répondre au problème de la constitution et de<br />
l’enrichissement de thesaurus. Je le conçois comme un outil dont la fonction est<br />
d’extraire automatiquement d’un corpus de textes des séquences de mots aptes à intégrer<br />
directement la nomenclature d’un thesaurus, sans retouche de forme. Par exemple, le<br />
logiciel doit extraire la séquence nominale paroi d’enceinte, mais doit écarter la<br />
séquence paroi de cette enceinte, parce que la présence du déterminant démonstratif<br />
vient la disqualifier pour le titre d’étiquette de concept. Ce parti pris relève de la<br />
conception naïve de la terminologie qui est la mienne tout au long de mon travail de<br />
thèse : le terme est une étiquette de concept, il est figé à la fois dans sa fonction<br />
7 Cette polémique peut paraître quelque peu datée, au regard de la popularité gagnée ces dix dernières années<br />
par les travaux en analyse <strong>syntaxique</strong> robuste par bribes. A l’époque, la nécessité de mettre au point un tel<br />
argumentaire m’est apparue, quelques mois après le début de ma thèse, à l’occasion d’un colloque sur le<br />
repérage de l’information textuelle organisé à l’<strong>Un</strong>iversité du Québec à Montréal. Je présentais pour la<br />
première fois le principe du découpage par marqueurs de frontière, et celui, qui suit logiquement, de<br />
décomposition des syntagmes nominaux maximaux (Bourigault, 1991). <strong>Un</strong> membre de l’équipe de l’UQAM,<br />
qui travaillait alors sur le progiciel Termino, m’a demandé comment je pouvais extraire des syntagmes<br />
nominaux sans analyse <strong>syntaxique</strong> de la phrase. Ce point, dont je constate retrospectivement avoir surestimé<br />
l’importance, m’a conduit à l’époque à mobiliser une partie de mon énergie à justifier le non recours à<br />
l’analyse <strong>syntaxique</strong> de phrase.<br />
12
éférentielle et dans sa forme, car le système conceptuel préexiste à toute production<br />
textuelle. Le corpus n’est qu’un simple réservoir d’attestations. Cette conception n’est<br />
pas ébranlée par mes diverses lectures issues de la littérature classique de la<br />
terminologie. Ni du côté de E. Benveniste (1966) ou de L. Guilbert (1965), dont la<br />
citation que je donne page 26 de ma thèse conforte parfaitement ma conception initiale<br />
de l’extraction automatique de termes : « Les unités lexicales complexes ne sont en<br />
définitive que des segments d’énoncés extraits de leur contexte. » (Guilbert, 1965,<br />
p. 273). Ni du côté de la Théorie Générale de la Terminologie d’Eugène Wüster, telle<br />
qu’elle est exposée dans le Manuel de terminologie de H. Felber, auquel j’emprunte<br />
page 19 de ma thèse cette définition du terme : « un terme est un symbole conventionnel<br />
représentant une notion définie dans un certain domaine de savoir » (Felber, 1987, p. 1).<br />
Dans la section de ma thèse consacrée à la caractérisation linguistique du terme,<br />
j’affirme que la propriété définitoire essentielle du terme est sa propriété<br />
d’interprétabilité hors contexte (Bourigault, 1994b, p. 21). J’affirme ensuite que si cette<br />
contrainte d’interprétabilité hors contexte ne permet pas de déduire directement les<br />
principes d’une implémentation, elle induit sur la forme du terme des contraintes<br />
morpho<strong>syntaxique</strong>s qui, elles, peuvent servir de bases descriptives pour<br />
l’implémentation. C’est ainsi que je justifie le fait que LEXTER extrait des séquences<br />
contiguës d’unités lexicales, correspondant à des groupes nominaux figés, dont la forme<br />
les rend aptes à intégrer directement la nomenclature d’une terminologie. Cette traque de<br />
l’étiquette est poursuivie de façon obsessionnelle pendant toute la conception du logiciel<br />
LEXTER (1990–1994). Elle me conduit à imposer des contraintes fortes sur le filtrage des<br />
groupes nominaux à extraire des corpus. En particulier, j’écarte tout groupe qui a pour<br />
constituant un article autre que l’article défini (comme refroidissement d’une enceinte)<br />
ou, plus encore, qui a pour constituant un article défini à valeur non générique : une règle<br />
de découpage considère comme une frontière les séquences de + article défini quand le<br />
nom qui suit l’article est suivi d’une relative. Par exemple, dans la phrase « le débit de la<br />
pompe qui alimente le circuit de refroidissement», la séquence débit de la pompe ne sera<br />
pas retenue car dans ce contexte le déterminant la n’a pas la valeur générique, mais celle<br />
de spécifiant.<br />
1.4. LEXTER à l’épreuve des usages : revirement théorique<br />
Après la soutenance de ma thèse en juin 1994, j’arrête tout travail de développement<br />
informatique sur le logiciel LEXTER lui-même, et je consacre la période 1994–1999<br />
d’une part à l’animation de la recherche, au sein de la communauté de l’Ingénierie des<br />
Connaissances et dans le groupe « Terminologie et Intelligence Artificielle », que j’ai<br />
créé avec A. Condamines en 1994, et d’autre part à la mise en place et à l’animation<br />
d’un certain nombre de projets de recherche dans lesquels le logiciel LEXTER est utilisé,<br />
13
que ce soit au sein de la DER d’EDF 8 ou dans des laboratoires de la recherche<br />
universitaire.<br />
Assez vite après le début de la thèse, j’avais changé sensiblement la visée applicative de<br />
mon travail. Je m’étais détourné du domaine de l’informatique documentaire, et avais<br />
abandonné le problème spécifique de la constitution de thesaurus, pour inscrire mes<br />
recherches dans le domaine de l’Intelligence Artificielle, et m’intéresser au problème de<br />
la conception des systèmes experts 9 . Ce geste fut de grande importance pour la suite de<br />
ma recherche, car le domaine de l’Intelligence Artificielle a vécu au début des années<br />
1990 une sorte de révolution culturelle, avec un vaste mouvement d’idées autour de<br />
l’activité d’acquisition et de modélisation des connaissances pour les systèmes experts,<br />
au sein duquel la réflexion sur l’utilisation des textes et des outils informatiques<br />
d’analyse de textes a occupé une place centrale. Au début de leur développement, les<br />
systèmes experts étaient conçus comme des ensembles uniformes de règles<br />
d’association, permettant de passer d’un ensemble de prémisses à des conclusions. Ces<br />
règles étaient établies à partir des explications fournies par les experts sur leur façon de<br />
résoudre les problèmes. L’acquisition des connaissances était donc appréhendée comme<br />
un problème d’extraction et de retranscription de connaissances que posséderait un<br />
expert vers un système expert. Au début des années 1990, un certain nombre de<br />
chercheurs, pour lesquels cette conception expliquait en partie l’échec des systèmes<br />
experts de première génération, proposent une nouvelle approche qui voit l’acquisition<br />
des connaissances comme un problème de construction de modèles (Aussenac et al.,<br />
1992).<br />
Le domaine de l’acquisition des connaissances pour les systèmes à base de<br />
connaissances se caractérise par l’identification et l’agencement des<br />
processus requis pour l’élaboration (conception, évaluation, évolution)<br />
d’un Système à Base de Connaissances à partir de sources hétérogènes de<br />
connaissances (documentaires, humaines, expérimentales).<br />
(op. cit., p. 8)<br />
Il ne s’agit plus de « mimer » le raisonnement d’un expert dans un système informatique,<br />
mais de construire un artefact informatique, un « système à base de connaissances », qui<br />
viendra s’intégrer au dispositif utilisé par les spécialistes dans leur activité experte. <strong>Un</strong><br />
tel changement de conception entraîne un changement radical dans les méthodologies<br />
d’acquisition des connaissances. En particulier, le recours aux textes n’est plus le même<br />
qu’avec la vision classique des systèmes experts, pour laquelle seules les retranscriptions<br />
8 Ce fut une période particulièrement active, au cours de laquelle j’ai eu le bonheur de travailler, toujours à<br />
EDF, avec Cécile Gros et Henri Boccon-Gibod, bientôt rejoints par Daniela Garcia. L’aide qu’ils m’ont<br />
apportée a été capitale.<br />
9 Je dois l’idée de ce changement à Jean-Paul Krivine, chercheur au service Informatique et Mathématiques<br />
Appliquées de la DER, qui crée et anime à partir d’octobre 1991 le Groupe de Recherche en Acquisition des<br />
Connaissances (GRACQ). Il perçoit l’intérêt d’un rapprochement des recherches en extraction de terminologie<br />
avec celles qui portent sur la construction de systèmes experts, et il m’invite à participer aux deuxièmes<br />
journées d’Acquisition des Connaissances, en avril 1992 à Dourdan. Je lui suis d’autant plus redevable que sa<br />
suggestion est intervenue au moment où des problèmes de relation entre services au sein de la DER rendaient<br />
difficile la poursuite du projet de mise à jour du thesaurus EDF.<br />
14
d’entretiens avec les experts sont dignes d’intérêt. Les quelques travaux entrepris en<br />
Traitement Automatique des Langues dans cette logique aujourd’hui abandonnée, basés<br />
sur l’utopie d’une traduction automatique possible des discours des experts en des règles<br />
de systèmes expert, n’avaient en effet produit que peu de résultats intéressants<br />
(Bourigault, 1994b, chap. 5). Avec la nouvelle approche des systèmes à base de<br />
connaissances, il apparaît que les connaissances à modéliser pour réaliser les artefacts<br />
informatiques vont bien au-delà des connaissances verbalisées par les experts. Ces<br />
connaissances sont susceptibles d’être exprimées dans de multiples sources textuelles, de<br />
types très divers selon les applications : documentations techniques, ouvrages de<br />
référence, rapports de projets, comptes rendus d’activité, etc. Dès lors, puisque les<br />
termes techniques présents dans ces documents constituent les points d’accès privilégiés<br />
aux connaissances qui y sont exprimées, et face à la masse des documents à étudier, la<br />
communauté de l’Ingénierie des Connaissances s’est ouverte aux recherches autour de la<br />
terminologie et de l’analyse automatique de corpus.<br />
C’est précisément pour favoriser la réflexion interdisciplinaire entre la linguistique de<br />
corpus, la terminologie, le Traitement Automatique des Langues et l’Ingénierie des<br />
Connaissances qu’Anne Condamines, de l’Equipe de Recherche en Syntaxe et<br />
Sémantique (<strong>ERSS</strong>) de Toulouse, et moi créons en 1994 le groupe « Terminologie et<br />
Intelligence Artificielle » (TIA). Ce groupe va être le creuset d’une bouillonnante<br />
activité de discussion et de réflexion, et constituer un centre d’animation de la recherche<br />
particulièrement actif pendant toute la seconde moitié des années 1990. Personnellement,<br />
c’est grâce aux échanges et aux collaborations avec les membres de ce groupe de travail<br />
que j’ai pu engager une réflexion sérieuse sur les bases théoriques de mon travail, puis<br />
élaborer le cadre théorique et méthodologique de mes recherches sur l’utilisation d’outils<br />
de TAL pour la modélisation des connaissances à partir de textes. L’une des actions<br />
importantes du Groupe TIA aura été de participer à la critique des bases théoriques et<br />
épistémologiques de la terminologie classique. Celles-ci étaient déjà remises en cause à<br />
cette époque par les tenants de la socioterminologie (Gambier, 1995, Gaudin, 1995). Elle<br />
l’étaient aussi par M. Slodzian, qui mettait en évidence que la vision mécaniste du<br />
couplage entre le terme et la notion s’était imposée dans le cadre intellectuel de<br />
l’universalisme et de l’empirisme logique, que le monde scientifique avait depuis<br />
largement remis en cause (Slodzian, 1994). A partir des discussions menées au sein du<br />
groupe TIA, je tente de contribuer moi aussi à cet effort de renouvellement des bases<br />
théoriques de la terminologie, en apportant le point de vue d’un concepteur de logiciel<br />
d’extraction de termes. Je remets en question mes conceptions théoriques initiales, sur<br />
les bases d’un constat dressé sur le terrain des différents projets utilisant LEXTER :<br />
l’hypothèse de l’existence et de l’unicité d’un réseau notionnel et d’une terminologie<br />
pour un domaine donné ne résiste pas à l’évidence de la grande diversité des ressources<br />
terminologiques qu’il est possible de concevoir. Cette diversité est elle-même liée à la<br />
diversité des applications utilisatrices de telles ressources, qui se multiplient avec le<br />
développement des réseaux et de la société de l’information multilingue (thesaurus pour<br />
les systèmes d'indexation automatique, index structurés pour les documentations<br />
techniques hypertextuelles, ontologies pour les mémoires d'entreprise, pour les systèmes<br />
d’aide à la décision ou pour les systèmes d’extraction d’information, etc.). Dans les<br />
15
projets menés en particulier à EDF, l’expérience me montrait que, pour le terminologue<br />
face à un candidat terme, la bonne question n’était jamais « Cette unité lexicale<br />
réfère-t-elle à un concept du domaine ? », mais plutôt « Est-il utile/pertinent d’intégrer<br />
cet élément dans la ressource terminologique en cours de construction, utile/pertinent<br />
vis-à-vis de l’application dans laquelle cette ressource sera utilisée ? ». Le cadre<br />
théorique de la doctrine terminologique classique, qui contraint à poser le problème de la<br />
construction de terminologie comme une activité de découverte des traces linguistiques<br />
d’un réseau de concepts préexistants, n’est pas compatible avec la réalité du terrain. Il<br />
s’écroule. Le terme n’est pas découvrir, le terme est un élément d’une ressource<br />
terminologique à construire en fonction d’une application cible.<br />
1.5. <strong>Un</strong> outil d’aide à l’analyse sémantique de textes<br />
spécialisés<br />
A ce moment de ma réflexion, la découverte de la sémantique de F. Rastier fut pour moi<br />
une révélation. Je trouve exprimées dans les écrits de F. Rastier (1987, 1991, et al.,<br />
1994) des positions qui entrent en résonance avec mes propres constats empiriques. <strong>Un</strong>e<br />
sémantique textuelle, qui pose les textes comme objets empiriques de la linguistique, et<br />
interprétative, qui place au centre du dispositif théorique les concepts de contexte et<br />
d’interprétation, était celle dont j’avais besoin pour m’affranchir du recours infructueux<br />
aux propositions théoriques de la doctrine terminologique, ainsi qu’à celles des<br />
sémantiques référentielles ou des sémantiques conceptuelles que je connaissais mieux<br />
alors. La communication de F. Rastier aux premières journées organisées par le groupe<br />
TIA en avril 1995 à Villetaneuse, intitulée « Le terme : entre ontologie et linguistique »<br />
(Rastier, 1995), fut pour moi décisive. L’auteur propose d’en finir avec une conception<br />
de la terminologie comme discipline qui s’opposerait à la linguistique, ainsi que le<br />
revendiquent Wüster et ses disciples, et annonce que maintenir une sécession de la<br />
terminologie causerait un préjudice à l'ensemble des sciences du langage :<br />
Alors que ses objectifs pratiques relèvent de la linguistique appliquée, les<br />
préjugés logico-positivistes de sa doctrine doivent être abandonnés, d'une<br />
part parce qu'ils entravent la réalisation même de ses objectifs, d'autre part<br />
parce qu'ils donnent du langage une image à la fois simpliste et obsolète,<br />
sans permettre de comprendre la richesse et la complexité du<br />
fonctionnement effectif des textes de spécialité. (…) En resserrant ses<br />
liens avec la linguistique, et notamment la sémantique des textes<br />
scientifiques et techniques, la terminologie va devenir mieux à-même de<br />
remplir ses multiples missions, en problématisant la recherche et la<br />
constitution de ses unités, et en s'adaptant mieux à ses domaines d'action<br />
privilégiés : documentation et indexation, aide à la traduction.<br />
(op. cit., p. 61-62).<br />
16
Il s’agit de considérer la terminologie comme une branche descriptive et normative de la<br />
linguistique appliquée, relevant de la lexicologie et traitant séparément de domaines<br />
sémantiques correspondant à diverses disciplines. Il devient alors possible d’utiliser les<br />
bases et concepts théoriques de la sémantique lexicale, en s’appuyant en particulier sur le<br />
concept de contexte que théorise la sémantique textuelle dont elle procède, pour adopter<br />
une vision constructiviste de la terminologie : en terminologie, comme en lexicologie,<br />
tout lexique est une reconstruction, qui fait abstraction du contexte et du texte :<br />
<strong>Un</strong> mot-occurrence ne se définit que dans et par un contexte, et reçoit des<br />
déterminations du texte. Le placer sous l’autorité d’un type revient à le<br />
décontextualiser et le dé-textualiser. (…) les types ne préexistent pas aux<br />
occurrences, mais sont reconstruits à partir d’elles. Ainsi tout type résulte<br />
d’une décontextualisation (…). Le mot-type est un artefact des linguistes,<br />
comme le terme est un artefact de la discipline qui l’instaure.<br />
(op. cit., p. 53).<br />
Cette position méthodologique rejoint les constats faits sur le terrain. On doit considérer<br />
que le travail de construction d’une ressource terminologique relève d’une activité<br />
d’interprétation, guidée par l’objectif de l’application. « L’interprétation est elle-même<br />
située. Elle prend également place dans une pratique sociale, et obéit aux objectifs<br />
définis par cette pratique. Ils définissent à leur tour les éléments retenus comme<br />
pertinents » (Rastier et al., 1994, p. 13). Dès lors que la terminologie est intégrée dans le<br />
giron de la sémantique textuelle, il devient possible selon F. Rastier de prendre en<br />
compte la dimension textuelle dans les études en terminologie, et de coupler ainsi le<br />
point de vue paradigmatique, systématiquement privilégié dans l’étude des vocabulaires<br />
spécialisés, avec un point de vue syntagmatique qui étudie la constitution des termes, le<br />
rapport des termes aux non termes, le rapport du terme au contexte et le rapport du terme<br />
au texte. Dans ce contexte, l’auteur affirme que « les outils statistiques, les<br />
concordanciers, et les logiciels d’analyse sémantique permettent d’apporter du nouveau,<br />
pour peu que les stratégies de recherche tiennent compte de la textualité. » (Rastier,<br />
1995, p. 58-59).<br />
Dans un article publié en septembre 1995, dans les actes des 4èmes journées<br />
scientifiques du Réseau Lexicologie, Terminologie, Traduction, j’affiche une position<br />
sur la terminologie radicalement différente de celle présentée dans ma thèse, où je<br />
m’étais docilement rangé derrière les tenants de la doctrine et les grands noms de la<br />
discipline. Influencé par F. Rastier, ainsi que par B. Bachimont qui reprend lui aussi à<br />
son compte la théorie de F. Rastier dans ses travaux en Ingénierie des Connaissances<br />
(Bachimont, 1996), je ne présente plus le terme comme le représentant d’un concept, sa<br />
trace linguistique qu’il s’agirait d’aller retrouver dans les textes, mais comme un élément<br />
d’une ressource terminologique qu’il s’agit de construire, à partir de l’analyse des textes,<br />
pour une application identifiée. Ce revirement méthodologique m’amène à proposer une<br />
nouvelle définition de la notion de candidat terme. Dans ma thèse, j’avais justifié cette<br />
notion par le fait que, puisque la caractérisation première du terme était sa fonction<br />
sémantique de représentation de concept, et puisque le logiciel ne s’appuyait que sur des<br />
contraintes d’ordre morpho<strong>syntaxique</strong> pour extraire des syntagmes nominaux, ceux-ci ne<br />
17
pouvaient être que des « candidats » termes. La tâche du terminologue était de distinguer<br />
les termes des non termes parmi les candidats termes. Mais cette dichotomie terme/non<br />
terme n’est plus valide dans une approche qui assume le principe d’une dépendance de la<br />
tâche de sélection vis-à-vis de l’application. Je justifie alors la notion de candidat terme<br />
comme nécessaire pour rendre compatible la variété des ressources terminologiques que<br />
l’on peut construire à partir des résultats de LEXTER, avec la contrainte de généricité<br />
imposée au logiciel, dans lequel je n’intègre aucune règle de filtrage qui dépendrait du<br />
type d’application. La tâche du terminologue est alors de retenir parmi les candidats<br />
termes les termes qui sont pertinents vis-à-vis de l’application.<br />
Ce changement, qui peut apparaître anodin, est la trace d’un premier pas important vers<br />
la redéfinition de la fonction de LEXTER. J’accomplis le second pas dans le même élan<br />
inspiré par la théorie de F. Rastier. Dans le cadre de la « terminologie textuelle »,<br />
promue par le groupe TIA (Bourigault et Slodzian, 1999), le terme est un construit : il est<br />
le produit d’un travail d’interprétation mené par l’analyste. Celui-ci construit son corpus<br />
d’étude, puis définit sa stratégie de lecture, choisit ses parcours interprétatifs et effectue<br />
ses choix de modélisation au niveau local (sélection et description des termes) guidé par<br />
la spécification au niveau global de la ressource visée. Avec une telle conception,<br />
LEXTER ne doit plus être vu comme un simple pourvoyeur d’étiquettes de concepts, mais<br />
comme un outil d’aide à l’analyse sémantique de textes spécialisés dédié à la tâche de<br />
construction de ressources terminologiques. Le réseau terminologique construit en<br />
connectant chaque candidat terme complexe à sa tête (lien T) et à son expansion (lien E)<br />
est directement implémenté dans l’interface de consultation des résultats de LEXTER, dite<br />
« Hypertexte Terminologique LEXTER » (HTL) dans laquelle les liens T et E deviennent<br />
des liens de navigation 10 . Il est possible pour un mot donné de visualiser d’un coup d’œil<br />
la liste de ses descendants en Tête et de ses descendants en Expansion, et de se<br />
transporter rapidement à l’un de ceux-ci. Chaque candidat terme peut être ainsi saisi et<br />
interprété au sein d’une série paradigmatique de candidats termes partageant la même<br />
tête ou la même expansion. Cette fonctionnalité s’avère particulièrement intéressante<br />
dans la perspective de modélisation des connaissances. L’interface HTL permet une<br />
navigation hypertextuelle au sein du réseau terminologique, ainsi qu’entre le réseau de<br />
candidats termes et les textes, en donnant accès pour un candidat donné à tous ses<br />
contextes d’occurrence. Elle invite l’analyste à adopter un mode de lecture non<br />
séquentiel du corpus, que l’on peut qualifier de paradigmatique. L’action du logiciel peut<br />
ainsi être vue comme l’enchaînement d’une étape de dé-contextualisation et d’une étape<br />
de re-contextualisation : les candidats termes sont extraits de leurs contextes<br />
d’occurrence, puis plongés dans leurs contextes paradigmatiques, reconstitués par<br />
l’analyse. Cette double opération n’est pas irréversible, puisque l’analyste a toujours<br />
accès au corpus et aux contextes d’occurrence des candidats termes. Le réseau<br />
10 Dès le début de mon travail à EDF, alors même que le logiciel était encore dans les limbes, j’avais réfléchi à<br />
la conception d’une interface hypertextuelle qui valoriserait les résultats extraits par le logiciel dans une station<br />
de travail pour terminologue, de façon à pouvoir le (faire) tester dans des applications réelles. J’ai eu alors la<br />
chance de travailler avec Jean-Louis Vuldy, de la DER, qui a développé avec le logiciel Hypercard une<br />
magnifique interface hypertextuelle.<br />
18
terminologique navigable construit par LEXTER propose à l’analyste « une image<br />
réorganisée du texte » 11 .<br />
1.6. <strong>Un</strong> outil d’identification de contextes <strong>syntaxique</strong>s pour<br />
l’analyse distributionnelle<br />
Le renouvellement des conceptions théoriques et le développement des applications en<br />
terminologie ouvrent en France au milieu des années 1990 un nouveau paradigme de<br />
recherche en TAL sur les outils d’aide à l’analyse sémantique de textes spécialisés<br />
(Bourigault et Jacquemin, 2000) (Jacquemin et Bourigault, 2003). Les recherches portent<br />
sur les techniques de TAL pour extraire des textes des informations (termes, relations,<br />
classes, etc.) utiles pour la construction de ressources lexicales spécialisées. On parle<br />
alors d’outils d’aide, non pas parce que ces outils sont imparfaits et nécessitent une<br />
intervention humaine pour corriger les erreurs, mais parce que l’analyse des résultats<br />
qu’ils fournissent est une tâche d’interprétation qui ne peut être menée à bien que par un<br />
analyste humain muni d’un objectif.<br />
Dans ce contexte, l’extraction de candidats termes n’est qu’une des applications du TAL<br />
utiles à la modélisation des connaissances. Toute méthode permettant de classer,<br />
structurer, mettre en relation, filtrer une liste de candidats termes extraits est la<br />
bienvenue. C’est ainsi que l’observation des réseaux terminologiques construits par<br />
LEXTER me suggère l’idée d’utiliser ce réseau aussi comme input pour des calculs<br />
statistiques permettant de caractériser les candidats termes en fonction de la cartographie<br />
du réseau local qui les entoure (Bourigault, 1994a) 12 . L’idée de proposer une<br />
décomposition <strong>syntaxique</strong> binaire récursive en Tête et Expansion des syntagmes<br />
nominaux s’est imposée initialement pour structurer la liste des candidats termes extraits<br />
et pour permettre une meilleure navigation dans l’interface HTL (le long des liens Tête<br />
et Expansion 13 ). Ce n’est que dans un second temps qu’il m’est apparu que le réseau<br />
terminologique pouvait constituer un résultat intermédiaire exploitable pour de nouveaux<br />
calculs. Les réseaux terminologiques construits à partir de corpus spécialisés de grande<br />
taille possèdent la caractéristique particulièrement intéressante d’avoir une densité<br />
absolument non uniforme. <strong>Un</strong> petit nombre de nœuds attracteurs concentrent l’essentiel<br />
11 Expression utilisée par (Habert & Nazarenko, 1996) à propos des réseaux distributionnels construits par leur<br />
outil ZELLIG.<br />
12 Avec cet article, je reçois le prix « jeune chercheur » lors de la conférence Reconnaissance des Formes et<br />
Intelligence Artificielle (RFIA 1994), à 37 ans…<br />
13 En fait, j’ai distingué deux types de décomposition en Tête et Expansion, selon le type du connecteur<br />
prépositionnel entre la tête et l’expansion. Dans les cas où la tête et l’expansion sont connectées par une<br />
séquence de+le (du, de la, des), les positions Tête et Expansion sont notées T’ et E’. Dans tous les autres cas,<br />
elles sont notées T et E. Cette distinction est issue du constat suivant : la préposition de est une préposition<br />
vide, qui constitue un bon indice de comportement dénominatif quand elle est attestée sans déterminant défini ;<br />
en revanche, le déterminant le a de façon très largement majoritaire en corpus une valeur anaphorique ou<br />
cataphorique, qui rend les séquences de+le plus souvent non interprétables hors contexte.<br />
19
des liens 14 . Surtout, les nœuds présentent des profils de répartition des liens entrants T,<br />
E, T’, E’ très dissemblables. J’analyse ces profils à partir de la notion de productivité. La<br />
productivité en T d’un nœud est le nombre de lien T qui pointent vers ce nœud, c’est-àdire<br />
le nombre de termes qui ont le terme pivot en position T, de même pour la<br />
productivité en E, en T’ et en E’. <strong>Un</strong> simple calcul sur les profils de répartition des<br />
productivités permet d’isoler certains noms du corpus qui ont un comportement marqué :<br />
par exemple, les noms qui sont proportionnellement beaucoup plus productifs en<br />
position T’ (tête de syntagme ayant comme connecteur de+le) que dans les autres<br />
positions désignent très probablement des actions importantes dans le domaine. Dans<br />
(Bourigault, 1994a), je formule ainsi 4 propositions d’interprétation, qui seront affinées<br />
dans (Assadi et Bourigault, 1996). Le résultat produit par LEXTER n’est plus uniquement<br />
un ensemble d’étiquettes de termes. Le réseau terminologique que permet de construire<br />
l’analyse <strong>syntaxique</strong> binaire en tête et expansion des candidats termes complexes devient<br />
une ressource intermédiaire pour des traitements ultérieurs dont les résultats servent eux<br />
aussi à l’aide à la modélisation des connaissances à partir de textes.<br />
Ce filon est exploité avec beaucoup d’énergie, avec l’arrivée dans le groupe SOAD<br />
d’H. Assadi, qui entame une thèse dans le domaine de la modélisation des connaissances<br />
à partir de textes. Dès les premières expériences de modélisation, menées dans le<br />
domaine de la planification de réseaux électriques, H. Assadi constate que les adjectifs<br />
extraits par LEXTER sont bien plus difficiles à valider que les groupes nominaux pour le<br />
cogniticien. Par exemple, celui-ci n’éprouve pas de difficulté particulière à valider des<br />
candidats termes tels que réseau, poste, hypothèse de consommation, alors que les<br />
candidats termes adjectivaux comme national, admissible ou fort lui posent plus de<br />
problèmes. Mais l’observation de l’ensemble des termes complexes {hydraulicité forte,<br />
puissance forte, section forte} par opposition à l’ensemble {hydraulicité faible,<br />
puissance faible, section faible} révèle quasiment immédiatement que les adjectifs faible<br />
et fort désignent des valeurs possibles d’attributs. Dans une tâche de modélisation des<br />
connaissances, l’accès à un tel rapprochement est primordial, puisque identifier les<br />
attributs et leurs domaines de variation est une condition essentielle pour la construction<br />
de taxinomies formalisables. Nous avons donc l’idée de travailler sur des méthodes<br />
automatiques de classification d’adjectifs apparaissant dans les mêmes contextes<br />
<strong>syntaxique</strong>s, c’est-à-dire modifieurs des mêmes noms ou syntagmes nominaux. La<br />
méthode que nous testons d’abord, et dont nous publions les premiers résultats lors des<br />
3èmes Journées d’Analyse de Données Textuelles en décembre 1995 (Assadi et<br />
Bourigault, 1995), consiste à construire un tableau de présence/absence, dont chaque<br />
ligne correspond à un adjectif et chaque colonne à un nom, puis à calculer à partir de ce<br />
tableau une matrice de similarité entre les individus à classer, et enfin à lancer sur cette<br />
matrice une procédure de classification hiérarchique ascendante. Les classes d’adjectifs<br />
sont obtenues en coupant à un niveau donné l’arbre représentant la hiérarchie des<br />
classes. Pour chaque classe d’adjectif, on construit le contexte de la classe, c’est-à-dire<br />
l’ensemble des noms ou syntagmes nominaux ayant au moins l’un des adjectifs de la<br />
14 Les réseaux terminolgiques ont les propriétés des graphes de petits mondes, qui ont été bien explorées<br />
justement depuis cette époque.<br />
20
classe en expansion. Par exemple, le contexte de la classes d’adjectifs {primaire,<br />
secondaire} est l’ensemble des termes {circuit, enroulement, intensité nominale,<br />
réglage, tension nominale}. Ce type de résultats nous apparaît être une amorce fort utile<br />
pour la modélisation. Sans le savoir à l’époque, nous mettions nos pieds dans les traces<br />
de Zellig S. Harris 15 .<br />
Parallèlement à ces recherches, B. Habert « recycle » (selon une de ses expressions<br />
favorites) les résultats de LEXTER pour entreprendre toute une série d’études ayant<br />
comme objet le fonctionnement en corpus des dénominations complexes (Habert,<br />
1998) 16 . Son projet était relativement éloigné du contexte applicatif dans lequel je<br />
développais LEXTER. Suite à des discussions avec C. Jacquemin sur la variation<br />
terminologique, il a l’idée de « déconstruire » (selon une autre de ses expressions<br />
favorites) les arbres d’analyse en Tête et Expansion produits par LEXTER pour en<br />
restituer les dépendances élémentaires fondamentales sous-jacentes. Dans un article<br />
publié en 1995 dans les Cahiers de Grammaire (Habert et al., 1995), B. Habert et ses<br />
collègues, s’inscrivent résolument dans l’horizon théorique de l’approche harrissienne<br />
d’analyse des sous langages et présentent les premiers résultats d’une exploitation des<br />
arbres de dépendances élémentaires extraits des arbres d’analyse de LEXTER pour classer<br />
les mots en fonction de leur contextes <strong>syntaxique</strong>s. Puis, B. Habert et A. Nazarenko<br />
développent ZELLIG, une chaîne de recyclage des résultats d’<strong>analyseur</strong>s <strong>syntaxique</strong>s<br />
robustes destinée à une analyse distributionnelle de contextes rendus élémentaires<br />
(Habert et Nazarenko, 1996). Avec ZELLIG, ils mènent des études sur la délimitation de<br />
classes sémantiques dans des corpus spécialisés (Habert et al., 1995 ; Bouaud et al.,<br />
1995). La représentation logique des arbres permet à B Habert et H. Folch de développer<br />
des méthodes efficaces pour analyser les régularités de fonctionnement des mots et<br />
mettre en évidence les opérateurs et opérandes caractéristiques d’un domaine donné<br />
(Folch et Habert, 1998) (Habert et Folch, 1998). Ils le font de façon beaucoup plus<br />
précise et plus systématique que mes propres tentatives d’analyse du réseau<br />
terminologique évoquées au début de cette section.<br />
B. Habert a donc procédé à un « détournement » de LEXTER en exploitant ses résultats<br />
dans une perspective de recherche différente de celle dans laquelle le logiciel a été<br />
conçu. Ce décalage dans les objectifs a révélé des limites importantes de LEXTER<br />
vis-à-vis d’une exploitation pour l’analyse distributionnelle : restriction aux syntagmes<br />
nominaux (pas d’analyse autour du verbe) ; parmi les syntagmes nominaux, restriction<br />
aux groupes « d’allure dénominative » (exclusion de certains déterminants, de certaines<br />
modifications adjectivales). Ces limitations sont apparues d’autant plus pénalisantes<br />
quand B. Habert et C. Fabre ont appliqué la méthode ZELLIG à des corpus plus proches<br />
15 Cf. cette gentille pique adressée par B. Habert et A Nazarenko, faisant référence aux travaux du type des<br />
nôtres qui commençaient à se développer au milieu des années 90 : « explicitement, ou, plus souvent,<br />
implicitement [c’est moi qui souligne], ces recherches s’inscrivent dans la conception "distributionnaliste" de la<br />
sémantique défendue et mise en œuvre par ZELLIG Harris : le sens des mots se déduit des constructions dans<br />
lesquelles ils figurent » (Habert & Nazarenko, 1996).<br />
16 Quand B. Habert me demande des sorties de Lexter, je n’imagine pas à quel point l’utilisation qu’il va en<br />
faire aura une grande influence sur la suite de mes recherches.<br />
21
de la langue générale, en comparant les regroupements effectués à partir d’un corpus<br />
médical de comptes rendus d’hospitalisation (corpus Menelas) et à partir d’un corpus<br />
politique constitué des interventions radiotélévisées de F. Mitterrand pendant son<br />
premier septennat (corpus Mitterrand1) :<br />
Le groupe nominal semble un moins bon observatoire des<br />
fonctionnements sémantiques pour Mitterrand1 que pour Menelas. (…)<br />
Dans une phase ultérieure, il s’agira donc d’affranchir ZELLIG de la<br />
contrainte consistant à intervenir en aval d’<strong>analyseur</strong>s spécialisés dans<br />
l’analyse des groupes nominaux.<br />
(Fabre et al., 1997, p. 29)<br />
1.7. Bilan : LEXTER a servi, vive <strong>SYNTEX</strong><br />
Ce retour en arrière sur la période 1990–1999 a montré les deux phases distinctes de la<br />
vie du logiciel LEXTER : une phase de développement (1990–1994), une phase<br />
d’utilisation (1994–1999). Pendant les 4 premières années de ma recherche, j’ai travaillé<br />
de façon appliquée et consciencieuse à la réalisation d’un outil d’extraction d’étiquettes<br />
de concepts pour l’enrichissement de thesaurus. A partir de l’objectif fixé, des<br />
contraintes de résultats imposées et des ressources à ma disposition, j’ai concentré mes<br />
efforts sur les développements informatiques dans une démarche très pragmatique, plus<br />
motivé par l’action que par la spéculation gratuite, et soucieux de mener à bien une<br />
recherche utile. L’esprit concentré sur cet horizon, j’ai mené une recherche plutôt isolée<br />
sur le plan scientifique, indépendamment de tout courant, toute école ou toute<br />
communauté de la recherche universitaire.<br />
La situation fut toute autre durant la seconde phase du cycle de vie du logiciel<br />
(1994-1999). J’ai cherché activement, au sein et à l’extérieur d’EDF, à monter des<br />
projets de recherche et développement utilisant le logiciel LEXTER. La confrontation du<br />
logiciel à la réalité des usages fut pleine d’enseignements, pas tant sur les techniques<br />
d’extraction implémentées dans le logiciel, que sur son mode d’utilisation. Dans une<br />
perspective d’ingénierie linguistique, il ne suffit pas de fabriquer un prototype, il faut<br />
aussi réfléchir à la façon dont il peut être utilisé. Grâce à la réflexion menée au sein du<br />
groupe TIA, j’ai pu m’appuyer sur les constats empiriques effectués sur le terrain, pour<br />
élaborer progressivement un cadre méthodologique pour l’utilisation d’outils de TAL en<br />
acquisition des connaissances à partir de textes.<br />
Au-delà de l’utilisation « normale » de LEXTER comme extracteur de candidats termes,<br />
j’ai eu la chance que certains collègues aient cherché à profiter de la disponibilité des<br />
résultats de LEXTER pour les exploiter pour leurs besoins propres. J’ai cité H. Assadi, qui<br />
a réalisé au cours de sa thèse l’outil LEXICLASS (Assadi, 1998), et B. Habert, avec les<br />
chercheurs qu’il a su mobiliser autour du projet ZELLIG. Les uns et les autres ont utilisé<br />
les analyses produites par LEXTER comme entrée pour leurs outils d’analyse<br />
distributionnelle. Je dois mentionner aussi les travaux de D. Garcia qui a cherché à<br />
22
intégrer les résultats de LEXTER dans son système COATIS de repérage des relations de<br />
causalité dans les textes (Garcia, 1998), ainsi que ceux de N. Aussenac-Gilles et<br />
P. Séguela qui ont fait de même avec l’outil CAMELEON d’extraction de relations<br />
sémantiques à partir de marqueurs lexico-<strong>syntaxique</strong>s (Séguela et Aussenac-Gilles,<br />
1999). Grâce à ces utilisations détournées, qui ont poussé LEXTER dans certains de ses<br />
retranchements, j’ai pu mesurer à quel point la fonction d’extraction de termes étaient<br />
inscrite « en dur » dans le logiciel lui-même.<br />
Ce constat m’a convaincu de la nécessité de disposer d’un <strong>analyseur</strong> <strong>syntaxique</strong> à plus<br />
large couverture, plus neutre quant à ses exploitations possibles, pour une utilité sociale<br />
plus grande. Alors, fallait-il consacrer d’abord tant de temps à un développement poussé<br />
du logiciel avant de réfléchir sérieusement et concrètement à son utilisation ? Oui. C’est<br />
parce que LEXTER était dans un état de maturité suffisamment avancé, en terme de<br />
robustesse, de couverture et d’efficacité, qu’il a pu être testé dans des contextes<br />
d’utilisation variés, et ce sont les retours d’expérience générés par les différents projets<br />
d’utilisation de LEXTER qui ont orienté ma recherche pour les années 1999–2005.<br />
A l’automne 1999, quelques mois après mon arrivée à l’<strong>ERSS</strong>, C. Fabre et moi nous<br />
mettons au travail pour réaliser un nouvel <strong>analyseur</strong> <strong>syntaxique</strong>. Notre premier souci à<br />
cette époque est de travailler sur l’extraction de syntagmes verbaux, pour alimenter les<br />
outils d’analyse distributionnelle, qui ne pouvaient se satisfaire de contextes uniquement<br />
nominaux. Par ailleurs, les retours d’expérience des projets de modélisation des<br />
connaissances à partir de textes, ainsi que les travaux de M.-C. L’Homme sur les<br />
combinaisons lexicales spécialisées (L’Homme, 1998) et ceux de C. Jacquemin sur la<br />
variation terminologique (Jacquemin, 1997 ; Bourigault et Jacquemin, 1999), m’avaient<br />
convaincu que, même pour des applications d’extraction de terminologie, il fallait des<br />
outils capables d’extraire des syntagmes verbaux.<br />
Sur le plan informatique, nous repartons de zéro, mais nous reprenons de l’expérience<br />
LEXTER un certain nombre de choix méthodologiques (dont chacun sera rediscuté dans<br />
la suite de ce mémoire) :<br />
- Les contraintes de robustesse et d’efficacité s’imposent, puisqu’il s’agit de réaliser<br />
un <strong>analyseur</strong> devant traiter des corpus réels de taille importante.<br />
- L’entrée de l’<strong>analyseur</strong> est un corpus préalablement étiqueté 17 .<br />
- L’<strong>analyseur</strong> n’exploite pas de grammaire formalisée, il est constitué<br />
d’heuristiques 18 .<br />
- La méthodologie de développement est expérimentale, basée sur des tests nombreux<br />
sur corpus.<br />
17 Nous utilisons alors le logiciel Cordial Analyseur développé par D. Laurent de la société Synapse<br />
Développement.<br />
18 Ces heuristiques sont programmées dans le langage Perl.<br />
23
- Au départ du projet, l’<strong>analyseur</strong> n’exploite pas de lexique général de souscatégorisation,<br />
il est doté d’heuristiques d’apprentissage pour acquérir des<br />
informations de sous-catégorisation à partir du corpus en cours de traitement.<br />
Par rapport à LEXTER, où l’analyse était directement dédiée à l’extraction de syntagmes<br />
nominaux, nous choisissons d’externaliser la tâche d’extraction de syntagmes en aval de<br />
l’analyse <strong>syntaxique</strong> : l’extraction de syntagmes (verbaux, nominaux, adjectivaux) et la<br />
construction du réseau terminologique se fait à l’issue de l’analyse <strong>syntaxique</strong> en<br />
dépendance de l’ensemble des phrases du corpus.<br />
Nous décidons de nous attaquer en premier lieu au problème de la résolution des<br />
ambiguïtés de rattachement prépositionnel. Nous formalisons ce problème de la façon<br />
suivante : 1) étant donnée une préposition dans une phrase, identifier à gauche de la<br />
préposition, dans la chaîne étiquetée, les différents mots susceptibles de la régir ; 2) à<br />
partir d’informations de sous-catégorisation acquises sur le corpus, sélectionner le<br />
meilleur recteur parmi les candidats. Subrepticement, et de façon très naturelle, nous<br />
avons adopté le principe d’une analyse en dépendance. Ce passage en douceur d’une<br />
analyse en constituant à une analyse en dépendance est, sur le plan conceptuel, au-delà<br />
de l’extension de la couverture de l’<strong>analyseur</strong>, la principale rupture entre LEXTER et<br />
<strong>SYNTEX</strong>.<br />
24
Chapitre 2<br />
Etat de l’art en analyse <strong>syntaxique</strong><br />
robuste<br />
2.1. L’analyse <strong>syntaxique</strong> automatique au sein du TAL<br />
Au coeur du domaine du Traitement Automatique des Langues, le champ de recherche<br />
sur l’analyse <strong>syntaxique</strong> automatique peut être en première approximation décrit comme<br />
partagé entre deux pôles : le paradigme des grammaires formelles d’unification, et le<br />
paradigme des <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes. A l’origine du premier paradigme, on<br />
trouve la publication des travaux fondateurs de N. Chomsky en 1957. Chomsky introduit<br />
la théorie des langages formels et définit une hiérarchie de classes de grammaires et de<br />
langages devenues depuis classique, en informatique et en linguistique. Il propose le<br />
modèle transformationnel comme alternative aux grammaires régulières et aux<br />
grammaires non contextuelles jugées insuffisantes pour décrire la syntaxe des langues<br />
naturelles. C’est le début de la tradition formelle, qui va développer une réflexion très<br />
riche et d’une importance considérable sur la nature des formalismes nécessaires pour<br />
décrire les langues. Les hypothèses adoptées sont d’abord que la syntaxe des langues est<br />
descriptible avec des modèles formels de type génératif, et ensuite qu’on peut réaliser<br />
des <strong>analyseur</strong>s à partir de ces modèles, en posant le problème de l’analyse <strong>syntaxique</strong><br />
comme un problème de compilation.<br />
Depuis les débuts des années 1990, le terme de robustesse est régulièrement invoqué<br />
pour qualifier des travaux en analyse <strong>syntaxique</strong> automatique qui visent la réalisation de<br />
systèmes capables fournir, dans des temps raisonnables, une analyse <strong>syntaxique</strong><br />
suffisamment complète et juste pour toute séquence donnée en entrée. C’est dans ce<br />
nouveau paradigme que se situent mes recherches autour de l’<strong>analyseur</strong> <strong>SYNTEX</strong>. Le<br />
terme « paradigme » en l’occurrence serait plutôt flatteur. Contrairement au courant des<br />
grammaires formelles, qui est structuré et cohérent, avec des hypothèses fondatrices<br />
partagées, des théories élaborées, des conférences et des leaders, les travaux en analyse<br />
<strong>syntaxique</strong> robuste sont eux beaucoup plus dispersés. Le terme « nouveau » est lui aussi<br />
usurpé. En effet, comme je le montre dans la section suivante, où je présente un rapide<br />
panorama historique des recherches en TAL, les recherches de ce domaine ont toujours<br />
25
été partagées entre deux pôles, théorique et appliqué, dont l’opposition entre paradigme<br />
formel et paradigme de la robustesse est une instanciation dans le sous-domaine de<br />
l’analyse <strong>syntaxique</strong> automatique.<br />
Les chercheurs francophones ont adopté au début des années 1990 le terme de<br />
« Traitement Automatique des Langues » pour désigner leur société savante (Association<br />
pour le Traitement Automatique des Langues), leur revue (Revue Traitement<br />
Automatique des Langues) et, avec un qualificatif accolé, leur conférence annuelle<br />
(Traitement Automatique des Langues Naturelles). Cette belle cohérence dans les termes<br />
n’est qu’apparente et ne reflète pas la multiplicité des désignations qui ont vu le jour<br />
depuis la fin des années 1980. Dans leur étude très documentée et très utile sur les<br />
dénominations utilisées depuis l’origine pour nommer ce champ disciplinaire, Cori et<br />
Léon (2002) notent :<br />
D’innombrables termes fleurissent pour désigner le domaine au début des<br />
années 1990 : Industries de la langue, Ingénierie linguistique, Natural<br />
Language Engineering, Technologies de la langue, etc. Il n’est toutefois<br />
pas certain que cette inflation de termes et cette frénésie de la<br />
dénomination parviennent à masquer l’inanité d’une impossible quête,<br />
celle de définir un champ unifié qui, tout en englobant les applications<br />
industrielles, soit scientifiquement fondé.<br />
(Cori et Léon, 2002, p. 43)<br />
Ces mêmes auteurs expliquent comment le domaine du TAL se constitue et se remodèle<br />
depuis ses origines dans une tension permanente entre des forces antagonistes, qui<br />
s’organisent selon deux lignes d’opposition :<br />
- la première concerne l’objectif des recherches. Elle oppose les travaux théoriques et<br />
les applications à visée industrielle. D’un côté des chercheurs, de l’autre des<br />
ingénieurs.<br />
- une seconde concerne les disciplines impliquées. Elle oppose à l’origine la<br />
linguistique et l’informatique, plus tard rejointes par les mathématiques,<br />
l’intelligence artificielle et les statistiques.<br />
La première ligne de tension s’est dessinée dès les débuts du domaine. Dans son rapport<br />
de 1951, qui constitue le premier état de l’art sur le domaine de la traduction<br />
automatique (Bar-Hillel, 1951),Yehoshua Bar-Hillel mentionne déjà que le problème de<br />
l’utilisation des calculateurs pour la traduction peut être intéressant soit d’un point de<br />
vue théorique, en favorisant de recherches sur le fonctionnement du langage, soit d’un<br />
point de vue pratique, en particulier pour résoudre les problèmes de la traduction des<br />
publications scientifiques étrangères (op. cit., p. 229). Dans son état de l’art sur la<br />
traduction automatique (TA) publié en 1986, John Hutchins affirme que cette distinction<br />
de points de vue est le point qui fait le plus débat au sein de la communauté de<br />
chercheurs en qui se constitue dans les années 1950 et 1960. Il décrit comment, jusqu’au<br />
milieu des années 1960, le débat entre les « pragmatiques » et les « perfectionnistes » est<br />
vif. Les premiers pensent qu’il est important de développer aussi vite que possible des<br />
systèmes <strong>opérationnel</strong>s en arguant que les systèmes de traduction mot à mot donnent des<br />
26
ésultats finalement prometteurs, et qu’ils constituent une base de départ qui pourra<br />
évoluer grâce aux améliorations techniques des ordinateurs et à la mise au point de<br />
nouveaux algorithmes. Les seconds refusent cette précipitation, affichent l’objectif de<br />
réaliser des systèmes de haute qualité et affirment la nécessité de recherches<br />
fondamentales préalables en linguistique.<br />
L’existence d’une tension entre recherches théoriques et applications pratiques est un fait<br />
constant dans la jeune histoire du TAL. Avant un état de l’art sur l’analyse <strong>syntaxique</strong><br />
robuste (section 2.3), la première partie de ce chapitre (section 2.2) est consacrée à un<br />
panorama historique des travaux dans le domaine du TAL. Celui-ci montre que les deux<br />
pôles ont alternativement mobilisé le devant de la scène. A cause de cet opposition, et<br />
parce que le domaine est encore jeune, il est difficile de dresser un état des lieux<br />
consensuel et définitif des évolutions du domaine. Le recul manque. Mais il peut y avoir<br />
consensus sur l’identification de moments charnières et d’évolutions majeures. Pour la<br />
trame de cette description, je me suis appuyé, entre autres, sur trois sources principales :<br />
- l’ouvrage de John Hutchins, publié en 1986, « Machine translation : past, present,<br />
future » (Hutchins, 1986).<br />
- l’article de Marcel Cori et Jacqueline Léon intitulé « La constitution du TAL, étude<br />
théorique des dénominations et des concepts », publié dans un numéro de la revue<br />
TAL sur le thème des problèmes épistémologiques (Cori et Léon, 2002).<br />
- l’article de Yorrik Wilks « Computational Linguistics » de la seconde édition de<br />
l’Encyclopedia of languages and linguistics (Wilks, 2006).<br />
Cette première partie est organisée en 4 sections :<br />
- Les débuts de la traduction automatique (section 2.2.1)<br />
- L’avènement de la « computational linguistics » (section 2.2.2)<br />
- Le « tournant déclaratif » et les grammaires d’unification (section 2.2.3)<br />
- Le « Natural Language Processing » (section 2.2.4)<br />
2.2. Panorama historique du Traitement Automatique des<br />
Langues<br />
2.2.1. Les débuts de la traduction automatique<br />
On s’accorde pour identifier comme événement déclencheur des recherches en<br />
Traitement Automatique des Langues la diffusion en 1949 du mémorandum de Weaver<br />
(1949), qui lancera les recherches en traduction automatique (désormais TA). Warren<br />
Weaver est directeur de la division Natural Sciences à la fondation Rockfeller quand il<br />
rédige, en juillet 1949, le mémorandum dans lequel il expose ses idées sur la possible<br />
utilisation des calculateurs qui viennent d’être inventés pour traduire des documents<br />
27
d’une langue vers une autre. Il envoie ce mémorandum à une trentaine de ses<br />
connaissances. Le mémorandum est diversement reçu, mais il constitue le point de<br />
départ des recherches dans le domaine nouveau de la traduction automatique. Selon<br />
Hutchins (1999), l’un des résultats immédiats les plus significatifs du mémorandum est<br />
la décision du Massachusetts Insitute of Technology (MIT) de recruter comme chercheur<br />
sur le thème de la Traduction Automatique, en mai 1951, le logicien de l’<strong>Un</strong>iversité<br />
Hébraïque de Jérusalem Yehoshua Bar-Hillel. Bar-Hillel publie le premier état de l’art<br />
sur le domaine de la TA à la fin de l’année 1951 (Bar-Hillel, 1951).<br />
Le rapport de Bar-Hillel est fondamental. Tout y est dit. Rien dans les évolutions futures<br />
du domaine ne viendra contredire les propositions de Bar-Hillel, concernant, d’une part,<br />
l’architecture des traitements et l’importance de l’analyse <strong>syntaxique</strong> et, d’autre part, les<br />
rapports entre théories et applications. Bar-Hillel affirme d’emblée qu’à cause des<br />
ambiguïtés sémantiques la traduction entièrement automatique de haute qualité (fully<br />
automatic high quality translation, FAHQT) n’est pas accessible, et il s’interroge sur les<br />
différents modes de collaboration possibles entre la machine et un ou plusieurs<br />
opérateurs humains, en développant les idées de pré- et post-édition. Par ailleurs, il met<br />
en évidence la nécessité d’une analyse <strong>syntaxique</strong> pour l’élimination des ambiguïtés<br />
grammaticales et le réarrangement de l’ordre des mots. Il propose que ce processus<br />
d’analyse se réalise selon les étapes suivantes :<br />
1. Mechanical analysis of each word in the Source Language into the stem<br />
(lexical unit) and morphological category. (…)<br />
2. Mechanical identification of small syntactical units within the given<br />
sentence on the basis of the morphological categories to which its words<br />
belong and, for most languages, their order.<br />
3. Transformation of the given sentence into another that is logically<br />
equivalent to it, and rearrangement of the parts of the transformed sentence<br />
in accordance with some standard order of the Target Language.<br />
(Bar-Hillel, 1951, p. 232)<br />
Cette architecture sera en effet adoptée par tous les systèmes <strong>opérationnel</strong>s de TA de<br />
première génération. C’est à propos de la deuxième tâche qu’il évoque l’idée essentielle<br />
d’une syntaxe <strong>opérationnel</strong>le (operational syntax). Pour Bar-Hillel, une syntaxe<br />
<strong>opérationnel</strong>le d’une langue, c’est un système unique constitué d’une séquence<br />
d’instructions qui opèrent sur la suite des mots d’une phrase munis de leur catégorie<br />
morphologique et qui identifie les unités <strong>syntaxique</strong>s selon lesquelles la phrase doit être<br />
décomposée. Cette décomposition est nécessaire pour préparer la transformation<br />
structurelle conduisant à la production de la phrase traduite. Dans son rapport, il se<br />
contente d’affirmer la nécessité d’un tel programme. Mais il soutient que, malgré la<br />
masse des connaissances qu’ils ont accumulées, tout reste à faire de la part des linguistes<br />
pour mener à bien ce projet. Selon lui, même la description la plus complète des<br />
catégories <strong>syntaxique</strong>s d’une langue donnée, selon les normes et principes<br />
communément adoptés par les linguistes, n’est pas adéquate pour la réalisation d’un<br />
programme de reconnaissance effective de la structure <strong>syntaxique</strong> des phrases de la<br />
28
langue en question. Bar-Hillel émet le vœu que les linguistes saisissent l’importance et la<br />
nécessité de produire des descriptions et théories spécifiques pour la réalisation de ce<br />
nouveau programme. Lui-même proposera une définition <strong>opérationnel</strong>le des catégories<br />
<strong>syntaxique</strong>s, qu’il développera dans le cadre de la grammaire catégorielle<br />
(Bar-Hillel, 1953).<br />
A la lumière des évolutions ultérieures des domaines de la TA et du TAL, on peut<br />
relever deux questions fondamentales évoquées par Bar-Hillel dans ce rapport :<br />
- Quelles connaissances issues de la linguistique sont utiles pour le projet de la TA ?<br />
- Le projet de la TA peut-il ou doit-il être le lieu d’une recherche théorique sur le<br />
langage ou les langues, ou bien seule une approche pragmatique peut-elle conduire à<br />
des résultats ?<br />
Ces deux questions sont corrélées. On vient de le voir, la position de Bar-Hillel sur le<br />
premier point est radicale. Les connaissances accumulées à ce jour ne sont pas adéquates<br />
pour le projet de la TA. Cette position est généralement celle des pionniers de la TA. Sur<br />
le second point, il apparaît à la lecture de l’article que, même si Bar-Hillel s’interroge<br />
sérieusement sur les problèmes pratiques et les solutions techniques de la TA, son regard<br />
est d’abord celui d’un théoricien qui voit dans les recherches menées autour du problème<br />
de la TA un enjeu théorique fort, ou au moins la possibilité d’un questionnement<br />
théorique renouvelé. Il débute son article en présentant le projet de la TA comme<br />
l’instanciation d’une situation classique où l’introduction d’un nouvel outil vient<br />
renouveler une recherche théorique en suggérant des solutions techniques inédites à des<br />
problèmes anciens. La linguistique est concernée. Après avoir fait état de certaines des<br />
étapes qui ont été franchies vers l’objectif finalisé de la traduction automatique, Bar-<br />
Hillel relève :<br />
Interest in mechanical translation (MT) may arise through sheer<br />
intellectual curiosity concerning a problem whose solution, perhaps even<br />
attempted solutions, will in all probability provide valuable insights into<br />
the functioning of linguistic communication. Interest may also arise from<br />
many practical standpoints. One of these is the urgency of having foreign<br />
language publications, mainly in the fields of science, finance, and<br />
diplomacy, translated with high accuracy and reasonable speed.<br />
(Bar-Hillel, 1951, p. 229)<br />
Cette distinction de points de vue, pragmatique et théorique, clairement visible dans la<br />
position de Bar-Hillel, est, selon Hutchins (1986), le point essentiel sur lequel se<br />
cristallisent les oppositions au sein de la communauté de chercheurs qui se constitue<br />
dans les premières années de la TA.<br />
For this period (in the 1950’s and 1960’s), the most important distinctions<br />
(for MT researchers) were between the ‘engineering’ and the<br />
‘perfectionist’ approaches, between the empiricist and other<br />
methodologies, and between the syntax orientation and various lexical and<br />
word-centred approaches.<br />
29
(Hutchins, 1986, section 3.10)<br />
Pour illustrer les recherches menées dans les années 1950 et 1960, j’ai choisi deux<br />
équipes de chercheurs parmi les pionniers de cette grande époque, représentant chacune<br />
un des deux courants (Hutchins, 1986, sections 4.2 et 4.3). Comme représentants du<br />
courant pragmatique, je présente les chercheurs de l’université de Georgetown, parce<br />
qu’ils ont été les tenants les plus actifs de cette approche et parce que leurs recherches,<br />
entamées dès 1952, ont conduit au système SYSTRAN, très largement utilisé de nos<br />
jours 19 . Comme représentant du courant perfectionniste, je présente l’équipe de<br />
recherche sur la TA au Massachusetts Institute of Technology, parce qu’elle a placé<br />
d’emblée le transfert <strong>syntaxique</strong> au centre de son modèle de traduction automatique, et<br />
parce qu’elle a développé très tôt l’idée de la déclarativité.<br />
A l’université de Georgetown, les recherches sur la TA ont été lancées par Leon Dostert<br />
en juin 1952 et développées en collaboration avec IBM. En janvier 1954, une première<br />
démonstration d’une maquette expérimentale donne des résultats suffisamment<br />
impressionnants à l’époque pour que la National Science Fundation décide de<br />
subventionner de façon massive les recherches sur la TA à Georgetown. <strong>Un</strong>e vingtaine<br />
de chercheurs sont recrutés sur le projet. <strong>Un</strong>e équipe menée par Michael Zarenach<br />
développe une méthode dite « General Analysis Technique », rebaptisée ensuite<br />
« Georgetown Automatic Translation » (GAT). Cette méthode est implémentée dans un<br />
système de traduction Russe-Anglais (SERNA system) par Peter Toma en 1959, système<br />
qui est installé à EURATOM à Ispra en Italie en 1963, et au Laboratoire National d’Oak<br />
Ridge en 1964. Pour des raisons mal connues (on évoque des conflits entre linguistes et<br />
programmeurs), les subventions s’arrêtent et les recherches sur la TA à Georgetown<br />
s’interrompent. Ces deux systèmes seront utilisés, à la satisfaction des utilisateurs selon<br />
plusieurs enquêtes réalisées sur le terrain, jusqu’à leur remplacement par SYSTRAN, à<br />
Ispra en 1970 et à Oak Ridge en 1980.<br />
Le système GAT était présenté par les auteurs comme constitué de plusieurs « niveaux »,<br />
ou de plusieurs « passes » : (1) consultation du dictionnaire, analyse morphémique et<br />
résolution des homographes, (2) analyse syntagmatique pour le repérage de<br />
combinaisons de mots basée sur les relations d’accord, de gouvernance et d’apposition,<br />
(3) analyse <strong>syntaxique</strong> pour le repérage des relations sujet/prédicat. Dans les faits,<br />
l’analyse effectivement réalisée était très rudimentaire (Hutchins, 1986, section 4.2). Elle<br />
était chargée de lever les ambiguïtés morphologiques par l’examen des catégories des<br />
mots précédent et suivant. La méthode de développement adoptée par les concepteurs du<br />
système était entièrement « guidée par les textes », selon un mode par essai/erreur. Les<br />
programmes étaient testés sur un corpus particulier, étendus ou corrigés en fonction des<br />
résultats, puis testés sur un autre corpus, et ainsi de suite. Selon (Kay, 1973), cité par<br />
(Hutchins, 1986), le résultat fut une grammaire « monolithique » de taille et de<br />
complexité monstrueuse, développée sans conception claire de ce que devait être une<br />
règle grammaticale et une structure <strong>syntaxique</strong>, dans laquelle les phases d’analyse de la<br />
phrase source et de transfert vers la langue cible étaient intriquées, rendant les évolutions<br />
19 www.systran.fr<br />
30
et améliorations de plus en plus difficiles à introduire. Ce constat établi par Kay en<br />
particulier constitua une leçon pour les développements futurs, pour lesquels les notions<br />
d’architecture et de modularité furent mises en avant. C’est ainsi que, à partir de 1964,<br />
Peter Toma a continué ses recherches et a développé le système SYSTRAN, dans lequel la<br />
complexité monolithique du système sera réduite grâce à la modularisation du système :<br />
In many respects, Systran may be regarded as essentially a greatly<br />
improved descendant of the Georgetown ‘direct translation’ system.<br />
Linguistically there is little advance, but computationally the<br />
improvements are considerable, resulting in the main from the<br />
‘modularity’ of its programming design.<br />
(Hutchins, 1986, section 12.1)<br />
Au Massachusetts Institute of Technology, après le départ de Y. Bar-Hillel à Jérusalem<br />
en juillet 1953, c’est Victor H. Yngve qui prend la direction du projet de recherche sur la<br />
traduction automatique au MIT. D’emblée, il se donne comme objectif la traduction<br />
automatique de haute qualité, et donne une orientation très théorique aux recherches.<br />
L’effort porte sur des recherches fondamentales en linguistique, en particulier autour des<br />
grammaires transformationnelles, à partir des travaux de Chomsky, et sur le<br />
développement d’outils de programmation dédiés au développement en TA. Yngve<br />
développe COMIT, le premier langage de programmation dédié à la manipulation et au<br />
filtrage de chaînes de caractères. Selon Yngve, COMIT peut être appris assez rapidement<br />
par les linguistes et doit leur permettre de formuler leurs idées de façon claire et concise.<br />
Ceci doit mettre fin à situation dans laquelle les linguistes sont contraints de confier la<br />
tâche de programmer leurs algorithmes à des informaticiens spécialistes de l’assembleur,<br />
ce qui est très peu efficace sur le plan des résultats et très frustrant pour les deux parties.<br />
Yngve insiste sur le principe de la séparation nette entre, d’une part, les règles et<br />
connaissances linguistiques et, d’autre part, les algorithmes et programmes. Les règles et<br />
connaissances abstraites sur les structures linguistiques des langues doivent être séparées<br />
des choix de programmation particuliers adoptés dans un système de traduction<br />
particulier donné. On l’a vu ce principe n’a pas été adopté dans le système GAT où des<br />
règles d’analyse et de transfert étaient codées dans le cœur même du lexique. Matthews<br />
et Rodovin conçoivent, et développent dans le langage COMIT, une méthode d’analyse<br />
<strong>syntaxique</strong> qui identifie les constituants <strong>syntaxique</strong>s d’une phrase en entrée en cherchant<br />
à découvrir l’enchaînement des règles de grammaires qui ont dû être appliquées pour<br />
produire cette phrase, dans le sens des règles génératives de Chomsky. Matthews (1962)<br />
formule de façon plus explicite ce principe d’analyse par synthèse (« analysis by<br />
synthesis » approach). L’idée est de comparer symbole (classe grammaticale) par<br />
symbole la séquence à analyser avec toutes les séquences de même nombre de symboles<br />
susceptibles d’être générées par la grammaire. Les séquences qui correspondent<br />
fournissent une analyse en constituants possible pour la phrase initiale. Cette méthode<br />
était reconnue a priori comme inefficace, mais elle était supposée pouvoir être rendue<br />
plus performante par l’introduction de règles et de stratégies adéquates.<br />
31
2.2.2. L’avènement de la « computational linguistics »<br />
Si la seconde moitié des années 1950 est une période de grand espoir de réussite de la<br />
TA, très vite l’optimisme cède le pas à une certaine désillusion. Celle-ci naît du constat<br />
que les progrès sont lents et que cette lenteur est due non seulement à des problèmes<br />
matériels liés à la technologie et aux capacités des machines, mais aussi à la complexité<br />
des problèmes linguistiques (Hutchins, 1986, section 8.2). En février 1959, après avoir<br />
visité les laboratoires les plus importants de l’époque et interrogé les pionniers du<br />
domaine, Bar-Hillel publie un rapport intitulé Report on the state of machine translation<br />
in the <strong>Un</strong>ited State and Great Britain, qui connaîtra une large diffusion après sa<br />
publication dans la revue Advances in Computers (Bar-Hillel, 1960). L’effet de ce<br />
rapport sur le domaine de la TA est terrible. Bar-Hillel affirme que la recherche en TA<br />
poursuit un but inatteignable : une traduction automatique de haute qualité, équivalente à<br />
celle d’un bon traducteur humain. Pour appuyer cette affirmation, Bar-Hillel donne<br />
l’exemple de la phrase, désormais célèbre, « the box was in the pen ». On peut adapter la<br />
démonstration en français avec la phrase « Jean est dans le bureau ». Pour traduire<br />
correctement le mot bureau, il faut savoir qu’un bureau meuble n’est en général pas<br />
capable de loger un être humain de taille normale. <strong>Un</strong> système de TA devrait donc<br />
posséder des connaissances de type encyclopédique, ce qui paraît tout à fait irréaliste. On<br />
a reproché à Bar-Hillel de n’avoir pas basé ses positions sur une analyse effective des<br />
systèmes qui, en 1958, au moment où il a réalisé ses investigations, étaient en gestation<br />
dans les équipes, ainsi que d’avoir utilisé comme seul argument théorique un exemple<br />
qui ne constitue pas une preuve : « In general, Bar-Hillel’s opinions were not based on a<br />
careful evaluation of the actual achievements of MT projects but they were already<br />
formed before the review was undertaken. » (Hutchins, 1986, section 8.3). Néanmoins, il<br />
reste qu’il régnait à l’époque un certain consensus sur le fait que la traduction<br />
automatique de haute qualité ne devait plus être l’objectif des recherches en TA, et que<br />
celles-ci devaient s’orienter vers la traduction assistée par ordinateur.<br />
C’est le rapport de l’ALPAC qui, en 1966, va consacrer une rupture dans le domaine, en<br />
condamnant les recherches qui visent la réalisation de systèmes de traduction<br />
automatique et en préconisant d’encourager des recherches plus théoriques, rendues<br />
possibles par l’usage des ordinateurs, sur les caractéristiques formelles des langues. En<br />
avril 1964, l’Académie Nationale des Sciences des Etats-<strong>Un</strong>is forme le comité ALPAC<br />
(Automatic Language Processing Advisory Commitee) en lui donnant pour mission<br />
d’évaluer l’intérêt de continuer à financer les recherches en TA. Le comité entreprend<br />
des études et enquêtes sur les besoins en traduction des scientifiques (principalement du<br />
russe vers l’anglais), sur l’état de l’offre en traduction et sur ses coûts, sur la<br />
disponibilité de traducteurs humains, sur l’évaluation de certains systèmes de traduction<br />
automatique et sur les coûts de post-édition liés à l’utilisation de ces systèmes. La<br />
conclusion est sans appel : la traduction automatique n’est pas une bonne solution au<br />
problème de la traduction scientifique.<br />
“Machine translation” presumably means going by algorithm from<br />
machine-readable text to useful target text, without recourse to human<br />
32
translation or editing. In this context, there has been no machine<br />
translation of general scientific text, and none is in immediate prospect.<br />
(ALPAC, 1966, p. 19)<br />
Si l’ALPAC recommande dans son rapport un arrêt des subventions sur les projets de<br />
traduction automatique, il constate que le travail réalisé dans l’optique de la traduction<br />
automatique a eu un effet extrêmement positif sur le développement d’un type<br />
radicalement nouveau de recherches en linguistique, stimulées par l’usage des<br />
ordinateurs : « The advent of computational linguistics promises to work a revolution in<br />
the study of natural languages. » (ALPAC, 1966, p. 29). Les membres du Comité<br />
proposent d’encourager le développement de ce type de recherches, et consacrent ainsi<br />
l’avènement d’une nouvelle discipline, la computational linguistics. D’après Martin Kay,<br />
c’est probablement David G. Hayes, pionnier de la TA et membre du comité ALPAC,<br />
qui a forgé ce terme, jugeant qu’il pouvait être opportun de baptiser un nouveau champ<br />
de recherches pour tenter de détourner les subventions dont la TA allait être privée (Kay,<br />
2002, p. xvii). Le rapport de l’ALPAC propose de dissocier radicalement les recherches<br />
théoriques sur le langage et les applications industrielles de la traduction automatique, et<br />
d’utiliser l’ordinateur pour renouveler les recherches sur le langage. Deux types d’usage<br />
de l’ordinateur sont ainsi évoqués : l’ordinateur en tant qu’il permet au linguiste de<br />
manipuler des données langagières complexes et volumineuses pour élaborer des<br />
descriptions linguistiques ; l’ordinateur en tant qu’il oblige à la formalisation des<br />
théories et permet leur évaluation.<br />
Such research must make use of computers. The data we must examine in<br />
order to find out about language is overwhelming both in quantity and in<br />
complexity. Computers give promise of helping us control the problems<br />
related to the tremendous volume of data, and to a lesser extent the<br />
problems of data complexity. But we do not yet have good, easily used,<br />
commonly known methods for having computers deal with language data.<br />
Therefore, among the important kinds of research that need to be done and<br />
should be supported are (1) basic developmental research in computer<br />
methods for handling language, as tools for the linguistic scientist to use as<br />
a help to discover and state his generalizations, and as tools to help check<br />
proposed generalizations against data ; and (2) developmental research in<br />
methods to allow linguistic scientist to use computers to state in detail the<br />
complex kinds of theories (for example, grammars and theories of<br />
meaning) they product, so that the theories can be checked in detail.<br />
(ALPAC, 1966, p.31)<br />
C’est le début du règne sans partage de la syntaxe et de l’analyse <strong>syntaxique</strong> automatique<br />
dans le domaine de la computational linguistics. Dans ce contexte, le formalisme des<br />
ATN (Augmented Transition Networks) (Woods, 1970) a une influence considérable<br />
dans les années 1970-1980 sur les recherches dans le domaine. <strong>Un</strong> très grand nombre de<br />
chercheurs les utilisent. Les ATN constituent l’aboutissement de recherches menées dès<br />
le début des années 1950 par Rhodes au National Bureau of Standards sur le principe de<br />
l’analyse <strong>syntaxique</strong> prédictive (predictive syntactic analyser) (Hutchins, 1986,<br />
33
section 9.13). L’idée de base de Rhodes était que, étant donné dans une phrase un mot<br />
dont on a identifié la catégorie morpho<strong>syntaxique</strong>, il est possible de prévoir avec une<br />
certaine probabilité les catégories des mots qui le suivent. Ce principe est implémenté<br />
sous la forme d’une analyse mot à mot gauche-droite contrôlée par une procédure last in<br />
first out. Pour le mot courant, les actions à effectuer sont déterminées en deux temps :<br />
d’abord vérifier si la classe du mot satisfait une prédiction faite précédemment, en<br />
partant de la plus probable, puis soit modifier les prédictions existantes, soit ajouter une<br />
ou plusieurs prédictions. Les prédictions sont de différents types : satisfaction immédiate<br />
(par exemple par le mot suivant), satisfaction multiple (une même contrainte peut être<br />
satisfaite plusieurs fois, par exemple l’accord de l’adjectif avec le nom), satisfaction<br />
obligatoire. A la fin de la phrase, l’analyse est réussie si toutes les prédictions<br />
obligatoires ont été satisfaites, et si tous les mots ont été inclus dans l’analyse. Ceci<br />
impose donc des procédures de retour en arrière en cas d’échec.<br />
Très vite, le principe de ne retenir qu’un seul chemin, le plus probable, est apparu<br />
comme non adéquat. Les chercheurs de Harvard, qui poursuivent les recherches<br />
entamées par Rhodes, développent la méthode multiple-path predictive syntactic<br />
analysis, qui permet la génération de toutes les analyses possibles pour une phrase<br />
donnée. On peut dater de cette époque le début de l’envahissement du domaine du TAL<br />
par les forêts d’arbres <strong>syntaxique</strong>s. Les chercheurs constatent que parmi les analyses très<br />
nombreuses produites, beaucoup ne correspondent pas à de réelles ambiguïtés et que,<br />
parfois, la bonne analyse n’y figure pas. L’autre défaut auquel s’attaquent les chercheurs<br />
est que la même séquence dans la même phrase pouvait être analysée un grand nombre<br />
de fois (autant de fois qu’il y avait de chemins). Ce problème est plus ou moins réglé par<br />
des implémentations successives.<br />
William A. Woods invente les ATN dans le cadre de la réalisation d’une interface en<br />
langue naturelle à une base de données sur les roches rapportées de la lune<br />
(Woods, 1970). Deux améliorations essentielles sont apportées aux implémentations de<br />
l’époque :<br />
(1) Le système est récursif. Les transitions dans un réseau peuvent être étiquetées par<br />
les noms d’autres réseaux. Il y a autant de réseaux que de type de constituants qui<br />
peuvent apparaître dans la structure de surface d’une phrase. Si une transition dans<br />
un de ces réseaux est étiquetée par le nom d’un autre réseau, cette transition ne sera<br />
acceptée que s’il existe un chemin acceptable pour ce second réseau. Il s’agit donc<br />
de réseaux de transition récursifs.<br />
(2) <strong>Un</strong> certain nombre d’actions conditionnelles peuvent être associées à des transitions,<br />
celles-ci étant testées quand l’arc est emprunté. Ces actions peuvent par exemple<br />
consister à stocker des fragments d’arbres dans des registres, pour ensuite les<br />
comparer plus tard dans l’analyse à d’autres mots ou arbres de la chaîne courante.<br />
Ces actions peuvent aussi consister à assembler les contenus de ces registres pour<br />
construire des représentations <strong>syntaxique</strong>s profondes, et ainsi, par exemple, produire<br />
une analyse identique pour l’actif et le passif.<br />
34
Ces améliorations ont permis au formalisme de Woods de vaincre beaucoup des<br />
difficultés rencontrées lors de la conception des <strong>analyseur</strong>s avec des règles de<br />
transformation. C’est ce qui explique que le formalisme des ATN ait occupé une place<br />
quasi-hégémonique pendant les années 1970–1980. D’après Hutchins (1986,<br />
section 9.13), l’enthousiasme des chercheurs pour l’approche prédictive en analyse<br />
<strong>syntaxique</strong> s’explique non pas par ses qualités théoriques intrinsèques, puisque les ATN<br />
n’imposent pas de restrictions formelles, mais par son intérêt pratique et calculatoire. Le<br />
formalisme des ATN peut être utilisé pour décrire des dépendances <strong>syntaxique</strong>s assez<br />
compliquées, de façon relativement intuitive et facile à implémenter.<br />
Les ATN constituent d’une certaine manière un aboutissement presque<br />
idéal de (la) tendance à l’intégration des différents niveaux de traitement.<br />
Les ATN, en effet, peuvent être vus tout à la fois comme un outil<br />
informatique d’analyse <strong>syntaxique</strong>, comme un langage de programmation<br />
défini à partir du langage LISP, ou comme un formalisme permettant de<br />
décrire des langues naturelles. Ceci est rendu possible par le fait que dans<br />
le langage LISP les programmes et les données ont la même structure.<br />
(Cori et Léon, p. 48–49)<br />
2.2.3. Le « tournant déclaratif » et les grammaires d’unification<br />
Y. Wilks (2006) voit dans le conflit entre Yngve et Chomsky, au MIT dans les années<br />
1960, un schisme fondateur dans l’histoire du TAL. En 1960, dans le cadre de la<br />
réalisation de son système de génération de phrases en anglais, Yngve formule son<br />
hypothèse sur la profondeur (depth hypothesis) : alors qu’il semble n’y avoir aucune<br />
limite en anglais à l’accumulation de constituants enchâssés s’ils sont à branchement à<br />
droite (this is the cat that killed the rat that ate the malt…), il y a une limite supérieure<br />
pour les branchements à gauche, et cette limite serait liée aux capacités mémorielles des<br />
locuteurs. Or on sait que pour Chomsky l’incapacité des grammaires à états finis à<br />
modéliser la possibilité indéfinie des enchâssements disqualifie ces formalismes pour la<br />
description théorique des langues. Yngve affirme que les procédures de calcul des<br />
structures <strong>syntaxique</strong>s doivent prendre en compte des contraintes de stockage qui selon<br />
lui sont intimement corrélées aux capacités humaines de compréhension, alors que<br />
Chomsky rejette en bloc ce type de considérations, sous le motif qu’elles relèvent de la<br />
performance et non de la compétence. Pendant les années qui ont suivi, selon Wilks, à<br />
cause du peu de goût de Chomsky pour la chose computationnelle et à cause des échecs<br />
des recherches visant à réaliser des <strong>analyseur</strong>s <strong>syntaxique</strong>s transformationnels,<br />
l’influence des linguistes dans le domaine de la Computational Linguistics est très<br />
limitée.<br />
Toujours selon Wilks, le schisme fondateur ne se cicatrise qu’au début des années 1980,<br />
lorsque Gerald Gazdar devient le premier linguiste d’envergure à embrasser le<br />
paradigme computationnel, en développant des grammaires sophistiquées, basées<br />
principalement sur des structures en constituants, spécifiquement destinées à servir de<br />
base à des <strong>analyseur</strong>s. Au début des années 1980, le domaine de la Computational<br />
35
Linguistics vit une véritable révolution culturelle. M. Cori et J. Léon (2002) parlent de<br />
« tournant déclaratif ». Le tournant déclaratif fait référence à l’émergence pendant les<br />
années 1980 de formalismes déclaratifs (DCG, PATR II) et de théories <strong>syntaxique</strong>s<br />
(GPSG, LFG, TAG, HSPG) développées dans des formalismes déclaratifs. Dans ces<br />
théories, les descriptions linguistiques et les règles de grammaire sont développées de<br />
façon indépendante des langages formels dans lesquels elles sont écrites et des<br />
algorithmes d’analyse <strong>syntaxique</strong> qui les exploitent. On retrouve là le principe de la<br />
séparation des données et des programmes défendu par Yngve dès 1960. Ce principe<br />
rencontre un écho d’autant plus favorable auprès des chercheurs, linguistes en<br />
particulier, que la philosophie procédurale des ATN, très en vogue à l’époque, laissait<br />
peu de place à l’intervention de linguistes non programmeurs. La facilité de<br />
développement avec le formalisme des ATN conduit à des programmes dans lesquels les<br />
règles de grammaire et les procédures d’analyse sont complètement intriquées. Par<br />
exemple, l’équivalence entre l’actif et le passif est directement implémentée dans des<br />
réseaux de transitions, par des tests sur les transitions et les opérations sur les registres,<br />
pour qu’en fin d’analyse le système produise des structures prédicat/argument identiques<br />
pour une phrase active et la phrase passive équivalente. Au contraire, dans une<br />
grammaire formelle, ce principe d’équivalence entre l’actif et le passif sera exprimé de<br />
façon explicite par une règle de correspondance entre structure de surface et structure<br />
profonde, sans prescription de procédures permettant de construire l’une à partir de<br />
l’autre. De façon plus générale, on a reproché aux ATN de produire des programmes<br />
difficiles à maintenir, du fait de l’intrication des règles de grammaire dans les<br />
algorithmes, de ne pas fournir des principes généraux d’implémentation, en particulier<br />
en ce qui concerne les conditions et les actions sur les registres, et même de n’avoir<br />
jamais conduit à une véritable théorie linguistique 20 . A rebours, les promoteurs des<br />
nouvelles grammaires formalisées partagent la conviction que le développement<br />
d’<strong>analyseur</strong>s <strong>syntaxique</strong>s doit se baser sur des théories <strong>syntaxique</strong>s autonomes et<br />
formellement bien définies. Cette position est bien synthétisée par P. Miller et T. Torris<br />
dans l’introduction à leur ouvrage Formalismes <strong>syntaxique</strong>s pour le traitement<br />
automatique des langues, publié au début des années 1990 :<br />
L’existence d’une théorie linguistique, indépendante à la fois de son<br />
implémentation et des analyses particulières qu’elle permet, constitue une<br />
base nécessaire pour le développement de systèmes de TAL dépassant le<br />
niveau de l’ad hoc. (…) Le développement d’un système de TAL pose des<br />
problèmes vastes et complexes qu’une théorie linguistique autonome et<br />
formellement bien définie permet de mieux distinguer. L’indépendance de<br />
la théorie par rapport à l’implémentation et à la description des<br />
phénomènes devrait également faciliter les changements et les corrections<br />
nécessaires lors du développement d’un système de TAL, ainsi que la<br />
conservation des acquis au travers des modifications<br />
(Miller et Torris, 1990, p. 16)<br />
20 Ce qui ne semble jamais avoir été leur objectif…<br />
36
Les DCG (Definite Clause Grammars) (Pereira et Warren, 1980) ont sans doute été le<br />
premier modèle revendiqué clairement comme déclaratif par ses auteurs (Cori et Léon,<br />
2002, p. 49). Ce formalisme dérive des recherches en traduction automatique menées par<br />
A. Colmerauer à l’université de Montréal. Colmerauer est responsable du développement<br />
du premier prototype de système de traduction français-anglais dans l’équipe TAUM<br />
(Traduction Automatique à l’<strong>Un</strong>iversité de Montréal). Dans ce prototype, testé pour la<br />
première fois en 1971, les concepteurs ont cherché à séparer strictement données et<br />
programmes. Il a été développé à l’aide du formalisme du système-Q (Q pour Québec),<br />
un langage de manipulation de structures d’arbres et de chaînes d’arbres développé par<br />
Colmerauer. C’est aussi dans ce langage qu’a été programmée la première version du<br />
système TAUM-METEO. Les recherches menées avec ce langage ont fortement<br />
influencé la conception, par Colmerauer et ses collègues, du langage Prolog, qui allait<br />
lui-même inspirer la communauté des chercheurs en programmation logique, et en<br />
particulier F. Pereira et D. Warren qui inventent les DCG. Les DCG sont un formalisme<br />
qui permet de développer de façon déclarative des systèmes de règles indépendantes,<br />
qu’il est facile d’étendre et de modifier. Et comme leur puissance est équivalente à celle<br />
des ATN, la déclarativité devient un argument décisif en faveur de leur supériorité (Cori<br />
et Léon, 2002, p. 50).<br />
Comme le souligne S. Shieber (1990), il faut distinguer les « formalismes outils » du<br />
type des DCG ou de PATR, qui ont été développés dès l’origine dans la perspective de<br />
réaliser des systèmes de TAL et qui donc devaient avoir une expressivité maximale, des<br />
« formalismes proprement linguistiques », élaborés en tant que théories du savoir<br />
linguistique, et qui visent au contraire à contraindre l’expressivité de façon à limiter<br />
l’ensemble des phrases possibles. Ces derniers (GPSG, LFG, TAG, HSPG) proposent<br />
des théories linguistiques en tant que telles, au sens où l’entendait Chomsky, à savoir des<br />
modèles qui décrivent l’ensemble des phrases possibles d’une langue, avec leurs<br />
propriétés structurales et éventuellement leur sémantique sous la forme de relations<br />
prédicat-argument, et ce indépendamment du modèle formel dans lequel ils sont écrits et<br />
des procédures concrètes de génération ou d’analyse. Ces théories, désignées sous le<br />
nom générique de « grammaires d’unification », sont développées dans le cadre de<br />
collaborations impliquant selon les cas des linguistes, des psycholinguistes, des logiciens<br />
et des informaticiens. Je cite ici pour mémoire les formalismes les plus connus (Abeillé<br />
et Blache, 1997) :<br />
- GPSG (Generalized Phrase Structure Grammar) est issu des recherches du linguiste<br />
G. Gazdar qui, en 1982, introduit dans son modèle une relation d’unification. Il<br />
décompose les catégories en traits et exprime des principes de partage de valeurs de<br />
traits entre syntagmes pour rendre compte de l’accord et de certaines relations<br />
systématiques de paraphrase (Gazdar et al., 1985). HPSG (Head Driven Phrase<br />
Structure Grammar) est un successeur de GPSG (Pollard et Sag, 1987).<br />
- LFG (Lexical Functional Grammar) est développé par R. M. Kaplan et J. Bresnan<br />
(1982), qui utilisent des arbres classiques pour représenter les formes de surface, et<br />
des structures de traits pour représenter les structures profondes, avec lesquelles sont<br />
définies les fonctions grammaticales.<br />
37
- TAG (Tree Adjoining Grammar) est proposé par A. Joshi (1987), qui déporte la<br />
grammaire vers le lexique, dans lequel les unités sont décrites sous la forme de<br />
structures arborescentes élémentaires (arbres lexicalisés) enrichies par des traits,<br />
combinées par des opérations de substitution ou d’adjonction.<br />
L’arrivée des formalismes déclaratifs constitue une révolution dans le domaine du TAL<br />
puisqu’elle donne aux linguistes une place de choix dans le nouveau paysage des<br />
recherches, en permettant (imposant) une redistribution des rôles entre linguistes et<br />
informaticiens. Ce nouveau partage des tâches reflète le principe de la séparation des<br />
données et des programmes dans les systèmes : aux linguistes la tâche de développer les<br />
grammaires et descriptions linguistiques (formelles), selon le formalisme théorique<br />
choisi ; aux informaticiens celle de mettre aux points les algorithmes et procédures qui<br />
mettront en musique ces descriptions. Le retour en force et l’implication nouvelle des<br />
linguistes dans l’arène du TAL, pour productive qu’elle soit, se réalise selon un mode de<br />
partage des tâches qui finalement entraîne ceux-ci et avec eux une partie de la<br />
computational linguistics vers des problématiques théoriques, et les éloigne des<br />
applications concrètes, ce que regrettent Cori et Léon :<br />
Cette évolution vers des modèles déclaratifs a les plus grandes<br />
conséquences sur l’unité du TAL. Les acteurs, en effet, sont incités à se<br />
replier sur une spécialité donnée : les uns sur la description des données<br />
linguistiques, d’autres sur l’écriture de modèles, d’autres enfin sur la mise<br />
au point d’algorithmes. On peut dire que réapparaissent sous la forme de<br />
lignes de fracture les frontières entre les disciplines dont les apports variés<br />
ont permis que soit fondé le TAL en tant que domaine. Seuls peuvent se<br />
réclamer sans équivoque du domaine les ingénieurs qui réalisent des<br />
applications industrielles et qui, donc, ont simultanément besoin des<br />
algorithmes et de la description des données. Alors même qu’en adoptant<br />
des modèles déclaratifs le TAL cherche à s’imposer des critères de<br />
rigueur, il tend du même coup à rendre impossible sa constitution comme<br />
discipline scientifique.<br />
(Cori et Léon, 2002, p. 50)<br />
2.2.4. Le Natural Language Processing<br />
Pendant les années 1980, le paysage des recherches en TAL se caractérise donc d’abord<br />
par le recentrage d’une partie de la communauté vers des problématiques théoriques : du<br />
côté de la linguistique, autour de l’élaboration de théories et de grammaires formelles,<br />
destinées au TAL, mais surtout fécondes pour l’analyse du langage ; du côté de<br />
l’informatique, sur la mise au point d’algorithmes, de structures et modèles de données<br />
et de langages, utiles pour le TAL mais pouvant avoir aussi une vocation plus générale.<br />
Pendant cette période, le paysage du TAL est grandement remodelé avec l’implication<br />
des chercheurs en Intelligence Artificielle (IA), discipline qui se donne parmi ses<br />
objectifs fondamentaux la description des mécanismes de la compréhension du langage<br />
naturel. Ces chercheurs investissent le terrain de l’analyse du langage avec des<br />
38
problématiques et des méthodes qui diffèrent radicalement de celles des pionniers de la<br />
TA et des tenants des grammaires d’unification. En particulier, alors que la syntaxe a<br />
toujours été considérée comme devant occuper une place centrale dans les recherches et<br />
les applications en TAL, tous les chercheurs en IA ne partagent pas le point de vue de la<br />
nécessité et de l’importance d’un module <strong>syntaxique</strong> dans les modèles théoriques de la<br />
compréhension, et encore moins dans les applications de simulation de la compréhension<br />
du langage naturel. Pour tester l’hypothèse d’une analogie entre le cerveau et<br />
l’ordinateur, les informaticiens chercheurs en IA focalisent leurs recherches sur la<br />
réalisation de systèmes « intelligents » qui simulent partiellement les processus de<br />
compréhension, c’est-à-dire de systèmes informatiques qui exécutent des tâches qui,<br />
quand elles sont réalisées par des humains, sont réputées solliciter des capacités de<br />
maîtrise du langage. Les premières réalisations sont des systèmes de simulation intégrés<br />
dans des applications « jouets ». Puis, au cours des années 1980, les chercheurs de l’IA<br />
délaissent progressivement la réalisation de systèmes jouets, pour s’attaquer à la mise au<br />
point de systèmes informatiques, incluant des ressources et des traitements linguistiques,<br />
utiles dans des contextes réels. Pour illustrer cette évolution, qui allait conduire au<br />
Natural Language Processing (NLP), je décris deux systèmes pionniers, SHRDLU et<br />
PARRY, réalisés au début des années 1970, puis deux systèmes industriels, <strong>opérationnel</strong>s<br />
à la fin des années 1980, CONSTRUE et ATRANS 21 .<br />
- Le système SHRDLU est réalisé par Terry Winograd pendant sa thèse au MIT<br />
(Winograd, 1972). C’est un système de dialogue qui permet à un opérateur humain<br />
de piloter à l’aide d’instructions données en anglais une grue pouvant manipuler et<br />
déplacer des blocs de taille et de couleur variées. Le système est très sophistiqué. Il<br />
inclut en particulier l’implémentation d’une grammaire inspirée des travaux de<br />
Halliday dans un langage procédural, ainsi qu’une méthode pour construire<br />
automatiquement les conditions de vérité exprimant le contenu sémantique d’un<br />
énoncé et pour les confronter à l’état du monde, c’est-à-dire la position courante des<br />
blocs. Il s’agit d’un monde très restreint où toutes les actions possibles sont connues.<br />
Le système n’est capable de traiter qu’une poignée de phrases, comme c’est la<br />
norme pour les systèmes de ce type qui vont voir le jour à cette époque.<br />
- Le système PARRY est réalisé par Kenneth M. Colby à Stanford (Colby, 1973). C’est<br />
aussi un système de dialogue, qui permet de mener une conversation avec un<br />
soi-disant malade paranoïaque interné dans un hôpital de vétérans. Le système est<br />
très robuste. Il n’est doté d’aucune grammaire ou <strong>analyseur</strong>, mais il est constitué<br />
d’un ensemble d’environ 6 000 patrons qui lui permettent de réagir aux énoncés de<br />
ces interlocuteurs, de façon suffisamment réaliste pour que ceux-ci soient<br />
convaincus la plupart du temps d’avoir affaire à un vrai malade.<br />
21 Les deux premiers sont ceux que Y. Wilks choisit de décrire dans l’introduction de son article History of<br />
Computational Linguistics de la seconde version de l’Encyclopedia of language and linguistics (2006), et les<br />
deux autres sont ceux que Philip J. Hayes décrit en détail dans l’article Natural Language Processing :<br />
Applications de la première version de cette même encyclopédie (Hayes, 1994).<br />
39
- Le système CONSTRUE (Hayes et al., 1987) est développé au Carnegie Group Inc<br />
pour l’agence Reuters. C’est un système qui classe automatiquement un flux de<br />
dépêches de presse économiques ou financières dans une ou plusieurs catégories<br />
d’un ensemble de 674 catégories prédéfinies. CONSTRUE utilise des techniques de<br />
pattern-matching et des règles d’appariement pondérées pour identifier dans les<br />
dépêches des mots ou séquences de mots qu’il associe avec une certaine pondération<br />
aux thèmes ou concepts d’une base de connaissance du domaine. Il exploite ensuite<br />
des règles de classification de type si–alors qui tiennent compte des concepts<br />
activés, des parties de textes où figurent les mots activateurs, ainsi que des poids<br />
d’activation, pour affecter la dépêche analysée à une ou plusieurs catégories. Les<br />
règles et la base de connaissances exploitées par le système sont totalement<br />
dépendantes du domaine. Le coût de leur construction est estimé à une<br />
année-homme par P. J. Hayes.<br />
- Le système ATRANS (Lytinen et Gershman, 1986) est développé par la société<br />
Cognitive Systems pour la Société Générale de Banque de la Belgique. C’est un<br />
système d’extraction de faits (fact extraction, on ne dit pas encore information<br />
extraction) qui traite des télex concernant des opérations de transfert d’argent, et<br />
extrait de ces dépêches des informations pertinentes (les banques, leur rôle dans<br />
l’opération de transfert, les montant, dates, etc.). Les résultats sont validés par un<br />
opérateur humain. Les techniques utilisées dans ATRANS sont basées sur le<br />
formalisme de la dépendance conceptuelle développé par R. Schank (Schank, 1975),<br />
fondateur de Cognitive Systems. Etant donné le style très particulier des dépêches et<br />
la focalisation de l’analyse sur l’extraction d’informations de type prédéfini, le<br />
système n’inclut pas de module standard d’analyse <strong>syntaxique</strong>, l’extraction est<br />
guidée par la « sémantique » du domaine et de la tâche.<br />
A la fin des années 1980 émerge ainsi, dans le champ du TAL, un nouveau paradigme,<br />
en anglais le Natural Language Processing (NLP). Dans ce paradigme, les recherches<br />
sont guidées par les applications, et non par l’objectif d’une meilleure compréhension du<br />
langage humain. En ce sens, le NLP n’est pas un programme d’investigation<br />
scientifique, contrairement à la Computational Linguistics qui continue à revendiquer<br />
l’objectif d’une description théorique des langues. Ce paradigme s’est développé de<br />
façon d’autant plus foudroyante que le développement de la microinformatique, l’essor<br />
de la documentation électronique et l’arrivée d’Internet ont fait émerger des besoins<br />
nouveaux et ont généré une demande sociale forte. Les applications du NLP sont bien<br />
connues : extraction d’informations, classification de documents, résumés de documents.<br />
Ces applications s’ajoutent aux applications historiques que sont la traduction<br />
automatique pour le TAL et la recherche d’informations pour l’informatique<br />
documentaire. Les recherches sont encouragées non seulement par la demande sociale,<br />
mais aussi et surtout par les campagnes d’évaluation lancées par l’agence DARPA<br />
(Defense Advanced Research Projects Agency), du Département de la Défense des Etats-<br />
<strong>Un</strong>is, qui ont contribué à façonner le paysage de la recherche en TAL, au moins aux<br />
Etats-<strong>Un</strong>is.<br />
40
Dans la philosophie du NLP, il convient de faire feu de tout bois dans la recherche des<br />
résultats attendus. Il s’agit de mettre en œuvre de façon optimale les techniques et les<br />
ressources nécessaires pour atteindre un objectif donné, avec autant que possible le souci<br />
constant d’ajuster les coûts d’élaboration des systèmes aux gains escomptés lors de leur<br />
utilisation dans des contextes réels. Comme on le voit dans les exemples illustratifs<br />
ci-dessus, les systèmes se distinguent les uns des autres selon le type de traitements<br />
linguistiques qu’ils opérationnalisent et selon le type et le volumes des connaissances<br />
qu’ils mettent en œuvre. Certaines applications se contentent de méthodes d’extraction<br />
simples et robustes, alors que d’autres requièrent une phase d’analyse linguistique<br />
détaillée. Concernant l’analyse <strong>syntaxique</strong>, même dans les cas où une analyse du contenu<br />
est nécessaire, la syntaxe n’est pas mise nécessairement de façon primordiale au centre<br />
du dispositif. <strong>Un</strong> certain nombre de chercheurs ont travaillé sur l’hypothèse que la<br />
structure sémantique était première, et (relativement) indépendante de la structure<br />
<strong>syntaxique</strong>, dès lors que l’on s’intéressait à la détermination du contenu informatif des<br />
énoncés. On peut citer le système des dépendances conceptuelles de Schank (1975) et<br />
celui des préférences sémantiques de Wilks (Wilks et Fass, 1992), tous les deux inspirés<br />
de la grammaire des cas de Fillmore (1968). <strong>Un</strong>e autre ligne d’opposition concerne les<br />
connaissances sur le domaine. Certaines applications sont peu exigeantes en<br />
connaissances sur le domaine, alors que d’autres requièrent la construction de bases de<br />
connaissances très riches sur le domaine et sur la tâche. Et le principal problème auquel<br />
se sont heurtées les recherches en IA à la fin des années 1990 est celui du goulet<br />
d’étranglement que constitue la tâche de modélisation des connaissances à intégrer dans<br />
les systèmes devant effectuer des tâches complexes dans des domaines où ces<br />
connaissances ne se formalisent pas de façon immédiate. L’activité d’acquisition des<br />
connaissances pour les systèmes à base de connaissances est devenue un thème de<br />
recherche en soi autour duquel se sont articulées des recherches issues de différentes<br />
disciplines et elle a donné lieu à la réflexion sur des systèmes experts de deuxième<br />
génération (David et al., 1993). C’est dans cette mouvance que j’ai entrepris mes<br />
recherches sur LEXTER et sur l’acquisition des connaissances à partir de textes<br />
(cf. Chapitre 1).<br />
Le problème du coût de construction manuelle des systèmes de TAL allait trouver des<br />
solutions avec l’explosion, dans les années 1990, du TAL dit « empirique » ou<br />
« statistique », qui se caractérise par l’arrivée en force et la généralisation des méthodes<br />
statistiques ou numériques dans quasiment tous les secteurs d’investigation du TAL. En<br />
particulier, l’utilisation de méthodes d’apprentissage automatique sur des données<br />
annotées à la main s’est révélée extrêmement féconde pour passer le goulet<br />
d’étranglement dans certaines applications, entre autres pour les systèmes d’extraction<br />
d’information (Maning et Schütze, 1999 ; p. 19). Selon Wilks (2006), l’élan a été donné<br />
à l’origine par Fred Jelinek à IBM, qui met en place un programme de recherche en<br />
traduction automatique (Brown et al., 1990), dans lequel les méthodes statistiques qui<br />
avaient été appliquées avec succès à la reconnaissance de la parole sont testées avec non<br />
moins de succès en traduction automatique. Il s’agit par exemple de techniques<br />
d’apprentissage automatique lancées sur le corpus bilingue anglais/français du Hansard.<br />
On peut faire remonter l’origine de l’apprentissage automatique en TAL aux travaux de<br />
41
Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur<br />
morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus<br />
annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement<br />
exponentiel des capacités des machines et la multiplication des ressources textuelles<br />
électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à<br />
toutes les tâches du TAL.<br />
Concernant l’analyse <strong>syntaxique</strong> automatique, toute une série de travaux convergent vers<br />
la construction automatique de grammaires hors contextes probabilistes à partir de<br />
l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des<br />
grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de<br />
dérivation. Ces probabilités sont calculées à partir de corpus annotés <strong>syntaxique</strong>ment,<br />
presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir<br />
parmi les multiples analyses d’une phrase fournies par l’<strong>analyseur</strong> quelles sont celles qui<br />
ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres<br />
11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse<br />
<strong>syntaxique</strong> automatique.<br />
2.3. Travaux en analyse <strong>syntaxique</strong> robuste<br />
2.3.1. La robustesse en analyse <strong>syntaxique</strong><br />
Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce<br />
chapitre à une revue de travaux en analyse <strong>syntaxique</strong> robuste. L’analyse <strong>syntaxique</strong><br />
robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive<br />
dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la<br />
mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les<br />
deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL<br />
depuis 50 ans. Dès les débuts de la TA, on a fabriqué des <strong>analyseur</strong>s <strong>syntaxique</strong>s, et si le<br />
problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était<br />
acquis que les <strong>analyseur</strong>s devaient fournir une analyse <strong>syntaxique</strong> la plus complète, la<br />
plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept<br />
de robustesse en analyse <strong>syntaxique</strong> peut s’expliquer par deux facteurs concomitants :<br />
l’échec rencontré par les approches théorisantes en syntaxe à produire des <strong>analyseur</strong>s<br />
utiles, et la pression de la demande sociale liée au développement des nouvelles<br />
technologies de l’information. Les années 1980 voient l’arrivée des grammaires<br />
d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a<br />
conduit à l’élaboration de théories <strong>syntaxique</strong>s très fécondes, qui ont contribué à une<br />
meilleure description des langues. Mais il est apparu que cet objectif théorique était<br />
difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’<strong>analyseur</strong>s<br />
<strong>syntaxique</strong>s utilisables dans des contextes applicatifs. Les limites des <strong>analyseur</strong>s<br />
s’appuyant sur les descriptions formelles développées par ces théories sont connues :<br />
temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites<br />
42
en performance ne remettent pas nécessairement en cause les programmes de recherche à<br />
la base de ces <strong>analyseur</strong>s. Il faut garder à l’esprit que le paradigme formel et celui de<br />
l’analyse <strong>syntaxique</strong> robuste relèvent de positions épistémologiques fondamentalement<br />
différentes : visée clairement théorisante d’un côté, objectifs prioritairement pratiques de<br />
l’autre. <strong>Un</strong>e grammaire formelle peut être vue comme une théorie de la langue au sens<br />
de Chomsky, un <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong> peut être vu comme un objet<br />
technique, au sens de Gilbert Simondon dans sa philosophie des techniques, comme je le<br />
défendrai à la fin du chapitre 3.<br />
Du côté des applications, la pression de la demande sociale pour des outils de traitement<br />
de l’information s’est intensifiée avec le développement de la bureautique et<br />
l’accroissement exponentiel de la documentation électronique. Des outils de TAL<br />
robuste(s) sont requis comme composants des applications informatiques visant à gérer,<br />
traduire, classer, fouiller, interroger ces sources électroniques, nécessaires et accessibles<br />
dans une grande diversité d’activités humaines. Néanmoins, il ne faudrait pas surestimer<br />
l’importance et la nouveauté d’un tel phénomène. Pour les recherches en TAL, la<br />
pression de la demande sociale a toujours existé. Le TAL est né de cette pression, quand<br />
des esprits inventifs ont imaginé que les nouveaux calculateurs pourraient résoudre les<br />
immenses problèmes de la traduction à la fin des années 1940. Dans les années 1990, et<br />
dans le domaine de l’analyse <strong>syntaxique</strong> automatique, c’est donc le décalage entre les<br />
résultats produits par les approches dominantes en analyse <strong>syntaxique</strong> automatique et la<br />
demande en outils utilisables qui a conduit à l’émergence de la notion de robustesse pour<br />
caractériser les travaux de plus en plus nombreux développés en dehors du paradigme<br />
des grammaires formelles.<br />
Pour préciser la notion de robustesse, je reprends la caractérisation proposée par Salah<br />
Aït-Mokhtar, Jean-Pierre Chanod et Claude Roux dans leur article publié en 2002 dans<br />
le numéro spécial de la revue Natural Language Engineering sur les méthodes robustes<br />
en Traitement Automatique des Langues :<br />
We think of robustness as the ability of a language analyzer to provide<br />
useful analyses for real-world input texts. By useful analyses, we mean<br />
analyses that are (at least partially) correct and usable in some automatic<br />
task or application. That definition implies two requirements: first, a<br />
robust system should product (at least) one analysis for any real-world<br />
input. (…) A robust system should also limit the number of concurrent<br />
analyses it produces or a least give indications on which are the preferred<br />
ones.<br />
(Aït-Mokhtar et al., 2002, p. 122–123)<br />
Cette définition résume l’ironie pour les tenants d’une approche pratique en Traitement<br />
Automatique des Langues de devoir forger un concept spécifique pour caractériser leurs<br />
<strong>analyseur</strong>s en reprenant les termes même de leur cahier des charges. Le concept de<br />
robustesse s’efface devant celui d’utilité, qui est le concept fondamental. Dès lors qu’on<br />
ne poursuit pas l’objectif théorique d’une meilleure connaissance des langues, il s’agit de<br />
faire des <strong>analyseur</strong>s <strong>syntaxique</strong>s utiles, c’est-à-dire des <strong>analyseur</strong>s capables de produire<br />
dans des temps raisonnables, pour toute séquence fournie en entrée, une analyse la plus<br />
43
complète et la plus juste possible, qui soit utilisable pour une gamme d’applications<br />
spécifiées.<br />
Aït-Mokhtar et al. (2002) identifient trois grands courants nouveaux à partir des années<br />
1990 visant la robustesse en analyse <strong>syntaxique</strong> automatique. Le premier courant<br />
cherche à étendre des systèmes classiques basés sur des modèles théoriques avec des<br />
procédures, heuristiques et mécanismes visant à récupérer des analyses partielles quand<br />
le système a échoué à analyser la phrase entière, et à trier ou sélectionner les meilleures<br />
analyses quand le système en a produit un grand nombre. La deuxième approche est<br />
celle de l’analyse <strong>syntaxique</strong> statistique, où les systèmes sont constitués de règles qui ont<br />
été apprises automatiquement à partir de corpus annotés <strong>syntaxique</strong>ment. La troisième<br />
voie est celle de l’analyse <strong>syntaxique</strong> superficielle, dans laquelle on revoit à la baisse les<br />
ambitions des <strong>analyseur</strong>s pour réaliser des systèmes qui reconnaissent des structures<br />
<strong>syntaxique</strong>s minimales.<br />
Au-delà de ces approches contemporaines, il est possible d’identifier et de rassembler<br />
une famille de travaux, dont les premiers datent des débuts de la TA, qui, en dehors de<br />
toute visée théorique, se fixent comme objectif de développer des <strong>analyseur</strong>s<br />
<strong>syntaxique</strong>s, à base de règles de reconnaissance opératoires, utiles pour certaines<br />
applications. Ces travaux sont moins nombreux, et plus isolés, car souvent menés dans le<br />
cadre d’entreprises personnelles et autonomes. Parce qu’ils ne s’inscrivent pas dans une<br />
approche ou une école de pensée académique identifiée et structurée, avec ses leaders et<br />
ses conférences, ils sont peu visibles, et quand ils sont aperçus, ils peuvent être taxés de<br />
n’être que du « bricolage » ou de relever de l’« ingénierie ». En sélectionnant les travaux<br />
présentés dans cette section, j’ai cherché à établir une lignée dans laquelle s’inscrit mon<br />
propre <strong>analyseur</strong>. J’ai voulu assurer une certaine profondeur historique, en choisissant<br />
des travaux anciens mais qui s’inscrivent dans la veine actuelle de l’analyse robuste, j’ai<br />
donné un petit coup de projecteur à des travaux menés en France, et j’ai privilégié des<br />
auteurs qui, au-delà des réalisations effectives, ont tenté de problématiser leur approche<br />
en analyse <strong>syntaxique</strong>.<br />
Je présente successivement les travaux suivants :<br />
- L’<strong>analyseur</strong> FULCRUM de P. S. Garvin (section 2.3.2)<br />
- L’<strong>analyseur</strong> du projet TDAP (section 2.3.3)<br />
- L’<strong>analyseur</strong> de F. Debili (section 2.3.4)<br />
- Le projet PLNLP (section 2.3.5)<br />
- L’analyse par chunks de S. Abney (section 2.3.6)<br />
- L’<strong>analyseur</strong> 98 de J. Vergne (section 2.3.7)<br />
- L’analyse <strong>syntaxique</strong> robuste selon J. -P. Chanod (section 2.3.8)<br />
44
2.3.2. L’<strong>analyseur</strong> FULCRUM de P. S. Garvin<br />
Paul S. Garvin commence ses recherches, dans les années 1950, à l’université de<br />
Georgetown, au sein de l’équipe qui travaille sur le développement du système de<br />
traduction automatique GAT (section 2.2), et il les poursuit au sein de Ramo-Wooldridge<br />
Corporation, toujours dans le cadre de la traduction automatique, entreprise dont il prend<br />
la direction en mars 1960. Il développe une méthode d’analyse <strong>syntaxique</strong>, dite Fulcrum<br />
method. Dans l’article qu’il présente lors de la deuxième conférence internationale sur le<br />
Traitement Automatique des Langues, à Grenoble en août 1967 (Garvin, 1967), Paul<br />
Garvin présente l’<strong>analyseur</strong> <strong>syntaxique</strong> FULCRUM pour le russe, qui possède la<br />
caractéristique essentielle d’être un système bipartite, constitué d’un dictionnaire et d’un<br />
algorithme. Le dictionnaire recense de façon classique les formes avec leurs catégories<br />
potentielles, et l’algorithme ordonne des règles de reconnaissance de patrons<br />
linguistiques dans différentes parties de la phrase pour identifier les structures<br />
<strong>syntaxique</strong>s. En cela, le système FULCRUM se démarque de la majorité des systèmes de<br />
traduction développés à l’époque, dans lesquels, selon le principe de séparation cher à<br />
Yngve (section 2.2.1), les règles de grammaire étaient séparées des algorithmes<br />
d’analyses. Ces systèmes étaient tripartites, composés d’un dictionnaire électronique,<br />
d’une base de règles grammaticales et sémantiques, et d’un algorithme d’analyse. Les<br />
arguments pour une telle séparation étaient la possibilité d’un partage des tâches entre<br />
les linguistes, qui se concentrent sur la mise au point de règles de grammaire, et les<br />
informaticiens, qui eux planchent sur la conception d’algorithmes performants, ainsi<br />
qu’une meilleure maintenabilité. Selon Garvin, ce cloisonnement n’est viable que tant<br />
qu’il y a indépendance entre les règles et les algorithmes, et donc qu’il est possible de<br />
modifier ou d’ajouter des règles sans qu’il soit nécessaire de modifier l’algorithme. Or ce<br />
n’est plus le cas dès que le nombre de règles augmente et que la grammaire atteint une<br />
taille réaliste. La base de règles ne peut plus être gérée par un algorithme simple. Soit il<br />
faut adapter l’algorithme à la base de règles, et l’algorithme perd toute généralité, soit il<br />
faut un algorithme secondaire servant d’interface entre l’algorithme général et la base de<br />
règles. Dans les deux cas, l’indépendance n’existe plus, et les avantages apportés par la<br />
séparation sont illusoires. C’est pourquoi Garvin opte pour un système bipartite.<br />
Les deux concepts essentiels de la méthode sont les suivants :<br />
- La méthode par passes. <strong>Un</strong>e phrase est traitée en plusieurs passes, à chaque passe<br />
sont identifiées un certain nombre de relations <strong>syntaxique</strong>s grâce à la reconnaissance<br />
de patrons grammaticaux. Les passes se succèdent de telle façon que soient<br />
reconnus d’abord les constituants <strong>syntaxique</strong>s de la phrase, puis les relations entre<br />
ces constituants, et enfin la structure générale de la phrase. Les règles de<br />
reconnaissance sont appliquées par l’algorithme dans un ordre tel que chacune est<br />
testée au moment où les informations grammaticales nécessaires sont disponibles<br />
(les étiquettes et relations posées lors des passes précédentes).<br />
45
- Le concept de « fulcrum ». Pour une fonction de recherche donnée (par exemple le<br />
rattachement des adverbes à des adjectifs), les « fulcra 22 » sont les mots pivots à<br />
partir desquels est lancée une analyse locale portant sur les mots voisins dans la<br />
phrase pour placer une relation de dépendance <strong>syntaxique</strong>. A chaque passe, le<br />
système ne traite donc pas tous les mots de la phrase successivement de gauche à<br />
droite (ou de droite à gauche), mais « saute » de mot pivot en mot pivot en<br />
effectuant à chaque fois une analyse locale.<br />
Dans un tel système bipartite, les connaissances linguistiques sur la grammaire de la<br />
langue sont contenues dans l’algorithme :<br />
This means that the highly complex system of rules that makes up the real<br />
grammar of a language is distributed over a correspondingly complex<br />
algorithm which applies the rules in terms of the ordering that the<br />
language requires.<br />
(Garvin, 1967, p. 1)<br />
2.3.3. L’<strong>analyseur</strong> du projet TDAP<br />
Entre juin 1958 et juillet 1959, au sein du projet Transformations and Discourse<br />
Analysis Project (TDAP) dirigé par Zellig S. Harris à l’université de Pennsylvania, un<br />
<strong>analyseur</strong> <strong>syntaxique</strong> de l’anglais est conçu et développé par une équipe composée de<br />
L. Gleitman, A. Joshi, B. Kauffman et N. Sager, rejoints plus tard par Caroll Chomsky.<br />
Ces recherches ont été menées en marge du courant des recherches en traduction<br />
automatique. Cet <strong>analyseur</strong> a été réécrit au milieu des années 1990 par A. Joshi et<br />
P. Hopely (Joshi & Hopely, 1996, 1999) à partir de la documentation de l’époque.<br />
L’<strong>analyseur</strong> est implémenté comme une cascade de transducteurs. Selon Joshi et Hopely,<br />
il s’agit de la première application des transducteurs à états finis à l’analyse <strong>syntaxique</strong>.<br />
L’analyse se déroule en 7 passes successives.<br />
1. Analyse morphologique. A partir de la consultation d’un dictionnaire, le système<br />
attribue une ou plusieurs étiquettes grammaticales aux mots de la phrase. Dans le<br />
dictionnaire, les catégories affectées à une forme sont classées par ordre de<br />
fréquence décroissante.<br />
2. Traitement des locutions grammaticales. Certaines locutions grammaticales sont<br />
remplacées par une étiquette grammaticale ; par exemple of course est remplacée<br />
par l’étiquette d’adverbe.<br />
3. Désambiguïsation morphologique. Elle est effectuée à l’aide de 14 règles de<br />
désambiguïsation, qui ont pour fonction d’éliminer des étiquettes affectées aux mots<br />
ambigus et qui s’appuient sur les contextes droit et gauche. Les règles s’enchaînent<br />
et le processus se répète jusqu’à ce que plus aucune désambiguïsation ne soit<br />
effectuée. Il peut subsister des mots non désambiguïsés.<br />
22 Fulcrum désigne en anglais le pivot d’un levier, ou le couteau d’une balance.<br />
46
4. Repérage des groupes nominaux simples (« simple noun phrases »). Ce repérage est<br />
effectué par deux transducteurs à états finis, un premier qui parcourt la phrase de<br />
droite à gauche, et qui repère les groupes nominaux à partir d’une limite finale sûre<br />
(nom ou pronom), puis un second de gauche à droite, et qui repère les groupes<br />
nominaux à partir d’une limite initiale sûre (article). Les catégories admises par le<br />
premier transducteur sont nom, adjectif et article. Le transducteur parcourt le graphe<br />
jusqu’à un point de sortie, en adoptant la stratégie du chemin le plus long. En<br />
particulier, s’il rencontre un mot ambigu, il choisit l’étiquette qui lui permet de<br />
continuer le chemin. C’est ainsi que certaines ambiguïtés sont résolues à ce stade.<br />
De la même façon, si le transducteur rencontre une conjonction de coordination, il<br />
l’absorbe si cela lui permet de continuer le chemin. Le second transducteur repère<br />
les groupes nominaux élémentaires qui commencent par un article. Les groupes<br />
nominaux reconnus à cette étape sont placés entre crochets (Exemples : [the rich<br />
man], [increased production]).<br />
5. Repérage des adjoints simples (« simple adjuncts »). <strong>Un</strong> transducteur gauche droite<br />
repère les groupes prépositionnels ou adverbiaux simples. Dans l’exemple « in<br />
increased production », le tranducteur peut repérer à in le début d’un groupe<br />
prépositionnel parce que le transducteur droite gauche de la passe précédente a<br />
d’abord reconnu le groupe nominal qui commence juste après la préposition. Les<br />
auteurs soulignent que c’est tout l’intérêt d’une architecture séquentielle enchaînant<br />
les transducteurs que de rendre facile la reconnaissance des groupes <strong>syntaxique</strong>s.<br />
Les groupes reconnus à cette étape sont placés entre parenthèses (Exemples : (very<br />
clearly), (rapidly), (to date), (in [increased production])).<br />
6. Repérage des noyaux verbaux simples (« verb clusters »). <strong>Un</strong> transducteur à états<br />
finis gauche droite repère des noyaux verbaux, n’incluant que des compléments<br />
verbaux, ainsi que des adjoints simples reconnus lors de la phase précédente. Les<br />
groupes reconnus à cette étape sont placés entre accolades (Exemples : {went}, {has<br />
gone fishing}, {may have been (already) published}, {have been observed and<br />
reported to be}, {wants to leave}, et {wants} [the man] (from [Philadelphia]) {to<br />
leave}).<br />
7. Repérage des propositions. Toutes les structures repérées dans les phases<br />
précédentes sont dites de premier ordre, car non enchâssées (nested). Au cours de la<br />
phase de repérage des propositions, les structures repérées peuvent être enchâssées.<br />
Le repérage de propositions se fait grâce à l’application itérative d’un transducteur<br />
gauche droite qui commence sa recherche par les propositions les plus<br />
profondément enchâssées. Au cours de la reconnaissance d’une proposition, les<br />
adjoints sont soit sautés, soit considérés comme compléments. Des informations de<br />
sous-catégorisation sont exploitées. La stratégie du complément le plus long est<br />
adoptée, et le rattachement se fait au verbe le plus proche.<br />
Joshi et Hopely expliquent que les transducteurs utilisés dans les phases 1 à 6 ont été<br />
rendus déterministes grâce au choix de l’ordre d’enchaînement des transducteurs et de<br />
leur sens de parcours (gauche droite ou droite gauche), et grâce à l’adoption de la<br />
stratégie du plus long chemin. Dans le cadre du projet TDAP, l’<strong>analyseur</strong> a été<br />
47
développé à l’origine pour être utilisé dans diverses tâches applicatives, dont le résumé<br />
automatique d’articles scientifiques. Les phrases analysées sont des phrases réelles,<br />
extraites de textes de biochimie. Ce programme est le précurseur du programme de la<br />
grammaire de chaînes que développera N. Sager à l’université de New-York (Sager,<br />
1970), qui donnera lieu aux <strong>analyseur</strong>s développés par R. Grishman et L. Hirschman.<br />
2.3.4. L’<strong>analyseur</strong> de F. Debili<br />
Fathi Debili soutient sa thèse intitulée Analyse syntaxico-sémantique fondée une<br />
acquisition de relations lexicales-sémantiques en janvier 1982. Il a mené sa recherche<br />
dans une équipe animée par A. Andreewsky, et dont les travaux en Traitement<br />
Automatique des Langues sont orientés vers la recherche documentaire dans des bases<br />
textuelles (de type juridique essentiellement). F. Debili s’intéresse plus précisément à la<br />
détection de la paraphrase. A la question « Qui nomme le premier ministre ? », un<br />
système documentaire devrait fournir des documents contenant les phrases « Le premier<br />
ministre est nommé par le président de la république. » ou « La nomination du premier<br />
ministre par le président de la république a été (…) ». L’<strong>analyseur</strong> <strong>syntaxique</strong> développé<br />
par F. Debili est un <strong>analyseur</strong> en dépendance, qui s’appuie sur les résultats d’un<br />
étiqueteur morphologique. Le système exploite de façon massive un principe que j’ai<br />
qualifié d’apprentissage endogène, dix ans plus tard lors de la conception de LEXTER<br />
(Chap. 1, section 1.2). Le système est constitué de 3 composantes, morphologique,<br />
<strong>syntaxique</strong>, sémantique. La composante morphologique repose sur un découpage des<br />
mots étiquetés du corpus en préfixe + radical + suffixe et a pour fonction de regrouper<br />
les mots du corpus en familles morphologiques. La composante <strong>syntaxique</strong> segmente<br />
d’abord la phrase en chaînes nominales et verbales, puis construit toutes les relations de<br />
dépendance potentielles entre les mots. La composante sémantique a pour fonction de<br />
résoudre les ambiguïtés de rattachement laissées par le module <strong>syntaxique</strong>, à l’aide d’un<br />
raisonnement par analogie. Par exemple (Debili, 1982, p. 5), dans la phrase « La<br />
nomination par le ministre des membres du conseil supérieur … », la composante<br />
<strong>syntaxique</strong> a identifié 2 gouverneurs potentiels pour le nom membres : les noms ministre<br />
et nomination. Si le corpus comprend la phrase « Les membres du conseil supérieur sont<br />
nommés … », et si la composante morphologique a acquis le lien morphologique entre<br />
nomination et nommer, et si la composante <strong>syntaxique</strong> a identifié sans ambiguïté la<br />
relation sujet entre le nom membres et le verbe nommer au passif, alors la composante<br />
sémantique va lever l’ambiguïté dans la première phrase en choisissant le nom<br />
nomination comme gouverneur de membres. C’est ce principe de désambiguïsation<br />
endogène qui fait la principale originalité du système de F. Debili. Le système prend en<br />
entrée un corpus de phrases, supposé être suffisamment homogène sur le plan des<br />
caractéristiques lexico-<strong>syntaxique</strong>s pour que des propriétés morpho<strong>syntaxique</strong>s des mots<br />
considérés comme types soient acquises sur l’ensemble de ce corpus et propagées<br />
rétrospectivement lors de passes ultérieures à l’ensemble des occurrences de ces types.<br />
Dans le module <strong>syntaxique</strong>, le traitement se déroule en deux étapes : une étape de<br />
segmentation, une étape de mise en relation. Lors de la première étape, le système<br />
48
effectue le découpage de la phrase en « chaînes nominales » et « chaînes verbales ». Les<br />
exemples donnés ci-dessous donnent une idée du type de résultat produit par le<br />
découpage (CN : chaîne nominale, CV : chaîne verbale, X : élément autre).<br />
/CN1 Ces dispositions /CV1 ne sont pas opposables /CN2 aux personnes /X<br />
qui /CV2 auront déposé /CN3 une demande de permis de construire /<br />
/CN1 Les faces directement accessibles des conduits adossés à un mur<br />
extérieur /CV1 doivent avoir /CN2 une isolation suffisante /X pour que<br />
/CN3 le refroidissement /CV2 ne contrarie pas /CN 4 le tirage.<br />
La description de ce qu’est une chaîne nominale est donnée sous la forme d’une matrice<br />
de reconnaissance dont les lignes et les colonnes sont des filtres catégoriels élémentaires.<br />
Ceux-ci ont pour fonction de reconnaître les éléments qui peuvent faire partie d’une<br />
chaîne nominale (substantifs, adjectifs antéposés, adjectifs postposés, préposition de et à,<br />
articles, verbe infinitif…). La valeur d’une cellule de cette matrice renseigne sur la<br />
possibilité qu’un mot dont la catégorie est donnée par la ligne soit suivi d’un mot dont la<br />
catégorie est donnée par la colonne. Dans cette matrice, sont indiquées aussi les<br />
catégories possibles de début et de fin de chaîne. Cette matrice est donc la représentation<br />
d’un automate à états finis, qui reconnaît les chaînes nominales. Il existe aussi une<br />
matrice de reconnaissance des chaînes verbales bâtie sur le même principe.<br />
Lors de la seconde étape de l’analyse <strong>syntaxique</strong>, le système identifie les relations de<br />
dépendance potentielles entre les mots de la phrase. F. Debili distingue deux types de<br />
relations : les relations homo-syntagmatiques, qui s’établissent entre des mots<br />
appartenant à une même chaîne nominale ou verbale, et les relations<br />
hétéro-syntagmatiques, qui s’établissent entre un mot appartenant à une chaîne nominale<br />
et un mot appartenant à une chaîne verbale. Les principales relations<br />
homo-syntagmatiques repérées au sein des chaînes nominales sont les relations entre un<br />
nom et un adjectif postposé, et entre un nom et une préposition. Les procédures de<br />
reconnaissance de ces relations sont définies sous la forme de filtres <strong>syntaxique</strong>s qui<br />
spécifient des contraintes, en terme de catégories et de succession de catégories, sur la<br />
séquence de mots qui peut se trouver entre un nom régisseur et un adjectif postposé, et<br />
entre une préposition et un nom régisseur. Par exemple, pour la relation Nom-Adjectif<br />
postposé, une de ces contraintes est qu’on ne peut trouver entre un nom et un adjectif de<br />
prépositions autres que de, à et en, ni de séquences participe passé + préposition. Dans la<br />
chaîne nominale « dispositif de surveillance par détecteur à ionisation autonome », le<br />
système va identifier deux relations de dépendances à partir de l’adjectif postposé<br />
autonome, l’une qui pointe vers le nom ionisation et l’autre vers le nom détecteur. Les<br />
noms dispositif et surveillance ne seront pas reconnus comme régisseurs potentiels, car il<br />
se situent au-delà de la barrière qu’est la préposition par.<br />
Les principales relations hétéro-syntagmatiques sont les relations sujet, complément<br />
d’objet et complément d’objet indirect. L’algorithme de reconnaissance du sujet d’un<br />
verbe choisit le nom ou le pronom libre, c’est-à-dire non régi par un autre élément, le<br />
plus proche à gauche du verbe. Il n’y pas de restriction sur le champ d’investigation,<br />
c’est-à-dire pas de contraintes négatives, en terme de barrières, sur la séquence<br />
49
séparative. L’algorithme de reconnaissance du complément d’objet d’un verbe choisit le<br />
nom libre le plus proche à droite du verbe. Les barrières sont les chaînes verbales à la<br />
forme active, les conjonctions de subordination ou de coordination, les ponctuations, les<br />
pronoms sujets. Concernant la relation entre un verbe et une chaîne nominale introduite<br />
par une préposition (complément prépositionnel), il est à noter que F. Debilli ne traite<br />
que les cas où le verbe est au passif. Il laisse donc de côté les configurations où un verbe<br />
à l’actif est suivi d’un complément direct, puis d’un groupe prépositionnel, qui sont<br />
pourtant les configurations prototypiques de l’ambiguïté de rattachement prépositionnel<br />
mettant en jeu un verbe conjugué.<br />
Les règles d’analyse <strong>syntaxique</strong> sont donc implémentées sous forme d’automates à états<br />
finis qui décrivent les parcours possibles entre un élément régisseur (resp. régi) et un<br />
élément régi (resp. régisseur), en terme de successions licites ou illicites de catégories<br />
morpho<strong>syntaxique</strong>s. F. Debili ne donne pas de précision dans sa thèse sur<br />
l’ordonnancement des traitements, en particulier sur l’ordre d’enchaînement des<br />
algorithmes de reconnaissance de relations : y-a-t-il un seul parcours de la phrase, de<br />
gauche à droite, au cours duquel un algorithme de reconnaissance est lancé dès que la<br />
catégorie du mot courant le justifie, ou bien y-a-t-il autant de parcours de la phrase que<br />
de relations ? Comme c’est souvent le cas pour les travaux précurseurs, développés en<br />
marge des courants porteurs, les travaux de F. Debili sont assez peu connus. Ils sont<br />
cependant cités par Gregory Greffenstette (1994, 1996), quand celui-ci décrit ses<br />
travaux, menés dans le même esprit que F. Debili, sur l’utilisation de transducteurs à<br />
états finis pour la réalisation d’<strong>analyseur</strong>s <strong>syntaxique</strong>s légers et robustes.<br />
G. Greffenstette a soutenu en 1983, dans la même équipe et à la même époque que<br />
F. Debili, une thèse intitulée « Traitements linguistiques appliqués à la documentation<br />
automatique » (Greffenstette, 1983).<br />
2.3.5. Le projet PLNLP<br />
Le concept de robustesse a été au centre des préoccupations des chercheurs du Centre de<br />
Recherche d’IBM à Yorktown, qui ont travaillé sur le projet PLNLP (Programming<br />
Language for Natural Language Processing) pendant les années 1980. Lors de l’édition<br />
de 1988 de la conférence COLING organisée à Budapest, Makato Nagao, chercheur à<br />
l’université de Kyoto et pionnier de la traduction automatique au Japon, organise une<br />
table ronde intitulée « Language Engineering : the real bottleneck of Natural Language<br />
Processing » 23 , qu’il introduit ainsi:<br />
The bottleneck in building practical natural language processing system is<br />
not those problems which have been often discussed in research papers,<br />
but in handling much more dirty, exceptional (for theoreticians, but we<br />
frequently encounter) expressions.<br />
(Nagao, 1988, p. 448)<br />
23 Selon Ruslan Mitkov (1995), cité par (Cunningham, 2000), c’est de cet intitulé qu’a été reprise l’expression<br />
« Natural Language Engineering ».<br />
50
Karen Jensen, du Centre de Recherche d’IBM, propose une intervention dont le titre est<br />
« Why computational grammarians can be sceptical about existing linguistic theories ».<br />
Elle y expose en quoi les descriptions produites par les théoriciens de la syntaxe ne sont<br />
que d’un intérêt limité dès lors que l’on cherche à réaliser des grammaires à large<br />
couverture, utiles pour des systèmes <strong>opérationnel</strong>s devant traiter des productions<br />
textuelles réelles.<br />
Existing theories are of limited usefulness to broad-coverage, real-world<br />
computational grammars, perhaps largely because existing theorists focus<br />
on limited notions of “grammaticality”, rather than the goal of dealing, in<br />
some fashion, with any piece of input text. Therefore, existing theories<br />
play the game of ruling out many strings of language, rather than the game<br />
of trying to assign plausible structures to all strings.<br />
(Jensen, 1988, p. 449)<br />
Ce constat est tiré de l’expérience de réalisation d’un système de correction<br />
grammaticale et de vérification de style, le système EPISTILE (Jensen et al., 1983). Par<br />
définition, le système doit être en mesure de traiter des textes produits en milieu<br />
professionnel, comme des lettres, des rapports, des manuels. Le système opère en deux<br />
étapes fortement différentes. Au cours de la première étape, une grammaire de base<br />
(core grammar) est exploitée pour analyser la séquence en entrée. Cette grammaire de<br />
base est censée couvrir le plus largement possible les structures fondamentales du<br />
langage. Elle comporte 300 règles, écrites dans le langage NLP (Heidorn, 1972). Quand<br />
la grammaire de base conduit à plusieurs analyses pour une sous-séquence, une<br />
procédure de désambiguïsation classe les analyses par ordre de plausibilité décroissante<br />
et choisit la meilleure. Si la grammaire échoue à reconnaître l’ensemble de la séquence<br />
comme une phrase, c’est-à-dire lorsqu’elle ne réussit pas à conclure l’analyse sur un<br />
noeud phrase, une procédure d’ajustement d’analyse (fitting procedure) est alors lancée<br />
dans une seconde étape. Cette procédure cherche, à partir de l’ensemble des constituants<br />
fabriqués lors de la première étape, à produire une approximation plausible de la<br />
structure de la séquence initiale en associant certains de ces constituants. Cette procédure<br />
est simple. Elle se déroule elle-même en deux temps. Dans un premier temps, elle choisit<br />
le constituant qui sera le constituant tête de la séquence, en testant les différents<br />
constituants candidats selon cet ordre de préférence :<br />
(a) constituant verbal avec verbe conjugué et sujet ;<br />
(b) constituant verbal avec verbe conjugué ;<br />
(c) constituant non verbal (groupe nominal, groupe prépositionnel…) ;<br />
(d) constituant verbal avec verbe non conjugué ;<br />
(e) autres.<br />
Si plus d’un candidat est trouvé pour une catégorie, la procédure d’ajustement choisit<br />
celui qui couvre la plus grande partie de la séquence d’entrée, et en cas de nouvelle<br />
égalité le plus à gauche. Dans un second temps, si le constituant tête sélectionné ne<br />
couvre pas toute l’entrée, la procédure intègre successivement les constituants restants, à<br />
51
gauche et à droite du constituant tête, selon l’ordre de préférence suivant : les<br />
constituants non verbaux, les constituants verbaux avec verbe non conjugué, les<br />
constituants verbaux avec verbe conjugué.<br />
Par exemple, si la séquence en entrée est<br />
Example : Your percentage of $255.00 is $187.50.<br />
la grammaire de base échoue à produire une analyse complète de phrase. La procédure<br />
d’ajustement tente alors de fabriquer, à partir des constituants extraits lors de la première<br />
étape, la structure la plus plausible et utile possible pour cette séquence. Pour trouver un<br />
constituant tête, elle recherche des constituants verbaux avec verbe conjugué : elle<br />
trouve dans le stock des constituants fabriqués par la grammaire de base : [$255.00 is],<br />
[percentage of $255.00 is], [$255.00 is $187.50], etc. Elle choisit le plus long, soit<br />
[Your percentage of $255.00 is $187.50]. La procédure cherche ensuite s’il reste des<br />
constituants à gauche, et ajoute ainsi le signe de ponctuation [:], puis le nom [Example].<br />
Elle ajoute à droite le point final. Le résultat de l’ajustement est l’arbre ajusté (fitted<br />
parse) constitué de la juxtaposition des constituants identifiés :<br />
[FITTED [NP Example] [PUNC:] [VP Your percentage of $255.00 is 187.50] [PUNC .] ]<br />
L’intérêt de l’approche présentée ne réside pas seulement dans les procédures et<br />
techniques concrètes mises en oeuvre pour construire un arbre plausible après un échec<br />
d’analyse. L’intérêt tient aussi à l’explicitation de la notion de robustesse en terme<br />
d’utilité. L’utilisation concrète des analyses produites par le système dans les<br />
applications de correction grammaticale et de vérification de style impose d’abord que le<br />
système produise une analyse pour toute séquence en entrée, et spécifie ensuite la forme<br />
des analyses qu’il doit produire en cas d’échec de la grammaire de base. La validité des<br />
arbres ajustés ne relève pas de la théorie <strong>syntaxique</strong>, mais de l’utilité pour la suite des<br />
traitements. <strong>Un</strong> autre apport du travail de K. Jensen se situe dans l’identification des<br />
« vraies » difficultés auxquelles se heurte un <strong>analyseur</strong> <strong>syntaxique</strong> qui reçoit des phrases<br />
réelles. C’est ainsi que les « horreurs de ponctuation » (punctuation horrors) rencontrées<br />
dans les textes sont élevées au rang de difficulté supérieure pour l’analyse <strong>syntaxique</strong> :<br />
Real-world natural processing must deal with huge amounts of data, which<br />
involve many, and messy, details. For example, punctuation is very<br />
important in processing real text, but current linguistic theories have<br />
nothing substantial to say about punctuation.<br />
(Jensen, 1988, p. 449)<br />
Enfin, la contribution sans doute la plus importante concerne l’articulation dans un<br />
système <strong>opérationnel</strong> entre la prise en compte de la norme, via la grammaire de base, et<br />
la prise en compte des écarts à cette norme, et donc des échecs de la grammaire, par une<br />
procédure d’ajustement, dans une architecture incrémentale qui délimite clairement la<br />
place et la fonction des deux types d’opérations. Il s’agit d’une implémentation simple<br />
mais pertinente de coopération entre une grammaire dans laquelle on souhaite décrire les<br />
structures et contraintes de la langue, et une procédure de relâchement qui vient prendre<br />
le relais quand la grammaire échoue. La procédure d’ajustement n’est pas conçue<br />
52
comme devant compenser les faiblesses de la grammaire de base, sur son domaine, qui<br />
est la reconnaissance des structures de base. Elle est là pour « récupérer » une analyse en<br />
cas d’échec de la grammaire, c’est-à-dire quand certaines des contraintes implémentées<br />
dans la grammaire de base ne sont pas respectées.<br />
«It should be emphasized that a fitting procedure cannot be used as a<br />
substitute for explicit rules, and that it in no way lessens the importance of<br />
the core grammar. There is a tight interaction between the two<br />
components. The success of the fitted parse depends on the accuracy and<br />
completeness of the core rules; a fit is as good as its grammar.<br />
(Jensen et al., 1983, p. 151)<br />
2.3.6. L’analyse par chunks de S. Abney<br />
Les travaux de Steven Abney sont parmi les plus connus parmi ceux publiés ces 15<br />
dernières années dans le domaine de l’analyse <strong>syntaxique</strong> robuste. Leur renommée tient<br />
autant à leur intérêt propre qu’au fait qu’ils ont été publiés à un moment où, face aux<br />
difficultés rencontrées par les approches classiques pour réaliser des <strong>analyseur</strong>s<br />
<strong>syntaxique</strong>s utiles, on s’intéresse plus ouvertement à l’analyse <strong>syntaxique</strong> robuste.<br />
S. Abney développe un <strong>analyseur</strong> <strong>syntaxique</strong> (CASS, pour Cascaded Analysis of Syntactic<br />
Structure) qui est à la fois rapide et fiable. Abney ne sacrifie pas la qualité pour la<br />
vitesse. Il vise l’objectif d’une analyse <strong>syntaxique</strong> qui soit à la fois plus rapide et plus<br />
fiable que ce que réalisent les <strong>analyseur</strong>s développés dans un cadre classique, sans<br />
rabattre le niveau d’exigence en terme de qualité et de profondeur des analyses. Sa<br />
réussite repose sur deux concepts clés, le concept linguistique de chunk et le concept<br />
informatique de cascade, le second dérivant du premier.<br />
Le concept de chunk est issu des travaux de thèse d’Abney sur la structure du groupe<br />
nominal anglais (Abney, 1987). Les chunks sont définis à partir des têtes sémantiques<br />
(major heads) des principaux types de groupes <strong>syntaxique</strong>s (NP, VP, PP, AP, AdvP).<br />
Tout mot plein est une tête sauf s’il est situé entre un mot fonctionnel (déterminant,<br />
préposition…) et le mot plein que ce mot fonctionnel sélectionne. <strong>Un</strong> chunk est constitué<br />
par la séquence des mots entre le mot fonctionnel et le mot tête sélectionné. Par exemple,<br />
the bald man est un chunk nominal dont la tête est man, was sitting un chunk verbal dont<br />
la tête est sitting, on his red suitcase est un chunk prépositionnel dont la tête est suitcase.<br />
Les chunks sont non récursifs. <strong>Un</strong> chunk a une structure <strong>syntaxique</strong> qui est un<br />
sous-graphe connecté de l’arbre <strong>syntaxique</strong> de la phrase, mais ce n’est pas<br />
nécessairement un constituant <strong>syntaxique</strong> intégral. Si Abney voit dans certaines<br />
expériences psycholinguistiques une validation au plan psychologique de la notion de<br />
chunk, c’est bien dans le cadre de l’analyse <strong>syntaxique</strong> automatique que le concept de<br />
chunk acquiert toute sa pertinence. Il joue un rôle clé dans la conception de l’<strong>analyseur</strong><br />
<strong>syntaxique</strong>. D’abord, ces unités non récursives que sont les chunks sont simples à<br />
reconnaître :<br />
A simple context-free grammar is quite adequate to describe the structure<br />
of chunks. By contrast, the relationships between chunks are mediated<br />
53
more by lexical selection than by rigid templates (…). The order in which<br />
chunks occur is much more flexible than the order of words within chunks.<br />
(Abney, 1990b, p. 1)<br />
Deux niveaux d’analyse s’imposent : un niveau de base, celui des chunks, et un niveau<br />
supérieur, celui des propositions (simplex clauses), au sein desquelles s’établissent les<br />
relations entre chunks. L’architecture de l’<strong>analyseur</strong> est alors la suivante : d’abord<br />
reconnaître les chunks, puis délimiter les propositions et enfin établir des liens entre<br />
chunks à l’intérieur des propositions. C’est le principe de l’analyse en cascade.<br />
L’analyse en cascade consiste en une succession de passes, chaque passe prenant en<br />
entrée la séquence des groupes du niveau inférieur pour fabriquer les groupes du niveau<br />
courant, qui deviennent eux-mêmes les unités de traitement de la passe suivante. Il n’y a<br />
pas de récursivité, les groupes d’un niveau ne contiennent pas de groupes de même<br />
niveau ou de niveau supérieur. Dans la seconde version de CASS (Abney, 1996), l’auteur<br />
envisage jusqu’à 9 niveaux, mais ils sont au nombre de deux dans la première version<br />
(Abney, 1990a, 1990b).<br />
Ce partage des tâches, d’abord la reconnaissance des chunks, ensuite la mise en relation<br />
des chunks au sein des propositions, présente l’avantage de maîtriser de façon optimale<br />
le problème des ambiguïtés de rattachement, qui constitue l’une des difficultés<br />
essentielles de l’analyse <strong>syntaxique</strong>. En effet, selon Abney, il convient de distinguer<br />
deux types d’ambiguïtés de rattachement : l’ambiguïté de rattachement à l’intérieur des<br />
chunks et l’ambiguïté de rattachement entre les chunks. Du point de vue de la<br />
reconnaissance automatique, ces deux types d’ambiguïté sont radicalement différents. Ils<br />
doivent être traités de façon séparés, séquentiellement, et avec des méthodes différentes.<br />
Au sein d’un chunk, par exemple un chunk nominal constitué d’une séquence de noms<br />
ou d’adjectifs, l’identification des rattachements ne peut être pris en charge par<br />
l’<strong>analyseur</strong> <strong>syntaxique</strong>. Dans le chunk [cherry picker exhaust manifold], toutes les<br />
combinaisons de rattachement binaire entre ces 4 éléments sont possibles d’un point de<br />
vue <strong>syntaxique</strong> : [[[cherry picker] exhaust] manifold], [[cherry picker] [exhaust<br />
manifold]], etc. Selon Abney, l’ambiguïté n’est pas <strong>syntaxique</strong>. L’<strong>analyseur</strong> <strong>syntaxique</strong><br />
peut retourner le chunk non analysé, avec implicitement toutes les analyses internes<br />
possibles. L’ambiguïté est sémantique, et c’est à un module sémantique de finir le<br />
travail. Il n’en va pas du tout de même pour l’ambiguïté de rattachement des chunks au<br />
sein d’une proposition en revanche. Abney prend l’exemple suivant (VP : chunk verbal,<br />
NP : chunk nominal, CP : clause, PP : chunk prépositionnel) :<br />
John [VP [met] [NP the woman] [CP he married] [PP in Italy]]<br />
Toutes les combinaisons de rattachement binaire entre éléments, au sein de la séquence<br />
de 4 éléments constituée du chunk verbal pivot et les 3 groupes qui suivent, ne sont pas<br />
<strong>syntaxique</strong>ment licites. Par exemple, la relative ne peut être attachée au verbe, le chunk<br />
prépositionnel ne peut être attaché au chunk nominal. Au sein d’une proposition, il peut<br />
y avoir des contraintes <strong>syntaxique</strong>s fortes pesant sur la détermination des attachements<br />
possibles, et la syntaxe doit d’abord dire son mot, avant de passer la main à la<br />
sémantique. La notion de chunk induit donc une séparation en deux du problème du<br />
rattachement et un partage des tâches qui permet de contrôler la propagation de<br />
54
l’ambiguïté en évitant qu’elle se multiplie entre des niveaux qui sont hétérogènes quant<br />
aux principes de désambiguïsation que l’on peut leur appliquer.<br />
Aux concepts de chunk et de traitement en cascade, il faut ajouter un troisième principe,<br />
indépendant des deux premiers, essentiel dans l’approche promue par Abney, au moins<br />
dans ses premiers écrits : séparer autant que possible les règles de grammaire des<br />
heuristiques et algorithmes. Dans ses deux articles de 1990, Abney fait référence aux<br />
<strong>analyseur</strong>s PARSIFAL de Marcus (Marcus, 1980) et FIDDITCH de Hindle (Hindle, 1990)<br />
pour montrer que l’on peut s’engager avec confiance dans la voie de l’analyse<br />
déterministe pour faire des <strong>analyseur</strong>s rapides et fiables. Néanmoins, tout en souhaitant<br />
s’inscrire dans cette lignée, Abney considère que l’<strong>analyseur</strong> FIDDITCH, qui est<br />
l’<strong>analyseur</strong> adoptant les principes de Marcus possédant la plus large grammaire, montre<br />
un certain nombre de limites, qui sont dues en partie à la non distinction des<br />
informations grammaticales et heuristiques. On retrouve là le débat récurrent sur la<br />
séparation des règles et des algorithmes.<br />
Marcus-style deterministic parsing has two related drawbacks. First, the<br />
complexity of the grammar development and debugging increases too<br />
rapidly. I believe this results partly from the use of a production-rule<br />
grammar format, and partly from the fact that grammatical and heuristic<br />
information are folded together indiscriminately. Second, if the parser’s<br />
best initial guess at every choice point leads to a dead end, the parser<br />
simply fails. It is much preferable to separate heuristic information from<br />
grammatical information, and use a non-deterministic architecture. As<br />
heuristics improve, we approach deterministic parsing on non-garden path<br />
sentences.<br />
(Abney, 1990b, p. 258)<br />
C’est pourquoi dans les deux versions de l’<strong>analyseur</strong> CASS, Abney développe un<br />
ensemble de grammaires hors contexte, une par niveau, chaque règle de grammaire étant<br />
donnée sous la forme d’une expression régulière, permettant de reconnaître les chunks<br />
du niveau correspondant. Ces grammaires ne constituent pas des descriptions théoriques<br />
des structures <strong>syntaxique</strong>s valides de la langue, comme c’est classiquement le cas, mais<br />
des ensembles de patrons de reconnaissance de morceaux de structure <strong>syntaxique</strong> :<br />
The grammar is not viewed as a linguistic description but as a<br />
programming language for recognizers. The goal is to write patterns that<br />
are reliable indicators of bits of syntactic structure, even if those bits of<br />
structure are “boundaries” or “kernels” rather than traditional phrases.<br />
(Abney, 1996, p. 339)<br />
Dans la version 2 de CASS, chaque expression régulière d’un niveau est transformée en<br />
un automate à états finis, et l’union de ces automates produit le reconnaisseur du niveau<br />
considéré. C’est la stratégie du plus long chemin qui est adoptée : si le reconnaisseur<br />
atteint un état final en plusieurs points, c’est l’état qui conduit au plus large<br />
recouvrement du flux en entrée qui est choisi. En cas d’échec, le premier mot est<br />
abandonné, et on passe au suivant. Dans la première version de l’<strong>analyseur</strong>, Abney<br />
55
n’utilise pas l’arsenal des automates à états finis, mais développe un compilateur<br />
spécifique pour ses grammaires, dans lequel il implémente un certain nombre<br />
d’heuristiques qui font de son <strong>analyseur</strong> un <strong>analyseur</strong> non déterministe. Ce compilateur<br />
est une version non déterministe d’un <strong>analyseur</strong> LR (Left-to-right Rightmost derivation),<br />
exploitant une recherche best-first. Il y a deux sources de non déterminisme : (1) un mot<br />
donné peut appartenir à plus d’une catégorie ; (2) les points où les chunks s’arrêtent ne<br />
sont pas marqués explicitement dans le flux de mots entrant, ce qui conduit à des<br />
ambiguïtés impliquant des chunks de différentes longueurs. Par exemple dans la phrase<br />
« In South Australia beds of boulders were deposited by melting icebergs. », si<br />
l’<strong>analyseur</strong> applique la stratégie du plus long chemin, il va reconnaître le chunk [South<br />
Australia beds], alors que la bonne analyse découpe cette séquence en deux chunks<br />
[South Australia] et [beds], dont le second est le sujet du verbe.<br />
Pour s’approcher d’un comportement déterministe sans perdre en robustesse, le<br />
compilateur effectue une recherche best-first, qui s’appuie sur une pondération des<br />
actions possibles à chaque itération. A chaque étape de l’analyse, étant donné la<br />
configuration en cours, le mot entrant et les règles de la grammaire, un certain nombre<br />
d’actions sont possibles : chacune de ces actions reçoit de façon dynamique un poids, qui<br />
est une estimation de la probabilité que cette action conduise à la meilleure analyse. Les<br />
actions sont alors placées dans la pile des actions possibles qui, à chaque itération, est<br />
mise à jour puis triée par ordre de poids décroissants. L’action de plus fort poids est<br />
choisie. Et le cycle se répète. Les actions alternatives non choisies restent dans la pile et<br />
peuvent ultérieurement passer en tête de liste, ce qui correspond à un retour en arrière<br />
dans l’analyse. C’est l’affectation de scores aux différentes actions qui détermine les<br />
choix de l’<strong>analyseur</strong>. Pour le chunker de la première version de CASS, dont la fonction<br />
est de reconnaître les chunks, les scores sont déterminés par quatre paramètres. Pour<br />
l’attacher, dont la fonction est de reconnaître les liens entre chunks, 2 paramètres<br />
supplémentaires s’ajoutent. Les quatre premiers paramètres sont les suivants :<br />
- fréquences lexicales relatives : préférer pour un mot la catégorie qu’il a le plus<br />
souvent ;<br />
- préférences générales sur les catégories : préférer une modification N-N à une<br />
modification adjectivale... ;<br />
- préférences liées aux conflits rencontrés par l’algorithme LR : préférer une<br />
opération shift à une opération reduce ;<br />
- préférences liées aux contraintes d’accord : préférer un choix qui ne viole aucune<br />
contrainte d’accord.<br />
Les deux paramètres supplémentaires exploités par l’attacheur sont les suivants :<br />
- préférer l’attachement d’un argument (vs. modifieur) 24 , préférer l’attachement à un<br />
verbe (vs. nom ou adjectif) ;<br />
24 L’auteur ne précise pas comment cette distinction est faite.<br />
56
- préférer un attachement bas.<br />
Notons que l’attacheur, contrairement au chunker, exploite aussi des informations sur les<br />
propriétés de restriction de sélection des mots, c’est-à-dire la possibilité pour un mot<br />
d’avoir un complément direct, obligatoire ou nom, positionné nécessairement après le<br />
mot ou non, d’avoir un ou plusieurs compléments prépositionnels ou une subordonnée.<br />
Les paramètres sont valués : le logarithme de la fréquence pour le premier, le nombre de<br />
violations des préférences pour les autres. Ces paramètres sont pondérés pour avoir une<br />
valeur unique. Les paramètres de pondération sont choisis de façon arbitraire, et Abney<br />
reconnaît qu’il faudrait les choisir après expérimentation. Pour finir, Abney fait dépendre<br />
les scores de façon dynamique du rang dans l’avancée de la phrase : les scores<br />
décroissent globalement de façon monotone au fur et à mesure que l’on avance dans<br />
l’analyse, ceci pour assurer que la première solution trouvée soit la meilleure…<br />
Devant une structure à ce point compliquée, on peut comprendre qu’Abney, dans la<br />
seconde version de CASS, ait remplacé son compilateur maison, saturé d’heuristiques<br />
quelque peu ad hoc et sans doute difficiles à maintenir, par la machinerie bien huilée des<br />
transducteurs, avec comme unique stratégie celle du plus long chemin. On peut aussi<br />
supposer que cet abandon a été rendu possible, sans perte en fiabilité de l’<strong>analyseur</strong>,<br />
parce que l’abandon des heuristiques complexes a été compensé par la multiplication des<br />
niveaux de traitement. Dans son article de 1996, Abney évoque une grammaire à 9<br />
niveaux. Dans l’exemple qu’il donne en introduction de son article, il apparaît clairement<br />
que la tâche d’identification des chunks, qui était réalisée en une seule passe par le<br />
chunkeur dans la première version, est ici distribuée sur plusieurs niveaux. On peut donc<br />
supposer que les heuristiques qui étaient nécessaires pour obtenir en une seule passe les<br />
meilleures analyses perdent de leur utilité quand on exploite à fond le principe de la<br />
cascade et que l’on multiplie les étages de l’analyse. La difficulté se reporte alors<br />
certainement sur le choix des niveaux et de l’ordre d’enchaînement des traitements.<br />
En résumé, les concepts clés de la philosophie d’Abney sont les suivants (Abney, 1996,<br />
p. 339) :<br />
- Commencer par le plus facile (easy-first parsing). Travailler par passes successives,<br />
traitant des problèmes de plus en plus difficiles, en ne prenant que des décisions<br />
sûres pour produire à chaque étape des résultats fiables.<br />
- S’appuyer sur des îlots de confiance (islands of certainty). Procéder en fabriquant<br />
des îlots de certitudes que l’on fait croître petit à petit pour obtenir des groupes de<br />
plus en plus larges, toujours en prenant les décisions les plus sûres, même si cela ne<br />
conduit pas à reconnaître la structure <strong>syntaxique</strong> de façon strictement ascendante.<br />
- Contenir l’ambiguïté (containment of ambiguity). Ne pas hésiter à reconnaître une<br />
relation à longue distance, toujours si la décision est sûre, avant d’avoir reconnu le<br />
détail de l’agencement <strong>syntaxique</strong> entre les deux unités reliées. L’identification des<br />
relations à grand empan permet de délimiter des zones de rattachement pour les<br />
unités enfermées, contribuant ainsi à contenir l’ambiguïté.<br />
57
Il reste un point qui n’est pas évoqué dans l’article de 1996 alors qu’il est<br />
particulièrement mis en exergue dans le premier article de 1990, c’est celui de la<br />
réparation d’erreurs (repair) Abney (1990a). Il s’agit de réparer les erreurs faites lors<br />
d’étapes antérieures dès qu’elles sont détectées, en modifiant la structure erronée, sans<br />
prendre en considération l’histoire du calcul qui a conduit à l’erreur. L’exemple donné<br />
concerne le problème de groupes nominaux « à rallonge » (« run-on NP »). Par exemple,<br />
dans l’exemple déjà donné plus haut, « In South Australia beds of boulders were<br />
deposited by melting icebergs », le chunkeur, en appliquant la stratégie du chemin le<br />
plus long, reconnaît le chunk [South Australia beds]. C’est l’attacheur qui, au moment<br />
où il cherche un sujet pour le chunk verbal [were deposited], peut détecter une erreur et,<br />
si l’analyse alternative en deux chunks [South Australia] et [beds] a été conservée, peut<br />
restituer l’analyse correcte. Il n’est pas clair que de telles réparations soient encore<br />
possibles dans une approche qui enchaîne strictement de simples transducteurs.<br />
2.3.7. L’<strong>analyseur</strong> 98 de J. Vergne<br />
Jacques Vergne est certainement le chercheur le plus actif en France pour critiquer<br />
l’approche classique en analyse <strong>syntaxique</strong> automatique. Sa première place lors de<br />
l’action Grace d’évaluation des étiqueteurs morpho<strong>syntaxique</strong>s du français (Adda et al.,<br />
1998, 1999) donne un poids certain à son entreprise courageuse de critique du courant<br />
dominant (Vergne, 1995, 1999 ; Vergne et Giguet, 1998). S’affichant autodidacte en<br />
linguistique et en informatique (Vergne, 1999, p. 41), J. Vergne dit ne pas avoir été<br />
influencé par le paradigme classique qui voit dans l’analyse <strong>syntaxique</strong> automatique des<br />
langues naturelles une tâche analogue à la compilation des langages informatiques. Selon<br />
lui, si les grammaires formelles constituent un outillage adéquat pour modéliser la<br />
syntaxe des langages de programmation, elles ne sont pas du tout adaptées à la<br />
description des langues naturelles, dont la syntaxe a très peu de caractéristiques<br />
communes avec celle des langages formels. Ses arguments sont les suivants :<br />
La redondance des formes est une caractéristique des langues, comme de<br />
tout code utilisé par des êtres vivants (…) ; comme un langage formel<br />
n’est pas redondant, une grammaire formelle n’est pas appropriée à tirer<br />
parti de cette redondance, qui constitue pourtant un des fondements du<br />
TAL.<br />
La récursivité des segments (et donc des règles) est une hypothèse sur les<br />
structures profondes de la compétence du locuteur natif, mais elle n’est pas<br />
indispensable pour modéliser la syntaxe des langues, car il n’y a jamais<br />
une infinité de compléments, ni des insertions multiples illimitées, alors<br />
qu’elle est indispensable pour la syntaxe d’un langage de programmation,<br />
car il n’y a pas de limite a priori à l’enchâssement des instructions.<br />
La polycatégorie (est) inexistante dans les langages formels, (…) le fait<br />
qu’une même graphie recouvre plusieurs rôles <strong>syntaxique</strong>s et plusieurs<br />
sens est une conséquence de la correspondance forme-sens non biunivoque<br />
dans les langues.<br />
58
(Vergne, 1999, p. 28)<br />
Selon J. Vergne, l’hypothèse implicite du courant formel, à savoir que tout l’objet<br />
analysé est connu (tous les mots, toutes leurs catégories, toutes les structures), est<br />
erronée : « ces attendus sont irréalistes et imposent des rattrapages par des procédures ad<br />
hoc (qui exploitent enfin contexte et redondance ») » (Vergne, 1999, p. 29). Ceci<br />
explique les échecs des systèmes d’analyse <strong>syntaxique</strong> basés sur cette hypothèse : temps<br />
d’analyse exorbitants, dus à la complexité des algorithmes, absence d’analyse ou<br />
multiplicité des analyses pour une phrase.<br />
L’<strong>analyseur</strong> de J. Vergne est structuré en deux phases : le « tagging » (étiquetage<br />
morphologique) et la mise en relation (pose de relations de dépendance). Le tagger<br />
exploite des ressources lexicales minimales et des règles de déduction contextuelle. A la<br />
sortie du tagger, presque tous les mots sont affectés d’une et une seule étiquette.<br />
Certaines ambiguïtés résiduelles sont levées au moment de la mise en relation. Le<br />
tagging n’est pas conçu comme une désambiguïsation, c’est-à-dire un choix parmi un<br />
ensemble d’étiquettes possibles extraites d’une ressource lexicale supposée exhaustive,<br />
mais comme un calcul par des règles de déduction contextuelle à partir des étiquettes<br />
issues de la ressource lexicale, considérées comme de simples amorces. Le calcul sur le<br />
contexte prime sur la consultation du dictionnaire « Le contexte ne filtre pas le lexical<br />
supposé exhaustif, mais comble les lacunes du lexical supposé partiel » (op. cit., p. 33).<br />
Par exemple, dans « je positive », le tagger affecte l’étiquette de verbe au mot positive,<br />
bien que cette forme n’apparaisse qu’avec la catégorie d’adjectif dans la ressource<br />
lexicale. De plus, dans le lexique, chaque forme a une catégorie par défaut, qui est<br />
affectée systématiquement aux occurrences de la forme dans les phrases. Ce sont les<br />
règles de déduction contextuelles qui viennent le cas échéant changer cette étiquette. Le<br />
tagger affecte des catégories grammaticales aux mots de la phrase et construit des<br />
« syntagmes non récursifs » (SNR), analogues aux chunks d’Abney. Par exemple, de la<br />
phrase « L’usine d’Eloyes dans les Vosges représente un investissement de 3,7 milliards<br />
de yens. », le tagger extrait et étiquette les SNR de la façon suivante :<br />
{l’usine} SNR nominal<br />
{d’Eloyes} SNR prépositionnel<br />
{dans les Vosges} SNR prépositionnel<br />
{représente} SNR verbal<br />
{un investissement} SNR nominal<br />
{de 3,7 milliards} SNR prépositionnel<br />
{de yens} SNR prépositionnel<br />
La très grande majorité des tokens est désambiguïsée par les règles de déduction<br />
contextuelles, mais il subsiste des mots qui résistent à la désambiguïsation contextuelle<br />
locale, et dont le sort ne peut être réglé que lors de la phase de mise en relation. Par<br />
exemple, dans la phrase « La présence de Florence Arthaud au milieu d’un plateau de<br />
spécialistes montre que cette transat a été la course la plus disputée de ces dix dernières<br />
59
années », c’est lors de l’étape de mise en relation des SNR, au moment d’établir le lien<br />
sujet entre présence et montre que ce dernier mot sera étiqueté verbe. Le cas des formes<br />
du, de la, des, de l’, de, ainsi que des formes que, qu’ est analogue.<br />
Le processus de mise en relation effectué lors de la seconde phase d’analyse consiste à<br />
placer des relations de dépendance <strong>syntaxique</strong> entre les SNR identifiés lors de la phase<br />
de tagging. L’algorithme d’analyse est contraint de la façon suivante : la phrase est<br />
analysée en une seule passe, de gauche à droite. Au cours de ce processus, le système<br />
gère un certain nombre de mémoires. Il stocke les SNR, au fur et mesure de leur<br />
traitement, dans des mémoires correspondant aux relations dans lesquelles elles peuvent<br />
être prises, étant donné leur catégorie et leur place dans la phrase. Il y a deux types de<br />
règles, celles qui placent le SNR courant dans une mémoire et celles qui mettent en<br />
relation le SNR courant avec le SNR d’une mémoire. Ces mémoires s’effacent à certains<br />
moments de l’analyse, dès qu’une relation est posée. Si on reprend l’exemple « L’usine<br />
d’Eloyes dans les Vosges représente un investissement de 3,7 milliards de yens », le<br />
processus d’analyse de la phrase ci-dessus. Au moment où le système est positionné sur<br />
le premier SNR nominal {l’usine}, il le range dans la mémoire des sujets, ce qui signifie<br />
que ce SNR est en attente d’un verbe dont il pourrait être le sujet. Il le range aussi dans<br />
la mémoire des noms en attente de complément. Quand le système est positionné sur le<br />
deuxième SNR nominal {d’Eloyes}, une première règle le range dans la mémoire des<br />
noms en attente de complément, puis une seconde règle le met en relation avec le<br />
premier SNR {l’usine}, qui était en tête de la file d’attente dans cette même mémoire.<br />
Quand le système est positionné sur le SNR nominal {dans les Vosges}, il le place dans<br />
la mémoire des SNR en attente de complément, puis le met en relation avec le SNR<br />
{d’Eloyes}. Le système ne semble pas traiter les ambiguïtés de rattachement, puisque ce<br />
troisième SNR nominal pourrait tout aussi bien être mis en relation avec le premier SNR<br />
{l’usine}. Lorsque le système est positionné sur le SNR verbal {représente}, il place une<br />
relation sujet entre ce SNR et le SNR {l’usine} en attente dans la mémoire sujet. Puis il<br />
efface de la mémoire des noms en attente de compléments les SNR {d’Eloyes} et {dans<br />
les Vosges}.<br />
Le choix d’une analyse en une seule passe, gauche droite, détonne un peu dans l’univers<br />
de l’analyse <strong>syntaxique</strong> robuste, où l’on ne se prive pas en général de multiplier les<br />
passes et de diversifier les sens d’analyse de la phrase. Chez J. Vergne, ce choix répond<br />
au souci affiché d’une certaine plausibilité cognitive du processus d’analyse. D’un point<br />
de vue « théorique », J. Vergne voit dans le processus de réception d’une phrase par un<br />
humain une phase de traitement <strong>syntaxique</strong> qui consiste à passer de l’ordre linéaire de la<br />
phrase à sa représentation dépendancielle (Vergne, 1999, section 2.3.2). Cette contrainte<br />
d’une analyse gauche-droite en une seule passe est forte. Elle complique la tâche en<br />
imposant de gérer au fil de l’eau 13 mémoires (mémoire des sujets en attente d’un SNR<br />
verbe, mémoire des SNR verbes transitifs en attentes d’un SNR objet, mémoire des que<br />
pronoms relatifs en attente d’un SNR verbal transitif, etc.).<br />
Sur le fond, la caractéristique essentielle du système d’analyse <strong>syntaxique</strong> développé par<br />
J. Vergne est de relever d’une approche procédurale : il ne s’agit pas d’expliciter dans<br />
une grammaire formelle les structures <strong>syntaxique</strong>s possibles et acceptables, mais<br />
60
d’implémenter via une architecture informatique et des algorithmes les processus<br />
d’identification des relations de dépendance <strong>syntaxique</strong> entre SNR dans une phrase.<br />
2.3.8. L’analyse <strong>syntaxique</strong> robuste selon J. P. Chanod<br />
Dans les années 1980, Jean-Pierre Chanod, alors chercheur au Centre Scientifique<br />
d’IBM France, reprend le flambeau brandi par K. Jensen (section 2.3.5) et poursuit la<br />
réflexion sur la robustesse en analyse <strong>syntaxique</strong>. <strong>Un</strong> bilan de cette réflexion apparaît<br />
dans un article, publié en 2000, intitulé « Robust parsing and beyond » (Chanod, 2000).<br />
Selon J.-P. Chanod, l’effet le plus spectaculaire du besoin d’approches robustes en TAL<br />
a été l’arrivée en force des méthodes statistiques dans toutes les régions du TAL. Mais la<br />
robustesse n’est pas une question d’opposition entre des méthodes à base de règles d’un<br />
côté et des méthodes statistiques de l’autre :<br />
Still robustness is not about statistical vs. rule-based methods. It is not<br />
about virtual core languages, be they defined by principles or by frequency<br />
counts. It is not even about the quantity of unrestricted text that can be<br />
parsed by a given system. Robustness is about exploring all constructions<br />
humans actually produce, be they grammatical, conformant to formal<br />
models, frequent or not. Linguistic phenomena, regardless of their oddity<br />
or frequency, account for meaning of whatever segment of text they<br />
appear in. (…) In this view, robustness is a matter of breadth and depth of<br />
analysis. Altogether.»<br />
(Chanod, 2000, pp. 132–133)<br />
J.-P. Chanod multiplie les exemples dans lesquels des principes linguistiques<br />
généralement reconnus comme essentiels, en particulier concernant les phénomènes<br />
d’accord, sont mis à mal par la réalité des productions langagières attestées dans des<br />
textes réels. Voici quelques-uns de ces exemples, qui parlent d’eux-mêmes :<br />
Mon adorable chatte<br />
Mon chèvre<br />
<strong>Un</strong> cinq tonnes<br />
Des tee shirts avec Coca-Cola écrit dessus<br />
J’ai perdu mon Madame Bovary<br />
Le France s’appelle aujourd’hui le Norway<br />
Les premier et dernier chapitres<br />
La salle était pleine d’étudiants. <strong>Un</strong>e bonne moitié sont partis avant la fin.<br />
On est contentes.<br />
Ces exemples sont typiques de cas où les contraintes d’accord ne sont pas respectées. Or,<br />
c’est le principe de l’unification de traits lexicaux qui est à l’origine du paradigme très<br />
productif des grammaires d’unification, théories dans lesquelles l’unification constitue le<br />
61
moyen élégant de traiter les phénomènes d’accord et de sous-catégorisation.<br />
L’abondance dans les textes réels de contextes dans lesquels les principes de base de la<br />
grammaticalité sont violés condamne à l’échec toute entreprise de réalisation d’un<br />
<strong>analyseur</strong> qui s’appuierait de façon stricte sur de tels principes. <strong>Un</strong> tel constat ne remet<br />
pas en cause les principes eux-mêmes, mais doit conduire à une réflexion sur<br />
l’articulation entre principes grammaticaux et règles de reconnaissance au sein d’un<br />
<strong>analyseur</strong>. <strong>Un</strong> <strong>analyseur</strong> <strong>syntaxique</strong> robuste doit être capable de reconnaître les cas où les<br />
principes s’appliquent, mais il doit aussi reconnaître les cas déviants et proposer une<br />
analyse. Dans cet esprit, on ne peut assigner à l’<strong>analyseur</strong> la fonction de distinguer les<br />
phrases grammaticales des phrases agrammaticales. <strong>Un</strong>e telle spécification n’aurait de<br />
sens que dans un cadre de recherche, par exemple sur l’apprentissage des langues, où<br />
l’on s’intéresserait précisément à la capacité humaine de produire des jugements de<br />
grammaticalité. La fonction d’un <strong>analyseur</strong> <strong>syntaxique</strong> robuste est de reconnaître, parfois<br />
« à tâtons », la structure grammaticale d’une séquence en entrée. Il exploite les principes<br />
grammaticaux généraux, non pour accepter les phrases grammaticales et rejeter les<br />
phrases agrammaticales, mais comme contraintes de base qu’il privilégie pour trouver<br />
rapidement une analyse plausible. L’<strong>analyseur</strong> doit disposer de solutions de repli pour<br />
les cas où il reconnaît que l’application de ces principes l’empêche de parvenir à une<br />
solution acceptable. C’est le principe du relâchement, fondamental en analyse <strong>syntaxique</strong><br />
robuste. Par exemple, pour analyser le groupe « mon adorable chatte », on peut<br />
introduire une règle qui, dans certains contextes, identifiera la relation entre un<br />
déterminant et un nom quels que soient leurs genres respectifs. Cette règle n’est pas<br />
pénalisante, même si potentiellement elle permet l’analyse de groupes non<br />
grammaticaux comme « mon chatte ». Le fait qu’un <strong>analyseur</strong> puisse produire une<br />
analyse pour des groupes agrammaticaux n’a pas le même caractère fondamentalement<br />
disqualifiant que dans l’approche classique, où les grammaires formelles doivent être<br />
utilisées tant en analyse qu’en génération. Les <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes sont des<br />
outils <strong>opérationnel</strong>s de reconnaissance de structures <strong>syntaxique</strong>s. Le principe de la<br />
réversibilité ne tient pas.<br />
Le principe de base que J.-P. Chanod met en avant pour caractériser d’un point de vue<br />
<strong>opérationnel</strong> les <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes est celui d’incrémentalité. Il a travaillé<br />
sur ce principe depuis son arrivée au Centre de Recherche de Xerox à Meylan, en<br />
particulier dans le cadre de ses travaux menés avec Salah Aït-Mokhtar sur l’<strong>analyseur</strong><br />
IFSP (pour Incremental Finite-State Parser) (Aït-Mokhtar et Chanod, 1997a, 1997b).<br />
Dans un article publié en 2002 dans la revue Natural Language Engineering, écrit avec<br />
Salah Aït-Mokhtar et Claude Roux, Jean-Pierre Chanod décrit avec précision en quoi le<br />
principe de l’incrémentalité est un concept clé pour envisager la conception de systèmes<br />
d’analyse <strong>syntaxique</strong> qui soient à la fois robustes, profonds, à large couverture et fiables.<br />
Deux propriétés essentielles distinguent l’approche incrémentale des approches<br />
classiques en analyse <strong>syntaxique</strong> automatique : l’autonomie des règles (self-containment)<br />
et la décomposition descriptive (descriptive decomposition).<br />
L’autonomie des règles. Chaque règle incrémentale est auto-suffisante, toute application<br />
de règle est définitive. Les conditions contextuelles dans lesquelles la règle s’applique<br />
sont stipulées dans la règle elle-même. Ces conditions sont évaluées sur les<br />
62
connaissances disponibles au moment où le système teste cette règle, en particulier sur<br />
les structures partielles déjà construites à ce stade de l’analyse incrémentale. Si les<br />
conditions ne sont pas vérifiées, la règle ne s’applique pas, et la structure en cours de<br />
construction est passée telle quelle à l’étape suivante du calcul. Si les conditions sont<br />
vérifiées, la règle s’applique et la structure en cours de construction est enrichie. Le<br />
système ne revient pas sur l’application de cette règle plus tard dans le processus<br />
incrémental. Il se peut que la relation de dépendance posée par cette règle soit<br />
ultérieurement détruite, si une règle testée à un stade plus avancé détecte une erreur.<br />
Mais en aucun cas, le système ne rembobine l’analyse jusqu’au moment où la première<br />
règle s’est appliquée. Cette règle n’est pas fautive, elle a simplement pris la meilleure<br />
décision possible étant donné les connaissances disponibles au moment où elle a été<br />
testée et appliquée. La situation est différente dans les systèmes classiques, où le<br />
contrôle que permet l’incrémentalité est absent. Ces règles produisent des hypothèses<br />
locales qui doivent se combiner de façon cohérente pour conduire à une analyse globale<br />
de la phrase. Le postulat implicite est que les propriétés sous-jacentes du langage,<br />
qu’elles soient spécifiées ou non dans la grammaire, vont en quelque sorte guider le<br />
processus d’analyse vers l’identification spontanée d’interprétations correctes de la<br />
phrase. Ce mode opératoire non contrôlé conduit à des effets de bord indésirables bien<br />
connus : explosion combinatoire, ambiguïtés factices, échecs d’analyse.<br />
La décomposition descriptive. Pour assurer une couverture la plus large possible, le<br />
système doit être capable de traiter la très grande variété des constructions linguistiques<br />
que l’on peut trouver dans des textes réels. Ceci exige une granularité fine dans la<br />
description linguistique, et impose d’être capable de contrôler des centaines de<br />
configurations différentes de façon opératoire. L’incrémentalité permet de décomposer la<br />
description linguistique d’un phénomène linguistique donné en un grand nombre de<br />
descriptions partielles autonomes. Plus précisément, dans un <strong>analyseur</strong> incrémental, on<br />
décompose la tâche de découverte des configurations répondant à ce phénomène. Par<br />
exemple, pour reconnaître les configurations à contrôle de l’infinitif, on aura d’abord<br />
reconnu la relation de complément entre un verbe et un verbe à l’infinitif, puis lors d’une<br />
étape ultérieure, on aura reconnu une relation de complément entre ce même verbe et un<br />
chunk prépositionnel, et enfin encore plus tard dans le processus, une règle spécifique<br />
reconnaîtra la structure de contrôle globale de façon simple, sans avoir à reconnaître les<br />
différents éléments du puzzle dont chacun a pu être difficile à reconstituer, et qui ont été<br />
pris en charge par des modules spécifiques dans l’enchaînement incrémental.<br />
Les chercheurs de Centre de Recherche de Xerox ont mis au point un système générique<br />
pour construire des <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes basés sur le concept<br />
d’incrémentalité, c’est-à-dire des systèmes basés sur l’enchaînement en cascade de<br />
couches de règles, écrites par un « grammairien » 25 : le système XIP. Ce système permet<br />
de réaliser des <strong>analyseur</strong>s prenant en entrée des textes bruts ou des sorties d’autres<br />
<strong>analyseur</strong>s, de type tokéniseur, étiqueteur morpho<strong>syntaxique</strong> ou chunker. Le formalisme<br />
des règles a été conçu pour permettre l’incrémentalité et la profondeur des analyses. Le<br />
25 Le joli terme de grammarian est utilisé par (Aït-Mokhtar et al., 2002, p. 131)<br />
63
système repose sur une représentation unifiée : une séquence d’arbres en constituants.<br />
Les nœuds des arbres sont étiquetés par des catégories morpho<strong>syntaxique</strong>s ou des noms<br />
de constituants, et sont associés à des ensembles de traits attribut/valeur. Les règles<br />
s’appuient sur une représentation bipartite mais cohérente de l’entrée : des arbres en<br />
constituants et des relations de dépendance. <strong>Un</strong>e règle de dépendance a la syntaxe<br />
suivante :<br />
1- un schéma d’appariement d’arbre qui spécifie les propriétés structurales d’une<br />
portion de la séquence d’arbres en constituants en entrée.<br />
2- une expression booléenne qui spécifie des conditions sur les relations de dépendance<br />
et sur la disposition linéaire des tokens ou chunks.<br />
3- un terme de dépendance qui indique quelle est la relation de dépendance à ajouter<br />
quand les conditions sont vérifiées. Les arguments de la relation de dépendance sont<br />
des variables qui sont exprimées dans la description du schéma d’appariement et<br />
dans les conditions.<br />
Avec un tel formalisme, il est possible de décrire des règles très riches avec un degré de<br />
finesse très précis. Voici, sous une forme non formalisée, quelques règles que les auteurs<br />
donnent dans leur article de 2002.<br />
Pour identifier les relations de complément d’objet direct, par exemple dans la phrase<br />
John enjoys wine.<br />
1- Schéma d’appariement d’arbre : la tête d’un chunk verbal a le trait ‘+transitif’ ; ce<br />
chunk verbal est dans une proposition ; dans cette proposition, il est suivi d’un<br />
chunk nominal qui n’a pas le trait ‘+temporel’.<br />
2- Conditions : (pas de conditions).<br />
3- Terme de dépendance : placer une relation de complément d’objet direct entre la tête<br />
du chunk verbal et la tête du chunk nominal.<br />
Pour identifier le partage de fonction dans des structures coordonnées, par exemple dans<br />
la phrase John peels and then eats an apple.<br />
1- Schéma d’appariement d’arbre : pas de schéma.<br />
2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) et un nom<br />
(#2) (entre eats et apple) ; il y a une relation de coordination entre ce verbe (#1) et<br />
un autre verbe (#3) qui le précède (entre peels et eats) ; cet autre verbe (#3) n’a pas<br />
de complément d’objet.<br />
3- Terme de dépendance : placer une relation de complément d’objet entre le premier<br />
verbe (#3) et le nom (#2) (entre peels et apple).<br />
Pour identifier les structures de contrôle de l’infinitif, par exemple dans la phrase Mary<br />
orders Fred to close the window.<br />
1- Schéma d’appariement d’arbre : pas de schéma<br />
64
2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) qui a le<br />
trait ‘+contrôle infinitif sujet’ et un verbe à l’infinitif (#2) (entre orders et close) ; il<br />
y a une relation de complément d’objet entre ce verbe (#1) et un chunk nominal (#3)<br />
(entre orders et Fred).<br />
3- Terme de dépendance : placer une relation de sujet entre le verbe infinitif (#2) et la<br />
tête du chunk nominal (#3) (entre close et Fred).<br />
Les exemples donnés ci-dessus donnent une idée du type de règles que le grammairien<br />
doit écrire pour construire le système. Ces règles sont établies en fonction d’un savoir<br />
grammatical que possède le grammairien sur les structures qu’il souhaite voir reconnues<br />
par le système. Ce savoir grammatical ne se manifeste pas uniquement dans ces règles. Il<br />
est aussi dans l’architecture globale du traitement. Au grammairien de choisir quels<br />
ensembles de règles vont s’appliquer à chaque couche. Dans une approche par règles,<br />
c’est-à-dire où les règles d’analyse sont écrites indépendamment de l’algorithme, il est<br />
important que cet algorithme soit connu du grammairien. Dans le cas de XIP, même si<br />
cela n’est pas stipulé dans l’article, on peut supposer que les règles s’appliquent dans<br />
l’ordre dans lequel elles sont données dans la grammaire, et que chaque règle est testée<br />
en parcourant la séquence en entrée de gauche à droite. L’ordre d’enchaînement des<br />
couches de traitement et celui des règles au sein d’une couche sont fondamentaux, mais<br />
c’est au grammairien de les optimiser en conciliant la connaissance grammaticale et les<br />
contraintes d’implémentation.<br />
Since the application of a rule of a given stage depends on the background<br />
information produced by the previous stages, the correct choice of<br />
increments is important and is made on the basis of the identification of<br />
various linguistic phenomena and the (possibly multiple) configurations of<br />
each phenomenon. The incremental order is determined in such a way that<br />
basic and simple phenomena are always described before more complex<br />
ones. For a given phenomenon, general and default configurations are<br />
modelled before more specific cases and exceptions.<br />
(Aït-Mokhtar et al., 2002, p. 136)<br />
2.3.9. Bilan : une lignée<br />
A l’issue de cette description de différents <strong>analyseur</strong>s développés ces 50 dernières<br />
années, on pourrait s’interroger sur l’éventuelle existence et unité d’un courant de<br />
recherche en analyse <strong>syntaxique</strong> robuste. En fait, la revue des travaux effectuée dans<br />
cette section ne répond pas aux normes du classique «état de l’art » que l’on retrouve<br />
dans les disciplines scientifiques, dans lequel on expose comment les résultats obtenus<br />
contribuent à l’avancée des connaissances dans un domaine scientifique. Les travaux de<br />
présentés ici sont le plus souvent menés par des individus ou des groupes restreints,<br />
relativement isolés, selon une démarche ingénierique. Celle-ci laisse un large espace de<br />
liberté dans les choix de conception et fait la part belle aux innovations personnelles. On<br />
est moins que dans l’accumulation des connaissances que dans la réitération d’efforts<br />
visant à la résolution du même problème, celui de l’analyse <strong>syntaxique</strong> automatique,<br />
65
dans des contextes différents (différences de langues, de contraintes technologiques, de<br />
principes de base, d’applications cibles). On peut malgré tout tenter de dégager des<br />
récurrences et des points de convergence dans les choix des concepteurs, qui, une fois<br />
rassemblés, tracent les contours de ce que Gilbert Simondon, dans sa philosophie des<br />
techniques, appelle une lignée (Simondon, 1971) (cf. Chap. 3, section 3.3.2).<br />
- Application. Presque tous les travaux visent une application spécifique : la<br />
traduction automatique pour Garvin, le résumé d’articles scientifiques pour le projet<br />
TDAP, la recherche documentaire pour Debili, la correction grammaticale et la<br />
vérification de style pour le projet PLNLP.<br />
- Cascade. La majorité des travaux affichent une architecture en cascade, qui organise<br />
les traitements en plusieurs passes, sans contrainte sur le sens de parcours de la<br />
phrase (gauche-droite, droite-gauche). L’ordonnancement des traitements répond à<br />
des principes, plus ou moins explicités, de bons sens : traiter d’abord les relations à<br />
plus courte distance et les plus sûres, compléter de façon incrémentale les<br />
analyses… <strong>Un</strong>e exception notable est constituée par le choix de J. Vergne qui fait du<br />
traitement gauche-droite en seule passe un principe de base dans sa conception de<br />
l’analyse <strong>syntaxique</strong>.<br />
- Procéduralité. Aucun des chercheurs ne présente la déclarativité et la séparation<br />
nette des règles et des algorithmes comme des principes fondamentaux. Leurs<br />
systèmes sont plutôt de style procédural. C’est particulièrement le cas pour<br />
P. Garvin, qui juge non tenable le principe de la séparation dès que les systèmes se<br />
complexifient. La grammaire de base du projet PLNLP, qui comporte 300 règles, est<br />
complétée par une procédure d’ajustement. Dans le cas de l’<strong>analyseur</strong> XIP, le choix<br />
d’un formalisme de haut niveau pour l’écriture de règles répond non pas à des<br />
considérations d’ordre théoriques, mais au souci d’impliquer des grammairiens non<br />
spécialistes de programmation dans le développement d’<strong>analyseur</strong>s.<br />
- Absence de théorie. Aucun chercheur ne se réclame, de façon forte, d’une théorie<br />
linguistique. Même dans la présentation rétrospective, par Joshi et Hopely, de<br />
l’<strong>analyseur</strong> développé dans l’équipe dirigée par le linguiste Z. S. Harris, la référence<br />
à la théorie est absente. Néanmoins, S. Abney affirme une pertinence<br />
psycho-linguistique à ses chunks, et J. Vergne recourt à une contrainte de<br />
plausibilité cognitive pour justifier son choix d’un traitement gauche-droite en une<br />
passe.<br />
66
Chapitre 3<br />
Description de l’<strong>analyseur</strong> <strong>SYNTEX</strong><br />
3.1. Principes de base<br />
3.1.1. Analyseur <strong>syntaxique</strong> <strong>opérationnel</strong><br />
L’<strong>analyseur</strong> <strong>SYNTEX</strong> a été développé à l’origine (Bourigault et Fabre, 2000) pour<br />
prendre la suite du logiciel LEXTER (Bourigault, 1994), un <strong>analyseur</strong> <strong>syntaxique</strong> robuste<br />
dédié au repérage des syntagmes nominaux terminologiques dans les corpus spécialisés<br />
et utilisé dans des applications de construction de terminologies ou d’ontologies<br />
spécialisées. Les diverses expérimentations réalisées avec LEXTER avaient mis en<br />
évidence la nécessité d’étendre la couverture du logiciel à l’extraction des syntagmes<br />
verbaux (chap. 1). L’objectif du projet <strong>SYNTEX</strong> était la construction d’un <strong>analyseur</strong><br />
<strong>syntaxique</strong> <strong>opérationnel</strong>, précis et efficace, qui produise des analyses aussi correctes et<br />
complètes que possible, sur des textes de genres variés, avec des temps de traitement<br />
raisonnables pour être compatibles avec la nécessité d’absorber des volumes de plus en<br />
plus importants ; un <strong>analyseur</strong> qui soit utilisable dans une large gamme d’applications,<br />
que ce soit du côté de la recherche académique, en linguistique, sciences humaines,<br />
intelligence artificielle, ou de celui des applications industrielles, pour la construction<br />
d’ontologies, le traitement de l’information, la recherche d’information, etc. J’ai choisi<br />
de qualifier d’<strong>opérationnel</strong>, un tel <strong>analyseur</strong>, en référence à l’expression « operational<br />
syntax » utilisé par J. Bar-Hillel son article de 1951, qui constitue le premier état de l’art<br />
sur le domaine de la Traduction Automatique (Bar-Hillel, 1951) :<br />
A considerable body of descriptive data about the language of the world<br />
has been amassed in recent years, but so far no operational syntax of any<br />
natural language exists with a sizeable degree of completeness, and the<br />
necessity of providing such a syntax has apparently not been recognized<br />
by linguists. To give an analogy: Just as even the most extensive<br />
knowledge of all imaginable properties of all chemical substances will not<br />
materially assist a student of chemistry in developing a method of<br />
analyzing a given mixture of unknown chemical substances, so even the<br />
67
most elaborate description of the properties of all morphological units of a<br />
given language will not enable a student of linguistics to find, in a<br />
reasonable time, a method of analyzing a given sentence-specimen of this<br />
language. Chemists have had to write, in addition to their general<br />
textbooks, special books instructing the student on how to proceed in a<br />
fixed sequential order (order which sometimes depends on the outcome of<br />
the preceding step) in his attempted analysis of a given mixture. Likewise<br />
special books will have to be written containing sequential instructions for<br />
linguistic analysis, i.e. an operational syntax.<br />
(Bar-Hillel, 1951, p. 232)<br />
Ma conviction au départ de ce projet, forgée lors de l’expérience LEXTER, était qu’il était<br />
possible d’avancer vers cet objectif en restant hors du paradigme formel, d’une part, et<br />
sans attendre que soient disponibles des ressources lexicales à très large couverture pour<br />
le français, d’autre part. Sur le plan de la description linguistique, je me suis appuyé sur<br />
une bonne connaissance de la grammaire traditionnelle et des travaux de syntaxe<br />
descriptive, et j’ai adopté une démarche de développement empirique basée sur des tests<br />
systématiques sur corpus. Sur le plan des ressources, j’ai choisi d’abord de profiter de la<br />
disponibilité d’étiqueteurs morpho<strong>syntaxique</strong>s très performants, et j’ai opté pour une<br />
stratégie minimaliste et opportuniste : reprendre et développer l’apprentissage endogène,<br />
et construire les ressources nécessaires au fur et à mesure que les besoins apparaissent,<br />
autant que possible de façon automatique à partir de grands corpus.<br />
3.1.2. <strong>Un</strong> problème de reconnaissance de formes<br />
Dans le paradigme formel, le problème de l’analyse <strong>syntaxique</strong> automatique se formule<br />
selon le thème de la compilation. La fonction de l’<strong>analyseur</strong> est de décider si la séquence<br />
en entrée est bien formée du point de vue de la grammaire de l’<strong>analyseur</strong>, et d’en donner<br />
une description conforme à cette grammaire. L’analyse est dirigée par la connaissance<br />
des structures <strong>syntaxique</strong>s licites de la langue, formulée de façon générative. A l’instar<br />
de bon nombre de chercheurs dont j’ai décrit les travaux dans le chapitre précédent, je<br />
n’adopte pas ce point de vue. Je formule le problème de l’analyse <strong>syntaxique</strong> comme un<br />
problème de reconnaissance de formes. La séquence en entrée est supposée avoir une<br />
forme, <strong>syntaxique</strong>, et c’est cette forme que l’<strong>analyseur</strong> doit approcher au mieux.<br />
L’<strong>analyseur</strong> n’a pas pour fonction de déterminer si une phrase est grammaticalement<br />
correcte ou non, il doit fournir une description de la forme <strong>syntaxique</strong> pour toute<br />
séquence du corpus qui lui est donnée. Quelques exemples de séquences extraites de sont<br />
donnés en 1-4 26 .<br />
26 Dans ce chapitre, les exemples attestés sont suivis du code du corpus d’origine. [LMO] : Le Monde, décembre<br />
1999 ; [HAN] : un extrait du corpus Hansard ; [STX] : le roman Vol de nuit d’Antoine de Saint-Exupéry.<br />
68
(1) Dans certaines gammes, trop de cigares mal roulés, aux capes imparfaites,<br />
présentent des arômes ternes et insipides, sans parler de la contrefaçon, qui<br />
touche de nombreux secteurs de la distribution. [LMO]<br />
(2) <strong>Un</strong>e mesure impatiemment attendue par les opérateurs concurrents de<br />
France-Télécom. [LMO]<br />
(3) Si c'est un bon projet de loi, il me semble qu'il devrait mériter une vigoureuse<br />
défense de la contribution qu'il apportera à l'amélioration de la vie<br />
canadienne. [HAN]<br />
(4) Rivière sortit pour tromper l'attente, et la nuit lui apparut vide comme un<br />
théâtre sans acteur. [STX]<br />
Les séquences à analyser ne ressemblent pas toujours aux phrases des théoriciens de la<br />
syntaxe. C’est pourquoi j’emploie le terme de séquence, et non ceux de phrase ou<br />
d’énoncé. Dans la communauté des linguistes, il existe des courants forts qui remettent<br />
en cause le statut même de la phrase. Ceux-ci se développent d’une part chez les<br />
linguistes de l’oral et d’autre part chez ceux qui travaillent sur les discours. Claire<br />
Blanche-Benveniste (2002), par exemple, affirme que « La notion vague de phrase<br />
usurpe des propriétés qui reviennent de fait aux constructions verbales, comme celles de<br />
modes, temps, diathèse ou fonctions (…). Dans la plupart des cas, la phrase n’est pas une<br />
bonne unité de calcul pour l’analyse <strong>syntaxique</strong> (…) » (Blanche-Benveniste, 2002, p. 7).<br />
Pour elle, il faudrait distinguer trois domaines de dépendance <strong>syntaxique</strong> : celui des<br />
dépendances par rapport à une catégorie grammaticale (la syntaxe au sens strict), celui<br />
des dépendances qui se font en dehors de toute référence à une catégorie de grammaire<br />
(la « macro-syntaxe »), et celui des unités énonciatives (op. cit., p. 20). Pour Alain<br />
Berrendonner, qui se place dans la perspective de l’analyse des discours, la notion de<br />
phrase n’est pas non plus un instrument opératoire : « La phrase est un héritage de la<br />
tradition typographique et grammaticale, une notion originellement conçue pour<br />
raisonner et normer une pratique utilitaire : la mise en écrit du discours » (Berrondonner,<br />
2002, p. 27). Il propose de remplacer cette notion par deux types de données<br />
empiriquement fondées : la clause et la période. Les clauses sont des « îlots de<br />
dépendance grammaticale » (op. cit., p. 27). Les périodes sont des secteurs de discours<br />
délimités par des marques prosodiques ad hoc. La syntaxe de la clause est bien connue,<br />
c’est la syntaxe au sens strict. Celle des périodes est d’un tout autre ordre. Il faut, pour la<br />
caractériser, introduire la notion de « mémoire discursive », c’est-à-dire « une<br />
représentation des savoirs publiquement partagés par les interlocuteurs » (op. cit.,<br />
p. 30) : les unités minimales de la période sont les clauses (plus précisément des<br />
énonciations de clauses), et chaque énonciation opère des transformations de la mémoire<br />
discursive. K. Gerdes et S. Kahane (2006) reprennent la la distinction entre micro- et<br />
macrosyntaxe pour mettre en place leur modèle topologique du verbe en français.<br />
Pour décrire les formes <strong>syntaxique</strong>s, j’ai choisi le mode de représentation en dépendance.<br />
Le principe de la représentation <strong>syntaxique</strong> d’une phrase par un arbre de dépendance est<br />
que, dans une phrase, la présence de chaque mot est légitimée par la présence d’un autre<br />
mot ; on représente cet état de fait par un lien <strong>syntaxique</strong> entre le second mot (le<br />
69
gouverneur) et le premier (le dépendant). L’arbre constitué des mots et des liens<br />
<strong>syntaxique</strong>s constitue ce que Lucien Tesnière appelle un stemma (Tesnière, 1959). Au<br />
moment de passer de LEXTER, <strong>analyseur</strong> centré sur le groupe nominal, à <strong>SYNTEX</strong>, censé<br />
avoir une couverture beaucoup plus large, j’ai abandonné la constituance pour la<br />
dépendance. Le choix de la dépendance s’est immédiatement et très naturellement<br />
imposé, car il permet une formulation simple et opératoire du problème de l’analyse<br />
<strong>syntaxique</strong>, vue comme un problème de reconnaissance de formes. On peut décomposer<br />
le problème de la reconnaissance de la structure <strong>syntaxique</strong> d’une phrase en<br />
sous-problèmes locaux de reconnaissance de liens <strong>syntaxique</strong>s. Dans (Bourigault et<br />
Fabre, 2000), en reprenant les termes de la syntaxe posito-argumentale de J.-C. Milner<br />
(Milner, 1989), nous formulions le problème de la reconnaissance <strong>syntaxique</strong> de cette<br />
façon : pour chaque mot de la séquence, identifier sa position dans la structure<br />
<strong>syntaxique</strong> à partir de sa place dans l’énoncé. Je le reformule ici de façon plus précise :<br />
pour chaque mot de la séquence, trouver son gouverneur. La procédure d’analyse qui<br />
s’impose alors avec cette formulation de problème est ascendante. Les formes<br />
<strong>syntaxique</strong>s se révèlent au fur et à mesure que l’<strong>analyseur</strong> reconnaît les liens <strong>syntaxique</strong>s<br />
entre mots. Pour décrire la forme <strong>syntaxique</strong> des séquences, je reprends la terminologie<br />
de Berrendonner, et je définis, dans <strong>SYNTEX</strong>, une clause comme la projection d’un arbre<br />
de dépendance <strong>syntaxique</strong> dont le gouverneur ne dépend d’aucun autre mot dans la<br />
séquence. Dans une séquence, l’<strong>analyseur</strong> peut reconnaître plusieurs clauses ; celles-ci<br />
sont alors simplement juxtaposées, aucune relation n’est placée entre elles par<br />
l’<strong>analyseur</strong>. Les clauses, leur délimitation et leur forme, émergent de l’analyse et sont<br />
révélées à l’issue du processus. Par exemple, la forme de la séquence 1 est la<br />
juxtaposition de 3 clauses :<br />
- la première clause (Dans certaines gammes) est l’îlot rectionnel dominé par la<br />
préposition dans en tête de séquence. Soit SPNom son étiquette.<br />
- la deuxième clause (trop de cigares mal roulés, aux capes imparfaites, présentent<br />
des arômes ternes et insipides) est l’îlot rectionnel dominé par la forme verbale finie<br />
présentent. Soit S son étiquette.<br />
- la troisième clause (sans parler de la contrefaçon, qui touche de nombreux secteurs<br />
de la distribution) est l’îlot rectionnel dominé par la préposition sans, elle-même<br />
gouvernant la forme infinitive parler. Soit SPVinf son étiquette.<br />
La forme globale de la séquence 1 est donc : [SPNom] , [S] , [SPVinf], la forme de<br />
chacune des trois clauses étant donnée par un arbre de dépendance. La préposition dans,<br />
le verbe présentent et la préposition sans n’ont été rattachés à aucun gouverneur par<br />
l’<strong>analyseur</strong>. Les formes des séquences 1-4 sont données en 1’-4’ (les gouverneurs non<br />
dépendants sont soulignés).<br />
(1’) [SPNom] , [S] , [SPVinf] : [SPNom Dans certaines gammes ] , [S trop de<br />
cigares mal roulés, aux capes imparfaites, présentent des arômes ternes et<br />
insipides ] , [SPVinf sans parler de la contrefaçon, qui touche de nombreux<br />
secteurs de la distribution ] .<br />
70
(2’) [SNom] : [SNom <strong>Un</strong>e mesure impatiemment attendue par les opérateurs<br />
concurrents de France-Télécom ]<br />
(3’) [SSub] , [S] : [SSub Si c'est un bon projet de loi ] , [S il me semble qu'il devrait<br />
mériter une vigoureuse défense de la contribution qu'il apportera à<br />
l'amélioration de la vie canadienne ]<br />
(4’) [S] , CC [S] : [S Rivière sortit pour tromper l'attente ] , [cc et ] [S la nuit lui<br />
apparut vide comme un théâtre sans acteur ] .<br />
Dans une séquence donnée, il y a autant de clauses que de mots non gouvernés. Ces mots<br />
sont parfois isolés, quand ils n’ont eux-mêmes aucun dépendant. Le non-attachement<br />
d’un mot à un gouverneur peut être le résultat d’un choix d’implémentation, comme<br />
celui de ne pas chercher de gouverneur aux prépositions ou adverbes situés en position<br />
initiale de séquence (l’adverbe en revanche dans l’exemple 5, la préposition sur dans<br />
l’exemple 5, la préposition en dans l’exemple 6), aux conjonctions de subordination<br />
autres que que (la conjonction alors que dans l’exemple 6). Le non-attachement d’un<br />
mot peut aussi être la manifestation d’une erreur de l’<strong>analyseur</strong>. Dans l’exemple 7,<br />
l’<strong>analyseur</strong> n’a pas reconnu la bonne catégorie pour la forme que, qu’il n’a pas réussi à<br />
attacher, de même qu’il n’a pu attacher la préposition dans, ce qui produit par erreur la<br />
clause dans le giron de la Russie. De même, dans l’exemple 8, la clause des mesures<br />
préventives est identifiée à tort à cause de la non reconnaissance du segment si<br />
nécessaire, dans lequel si est étiqueté Adverbe.<br />
(5) [Adv] , [SPNom] , [S] : [Adv En_revanche ] [,] [SPNom sur la libéralisation des<br />
services ] [,] [S les pays industrialisés ont peu de divergences ]<br />
(6) [SPNom] , [S] [SSub] : [SPNom En Thaïlande ] [,] [S le coût mensuel d' une<br />
trithérapie est de 675 dollars ] [SCSub alors qu'un employé du secteur tertiaire<br />
gagne le plus souvent 120 dollars par mois ]<br />
(7) [S] [Sub] [SPNom] : [S Ils ne peuvent trouver leur bonheur ] [Sub que ] [SPNom<br />
dans le giron de la Russie ]<br />
(8) [S] [SAdj] [SPNom] : [S C'est la raison pour laquelle Grenoble a été choisie<br />
pour étudier ce phénomène propre aussi à certaines vallées alpines et prendre<br />
] [,] [SAdj si nécessaire ] [,] [SPNom des mesures préventives ]<br />
3.1.3. Fonctionnement simplifié<br />
<strong>SYNTEX</strong> est un <strong>analyseur</strong> procédural à cascade. Le terme à cascade signifie qu’il traite<br />
chaque séquence en plusieurs passes successives. L’entrée d’une passe est la sortie de la<br />
passe précédente. La séquence donnée en entrée à l’<strong>analyseur</strong> est étiquetée : elle est<br />
découpée en mots (token), à chaque mot est associée une catégorie grammaticale (nom,<br />
verbe, adjectif…). J’utilise le TREETAGGER 27 . A chaque passe, l’<strong>analyseur</strong> ajoute des<br />
27 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/<br />
71
liens <strong>syntaxique</strong>s, en s’appuyant sur les liens placés lors des passes antérieures. Le terme<br />
procédural signifie que les liens <strong>syntaxique</strong>s sont placés par des heuristiques qui<br />
décrivent l’algorithme de parcours de la chaîne des mots étiquetés partiellement<br />
analysée entre un mot donné et un gouverneur ou dépendant potentiel. L’<strong>analyseur</strong><br />
<strong>SYNTEX</strong> est très proche, dans sa philosophie, de l’<strong>analyseur</strong> FULCRUM de P. S. Garvin<br />
(Garvin, 1967), avec sa méthode par passes et ses mots pivots (chap. 2, section 2.3.2).<br />
L’<strong>analyseur</strong> est aussi modulaire : chaque type de lien <strong>syntaxique</strong> (sujet, objet…) est pris<br />
en charge par un module dédié. J’illustre de façon simplifiée le fonctionnement de<br />
l’<strong>analyseur</strong> en déroulant pas à pas le traitement de la séquence 1. En préalable à l’analyse<br />
<strong>syntaxique</strong>, l’étiqueteur morphologique a découpé la séquence en mots et a attribué une<br />
étiquette morpho<strong>syntaxique</strong> à chacun des mots (N : nom, V : verbe, D : déterminant, P :<br />
préposition, A : adjectif) (2). Il a reconnu la préposition complexe en direction du.<br />
(1) Marie lance la pelote de laine rouge en direction du chat de Jean.<br />
(2) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
D N P N V D N P N A P N P N<br />
Lors d’une première passe, l’<strong>analyseur</strong> traite les relations dites « locales ». Il reconnaît<br />
par exemple des liens <strong>syntaxique</strong>s entre un déterminant et son gouverneur, entre une<br />
préposition et son dépendant, entre un auxiliaire et son participe passé (3).<br />
(3) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
Lors d’une deuxième passe, l’<strong>analyseur</strong> traite les relations dites « non ambiguës ». Il<br />
reconnaît dans la séquence 1 le lien Sujet entre le verbe lance et le nom fille et le lien<br />
Objet entre le verbe lance et le nom pelote (4). Les flèches en pointillés sous la séquence<br />
marquent les étapes du parcours entre les extrémités des liens <strong>syntaxique</strong>s. Les barres<br />
verticales sous les mots marquent les fins de parcours. Le module de recherche des sujets<br />
se positionne sur le verbe conjugué lance et se déplace vers la gauche à la recherche d’un<br />
dépendant pour ce gouverneur. Il rencontre d’abord le nom Marie qui est déjà gouverné<br />
(par la préposition de), puis le nom fille, situé immédiatement à gauche de la préposition.<br />
Le module retient ce nom, puisqu’il est libre, et stoppe son parcours puisque le<br />
déterminant gouverné par ce nom est le premier mot de la séquence. Le module de<br />
recherche des objets se positionne sur le verbe transitif lance et se déplace vers la droite<br />
à la recherche d’un dépendant pour ce gouverneur. Il rencontre d’abord le déterminant la<br />
et « remonte » à son gouverneur pelote. Puisque ce nom est libre, il le retient comme<br />
cible de la relation, et stoppe sa recherche.<br />
(4) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
72
Lors d’une troisième passe, l’<strong>analyseur</strong> traite les relations dites « non ambiguës ». Il<br />
recherche les gouverneurs potentiels des adjectifs et des prépositions. Pour des raisons<br />
de lisibilité, je décompose la description en commentant le traitement des 3 prépositions<br />
de (5a), puis de l’adjectif rouge (5b) et enfin de la préposition en direction du (5c). Pour<br />
la première préposition de, le module de recherche des gouverneurs des prépositions<br />
reconnaît sans ambiguïté le nom fille comme gouverneur. Pour la deuxième préposition<br />
de, le module retient d’abord le nom pelote situé immédiatement à sa gauche, puis<br />
remonte directement au verbe lance, gouverneur de ce nom et situé à gauche, qu’il<br />
retient comme deuxième gouverneur candidat, et il stoppe la recherche sur ce verbe<br />
conjugué. Il a donc retenu 2 gouverneurs candidats pour cette préposition. Pour la<br />
troisième préposition de, le module retient d’abord le nom chat situé immédiatement à sa<br />
gauche, puis remonte directement à gauche de la préposition qui gouverne ce nom, pour<br />
se saisir de l’adjectif rouge, puis du nom laine, avant de remonter à la deuxième<br />
préposition de, gouverneur de ce nom, dont il récupère tous les gouverneurs candidats. Il<br />
a donc retenu 4 gouverneurs candidats pour cette préposition.<br />
(5a) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
Pour trouver le gouverneur de l’adjectif rouge (5b), le module de recherche des<br />
gouverneurs nominaux des adjectifs part de cet adjectif, se déplace à gauche et<br />
sélectionne le nom laine comme candidat, puis, situé immédiatement à gauche de la<br />
préposition gouvernant ce nom, le nom pelote. La recherche s’arrête car ce second nom<br />
est gouverné par un verbe qui ne se construit pas avec un attribut. Le module a donc<br />
retenu 2 gouverneurs candidats pour cet adjectif.<br />
(5b) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
De façon analogue (5c), le module de recherche des gouverneurs des prépositions<br />
identifie comme gouverneurs candidats pour la préposition en direction du les mots<br />
rouge, laine, pelote et lance. A la fin du traitement des relations ambiguës, l’analyse a<br />
produit le treillis (5d). La procédure de désambiguïsation qui intervient à l’issue de ce<br />
traitement produit le résultat 5e. Le résultat final complet de l’analyse est l’arbre de<br />
dépendance 5f.<br />
(5c) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
73
(5d) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
(5e) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
(5f) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />
Dans l’activité de conception et de développement de l’<strong>analyseur</strong>, les problèmes à<br />
résoudre relèvent de deux grands types : au niveau macroscopique, ils concernent le<br />
choix de l’architecture du système : dans quel ordre enchaîner la reconnaissances des<br />
liens <strong>syntaxique</strong>s (3.1.4) ; au niveau microscopique, ils concernent la mise au point des<br />
algorithmes de parcours pour la reconnaissance des liens <strong>syntaxique</strong>s (3.1.5).<br />
3.1.4. Architecture<br />
<strong>SYNTEX</strong> effectue une analyse ascendante. Il identifie progressivement les liens de<br />
dépendance <strong>syntaxique</strong> élémentaires pour reconnaître in fine la forme <strong>syntaxique</strong> globale<br />
de la séquence en entrée. Des questions se posent alors concernant la stratégie à adopter<br />
pour traiter l’ensemble des mots de la phrase : dans quel ordre entreprendre la<br />
reconnaissance des liens <strong>syntaxique</strong>s ? De gauche à droite ? Relation par relation ?<br />
Combien de passes ? Quels types de liens reconnaître à chaque passe ? Quand on vise un<br />
<strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>, il n’y a pas lieu de s’imposer des contraintes de type<br />
cognitif sur l’architecture du système et rien n’exige a priori d’adopter un traitement<br />
incrémental, de gauche à droite, sans retour en arrière. Les questions posées sont propres<br />
à la problématique de développement d’un <strong>analyseur</strong> <strong>opérationnel</strong>, et les enjeux relèvent<br />
crucialement de l’ingénierie linguistique.<br />
La difficulté de fond vient de l’antinomie entre la contrainte de séquentialité des<br />
traitements informatiques et l’intrication des liens <strong>syntaxique</strong>s dans un énoncé. Celle-ci<br />
est liée à la propriété de concrétion de la langue (Milner, 1989, p. 113), qui fait qu’une<br />
difficulté <strong>syntaxique</strong> ne vient jamais seule. Dans un énoncé, les configurations<br />
<strong>syntaxique</strong>s problématiques se mêlent et s’enchevêtrent. Par exemple, du point de vue du<br />
traitement automatique, on sait que la coordination et le rattachement prépositionnel<br />
constituent chacun un problème sérieux. Mais les cas ne sont pas rares où l’<strong>analyseur</strong><br />
doit résoudre les deux problèmes dans la même zone de la séquence. C’est le cas dans<br />
l’exemple 6, où les ambiguïtés de rattachement de la deuxième préposition à (devant<br />
agriculture) et de la préposition aux se mêlent avec celle de la coordination.<br />
(6) La commission européenne s'oppose à une limitation des discussions à<br />
l'agriculture et aux services. [LMO]<br />
74
De façon générale, l’antinomie entre séquentialité informatique et concrétion <strong>syntaxique</strong><br />
débouche sur une double circularité : (1) pour reconnaître un lien <strong>syntaxique</strong> de tel type<br />
(Sujet, Objet, etc.) pour un mot de l’énoncé, il faudrait avoir déjà reconnu un lien d’un<br />
autre type pour un autre mot, et réciproquement ; (2) pour reconnaître un lien <strong>syntaxique</strong><br />
pour un mot à telle place dans l’énoncé, il faudrait avoir déjà reconnu un lien à gauche,<br />
ou à droite, et inversement. Quelques exemples (construits) permettent illustrer cette<br />
circularité. Dans l’exemple 7, c’est la reconnaissance du lien <strong>syntaxique</strong> entre l’adjectif<br />
roses, dernier mot de l’énoncé, et le nom bonbons qui permet la reconnaissance sans<br />
ambiguïté du nom bonbons comme gouverneur de la préposition à. Le problème de la<br />
circularité est porté à son comble avec la coordination. Dans l’exemple 8, il serait<br />
préférable d’avoir reconnu le liens Objet entre aime et chat d’une part et le lien Sujet<br />
entre dort et chien d’autre part pour identifier correctement le statut du coordonnant.<br />
Dans l’exemple 9, la situation est plus compliquée. Pour reconnaître le lien Sujet entre<br />
dorment et chats, il faudrait avoir identifié le fait que le coordonnant et relie hommes et<br />
oiseaux, objets de regardent. Et réciproquement…<br />
(7) Il donne des bonbons à la fraise roses.<br />
(8) Jean aime le chat et le chien dort.<br />
(9) Les chats qui regardent les hommes et les oiseaux dorment.<br />
Deux ordres de séquentialité interagissent dans le traitement informatique, correspondant<br />
à la double circularité évoquée ci-dessus : l’ordre dans lequel on prend les mots dans la<br />
phrase (de gauche à droite, de droite à gauche), l’ordre dans lequel on traite les relations<br />
(identification des sujets avant ou après les objets, rattachement des prépositions avant<br />
ou après les adjectifs, etc.). La difficulté est réelle, et grande peut être la tentation de<br />
chercher à mettre en place des solutions d’un niveau de complexité qui serait à la hauteur<br />
de la difficulté du problème : par exemple, décider de générer tous les possibles, en<br />
repoussant au terme de l’analyse le choix de la bonne description dans le fouillis du<br />
treillis. Pour aboutir à un <strong>analyseur</strong> <strong>opérationnel</strong>, il faut savoir maîtriser la complexité, et<br />
accepter le risque d’erreur. Il faut trouver un ordonnancement optimal tel que les<br />
quelques pertes entraînées par des décisions précoces soient largement compensées par<br />
les gains ultérieurs permis par la pose anticipée de liens <strong>syntaxique</strong>s.<br />
Au départ du projet, j’ai choisi l’architecture et les principes suivants :<br />
- <strong>Un</strong>e passe par relation, dans cet ordre : coordination, objet, sujet, adjectif épithète,<br />
prépositions.<br />
- Aucun module ne remet en cause les relations ou étiquettes placées par les modules<br />
antérieurs.<br />
- Chaque module résout ses ambiguïtés avant de passer la main au module suivant.<br />
Cette stratégie initiale de base, cloisonnée, a été rapidement <strong>opérationnel</strong>le et m’a permis<br />
d’enclencher le cycle de développement par essai/erreur des heuristiques des différents<br />
modules de connaissance de liens <strong>syntaxique</strong>s et des procédures de désambiguïsation,<br />
endogènes et exogènes. C’est en développant et évaluant ces modules que j’ai pu<br />
identifier les limites de l’architecture initiale, et imaginer des stratégies adéquates<br />
75
sensiblement plus complexes, pour aboutir à l’architecture présentée dans la section<br />
suivante de ce chapitre (3.2).<br />
3.1.5. Algorithmes de reconnaissance<br />
Le second type de problème, après celui de l’architecture, que pose le développement de<br />
l’<strong>analyseur</strong> est celui de la mise au point des modules de reconnaissance de liens<br />
<strong>syntaxique</strong>s. Dans chaque module est décrit un algorithme qui spécifie les parcours<br />
possibles, dans la séquence étiquetée et partiellement analysée, entre un mot de départ,<br />
susceptible d’être la cible ou la source d’un lien de dépendance et son gouverneur ou un<br />
de ses dépendants. Cet algorithme doit permettre de couvrir le maximum de<br />
configurations de surface susceptibles de se réaliser entre un dépendant et son<br />
gouverneur. L’élaboration de ces modules exige la mise au jour de contraintes<br />
<strong>syntaxique</strong>s locales sur lesquelles s’appuyer pour déterminer les procédures de<br />
reconnaissance des liens <strong>syntaxique</strong>s. Certaines de ces contraintes sont générales, en<br />
particulier la contrainte de projectivité (de façon générale, les liens <strong>syntaxique</strong>s ne se<br />
croisent pas) et la contrainte d’unicité du gouverneur (de façon générale, un mot n’a<br />
qu’un seul gouverneur). Mais à chaque relation <strong>syntaxique</strong> correspond des<br />
configurations particulières qui imposent des contraintes spécifiques. Par exemple,<br />
concernant le module qui recherche les sujets, quelles étiquettes morpho<strong>syntaxique</strong>s ou<br />
quelles configurations <strong>syntaxique</strong>s, décrites en termes soit de succession d’étiquettes,<br />
soit de liens <strong>syntaxique</strong>s, est-il légitime de sauter pour atteindre un sujet en partant d’un<br />
verbe conjugué ? Quelles sont celles au contraire qui constituent des barrières à ne pas<br />
franchir ?<br />
Pour identifier ces contraintes, et en déduire les algorithmes d’analyse, la voie la plus<br />
efficace est celle de la confrontation systématique aux corpus par essai/erreur, de l’aller<br />
et retour incessant entre l’implémentation et l’observation. C’est en implémentant et<br />
testant les algorithmes à grande échelle que l’on améliore la précision et la couverture<br />
des modules de reconnaissance. Cela est d’autant plus vrai que face à des énoncés réels,<br />
on est confronté à des configurations syntactico-discursives sur lesquelles les<br />
grammaires ou les théories <strong>syntaxique</strong>s sont peu loquaces. Par exemple, le traitement des<br />
coordonnants et des virgules (apposition, incise, coordination, énumération), qui<br />
foisonnent dans les textes réels, exigent le développement de procédures d’analyse<br />
complexes, qui empruntent peu aux descriptions linguistiques classiques, et qui exigent<br />
en revanche une analyse en corpus détaillée. Les théories <strong>syntaxique</strong>s sont de peu de<br />
secours. Les œuvres des grands noms de la dépendance, comme Tesnière (1959) et<br />
Mel’čuk (1988), sont passionnantes et stimulantes pour le grammairien qui sommeille<br />
dans tout concepteur d’<strong>analyseur</strong>. Mais elles fournissent peu de clés pour la mise au<br />
point d’un système automatique de reconnaissance de formes dépendancielles. Tel n’est<br />
pas leur propos. Les problèmes pratiques liés à la reconnaissance automatique de la<br />
structure <strong>syntaxique</strong> d’une phrase et les problèmes théoriques liés à la description<br />
<strong>syntaxique</strong> sont de deux ordres différents.<br />
76
Néanmoins, même si le développement de l’<strong>analyseur</strong> n’emprunte rien directement aux<br />
grammaires ou aux travaux de descriptions <strong>syntaxique</strong>s, il est impossible de mener à<br />
bien cette tâche sans une bonne connaissance de ces travaux. D’abord, et c’est le<br />
minimum, parce que le concepteur doit être capable de d’identifier lui-même l’analyse<br />
attendue face à toute configuration avant de chercher à modéliser des procédures de<br />
reconnaissance. Ensuite, il doit reconnaître des phénomènes <strong>syntaxique</strong>s identiques<br />
derrière la multiplicité des configurations <strong>syntaxique</strong>s de surface qu’il observe quand il<br />
dépouille un corpus en examinant les cas d’application des règles qu’il élabore. Il doit<br />
donc être expert en grammaire. Enfin, le recours à des théories et descriptions<br />
<strong>syntaxique</strong>s est utile pour motiver tel choix de représentation pour certaines relations de<br />
dépendance qui peuvent poser problème : quel est le gouverneur, quel est le dépendant,<br />
et dans quel sens s’établit la relation de dépendance, dans le cas, par exemple, des<br />
complexes verbaux, des structures comparatives, de la coordination.<br />
3.2. Description des modules<br />
3.2.1. Enchaînement des modules de reconnaissance<br />
L’organisation de <strong>SYNTEX</strong> est modulaire (section 3.1.4). Il y a un module par type de<br />
relation traitée (coordination, sujet, objet…). <strong>Un</strong> module est constitué d’un algorithme<br />
décrivant les parcours possibles entre un mot de départ, passé en argument, un mot<br />
d’arrivée auquel il est <strong>syntaxique</strong>ment relié via R. Le mot de départ est soit la source du<br />
lien <strong>syntaxique</strong> (le gouverneur), et dans ce cas l’orientation de la recherche est celle de la<br />
relation <strong>syntaxique</strong> (« orientation directe »), soit la cible (le dépendant), et dans ce cas<br />
l’orientation de la recherche est inverse de celle de la relation <strong>syntaxique</strong> (« orientation<br />
inverse »). Comme je l’ai évoqué dans la section 3.1.4 à propos de l’architecture de<br />
l’<strong>analyseur</strong>, le choix de l’ordonnancement des modules est délicat. A ce stade du<br />
développement de <strong>SYNTEX</strong>, j’ai convergé vers une organisation stable qui identifie, du<br />
point de vue du traitement automatique, trois grandes catégories de relations,<br />
correspondant à trois catégories de modules qui s’enchaînent dans cet ordre :<br />
- Les relations locales (section 3.2.3). Il s’agit, par exemple, des relations entre un<br />
déterminant et le nom qui le gouverne, entre une préposition et son dépendant, entre<br />
un auxiliaire et un participe passé. Les liens <strong>syntaxique</strong>s correspondant connectent<br />
des mots qui sont très proches, et les procédures de reconnaissance sont simples<br />
- Les relations non ambiguës (sections 3.2.5 et 3.2.6). Il s’agit des relations Objet,<br />
Attribut et Sujet. Les modules associés sont à orientation directe : chaque module<br />
part du gouverneur (verbe) à la recherche du dépendant. Le problème de la<br />
reconnaissance se formule pour chacune des relations de la façon suivante :<br />
sélectionner le premier mot non gouverné (de telle ou telle catégorie, situé à droite<br />
ou à gauche, selon la relation). Ces modules ne génèrent aucune ambiguïté.<br />
77
- Les relations ambiguës (sections 3.2.7 à 3.2.12). Il s’agit de la relation entre un<br />
pronom relatif et son antécédent, la relation entre une préposition et son gouverneur<br />
et la relation entre un adjectif et le nom dont il est épithète. Les modules associés<br />
sont à orientation inverse : chaque module part du dépendant (pronom relatif,<br />
préposition, adjectif) à la recherche du gouverneur. Contrairement au cas précédent,<br />
la recherche ne doit pas s’arrêter au premier gouverneur trouvé. Plusieurs<br />
gouverneurs candidats peuvent être sélectionnés, qui sont tous <strong>syntaxique</strong>ment<br />
également plausibles : ils ne peuvent être départagés sur de simples critères de<br />
configuration <strong>syntaxique</strong>. Ces relations imposent donc une étape de<br />
désambiguïsation.<br />
La relation de coordination a un statut à part ; elle est traitée immédiatement après les<br />
relations locales (section 3.2.4). <strong>Un</strong> module global intervient en fin de traitement<br />
(section 3.2.13) pour modofoer certains liens <strong>syntaxique</strong>s posés par les modules<br />
antérieurs, ajouter des liens <strong>syntaxique</strong>s « profonds » et construire la forme <strong>syntaxique</strong><br />
globale de la séquence. Avant de décrire en détail les différents modules, je présente,<br />
dans la section suivante, les primitives d’implémentation utilisées dans les algorithmes<br />
de parcours.<br />
3.2.2. Formalisation du parcours<br />
Dans le développement de l’<strong>analyseur</strong> <strong>SYNTEX</strong>, l’essentiel du travail porte sur la mise au<br />
point des algorithmes décrivant les parcours possibles, dans la chaîne étiquetée et<br />
partiellement annotée, entre les deux extrémités d’un lien <strong>syntaxique</strong> : entre un<br />
dépendant et son gouverneur pour les modules à orientation inverse, entre un gouverneur<br />
et un de ses dépendants pour les modules à orientation directe. J’ai défini un certain<br />
nombre de fonctions primitives de calcul des pas de déplacement dans les parcours. Ces<br />
primitives exploitent la propriété de projectivité ; sauf cas particuliers, les arbres de<br />
dépendance construits par <strong>SYNTEX</strong> sont projectifs : « en plaçant les nœuds sur une ligne<br />
droite et tous les arcs dans le même demi-plan, on peut assurer que 1) deux arcs ne se<br />
coupent jamais et que 2) aucun arc ne couvre la racine de l’arbre. (…) La projectivité est<br />
équivalente au fait que la projection de tout nœud x de l’arbre (c’est-à-dire l’ensemble<br />
des nœuds dominés par x, x compris) forme un segment continu de la phrase. » (Kahane,<br />
2001, p. 26). Les primitives de déplacement exploitent cette propriété en calculant les<br />
pas de déplacement de telle sorte qu’un lien posé entre un point d’arrêt et le point de<br />
départ du déplacement ne croise aucun lien déjà placé.<br />
Avant de décrire ces fonctions, j’illustre l’idée avec un exemple figuré. Supposons<br />
(exemple 1) qu’un module à orientation directe cherche un dépendant du mot f à sa<br />
gauche, et qu’aient été placés les liens entre les mots a et c et entre les mots c et e (par<br />
exemple, f est un verbe, le module cherche son sujet, certains liens prépositionnels ou<br />
adjectivaux ont été placés). Au moment d’entamer son parcours à gauche, le module ne<br />
peut s’arrêter sur le mot e car celui-ci a déjà un gouverneur (principe de l’unicité du<br />
gouverneur) (exemple 2). Il ne peut s’arrêter sur le mot d car un lien <strong>syntaxique</strong> entre les<br />
mots f et d viendrait couper un lien déjà placé (principe de la projectivité) (exemple 3).<br />
78
Le module ne peut s’arrêter sur le mot c ou sur le mot d pour des raisons analogues. Le<br />
premier pas du parcours doit conduire au mot a (exemple 4), qui sera ainsi le premier<br />
mot testé comme dépendant de f.<br />
(1) a b c d e f<br />
!<br />
(2) a b c d e f<br />
!<br />
(3) a b c d e f<br />
(4) a b c d e f<br />
?<br />
Les fonctions primitives permettent d’implémenter le calcul des pas de parcours. Avant<br />
de les décrire, quelques notations :<br />
Soit un mot, soit i son numéro, c’est-à-dire son rang dans l’énoncé segmenté :<br />
Gov(i) est l’ensemble constitué du couple (R,L). R est le nom d’une relation <strong>syntaxique</strong>.<br />
L est une liste de numéros de mots. Quand la relation <strong>syntaxique</strong> R pointant sur i a<br />
été désambiguïsée, la liste L ne comporte qu’un seul élément, qui est le gouverneur<br />
de i via la relation R. Quand la relation <strong>syntaxique</strong> R pointant sur i n’a pas été<br />
désambiguïsée, la liste L contient les numéros des gouverneurs candidats de i via la<br />
relation R.<br />
Gov(i)={(R,{j1, …, jn}), où n est le nombre de gouverneurs candidats de i, via la<br />
relation R}<br />
Dep(i) est l’ensemble des couples (Rj,j), tels que le mot j est le dépendant de i via la<br />
relation Rj. <strong>Un</strong> mot peut avoir plusieurs dépendants. Les couples sont ordonnés par<br />
valeur croissante de j. Le couple (Rj,j) n’intègre l’ensemble Dep(i) que quand la<br />
relation Rj a été désambiguïsée, c’est-à-dire si Gov(j)={( Rj,i)}.<br />
Dep(i)={(Rj,j), pour j=j1, …, jn, où n est le nombre de dépendants de i}<br />
Je donne ci-dessous quelques exemples illustratifs (exemples 5 et 6, tableaux 1, 2 et 3).<br />
SUJ est la relation sujet ; OBJ est la relation complément d’objet ; DET est la relation entre<br />
un nom et son déterminant ; PREP est la relation entre une préposition et son<br />
gouverneur ; CPREP est la relation entre une préposition et son dépendant ; ADJ est la<br />
relation entre un adjectif et son gouverneur nominal.<br />
79
(5) Le 1 chat 2 de 3 Marie 4 regarde 5 la 6 souris 7 grise 8 .<br />
i Mot Gov(i) Dep(i)<br />
1 Le {(DET, {2})} ∅<br />
2 Chat {(SUJ, {5})} {(DET, 1), (PREP, 3)}<br />
3 De {(PREP, {2})} {(CPREP, {3})}<br />
4 Marie {(CPREP, {3})} ∅<br />
5 Regarde ∅ {(SUJ, 2), (OBJ, 7)}<br />
6 La {(DET, {7})} ∅<br />
7 Souris {(OBJ, {5})} {(DET, 6), (ADJ, 8)}<br />
8 Grise {(ADJ, {7})} ∅<br />
Tableau 1. Fonctions Gov et Dep pour l’exemple 5<br />
80
(6) Marie 1 regarde 2 le 3 chat 4 gris 5 sur 6 le 7 paillasson 8 .<br />
i mot Gov(i) Dep(i)<br />
1 Marie {(SUJ, {2})} ∅<br />
2 regarde ∅ {(SUJ, 1), (OBJ, 4)}<br />
3 le {(DET, {4})} ∅<br />
4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5)}<br />
5 gris {(ADJ, {4})} ∅<br />
6 sur {(PREP, {5,4,2})} {(CPREP, {8})}<br />
7 le {(DET, {8})} ∅<br />
8 paillasson {(CPREP, {6})} {(DET, 7)}<br />
Tableau 2. Fonctions Gov et Dep pour l’exemple 5, avant désambiguïsation de la<br />
relation PREP pointant sur 4<br />
i mot Gov(i) Dep(i)<br />
1 Marie {(SUJ, {2})} ∅<br />
2 regarde ∅ {(SUJ, 1), (OBJ, 4)}<br />
3 le {(DET, {4})} ∅<br />
4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5), (PREP, 6)}<br />
5 gris {(ADJ, {4})} ∅<br />
6 sur {(PREP, {4})} {(CPREP, {8})}<br />
7 le {(DET, {8})} ∅<br />
8 paillasson {(CPREP, {6})} {(DET, 7)}<br />
Tableau 3. Fonctions Gov et Dep pour l’exemple 5, après désambiguïsation de la<br />
relation PREP pointant sur 4<br />
On dispose de deux fonctions de base, qui donnent pour un mot donné dans une<br />
séquence partiellement analysée les frontières droite et gauche de sa projection : frDmax<br />
et frGmax. La fonction frDmax prend comme argument le numéro d’un mot et retourne<br />
la frontière droite de sa projection. La fonction frGmax prend comme argument le<br />
numéro d’un mot et retourne la frontière gauche de sa projection. Ce sont deux fonctions<br />
récursives. Le principe, pour la fonction frDmax, est le suivant : dans la liste des<br />
dépendants du mot, sélectionner le dépendant le plus à droite ; si ce mot n’a pas de<br />
dépendant, il est la frontière droite ; s’il a un ou plusieurs dépendants, chercher sa<br />
frontière droite, qui sera celle du mot initial, et ainsi de suite (tableau 4). Par exemple,<br />
soit le mot regarde dans l’exemple (1). Son dépendant le plus à droite est le mot souris ;<br />
le dépendant le plus à droite de souris est grise, qui n’a pas de dépendant. La frontière<br />
droite de souris est donc le mot grise, qui est aussi la frontière droite du mot regarde.<br />
81
Fonction frDmax(i)<br />
si Dep(i) = ∅ , retourner i<br />
sinon Dep(i) = {(Rj,j), pour j=j1, …, jn}<br />
si jn > i , retourner frDmax(jn)<br />
sinon , retourner i<br />
Fonction frGmax(i)<br />
si Dep(i) = ∅ , retourner i<br />
sinon Dep(i) = {(Rj,j), pour j=j1, …, jn}<br />
si j1 < i , retourner frGmax(j1)<br />
sinon , retourner i<br />
Tableau 4. Fonction frDmax et frGmax<br />
On peut maintenant décrire les fonctions de base de parcours de la chaîne annotée. Dans<br />
l’algorithme décrivant le parcours entre le point de départ (gouverneur ou dépendant)<br />
d’une relation <strong>syntaxique</strong> et le point d’arrivée (dépendant ou gouverneur), la fonction de<br />
base permet de passer d’un élément testé au prochain à tester. Chaque fonction de base<br />
donne ainsi le pas élémentaire du parcours. Il y a 4 fonctions de base, selon le sens de<br />
déplacement, de gauche à droite (gd) ou de droite à gauche (dg), et selon l’orientation de<br />
la recherche par rapport à celle de la relation <strong>syntaxique</strong>, du gouverneur au dépendant<br />
(GD) ou du dépendant au gouverneur (DG) :<br />
- fonction gdGD : de gauche à droite quand on part du gouverneur et que l’on cherche<br />
un dépendant<br />
- fonction dgGD : de droite à gauche quand on part du gouverneur et que l’on cherche<br />
un dépendant<br />
- fonction gdDG : de gauche à droite quand on part du dépendant et que l’on cherche<br />
un gouverneur<br />
- fonction dgDG : de droite à gauche quand on part du dépendant et que l’on cherche<br />
un gouverneur<br />
Je décris plus en détail la dernière fonction, qui est la plus utilisée. C’est celle qui est<br />
utilisée par le module ADJ qui cherche à gauche d’un adjectif des gouverneurs candidats<br />
nominaux. C’est celle aussi qui est utilisée par le module PREP qui cherche à gauche<br />
d’une préposition des gouverneurs candidats verbaux, nominaux ou adjectivaux. La<br />
fonction dgDG a 2 arguments : i, le numéro du mot courant dans le parcours, et i0 le<br />
numéro du mot initial dont on cherche des gouverneurs candidats. La fonction retourne<br />
le numéro du prochain mot à analyser. Si cette valeur est 0, la recherche de gouverneurs<br />
candidats s’arrête (tableau 5). Je précise qu’il s’agit d’une description simplifiée, les<br />
choses se compliquant sensiblement avec la prise en compte des relations de<br />
coordination et d’antécédence relative et des structures comparatives.<br />
82
Fonction dgDG(i,i0)<br />
1. si frDmax(i) > i0 , retourner 0<br />
2. sinon<br />
3. si Gov(i) = ∅ , retourner frGmax(i)-1<br />
4. sinon Gov(i) = {(R,L)}<br />
5. si L={j}<br />
6. si j>i , retourner 0<br />
7. sinon retourner j<br />
8. sinon L={j1, …, jn}<br />
9. tester j1, …, jn comme candidats pour i0<br />
10. retourner dgDG(j1)<br />
Tableau 5. Fonction dgDG<br />
J’illustre les différents pas de l’algorithme avec les exemples 7 à 11 28 . Dans l’exemple 5,<br />
le module PREP cherche les gouverneurs potentiels de la préposition à. L’action du pas<br />
n°1 arrête le parcours au nom bonbons, car le choix d’un gouverneur à gauche de ce nom<br />
provoquerait un croisement avec le lien <strong>syntaxique</strong> entre le mot bonbons, situé à gauche<br />
de la préposition, et le mot fraise, situé à sa droite. Dans l’exemple 6, le module ADJ<br />
cherche les gouverneurs potentiels du participe passé installée. Après que le nom tension<br />
a été testé et retenu comme candidat, l’action du pas n°3 prolonge le parcours au nom<br />
ligne, situé immédiatement à gauche de la frontière Gauche du mot tension. La recherche<br />
s’arrête car la frontière Gauche du mot ligne est le premier mot de la phrase. Dans<br />
l’exemple 7, le module ADJ cherche les gouverneurs potentiels de l’adjectif gris.<br />
L’action du pas n°6 arrête le parcours au nom chat, car le choix d’un gouverneur à<br />
gauche de ce nom provoquerait un croisement avec le lien <strong>syntaxique</strong> placé entre chat et<br />
dort. Dans l’exemple 8, le module PREP cherche les gouverneurs potentiels de la<br />
préposition aux. Après que l’adjectif roses a été testé et retenu comme candidat, l’action<br />
du pas n°7 prolonge le parcours au nom bonbon, qui est le gouverneur de l’adjectif (le<br />
nom fraise est « sauté », car un lien entre aux et fraise viendrait croiser le lien déjà posé<br />
entre roses et bonbons). Le parcours se prolonge au mot donne situé immédiatement à<br />
gauche de la frontière Gauche du mot bonbons (pas n°3), et elle s’arrête car ce mot est<br />
un verbe. Dans l’exemple 9, le module PREP cherche les gouverneurs potentiels de la<br />
préposition à. Après que l’adjectif rose a été testé et retenu comme candidat, l’action du<br />
pas n°9 entraîne le test des noms fraise et bonbon, gouverneurs candidats de l’adjectif,<br />
comme gouverneurs candidats pour la préposition, et l’action du pas n°10 prolonge le<br />
parcours au verbe donne, situé immédiatement à gauche de la frontière Gauche du<br />
premier candidat (bonbon). Le module ajoute ce verbe à la liste des candidats, et arrête<br />
sa recherche.<br />
28 Je rappelle que, dans les exemples, les flèches situées au-dessus de la séquence représentent les liens<br />
<strong>syntaxique</strong>s déjà placés, les flèches en traits pointillés au-dessous de la séquence représentent les pas du<br />
parcours. Les barres verticales marquent l’arrêt du parcours.<br />
83
(7) Il donne des bonbons à la fraise roses<br />
(8) La ligne très haute tension installée …<br />
(9) Le chat gris dort.<br />
(10) Il donne des bonbons à la fraise roses aux enfants<br />
(11) Il donne un bonbon à la fraise rose à l’enfant<br />
3.2.3. Les relations locales<br />
?<br />
Au cours de la première phase du traitement, l’<strong>analyseur</strong> s’occupe des relations<br />
<strong>syntaxique</strong>s locales, en posant par exemple les liens <strong>syntaxique</strong>s entre les déterminants et<br />
les noms qui les gouvernent, entre les prépositions et les mots qu’elles gouvernent, entre<br />
les auxiliaires et les participes passés. Cette phase s’apparente au chunking des<br />
<strong>analyseur</strong>s de surface (Abney, 1990a) (Vergne, 1999). Ces liens <strong>syntaxique</strong>s connectent<br />
dans la très grande majorité des mots qui sont très proches. Les procédures de<br />
reconnaissance sont donc simples. C’est pourquoi j’énumère ici les types de liens posés,<br />
en précisant les catégories des gouverneurs et dépendants impliqués, sans entrer dans les<br />
détails d’implémentation. Le traitement s’effectue en plusieurs passes sur la phrase.<br />
Entités nommées<br />
Les dates (22 janvier 2007, juin 2002) sont reconnues avant l’étiquetage et concaténées<br />
en mots, étiquetés NomDate. Les patronymes sont reconnus lors de cette première étape<br />
d’analyse, à partir d’une liste de prénoms et de règles d’exploration autour des<br />
occurrences de prénoms. Quand un patronyme est reconnu, le nom de famille gouverne<br />
le ou les (initiales de) prénoms (1a-b).<br />
84
(1a) Victor Hugo (1b) John F. Kennedy<br />
Déterminants<br />
Le module DET place un lien entre un déterminant et son gouverneur, qui est toujours un<br />
nom (2a-c). <strong>Un</strong> certain nombre de déterminants complexes sont reconnus au cours d’une<br />
phase de concaténation qui s’insère entre l’étiquetage et l’analyse <strong>syntaxique</strong> : tous les,<br />
plus de, beaucoup de, la plupart des, l’un des, etc. L’ambiguïté bien connue liée à ces<br />
unités n’est pour le moment pas traitée dans <strong>SYNTEX</strong>, ce qui conduit parfois à des<br />
segmentations malheureuses : il ne veut plus_de vin.<br />
(2a) Le chat (2b) Beaucoup_de chats (2c) 5 chats<br />
Le module DET part du déterminant et parcourt la séquence étiquetée vers la droite à la<br />
recherche d’un nom. Pendant le voyage, il peut effectuer des réétiquetages « à la volée ».<br />
Par exemple, il arrive assez fréquemment que le TREETAGGER reconnaisse, après un<br />
déterminant, deux adjectifs consécutifs, non suivis d’un nom. Ce type d’ambiguïté,<br />
succession des deux mots pouvant être Nom ou Adjectif, est courant. Dans ces contextes,<br />
le module DET réétiquette le premier en nom, systématiquement, ce qui constitue dans la<br />
très grand majorité des cas le bon choix, comme dans l’exemple 2d où génératrice est<br />
réétiqueté en nom, mais produit parfois une erreur comme dans l’exemple 2e'.<br />
(2d) Par suite du récent accident à laD génératriceA nucléaireA de<br />
Tchernobyl,[HAN]<br />
(2d’) Par suite du récent accident à laD génératriceN nucléaireA de<br />
Tchernobyl,[HAN]<br />
(2e) Les médias régionaux rapportent lesD bonnesA nouvellesA comme celle là.<br />
[HAN]<br />
(2e') Les médias régionaux rapportent lesD bonnesN nouvellesA comme celle là.<br />
[HAN]<br />
Prépositions<br />
Le module CPREP place un lien entre une préposition et son dépendant, qui peut être un<br />
nom, un pronom ou un verbe à l’infinitif (3a-c). <strong>Un</strong> certain nombre de prépositions<br />
complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage :<br />
afin de, en faveur de, au cours de, au sujet de, etc. L’ambiguïté liée à ces unités n’est<br />
pour le moment pas traitée dans <strong>SYNTEX</strong>. Ce module effectue du réétiquetage à la volée<br />
comme le module DET.<br />
(3a) avec le chat (3b) avec lui (3c) afin_de partir<br />
85
Formes de+le<br />
Les formes de+le (du, de la, des, de l’) posent un redoutable problème d’étiquetage,<br />
puisqu’elles peuvent être selon les contextes Déterminant ou Préposition. J’ai choisi de<br />
ne pas tenir compte des choix du TREETAGGER et toutes ces formes sont étiquetées<br />
PrepDet (PD) en entrée de <strong>SYNTEX</strong>. La désambiguïsation de ces formes est répartie en<br />
plusieurs points de la chaîne d’analyse. Les modules DET et CPREP effectuent une partie<br />
du travail, dans les contextes suivants : immédiatement après un nom ou un adjectif, une<br />
forme de+le est systématiquement considérée comme une préposition ; immédiatement<br />
après un verbe une forme de+le est systématiquement considérée comme un<br />
déterminant, sauf si le verbe est un verbe pronominal ou s’il appartient à une liste qui<br />
regroupe des verbes intransitifs se construisant avec un complément en de<br />
(démissionner, dépendre, etc.) 29 , auquel cas elle est étiquetée Préposition. Les principaux<br />
cas d’ambiguïtés qui subsistent sont ceux dans lesquels une forme de+le est précédée<br />
d’une virgule ou d’un coordonnant. Nous verrons à la section 3.2.4 comment se passe la<br />
désambiguïsation dans ces cas.<br />
Complexes verbaux<br />
<strong>Un</strong> ensemble de modules s’occupe du complexe verbal 30 . Il s’agit de reconnaître les liens<br />
<strong>syntaxique</strong>s au sein de séquences constituées de verbes, de modaux (pouvoir, devoir) et<br />
d’auxiliaires (être, avoir), à des formes conjuguées ou au participe passé, ainsi que<br />
d’adverbes, de pronoms réfléchis et de pronoms clitiques. Je n’entre pas dans le détail de<br />
l’implémentation. Les exemples 4a-h donnent une idée des types de liens reconnus et de<br />
la façon dont ils sont représentés.<br />
(4a) Il a mangé. (4b) Il est venu. (4c) Il a été vu<br />
(4d) Il peut manger. (4e) Il a pu manger. (4f) Il peut avoir mangé.<br />
(4g) Il peut s’ être trompé. (4h) Il peut l’avoir mangé. (4i) Il ne peut pas venir.<br />
Adverbes<br />
29 Cette liste a été constituée, à partir des tables du Lexique-Grammaire, par Cécile Frérot (Frérot et al., 2002)<br />
30 Ces modules ont été réalisés par Marie-Paule Jacques, que je remercie ici chaleureusement.<br />
86
Le module ADV place un lien entre un adverbe et son gouverneur, qui peut être un verbe,<br />
un adjectif, un autre adverbe ou un nom (exemples 5a-d). <strong>Un</strong> certain nombre d’adverbes<br />
complexes sont reconnus au cours de la phase de concaténation qui suit l’étiquetage : le<br />
plus, en effet, par exemple, en revanche, en particulier, par ailleurs, etc. L’ambiguïté<br />
liée à ces unités n’est pour le moment pas traitée dans <strong>SYNTEX</strong>. Les heuristiques de<br />
reconnaissance sont locales et ne couvrent que les cas où un gouverneur est trouvé à<br />
proximité de l’adverbe. A l’issue de ce traitement, environ 70% des adverbes ont été liés.<br />
Les adverbes orphelins vont le rester jusqu’à la fin de l’analyse. Il manque ici une<br />
analyse linguistique systématique et détaillée pour élaborer une typologie des cas de<br />
figure dans lesquels un adverbe n’a pu être attaché. Mais beaucoup de ceux-ci se<br />
trouvent en début ou fin de phrase, souvent précédés ou suivis d’une virgule, ou bien<br />
entre virgules à l’intérieur de la séquence. Dans de tels contextes, les adverbes relèvent<br />
le plus souvent de l’organisation discursive, et peuvent difficilement être liés à un mot<br />
particulier de la séquence (cf. section 3.1.2). Le fait que des adverbes flottent ainsi dans<br />
les séquences ne perturbe pas outre mesure les traitements ultérieurs puisque les<br />
heuristiques de parcours les sautent allègrement.<br />
(5a) Il court vite. (5b) très rapide (5c) très vite (5d) non prolifération<br />
Conjonctions de subordination<br />
La relation de dépendance entre une conjonction de coordination et le verbe de la<br />
proposition subordonnée n’est pas à proprement parler une relation locale. Les liens de<br />
ce type sont reconnus lors de cette étape car sans être locaux ils sont faciles à identifier.<br />
Le module CSUB place un lien entre une conjonction de subordination, autre que que, et<br />
son dépendant, qui est un verbe conjugué (6). <strong>Un</strong> certain nombre de conjonctions<br />
complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage :<br />
pour que, bien que, à ce que, alors que, etc. L’ambiguïté liée à ces unités n’est pour le<br />
moment pas traitée dans <strong>SYNTEX</strong>. La procédure de reconnaissance est simple et peu<br />
faillible, et n’est mise en défaut qu’en cas d’erreurs d’étiquetage : parcourir la séquence<br />
à droite jusqu’à rencontrer un verbe conjugué.<br />
(6) Quand Jean est venu<br />
Formes Que<br />
<strong>Un</strong>e forme que peut être adverbe, pronom relatif, conjonction de subordination. Le<br />
traitement des formes que est réparti aux deux extrémités de la chaîne d’analyse. Lors de<br />
cette première étape de reconnaissance de liens <strong>syntaxique</strong>s locaux, un module de<br />
87
traitement 31 prend en charge toutes les formes que, quelle que soit la catégorie<br />
morpho<strong>syntaxique</strong> attribuée par l’étiqueteur. Ce module repère des constructions locales<br />
pour résoudre un certain nombre d’ambiguïtés catégorielles et poser sous certaines<br />
conditions des liens <strong>syntaxique</strong>s impliquant une forme que. En plus des étiquettes des<br />
mots entourant la forme que et des liens <strong>syntaxique</strong>s placés par des modules antérieurs<br />
(entre verbe et adverbe essentiellement), les informations mobilisées sont des listes<br />
lexicales : noms prenant un complément en que, adverbes susceptibles d’entrer dans une<br />
construction corrélative, adverbes de négation, verbes prenant un objet direct en que. Les<br />
exemples 7a-k résument les différentes configurations traitées. A l’issue de ce premier<br />
traitement, selon les corpus, de 85 à 95% des formes que étiquetées Adverbe sont liées.<br />
Cette fourchette est de l’ordre de 50 à 60% pour les formes étiquetées Conjonction, qui<br />
sont dans leur très grande majorité liées à des gouverneurs verbaux et dépendants<br />
verbaux. Les conjonctions que encore libres à l’issue de cette étape seront reconsidérées<br />
en fin d’analyse (section 3.2.13).<br />
(7a) Il ne mange que du pain. (7b) Il veut que Jean vienne.<br />
(7c) <strong>Un</strong> autre que Jean (7d) <strong>Un</strong> homme autre que Jean<br />
(7e) <strong>Un</strong> homme tel que Jean (7f) La loi telle qu’ elle a été votée<br />
(7g) davantage que Jean (7h) ainsi que Jean le veut<br />
(7i) plus rapide que Jean (7j) plus rapide qu’ il n’ paraît<br />
(7k) si triste que Jean pleure<br />
31 Ce module a été réalisé par Marie-Paule Jacques, que je remercie de nouveau.<br />
88
3.2.4. Coordination<br />
La représentation de la coordination fait l’objet de débats chez les théoriciens de la<br />
dépendance. Tesnière relie deux mots coordonnés par un « trait de jonction », constitué<br />
de deux tronçons au milieu desquels apparaît le « jonctif » (la conjonction de<br />
coordination) ; le jonctif ne porte aucun lien de dépendance (Tesnière, 1959,<br />
pp. 326-327). Mel’čuk considère que, d’un point de vue <strong>syntaxique</strong>, la coordination n’est<br />
pas symétrique et que l’élément coordonné gauche gouverne la conjonction, qui<br />
elle-même gouverne l’élément droit (Mel’čuk, 1988, pp. 26-33). Il intègre dans son<br />
formalisme la notion de « groupement » pour représenter les relations de dépendance qui<br />
impliquent les éléments d’une chaîne coordonnée dans leur ensemble. Pour Hudson<br />
(2000), la conjonction de coordination fait partie de la structure de coordination mais ne<br />
porte aucune relation de dépendance.<br />
tombent<br />
Alfred et Bernard (Tesnière, 1959)<br />
sa gaieté et son accent étonnant (Mel’čuk, 1988)<br />
[ sa gaieté et son accent ] étonnants (Mel’čuk, 1988)<br />
Jo (reads and writes) books (Hudson, 2000)<br />
Ces questions de représentation sont essentielles dans le contexte du développement<br />
d’un appareil théorique ou descriptif pour la syntaxe des langues. Les choix de<br />
représentation trouvent leur justification dans la cohérence globale du cadre théorique<br />
dans lequel ils sont inscrits par les différents auteurs. D’un point de vue<br />
épistémologique, le projet de développement d’un <strong>analyseur</strong> <strong>syntaxique</strong> n’est pas de<br />
même nature. Il s’agit de mettre au point des algorithmes de reconnaissance de chaînes<br />
de coordination dans des séquences attestées. Le problème est celui de la reconnaissance<br />
automatique et non pas celui de la représentation. Le choix d’une représentation est alors<br />
une affaire de convention, d’autant plus si ces représentations sont formellement<br />
mutuellement traduisibles les unes vers les autres. Si l’<strong>analyseur</strong> trouve les différents<br />
éléments d’une coordination, il peut « rendre » les résultats de sa recherche sous<br />
différentes formes, correspondant à différentes conventions de représentation. J’ai choisi<br />
comme convention de considérer le coordonnant comme le gouverneur de tous les<br />
89
éléments coordonnés, et comme la cible ou source des liens <strong>syntaxique</strong>s extérieurs<br />
(exemple 1). Je peux justifier ce choix en termes de commodités d’implémentation, mais<br />
non sur des bases théoriques.<br />
(1) X , Y et Z<br />
(1a) Alfred et Bernard tombent.<br />
(1b) sa gaieté et son accent étonnants<br />
(1c) Jo reads and writes books<br />
La reconnaissance automatique des liens de coordination est un problème difficile. La<br />
relation de coordination interfère avec toutes les relations <strong>syntaxique</strong>s : des éléments<br />
coordonnés sont susceptibles d’être source ou cible de tous les types de liens<br />
<strong>syntaxique</strong>s. L’enchevêtrement des liens fait que c’est avec la coordination que le<br />
problème de la circularité se pose avec le plus de gravité : à quel(s) moment(s)<br />
reconnaître les liens de coordination ? J’ai choisi au départ du projet de traiter la<br />
coordination dès le premier stade de l’analyse, juste après la reconnaissance des liens<br />
<strong>syntaxique</strong>s locaux. L’idée étant alors de mettre beaucoup d’efforts sur ce module pour<br />
rendre plus simple la reconnaissance, au niveau des couches supérieures de l’analyse,<br />
des autres types de liens <strong>syntaxique</strong>s. Dans les versions successives de l’architecture, je<br />
ne suis pas revenu sur ce choix. La coordination est traitée en premier. Mais il est clair<br />
que les progrès du traitement de la coordination passeront par l’instauration d’un mode<br />
réparti, certaines configurations pouvant être reconnues tôt dans le processus d’analyse,<br />
alors que d’autres le sont plus aisément avec plus de liens <strong>syntaxique</strong>s préalablement<br />
reconnus.<br />
Le traitement de la coordination inclut celui des virgules coordinatrices. De façon<br />
générale, le traitement de la virgule est lui aussi très difficile. La virgule n’a jamais<br />
passionné les linguistes, au contraire de la coordination, et les grammaires ou les théories<br />
<strong>syntaxique</strong>s sont peu loquaces à son sujet. Pourtant, quand il s’agit de réaliser un<br />
<strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>, la virgule est un problème transversal, comme la<br />
coordination, qui se pose pour toutes les relations <strong>syntaxique</strong>s : quelle que soit la relation<br />
<strong>syntaxique</strong> pour laquelle on cherche à mettre au point des algorithmes de<br />
reconnaissance, il faut tenir compte, dans la description du parcours entre un dépendant<br />
90
et son gouverneur potentiel, de l’irruption possible de virgules, dont il est le plus souvent<br />
difficile de savoir si elles marquent une coordination ou une incise, et, dans le second<br />
cas, si l’on est à l’intérieur ou à l’extérieur de l’incise. La coordination et la virgule sont<br />
des problèmes massifs, comme l’illustrent les données du tableau 6, qui indique que,<br />
selon les corpus, entre 22 et 36% des séquences contiennent au moins un coordonnant, et<br />
entre 44 et 76% des séquences contiennent au moins une virgule.<br />
% #séquences LMO HAN STX<br />
0 coordonnant 64 72 78<br />
1+ coordonnant 36 28 22<br />
0 virgule 34 56 51<br />
1 virgule 20 28 16<br />
2 virgules 18 11 15<br />
3+ virgules 28 5 18<br />
Tableau 6. % des séquences avec coordonnants et avec virgules<br />
Toute virgule dans le contexte droit de laquelle se trouve un élément coordonné est<br />
traitée comme un coordonnant. De façon à pouvoir traiter les virgules coordinatrices lors<br />
de la même passe sur la séquence que les coordonnants, on analyse la séquence de la<br />
droite vers la gauche. Par exemple dans la séquence « bleu, blanc et rouge », le<br />
coordonnant et est d’abord traité, les adjectifs blanc et rouge sont coordonnés, puis,<br />
comme la virgule est suivie d’un mot coordonné (l’adjectif blanc), elle est traitée comme<br />
un coordonnant, et les adjectifs bleu et blanc sont coordonnés.<br />
Le principe du traitement de la coordination est le suivant : quand un coordonnant est<br />
reconnu, le module recherche dans son contexte droit le mot initial, celui susceptible<br />
d’être le dernier mot de la chaîne coordonnée (par exemple l’adjectif rouge pour le<br />
coordonnant et dans la séquence « bleu, blanc et rouge »). Le traitement de la<br />
coordination est isocatégoriel, c’est-à-dire que les configurations de coordination<br />
potentiellement reconnues par l’<strong>analyseur</strong>, dans son état actuel, sont celles où les<br />
éléments coordonnés ont tous la même catégorie morpho<strong>syntaxique</strong>. L’<strong>analyseur</strong> échoue<br />
quand, par exemple, des noms propres et des syntagmes définis sont coordonnés, ou<br />
quand des adjectifs ou des adverbes sont coordonnés avec des syntagmes<br />
prépositionnels. Cette contrainte d’isocatégoricité pourra être relâchée quand le<br />
traitement de la coordination interviendra plus tard dans le processus d’analyse. Même<br />
avec cette hypothèse simplificatrice, valide dans une très grande majorité de cas, la tâche<br />
de reconnaissance est rude.<br />
<strong>Un</strong>e fois le mot initial reconnu, le module de coordination lance une recherche dans le<br />
contexte gauche du coordonnant d’un mot de la même catégorie que le mot initial. Les<br />
catégories concernées sont (par ordre approximatif de difficulté croissante) : adjectif,<br />
participe passé, verbe, conjonction de subordination que, pronom relatif, préposition<br />
autre que de, préposition de, nom. Toute la difficulté est dans l’élaboration des<br />
algorithmes de parcours de la séquence à gauche du coordonnant. Puisque, d’une part,<br />
peu de liens ont été placés à ce stade de l’analyse, sur lesquels l’algorithme pourrait<br />
91
s’appuyer, et que, d’autre part, les liens de coordination peuvent s’établir à longue<br />
distance, il faut apporter beaucoup de soin dans la mise au point des algorithmes.<br />
Comme il est impossible d'anticiper toutes les configurations possibles, il faut procéder<br />
par essais/erreurs via de multiples tests sur corpus. L’outil lui-même sert de dispositif de<br />
découverte.<br />
Adjectif et participes passés<br />
La coordination des adjectifs et participes passés ne pose pas de difficultés majeures.<br />
Dans l’exemple 2 32 , le module Coordination détecte d’abord le coordonnant et, et le mot<br />
initial belle, puis il reconnaît l’adjectif coordonné épaisse. Ensuite, il détecte la virgule,<br />
suivie de l’adjectif coordonné épaisse, et reconnaît le troisième adjectif coordonné<br />
fripée. Dans l’exemple 3, le module Coordination détecte le coordonnant et, et le mot<br />
initial spécialisé, puis il remonte sans embûche jusqu’au participe passé créé. Dans les<br />
exemple 4 et 4’, après avoir reconnu la coordination entre les participes passé quitté et<br />
créé, le module Coordination déplace la cible de la relation partant de l’auxiliaire ont du<br />
participe quitté au coordonnant et.<br />
Verbe<br />
(2) Et les vieilles mains tremblaient, et Rivière détournait les yeux de cette peau<br />
fripée, épaisse et belle. [STX]<br />
(3) Il est « chasseur de têtes » à la Banque centrale de recrutement, un cabinet<br />
créé en septembre 1997 et spécialisé dans les métiers de l'informatique.<br />
[LMO]<br />
(4) des dizaines de militants ont quitté les organisations traditionnelles et créé<br />
leurs propres structures. [LMO]<br />
(4’) des dizaines de militants ont quitté les organisations traditionnelles et créé<br />
leurs propres structures. [LMO]<br />
La coordination des verbes ne pose pas non plus de difficultés majeures. On coordonne<br />
des verbes à des formes finies (exemples 5 et 6), ou des verbes à l’infinitif (exemple 7).<br />
(5) Ce massacre provoqua l'indignation internationale et modifia l'attitude de la<br />
communauté internationale face à la RFY. [LMO]<br />
(6) Ils sont ensuite allés vérifier sur le terrain et ont complété un travail similaire<br />
effectué cet hiver par la mission de vérification de l' OSCE ( KVM ). [LMO]<br />
32 Pour ne pas surcharger le manuscrit de flêches de dépendance, j’adopte une seconde convention pour<br />
marquer les relations de dépendance dans les séquences : le gouverneur est en gras et souligné, le ou les<br />
dépendant(s) sont en gras.<br />
92
(7) Ils pourront communiquer avec le journaliste pour lui demander des<br />
précisions ou lui suggérer une question lors d'une interview. [LMO]<br />
Pronom relatif<br />
Le module Coordination coordonne des pronoms relatifs, qui peuvent être le cas échéant<br />
gouvernés par une préposition (exemples 8 à 10).<br />
(8) Comme Touré, qui a quitté la Guinée en 1992 « pour des raisons politiques »<br />
et qui dit ne pas pouvoir rentrer dans son pays sans risque pour sa vie. [LMO]<br />
(9) Le président Siaka Stevens était célèbre pour la canne creuse sur laquelle il<br />
s'appuyait et surtout dans laquelle il plaçait les diamants devant parvenir en<br />
Europe sans attirer la curiosité des douaniers. [LMO]<br />
(10) Ils tardent à distribuer les nouvelles molécules attendues par les patients sur<br />
lesquels tous les traitements ont échoué et qui vont mourir ». [LMO]<br />
Conjonction de subordination que<br />
<strong>Un</strong>e conjonction de subordination que peut être coordonnée avec une autre conjonction<br />
que (exemple 11) ou avec toute autre conjonction (exemple 12).<br />
(11) Ils apprenaient là, mystérieusement, que, peut-être, on suspendrait les vols de<br />
nuit, et que le courrier d'Europe lui-même ne décollerait plus qu' au jour.<br />
[STX]<br />
(12) Rivière connut cette irritation, que l'on éprouve quand le rapide stoppe sur la<br />
voie, et que les minutes ne délivrent plus leur lot de plaines. [STX]<br />
Préposition autre que de<br />
Pour les prépositions, la contrainte d’isocatégoricité est propagée au dépendant des<br />
prépositions : si la préposition initiale gouverne un nom ou un pronom (resp. un verbe à<br />
l’infinitif), le module de coordination cherche dans le contexte gauche une préposition<br />
gouvernant un nom ou un pronom (resp. un verbe à l’infinitif) (exemples 13 et 14). Le<br />
module de recherche à gauche prend la première préposition qui satisfait cette<br />
contrainte. Les prépositions ne sont pas nécessairement identiques.<br />
(13) Confrontés aux lenteurs de la justice ou à l'attitude jugée partiale d'un<br />
magistrat. [LMO]<br />
(14) C'était là le moyen le plus intelligent d'obliger les nationalistes partisans de la<br />
clandestinité à faire leurs preuves et à dépasser les discours incantatoires et<br />
négatifs. [LMO]<br />
Préposition de<br />
La coordination des prépositions de et celle des noms posent de très sérieux problèmes.<br />
Quand la préposition de gouverne un verbe à l’infinitif, le traitement est simple,<br />
analogue à celui des autres prépositions (exemple 15). Les choses se compliquent quand<br />
93
la préposition de gouverne un nom. La préposition de coordonnée à gauche n’est pas<br />
systématiquement la première préposition de rencontrée. Lors du parcours de recherche,<br />
le module de coordination peut retenir plusieurs prépositions de candidates. Il y a donc<br />
ambiguïté, comme dans les exemples 16 à 18 33 .<br />
(15) Ici on a choisi de ne pas dénoncer les crimes de guerre et de soigner les gens.<br />
[LMO]<br />
(16) Que ce soit au titre du Programme de développement de l'emploi ou du<br />
nouveau Programme de développement des collectivités. [HAN]<br />
(17) Elle demande au gouvernement d'aider les travailleurs de l'industrie du bois<br />
d'oeuvre et du bardeau en vertu de la Loi de soutien de l' emploi. [HAN]<br />
(18) Le président du syndicat des employés de l'Emploi et de l'Immigration a<br />
déclaré : [HAN]<br />
Les configurations d’ambiguïtés sont très variables, et les indices permettant de choisir<br />
sont peu nombreux. Décider de ne pas choisir en invoquant le recours nécessaire à « la<br />
sémantique » ou à des « connaissances du monde » n’est pas dans la philosophie du<br />
projet <strong>SYNTEX</strong>. J’ai cherché à mettre au point une méthode de désambiguïsation, qui<br />
fasse le mieux possible avec les informations disponibles, mieux en tout cas qu’une<br />
solution par défaut qui choisirait systématiquement la première préposition de rencontrée<br />
à gauche. La méthode de désambiguïsation s’appuie sur un principe d’harmonie<br />
morphologique. L’idée est de coordonner des prépositions de dont les noms dépendants<br />
sont « semblables », en terme de nombre et de présence ou non d’un déterminant.<br />
Chaque préposition de est caractérisée par deux paramètres, calculés à partir du nom<br />
qu’elle gouverne : la présence ou non d’un déterminant gouverné par le nom (1 ou 0), le<br />
nombre du nom (S pour singulier, P pour pluriel, ? pour genre indéterminé). La<br />
concaténation de ces deux valeurs constitue le profil de la préposition. Il y a 6 profils<br />
possibles : [0S], [0P], [0?], [1S], [1P], [1?]. La procédure de désambiguïsation choisit la<br />
préposition candidate qui a un profil identique ou proche de la préposition initiale.<br />
Je n’entre pas dans les détails de la procédure, qui est assez complexe car la<br />
combinatoire augmente vite avec le nombre de candidats. Je l’illustre sur quelques<br />
exemples simples, dans lesquels seulement deux prépositions candidates sont en<br />
concurrence. Dans les exemples 19 à 22, les profils des prépositions sont donnés entre<br />
crochets à droite du nom dépendant. Dans les exemples 19 à 21, c’est la première<br />
préposition qui est choisie car elle a le même profil que la préposition droite : dans<br />
l’exemple 19, les noms orientation et surveillance n’ont pas de déterminant et sont au<br />
singulier ([0S]); dans l’exemple 20, les noms hommes et projets n’ont pas de déterminant<br />
et sont au pluriel ([0P]) ; dans l’exemple 21, les noms qualité et production ont un<br />
déterminant et sont au singulier ([1S]). Dans l’exemple 22, c’est la seconde préposition<br />
qui est choisie : les noms anomalies et malformations n’ont pas de déterminant et sont au<br />
pluriel ([0P]).<br />
33 Les prépositions candidates sont en italiques.<br />
94
Noms<br />
(19) La réunion du conseil [1S] d' orientation [0S] et de surveillance [0S]<br />
(20) Ses capacités de meneur [0S] d' hommes [0P] et de projets [0P]<br />
(21) Les systèmes de contrôle [0S] de la qualité [1S] et de la production [1S]<br />
(22) Responsable d' anomalies [0P] de la face [1S] et de malformations [0P]<br />
Le traitement des noms coordonnés est analogue à celui de la préposition de. Plusieurs<br />
candidats nominaux sont sélectionnés dans un premier temps. La désambiguïsation<br />
s’effectue avec les mêmes indices que précédemment. Quelques exemples sont donnés<br />
en 23-27. Dans les cas où les profils de deux candidats sont identiques à celui du nom<br />
initial, le choix par défaut se porte sur le plus proche du coordonnant, ce qui conduit à<br />
des décisions malheureuses parfois, comme dans les exemples 26 et 27.<br />
(23) Dans la vente [1S] de produits [0P] et services [0P]. [LMO]<br />
(24) Président [0S] de l' Association [1S] des maires [1P] de France [0 ?] et<br />
sénateur [0S] du Pas-de-Calais. [LMO]<br />
(25) Cabinets [0P] de conseil [0S] et sociétés [0P] de services informatiques.<br />
[LMO]<br />
(26) Présidents [0P] de tribunaux [0P] et procureurs [0P]. [LMO]<br />
(27) Changement [0S] fréquent de partenaire [0S] et prostitution [0S] sont, dans<br />
ce groupe, de gros facteurs de risque. [LMO]<br />
Certains liens de coordination entre noms posés par le module de coordination pourront<br />
être remis en cause plus tard, lors de la recherche d’autres liens <strong>syntaxique</strong>s. <strong>Un</strong>e<br />
configuration typique est celle où deux noms ont été coordonnés, puis reconnus comme<br />
objets directs d’un verbe, alors que le second nom est sujet dans une seconde clause<br />
(exemple 28). Je reviendrai sur ces cas de figures dans la section 3.2.6, consacrée à la<br />
relation Sujet.<br />
(28) C'est cet acharnement qui engendre la révolte des contribuables et ce genre<br />
de disparités soulève les sentiments populaires [HAN]<br />
Formes de+le<br />
La complexité culmine avec les formes ambiguës de+le. Quand une telle forme est<br />
située à droite d’un coordonnant, elle n’est pas désambiguïsée à l’issue de la phase<br />
d’étiquetage. Le principe du traitement de ces formes est le suivant : le module de<br />
coordination traite d’abord la forme de+le comme une préposition et cherche à<br />
gauche une éventuelle préposition de coordonnée ; s’il réussit, il réétiquette la forme<br />
de+le en Préposition et pose le lien de coordination entre les deux prépositions ; sinon, il<br />
la traite ensuite comme un déterminant et cherche un éventuel nom coordonné ; s’il<br />
réussit, il réétiquette la forme de+le en Déterminant et pose le lien de coordination entre<br />
les deux noms ; s’il échoue dans ces deux tentatives, il laisse l’ambiguïté catégorielle et<br />
ne pose pas de lien de coordination.<br />
95
Dans l’exemple 29, la première forme de a été étiquetée en Préposition (P) car elle suit<br />
immédiatement le nom sens et la forme des est ambiguë, préposition ou déterminant<br />
(PD). La forme des est désambiguïsée en préposition car le module de coordination a pu<br />
la coordonner avec la préposition de (exemple 29’).Dans les exemple 30 et 30’, la forme<br />
du est désambiguïsée en Déterminant car la coordination qu’a reconnue le module<br />
Coordination est celle qui implique les noms financement et dette. Dans les exemples 31<br />
et 31’, la première forme des a été désambiguïsée, au moment du traitement des relations<br />
locales, en Déterminant car elle est située juste après un verbe transitif. La seconde<br />
forme des est désambiguïsée en Déterminant car la coordination qu’a reconnue le<br />
module Coordination est celle qui implique les noms opinions et critères.<br />
(29) Il faut faire appel au sens deP la logique et desPD responsabilités. [HAN]<br />
(29’) Il faut faire appel au sens deP la logique et desP responsabilités. [HAN]<br />
(30) D'ailleurs, ce n'est pas une dette à long terme mais duPD financement à court<br />
terme pour effectuer la transaction. [HAN]<br />
(30’) D'ailleurs, ce n'est pas une dette à long terme mais duD financement à court<br />
terme pour effectuer la transaction. [HAN]<br />
(31) Il présente desD critères subjectifs et non desPD opinions subjectives. [HAN]<br />
(31’) Il présente desD critères subjectifs et non desD opinions subjectives. [HAN]<br />
La situation peut être plus complexe, par exemple dans les cas où la recherche du<br />
coordonné à gauche aboutit à une nouvelle forme de+le non désambiguïsée, précédée<br />
d’une virgule. Il faut alors retarder la désambiguïsation, et poursuivre par le traitement<br />
de la virgule, considérée alors comme coordinatrice, jusqu’à ce que la désambiguïsation<br />
soit possible. On a alors une désambiguïsation en chaîne. Dans l’exemple 32, ce n’est<br />
qu’au moment du traitement de la dernière virgule (la première dans l’ordre séquentiel<br />
de la séquence), grâce à la non ambiguïté de la forme des après le verbe a, que le module<br />
coordination a pu boucler l’affaire, en désambiguïsant les formes des en Déterminant et<br />
en coordonnant les noms (exemples 32’ à 32’’’). Dans l’exemple 33, c’est la détection de<br />
la préposition du après le nom cadre qui déclenche la résolution en chaîne du problème<br />
(exemple 33’).<br />
(32) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt<br />
et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />
(32’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt<br />
et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />
(32’’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt<br />
et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />
(32’’’) Il y a desD dégrèvements, desD échappatoires fiscales, desD reports d'impôt<br />
et desD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />
96
(33) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duPD<br />
développement de programmes, dePD la réforme de la fiscalité ou dePD la<br />
réduction du déficit. [HAN]<br />
(33’) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duP<br />
développement de programmes, deP la réforme de la fiscalité ou deP la<br />
réduction du déficit. [HAN]<br />
3.2.5. Objet et attribut<br />
Après la relation de coordination, je présente les relations dites « non ambiguës ». La<br />
présente section est consacrée aux relations Objet et Attribut. La relation Sujet est traitée<br />
dans la section suivante, car les problèmes qu’elle pose sont très différents de ceux que<br />
je vais aborder dans cette section. Pour les relations Objet et Attribut, les conventions de<br />
représentation en dépendance sont les suivantes : la relation Attribut a pour source le<br />
verbe et pour cible l’attribut (adjectif, nom, pronom personnel, pronom relatif ou verbe à<br />
l’infinitif) ; quand le verbe est à une forme composée, c’est le participe qui est la source<br />
du lien, sauf quand l’attribut est un clitique (exemples 1) ; la relation Objet a pour source<br />
le verbe et pour cible le complément d’objet (nom, pronom personnel, pronom relatif,<br />
verbe à l’infinitif, conjonction que) ; quand le verbe est à une forme composée, c’est le<br />
participe qui est la source du lien, sauf quand l’objet est un clitique (exemples 2). Ces<br />
conventions valent pour les configurations à attribut de l’objet (exemples 3). Pour les<br />
configurations à double objet, on distingue la relation OBJ1 entre le verbe et l’objet<br />
nominal et OBJ entre le verbe et l’infinitif (exemples 4). Dans les cas de coordination<br />
d’attributs ou d’objets, c’est le coordonnant qui est la cible de la relation de dépendance.<br />
(1) Il est heureux Il l’est Il a été heureux Il l’a été l’homme qu’il a été<br />
(2) Il mange une pomme Il souhaite manger Il l’a mangé la pomme qu’il a mangée<br />
OBJ ATT OBJ ATT<br />
OBJ ATT<br />
(3) Il la croit malade Il l’ a nommé ministre l’homme qu’il a nommé ministre<br />
OBJ1<br />
OBJ OBJ1 OBJ OBJ1 OBJ<br />
(4) Je vois Jean partir. Je l’ ai vu partir. L’homme que j’ai vu partir<br />
97
La reconnaissance de la relation Attribut ne pose pas de problèmes difficiles.<br />
L’<strong>analyseur</strong> exploite une liste de verbes susceptibles de se construire avec un attribut du<br />
sujet (être, devenir, paraître…), une liste de verbes susceptibles de se construire avec un<br />
attribut de l’objet (considérer, croire, déclarer, juger…). Les configurations à attribut de<br />
l’objet sont très souvent ambiguës (je juge les enfants malades). Dans son état actuel,<br />
l’<strong>analyseur</strong> ne cherche à reconnaître des attributs de l’objet que dans les contextes non<br />
ambigus suivants : (i) le verbe attributif est au passif (exemple 5) ; (ii) le complément<br />
d’objet du verbe est le pronom relatif que (exemple 6) ; (iii) le complément d’objet du<br />
verbe est un pronom clitique (exemple 7) ; (iv) le complément d’objet du verbe est placé<br />
après l’attribut (exemple 8).<br />
(5) La pétition a été certifiée correcte par le greffier des pétitions. (ATTO) [HAN]<br />
(6) Ils exercent un droit qu'ils estiment tout à fait légitime. (ATTO) [HAN]<br />
(7) L'un des objectifs de la réforme des pensions de la fonction publique est de<br />
les rendre conformes aux exigences de la LNPP. (ATTO) [HAN]<br />
(8) Il n'appartient pas aux tribunaux d'ajouter les détails qui rendent<br />
constitutionnelles les lacunes législatives. (ATTO)[HAN]<br />
La mission assignée au module Objet se formule simplement ainsi : sélectionner le<br />
premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à droite du verbe. Mais<br />
le traitement de la relation Objet est plus difficile que celui de la relation Attribut. Les<br />
objets appartiennent à diverses catégories morpho<strong>syntaxique</strong>s : pronom clitique, pronom<br />
relatif que, nom, verbe à l’infinitif 34 . Certains verbes se construisent avec deux objets, un<br />
objet nominal et un objet verbal (emmener, envoyer, faire, laisser…, apercevoir,<br />
contempler, écouter, entendre, entrevoir, observer…). La difficulté du traitement est<br />
principalement due au fait que, comme l’étiquetage des formes que en Pronom relatif<br />
n’est pas fiable, j’assigne au module la mission supplémentaire de corriger autant que<br />
possible ces erreurs d’étiquetage.<br />
Le lien Objet entre un pronom relatif que et le verbe de la subordonnée relative n’est pas<br />
placé par le module Objet, mais par le module Sujet, qui sera décrit dans la section<br />
suivante. Cela peut paraître paradoxal puisque le principe de l’approche modulaire veut<br />
qu’une relation <strong>syntaxique</strong> soit traitée par un seul module et que chaque module ne traite<br />
qu’une seule relation <strong>syntaxique</strong>. Ce principe, qui s’impose pour des raisons de facilité<br />
de maintenance, peut être écorné quand une contrainte d’efficacité s’impose. En<br />
l’occurrence, au moment où le module Sujet a trouvé le sujet d’un verbe, il lui est facile<br />
de remonter de quelques pas sur la gauche pour relever la présence éventuelle d’un<br />
pronom relatif, et placer à ce moment-là, en plus d’un lien entre le verbe et le sujet, un<br />
lien entre le verbe et le pronom relatif. Ce lien est un lien Objet si le relatif est que.<br />
34 Les liens Objet entre un verbe et une forme que étiquetée Conjonction de subordination ne sont pas traités<br />
ici. <strong>Un</strong>e partie des liens de ce type est placée au moment du traitement des relations locales (cf. 3.2.3). <strong>Un</strong>e<br />
autre partie en fin d’analyse (cf. 3.2.13).<br />
98
La recherche d’un complément d’objet est systématique. Elle est déclenchée pour tout<br />
verbe, conjugué ou infinitif, quelles que soient ses propriétés lexicales, i.e. qu’il soit<br />
transitif ou non, pour des raisons qui apparaîtront évidentes plus loin dans cette section.<br />
Le module dispose de l’information de la présence d’un pronom relatif objet, car la<br />
recherche des sujets précède celles des objets. Dans un premier temps, le module teste la<br />
présence d’un pronom clitique, et celle d’un verbe infinitif en construction directe dans<br />
le contexte droit du verbe. Il est donc potentiellement face à 6 cas de figure, selon qu’il y<br />
a un pronom relatif objet ou non, un clitique ou non et un verbe infinitif ou non (en<br />
éliminant le cas où aucun objet de ce type n’a été reconnu, et le cas où les 3 ont été<br />
reconnus, si rarissime qu’il n’est pas traité) :<br />
1) Pas de pronom relatif, un clitique, pas de verbe à l’infinitif. Le module place un lien<br />
Objet entre le verbe et le clitique.<br />
2) Pas de pronom relatif, pas de clitique, un verbe à l’infinitif. Le module place un lien<br />
Objet entre le verbe et le verbe à l’infinitif.<br />
3) Pas de pronom relatif, un clitique, un verbe à l’infinitif. Le module vérifie que le<br />
verbe initial appartient à la liste des verbes à double objet, et place les deux liens<br />
Objet (exemple 9).<br />
OBJ1 OBJ<br />
(9 ) Les mécaniciens sournois l' avaient laissé flétrir pendant vingt minutes. [STX]<br />
4) <strong>Un</strong> pronom relatif, un clitique, pas de verbe à l’infinitif. Le pronom relatif que est<br />
réétiqueté Conjonction de subordination, le lien entre que et le verbe est inversé, et<br />
un lien Objet est placé entre le verbe et le clitique (exemples 10 et 10’).<br />
(10) C' est avec fierté, sérieux et intégrité que Rel je les représenterai. [HAN]<br />
99<br />
OBJ<br />
OBJ<br />
(10’) C' est avec fierté, sérieux et intégrité queSub je les représenterai. [HAN]<br />
5) <strong>Un</strong> pronom relatif, pas de clitique, un verbe à l’infinitif. Si le verbe initial appartient<br />
à la liste des verbes à double objet, le module requalifie en OBJ1 le lien entre le<br />
verbe et le pronom relatif et place un lien Objet entre le verbe et le verbe à l’infinitif<br />
(exemple 11). Sinon, il laisse le lien Objet entre le pronom relatif et le verbe, et<br />
ajoute un second lien Objet à partir du verbe vers le verbe à l’infinitif. Ce lien sera<br />
déplacé éventuellement en fin d’analyse, au moment où l’<strong>analyseur</strong> traite le cas des<br />
subordonnées relatives dont le verbe principal gouverne, directement ou via une<br />
préposition, un verbe à l’infinitif (section 3.2.13). Dans le cas de l’exemple 12,
l’origine du lien qui pointe vers le pronom relatif que sera déplacé sur le verbe<br />
déposer.<br />
OBJ1 OBJ<br />
(11) C’est l'histoire des compagnons qu' il a vu sortir vivants du « couloir ». [LMO]<br />
OBJ OBJ<br />
(12) J'ai ici des pétitions que je compte déposer ce matin. [LMO]<br />
Le 6 ème cas de figure est celui où il y a un pronom relatif, et ni clitique, ni verbe à<br />
l’infinitif. Le module teste la présence d’un nom (ou d’un pronom) en construction<br />
directe à droite du verbe. S’il y a un pronom relatif et un nom, le module réétiquette le<br />
pronom relatif que en Conjonction de subordination, et modifie en conséquence la<br />
relation entre la forme que et le verbe de la relative (exemples 13 et 13’), et il ne reste<br />
qu’un nom.<br />
OBJ<br />
(13) C'est grâce à elle qu’ Rel il a séquencé, entre autres, le virus de la grippe.[LMO]<br />
OBJ<br />
(13’) C'est grâce à elle qu’ Sub il a séquencé, entre autres, le virus de la grippe.[LMO]<br />
S’il y a un nom, et pas de pronom relatif, ce n’est qu’à ce stade du traitement que le<br />
module se préoccupe de la propriété de transitivité du verbe. Le module exploite une<br />
liste de verbes censés ne pas se construire avec un complément d’objet nominal. Cette<br />
liste a été construite automatiquement à partir d’un vaste corpus annoté par <strong>SYNTEX</strong>,<br />
selon une technique qui sera décrite dans la section 3.2.8 consacrée aux ressources<br />
lexicales. Si le verbe est transitif, le module pose un lien Objet entre le verbe et le nom.<br />
Si le verbe est intransitif, et qu’il est à l’infinitif, le module teste s’il n’est pas objet d’un<br />
verbe à double objet, auquel cas le module place une relation OBJ1 entre ce dernier verbe<br />
et le nom (exemple 14).<br />
OBJ<br />
OBJ1<br />
(14) Moscou laisse toujours planer le doute sur ses intentions de vote. [LMO]<br />
S’il y a un pronom relatif que objet, et pas de nom, et si le verbe est transitif, le module<br />
laisse le lien Objet entre le verbe et le nom. Si le verbe est intransitif, la procédure<br />
décrite précédemment à propos des noms objets de verbes intransitifs ne s’applique pas<br />
immédiatement. Le lien entre ce verbe et le pronom relatif est provisoirement maintenu.<br />
100
Le traitement de ces configurations est pris en charge par un module spécifique, qui est<br />
décrit dans la section 3.2.13. C’est ce dernier module qui reconnaîtra dans l’exemple 15<br />
que le gouverneur du pronom relatif est entretenir et non pas suffit, et qui, dans<br />
l’exemple 16, testera de la même façon le verbe rendre comme gouverneur du pronom<br />
relatif (sans succès puisque ce verbe aura alors déjà un objet). De tels traitements ne sont<br />
envisageables que quand d’avantage de liens ont été posés dans la séquence, et donc il<br />
serait prématuré d’interdire un lien entre un pronom relatif que et un verbe intransitif à<br />
ce stade de l’analyse.<br />
OBJ<br />
(15) <strong>Un</strong> jardin tout planté, qu' il suffit ensuite d'entretenir, n'est pas intéressant. [LMO]<br />
OBJ<br />
(16) C'est pour combler le déficit qu' on songe à rendre obligatoire l'alcool carburant. [LMO]<br />
Quelle que soit la configuration, quand le module s’apprête à placer un lien entre un<br />
verbe à double objet et un nom à sa droite, il teste la présence d’un verbe à l’infinitif<br />
sans gouverneur dans le contexte droit de ce nom. En cas de succès, il pose un lien OBJ1<br />
entre le verbe et le nom, et un lien OBJ entre le verbe et le verbe à l’infinitif<br />
(exemple 17).<br />
OBJ1<br />
OBJ<br />
(17) Il voit une marée humaine onduler dans la fumée des cigares. [LMO]<br />
Pour finir, quand le module a posé un lien Objet entre un verbe et un nom, il garde cette<br />
information en mémoire, sous la forme d’un triplet (verbe, OBJ, nom), pour une<br />
exploitation ultérieure dans le processus de désambiguïsation des rattachements des<br />
pronoms relatifs (section 3.2.7) et des prépositions de (section 3.2.9).<br />
3.2.6. Sujet<br />
Pour la relation Sujet, les conventions de représentation sont les suivantes : la relation<br />
Sujet a pour source le verbe et pour cible le sujet (nom, pronom personnel, pronom<br />
relatif ou verbe à l’infinitif) ; quand le verbe est à une forme composée, c’est l’auxiliaire<br />
qui est la source du lien (exemples 1). Dans les cas de coordination de sujets, c’est le<br />
coordonnant qui est la cible de la relation de dépendance. Dans les cas de coordination<br />
de verbes, c’est le coordonnant qui est la source de la relation de dépendance.<br />
101
(1) Jean mange. Il a mangé. Fumer est interdit.<br />
OBJ SUJ OBJ SUJ<br />
(1’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean<br />
Il faut noter que ces conventions, jointes à celles portant sur la relation Objet, conduisent<br />
à des croisements de liens dans les relatives à sujet inversé (exemples 1’). Les arbres de<br />
dépendance construits par <strong>SYNTEX</strong> ne sont donc pas tous projectifs. C’est inévitable à<br />
partir du moment où je n’utilise pas de moyen de regrouper en une seule unité plusieurs<br />
mots qui se comportent comme un seul mot du point de vue de certains phénomènes<br />
<strong>syntaxique</strong>s. Les stemmas de Tesnière (1959) comportent des « nucléus », et on a vu que<br />
Mel’čuk (1988) utilisait des « regroupements » pour représenter certains cas de<br />
coordination (section 3.2.4). Sylvain Kahane (2000) propose, dans sa grammaire de<br />
dépendance lexicalisée à bulles, de représenter formellement ces objets grâce à la notion<br />
de « bulle » (exemples 1’’).<br />
OBJ SUJ OBJ SUJ<br />
(1’’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean<br />
Dans <strong>SYNTEX</strong>, Les fonctions de parcours génériques empêchent toute prise de décision<br />
qui conduirait à un croisement de lien. Ce n’est que dans des cas particuliers, tels que<br />
celui-ci, que des règles spécifiques peuvent poser des liens se croisant.<br />
La mission assignée au module Sujet se formule simplement ainsi : sélectionner le<br />
premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à gauche du verbe dans<br />
un premier temps, puis à droite du verbe en cas d’échec. Ce principe n’est valide que si<br />
l’architecture de l’<strong>analyseur</strong> est telle qu’elle assure que les autres contextes où un nom<br />
peut être gouverné ont été traités :<br />
- au moment du traitement des relations locales en début d’analyse (section 3.2.3), les<br />
noms gouvernés par une préposition ont été liés.<br />
- pour la reconnaissance des liens Sujet et Objet, la séquence est analysée de gauche à<br />
droite ; dès qu’un verbe conjugué est rencontré, le module Sujet est lancé, puis le<br />
module Objet, dès qu’un verbe à l’infinitif est rencontré, le module Objet est lancé.<br />
Ainsi les compléments d’objets ou les sujets inversés dans les subordonnées<br />
relatives intercalées entre un verbe et son sujet ont été attachés avant la recherche du<br />
sujet du verbe, comme cela sera illustré dans les exemples 2-4.<br />
La relation Sujet pose des problèmes d’un tout autre ordre que la relation Objet. Dans le<br />
cas de cette dernière, la difficulté ne tenait pas tant à la découverte des compléments<br />
d’objet qu’à la gestion des configurations dans lesquelles plusieurs types d’objets<br />
pouvaient avoir été trouvés. Avec la relation Sujet, l’élaboration des algorithmes de<br />
reconnaissance est rendue complexe du fait de la variété des configurations que l’on peut<br />
rencontrer entre un verbe et son sujet, en particulier à cause de l’interposition possible de<br />
102
subordonnées relatives et de séquences incises entre virgules. La mise au point du<br />
module Sujet exige patience et minutie, et s’appuie, plus encore que celle des autres<br />
modules, sur des allers et retours incessants entre l’implémentation et les tests sur<br />
corpus. Le module de recherche des sujets utilise de façon intensive la fonction frGmax<br />
pour parcourir le plus rapidement et le plus sûrement possible la séquence.<br />
Je ne détaille pas ici l’algorithme de reconnaissance des sujets. Je commente un certain<br />
nombre d’exemples pour en faire comprendre les caractéristiques essentielles. Dans les<br />
exemples qui suivent, les pas du parcours sont indiqués par des indices numériques sur<br />
les mots 35 . Dans l’exemple 2, le module cherche un sujet pour le verbe vont. Il entame<br />
son parcours à gauche du verbe. Le premier pas de son parcours est le nom vacances.<br />
Celui-ci est gouverné par la préposition pour, il ne peut être choisi comme sujet. Le<br />
parcours se poursuit à la préposition pour (pas n°2), puis au nom embarcation situé à<br />
gauche de la préposition (pas n°3). Ce nom est gouverné par le verbe recherchent, et ne<br />
peut lui non plus être choisi comme sujet. Le parcours se poursuit au verbe recherchent<br />
(pas n°4), puis à la frontière maximale droite de ce mot, qui est le pronom relatif qui. Ce<br />
pronom ayant déjà un gouverneur, le module se déplace immédiatement à sa gauche, où<br />
il trouve le pronom sans gouverneur ceux, qu’il retient comme sujet du verbe vont.<br />
(2) Ceux 6 qui 5 recherchent 4 une embarcation 3 pour 2 leurs prochaines vacances 1<br />
vont pouvoir déambuler au milieu des stands de la porte de Versailles à la<br />
recherche du bateau de leur rêve. [LMO]<br />
L’exemple 3a illustre le cas, fréquent, d’un sujet inversé dans une relative. Le module<br />
Sujet reconnaît le nom Bercy comme sujet du verbe de la relative (trouve). Au moment<br />
de sa recherche du sujet du verbe découle, il ne sélectionne donc pas ce nom, et<br />
reconnaît comme sujet, au-delà de la relative intercalée, le nom situation (exemple 3b).<br />
Dans l’exemple 4, les transitions au pas n° 3 (d’une préposition à un adjectif<br />
immédiatement à gauche) et au pas n°4 (d’un adjectif à un nom immédiatement à<br />
gauche) illustrent le fait que l’algorithme de parcours est conçu de façon à « remonter »<br />
les groupes nominaux potentiels, alors que les liens de dépendance au sein de ces<br />
groupes n’ont pas encore été posés (comme le lien entre la préposition de et son<br />
gouverneur). De façon générale, le postulat qu’il existe certainement un sujet autorise<br />
des prises de risques, raisonnables, dans le parcours, et justifie que l’on peut chercher à<br />
reconnaître les liens Sujet, pourtant susceptibles d’être à longue distance, assez tôt dans<br />
le processus de reconnaissance <strong>syntaxique</strong> de l’énoncé.<br />
(3a) L'étrange situation dans2 laquelle1 se trouve Bercy3 découle largement de la<br />
décision prise par le chef du gouvernement. [LMO]<br />
(3b) L'étrange situation5 dans4 laquelle3 se trouve2 Bercy1 découle largement de<br />
la décision prise par le chef du gouvernement. [LMO]<br />
35 Ces indices ne représentent plus les numéros des mots dans la séquence, comme dans la section 3.2.2.<br />
103
(4) Laisser9 s'installer l'idée8 que7 l'IVG peut6 constituer5 un palliatif4<br />
acceptable3 de2 la contraception1 équivaut à une démission, à un retour en<br />
arrière. [LMO]<br />
Des incises sont fréquemment intercalées entre un verbe et son sujet. Dans l’exemple 5,<br />
le module se déplace de la virgule située à gauche du premier verbe coordonné prend<br />
(pas n°1) à la première virgule qu’il rencontre à gauche (pas n°2), puis il continue son<br />
parcours jusqu’au nom membre (pas n°3 à 5). La situation peut être, en apparence, plus<br />
compliquée quand incises et relatives sont intercalées. Dans l’exemple 6a, le module<br />
reconnaît d’abord le lien sujet entre le coordonnant et et le pronom relatif qui, en sautant<br />
l’incise peu après Trafalgar. Cela lui permet ensuite d’identifier le nom navire comme<br />
sujet du verbe était (exemple 6b), grâce au saut entre le coordonnant et et sa frontière<br />
gauche maximale qui (pas n°8). L’algorithme de recherche des sujets est conçu sur la<br />
base de l’hypothèse que les virgules dans les séquences sont correctement équilibrées.<br />
C’est une contrainte forte qui vaut pour tous les modules de <strong>SYNTEX</strong>. Quand, dans une<br />
séquence, cette norme n’est pas respectée, l’analyse échoue le plus souvent. C’est le cas<br />
dans les exemples 7a et 7b, où l’absence de virgule fermante après l’adjectif rural<br />
empêche la reconnaissance du sujet du verbe doivent, pour lequel le module Sujet<br />
échoue sur la préposition comme (exemple 7a), et du sujet du verbe précise, pour lequel<br />
le module Sujet échoue sur le nom aspects (exemple 7b), qui ne s’accorde pas avec le<br />
verbe.<br />
(5) La célèbre membre5 de4 la meute3 ,2 la députée de Hamilton Est ,1 prend la<br />
parole et salit tout ce qu'elle peut. [HAN]<br />
(6a) En fait le navire, qui3 ,2 peu après Trafalgar ,1 avait été pris par les Anglais au<br />
large de la côte portugaise et avait servi longtemps dans la Royal Navy, était<br />
en si mauvais état que les explosifs, au lieu de percer des trous dans la coque<br />
comme il avait été prévu, la détruisirent complètement. [LMO]<br />
(6b) En fait le navire9 qui8 , peu après Trafalgar , avait été pris par les Anglais au<br />
large de la côte portugaise et7 avait6 servi5 longtemps4 dans3 la Royal2 Navy1<br />
était en si mauvais état que les explosifs, au lieu de percer des trous dans la<br />
coque comme il avait été prévu, la détruisirent complètement. [LMO]<br />
(7a) Les aspects non-commerciaux de l'agriculture, comme4 la protection de<br />
l'environnement, la sécurité alimentaire et3 le développement2 rural1 doivent<br />
être pris en compte, précise le texte. [LMO]<br />
(7b) Les aspects6 non-commerciaux5 de4 l'agriculture3 ,2 comme la protection de<br />
l'environnement, la sécurité alimentaire et le développement rural doivent<br />
être pris en compte ,1 précise le texte. [LMO]<br />
Différents types de configurations d’inversion de sujet sont reconnues, en plus des<br />
relatives, par exemple quand un syntagme prépositionnel est positionné en tête de<br />
séquence (Sous le pont Mirabeau coule la Seine). Le syntagme prépositionnel n’est pas<br />
nécessairement séparé du verbe par une virgule. Dans l’exemple 8, quand le module<br />
Sujet traite le verbe est, il arrive (pas n°4) à la préposition à en tête de séquence, sans<br />
104
avoir trouvé de sujet. Il relance alors une recherche à droite du verbe et trouve le nom<br />
notion. Dans l’exemple 9, c’est au pas n°12 que le module fait demi-tour pour aller<br />
chercher le sujet menace à droite du verbe ajoute.<br />
(8) À4 Charlottetown3 ,2 en 1864 ,1 est née la notion5 d'un peuple dont les divers<br />
éléments sont à la fois unis et fiers de leurs différences<br />
(9) Aux12 soucis12 que11 lui causait10 sa majorité9 au8 conseil7 général6 d'5 Ille et4<br />
Vilaine3 ,2 qu'il préside depuis 1982 ,1 s'ajoute aujourd'hui une menace13<br />
directe sur sa gauche. [LMO]<br />
Le module Sujet peut être amené à défaire des liens posés par le module Coordination et<br />
d’autres modules. Dans l’exemple 10a, le module Coordination a coordonné les noms<br />
histoire et régions et le module Objet a placé un lien entre le verbe a et le coordonnant<br />
et. Quand il cherche le sujet du verbe ont (exemple 10b), le module Sujet part du nom<br />
régions, situé immédiatement à gauche du verbe. Ce nom est gouverné par le<br />
coordonnant et. Le module Sujet garde en mémoire l’information selon laquelle un nom<br />
situé à gauche est gouverné par un coordonnant, et il poursuit son parcours du<br />
coordonnant et au verbe a, dont ce coordonnant est objet. De façon générale, quand le<br />
module Sujet atteint dans son parcours un verbe conjugué, il s’attend à ce que celui-ci<br />
soit le verbe d’une proposition relative ou complétive, auquel cas il continue sa<br />
recherche à partir du pronom relatif ou de la conjonction. Quand ce n’est pas le cas, s’il a<br />
en mémoire le fait qu’il a trouvé au cours de son parcours un nom coordonné à gauche<br />
du verbe dont il cherche le sujet, il utilise cette information pour défaire les liens 36 . Dans<br />
l’exemple 10c, le module décoordonne les noms histoire et régions, déplace la cible du<br />
lien Objet du coordonnant vers le nom histoire, et enfin ajoute un lien Sujet entre le<br />
verbe ont et le nom régions. La situation est analogue dans l’exemple 11, où le module<br />
Sujet décoordonne les noms lots et fiches pour placer un lien Sujet entre seront et fiches,<br />
et dans l’exemple 12, où le module Sujet décoordonne les noms faim et chef pour placer<br />
un lien Sujet entre pouvait et chef.<br />
(10a) Le Canada a une histoire relativement courte et certaines régions ont<br />
une histoire encore plus courte que d' autres. [HAN]<br />
(10b) Le Canada4 a3 une histoire relativement courte et2 certaines régions1 ont une<br />
histoire encore plus courte que d'autres. [HAN]<br />
(10c) Le Canada a une histoire relativement courte et certaines régions ont<br />
une histoire encore plus courte que d' autres. [HAN]<br />
(11) Les différents manuels et encyclopédies vendus dans les librairies apportent<br />
leur lot de renseignements pratiques et les petites fiches décrivant les plantes<br />
36 Tout ceci évoquera à ceux qui les connaissent le fonctionnement des ATN.<br />
105
qui les accompagnent seront d'un grand secours pour ceux qui débutent.<br />
[LMO]<br />
(11’) Les différents manuels et encyclopédies vendus dans les librairies apportent<br />
leur lot de renseignements pratiques et les petites fiches décrivant les plantes<br />
qui les accompagnent seront d'un grand secours pour ceux qui débutent.<br />
[LMO]<br />
(12) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang<br />
au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de<br />
presse à El Paso, faire état que de la découverte de restes « qui pourraient être<br />
humains ». [LMO]<br />
(12’) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang<br />
au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de<br />
presse à El Paso, faire état que de la découverte de restes « qui pourraient être<br />
humains ». [LMO]<br />
Les formes de+le à droite d’une virgule ne sont pas désambiguïsées au moment du<br />
traitement des relations locales (cf. 3.2.2). Elles peuvent l’être dans certains cas quand<br />
une coordination est reconnue (cf. 3.2.3). Elles peuvent être désambiguïsées aussi par le<br />
module Sujet. Dans l’exemple 13, le module Sujet, après avoir identifié le nom millions<br />
comme seul sujet possible pour le verbe croupissaient, réétiquette la forme des devant ce<br />
nom en Déterminant (PD, pour Préposition ou Déterminant, et D pour Déterminant).Il<br />
désambiguïse selon le même principe la forme de dans l’exemple 14. Il désambiguïse en<br />
chaîne les formes des dans l’exemple 15.<br />
(13) Sans grands secours, desPD D millions de personnes déplacées croupissaient<br />
encore dans les centres de regroupement ou campaient dans des villes en<br />
ruines. [LMO]<br />
(14) Avec le boom économique des années 1975-1983, dePD D vraies maisons où<br />
vivent aujourd'hui la majorité des habitants s'élevèrent. [LMO]<br />
(15) A mesure que la vidéo se déroule, desPD D textes et desPD D illustrations<br />
d'accompagnement apparaissent automatiquement sur une autre partie de<br />
l'écran. [LMO]<br />
Pour finir, quand le module a posé un lien Sujet entre un verbe et un nom, il stocke cette<br />
information en mémoire, sous la forme d’un triplet (verbe, SUJ, nom). Les triplets acquis<br />
à l’issue du traitement de l’intégralité du corpus par les modules Sujet et Objet seront<br />
exploités dans le processus de désambiguïsation endogène des rattachements des<br />
prépositions de (section 3.2.9) et des relatifs (section 3.2.10).<br />
3.2.7. Les relations ambiguës : apprentissage endogène<br />
Après les relations Objet, Attribut et Sujet, je présente les relations dites « ambiguës ». Il<br />
s’agit des relations suivantes : la relation entre un pronom relatif et son antécédent<br />
106
(relation REL), la relation entre une préposition et son gouverneur (relation PREP) et la<br />
relation entre un adjectif et le nom dont il est épithète (relation ADJ). Ces relations sont<br />
ambiguës en ce sens qu’au moment de la recherche des liens <strong>syntaxique</strong>s plusieurs cibles<br />
de rattachement peuvent être identifiées, qui sont toutes <strong>syntaxique</strong>ment également<br />
plausibles : on ne peut les départager sur de simples critères de configuration <strong>syntaxique</strong>.<br />
Ces relations imposent un mode de traitement particulier comprenant une phase de<br />
désambiguïsation, qui n’existe pas avec les relations Objet, Attribut et Sujet. Pour<br />
chacune de ces relations, le traitement s’effectue en deux étapes :<br />
- au cours d’une première passe, le module chercherCandidat recherche des candidats<br />
gouverneurs sur la base de critères configurationnels ;<br />
- dans le cas où plusieurs candidats ont été identifiés, le module choisirCandidat<br />
procède à la désambiguïsation en sélectionnant un candidat sur la base d’indices<br />
lexico-<strong>syntaxique</strong>s affectés à chacun des candidats.<br />
Les indices sont de deux types : endogène et exogène. Le principe de l’apprentissage<br />
endogène, que j’avais introduit dans LEXTER (section 1.2), a été repris et étendu dans<br />
<strong>SYNTEX</strong>. Comme nous l’avons dans la section 2.3.4 du chapitre 2, ce principe a été<br />
utilisé par F. Debili dans son <strong>analyseur</strong> (Debili, 1982). Il est aussi à la base des travaux<br />
de R. Basili, M.T. Pazienza et M. Vindigni sur l’analyse <strong>syntaxique</strong> de l’italien (Basili et<br />
al., 1999). L’intérêt est de capter automatiquement des spécificités du corpus, en terme<br />
de forces d’association entre unités lexicales, pour les utiliser, en circuit fermé, à des fins<br />
de désambiguïsation. Les indices endogènes sont calculés à partir d’informations<br />
collectées par l’<strong>analyseur</strong> lui-même au cours du traitement du corpus. Ces informations<br />
sont obtenues à partir de triplets stockés en mémoire par les différents modules au fur et<br />
à mesure de l’analyse. Ces triplets ont la forme (w,R,w’), ils sont extraits de contextes<br />
non ambigus dans lesquels l’<strong>analyseur</strong> a placé un lien <strong>syntaxique</strong> R entre le gouverneur<br />
w et le dépendant w’. Par exemple, dans l’exemple 1, le module Sujet stocke en mémoire<br />
le triplet (voter,SUJ,néo-démocrate) ; le module chercherCandidat associé à la relation<br />
PREP de recherche des gouverneurs des prépositions stocke en mémoire le triplet<br />
(voter,CONTRE,TRPG), car il a trouvé le verbe voter comme seul candidat pour la<br />
préposition contre 37 .<br />
(1) Les néo-démocrates avaient également voté contre la TRPG. [HAN]<br />
Le premier triplet peut permettre de choisir le bon rattachement de la préposition de dans<br />
un contexte comme « le vote de défiance des néo-démocrates », si on utilise en plus un<br />
lexique morphologique dans lequel le nom vote est associé au verbe voter<br />
(section 3.2.10). Bien entendu, l’information désambiguïsante est susceptible<br />
d’apparaître dans le corpus après le contexte ambigu. Il s’ensuit que les modules qui<br />
exploitent des informations de type endogène doivent intervenir une fois que l’ensemble<br />
du corpus a été traité, éventuellement en plusieurs passes, par les modules qui acquièrent<br />
37 Dans le cas de la relation PREP, le triplet est construit à partir de 2 liens <strong>syntaxique</strong>s, celui entre le<br />
gouverneur de la préposition et la préposition et celui entre la préposition et son dépendant : le premier élément<br />
du triplet est le gouverneur de la préposition, le deuxième est la préposition elle-même, le troisième est le<br />
dépendant de la préposition.<br />
107
ces informations. L’apprentissage endogène implique donc, dans son principe même, le<br />
traitement du corpus en au moins deux passes. Les modules Sujet et Objet, et les trois<br />
modules chercherCandidat, correspondant aux trois relations ambiguës introduites plus<br />
haut, ont traité l’ensemble des séquences du corpus, avant la phase de désambiguïsation :<br />
ces modules n’ont acquis que les triplets reconnus dans des contextes non ambigus,<br />
c’est-à-dire ceux dans lequel un seul candidat a été identifié. Les modules de<br />
désambiguïsation disposent d’un ensemble de données endogènes constituées de triplets<br />
(w,R,w’), et de leur fréquence F(w,R,w’).<br />
Pour la résolution des ambiguïtés de rattachement prépositionnel, le module<br />
choisirCandidatPrep calcule à partir de ces données des probabilités de<br />
sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec<br />
telle préposition). Le mode de calcul de ces probabilités est simple. Lors du traitement de<br />
l’ensemble du corpus, le module chercherCandidatPrep a acquis non seulement les<br />
triplets (w,p,w’), où w est le gouverneur de la préposition p, et w’ le dépendant (nom ou<br />
verbe à l’infinitif), mais il a compté aussi pour chaque mot w le nombre d’occurrences<br />
dans le corpus où ce mot n’est candidat gouverneur d’aucune préposition. A l’issue du<br />
traitement de l’ensemble du corpus, le module choisirCandidatPrep dispose des données<br />
de fréquence suivantes :<br />
– F(w,0) : nombre d’occurrences non ambiguës où le mot w ne gouverne aucune<br />
préposition,<br />
– F(w,p,w’) : nombre d’occurrences non ambiguës où le mot w gouverne la<br />
préposition p, qui elle-même gouverne le mot w’,<br />
La probabilité est calculée comme une fréquence relative pondérée 38 . Soit T, l’ensemble<br />
des triplets (w,p,w’). Pour un couple (w,p), on définit Ew,p comme l’ensemble des mots<br />
w’ tels que la fréquence F(w,p,w’) est supérieure à 0. Je définis la productivité du couple<br />
(w,p), Prod(w,p), comme le cardinal de l’ensemble Ew,p, c’est-à-dire comme le nombre<br />
de mots différents que gouverne la préposition p quand elle-même est gouvernée par le<br />
mot w. J’utilise ce coefficient pour pondérer la fréquence totale du couple (w,p). A<br />
fréquence égale, plus le couple (w,p) a été repéré avec des contextes w’ différents, plus<br />
grande est estimée la propension du mot w à gouverner la préposition p. L’expérience<br />
montre en effet que, dans des corpus thématiques, la très haute fréquence de certains<br />
syntagmes très répétitifs incluant le triplet (w,p,w’) vient biaiser la probabilité<br />
d’association lexicale entre w et p. La pondération proposée ci-dessus vise à limiter une<br />
telle surestimation et à accorder un poids non seulement à la fréquence de l’association,<br />
mais aussi à sa diversité. Par exemple, si le verbe manger apparaît 5 fois avec la<br />
préposition avec, uniquement dans {manger,avec,Jean}, et 5 fois aussi avec la<br />
préposition à, dans {manger,à,restaurant|maison|self|cantine|table}, la probabilité<br />
pondérée de {manger,avec} sera de 0.28 et celle de {manger,avec} sera de 0.72.<br />
La formule de calcul de la probabilité pondérée est donnée dans le tableau 7 : F(w,p) est<br />
la fréquence totale du couple (w,p), F(w) est la fréquence totale du mot w, et λ est un<br />
38 Je n’ai pas testé d’autres méthodes de filtrage, comme celle de la distribution polynomiale (Manning, 1993).<br />
108
coefficient de normalisation, choisi de telle sorte que la somme des probabilités<br />
associées à un mot donné soit égale à 1.<br />
T = { (w,p,w’) / F(w,p,w’) > 0 }, ensemble de triplets<br />
F(w,p,w’) : nombre d’occurrences où le mot w gouverne la préposition p,<br />
elle-même gouvernant le mot w’<br />
F(w,0) : nombre de cas où w ne gouverne aucune préposition<br />
Ew,p = { w’ / F(w,p,w’) > 0 }, le contexte du couple (w,p)<br />
Prod(w,p) = Card(Ew,p), la productivité du couple (w,p)<br />
F(w,p) = ∑w’Є Ew,p F(w,p,w’), le nombre d’occurrences de w quand il gouverne p<br />
F(w)=F(w,0)+ ∑ p F(w,p), le nombre total d’occurrences de w<br />
P(w,0) = F(w,0)/F(w), la probabilité d’occurrence de w sans préposition<br />
P(w,p)=F(w,p) /F(w)*log(1 + Prod(w,p))/ λ, la probabilité d’occurrence de w avec<br />
la préposition p<br />
Tableau 7. Méthode de calcul des probabilités de sous-catégorisation<br />
Pour être tout à fait précis, il faut préciser que le couple (w,p) est distingué selon que la<br />
préposition p gouverne un nom (P(w,pNom)) ou un verbe à l’infinitif (P(w,pVinf)). A titre<br />
d’illustration, je donne un extrait du lexique acquis sur un corpus de 400 000 mots<br />
constitué de comptes rendus d’hospitalisation dans le domaine de la réanimation<br />
chirurgicale (corpus REA, (Bourigault et al., 2004)).<br />
P w p<br />
0,44 accord avec<br />
0,24 accouchement par<br />
0,41 allergie à<br />
0,20 amylasémie à<br />
0,46 analgésie par<br />
0,20 anémie à<br />
0,73 antibioprophylaxie par<br />
0,35 antibiothérapie par<br />
0,23 anticoagulation par<br />
0,61 argument pour<br />
0,31 argument en faveur de<br />
0,30 arme à<br />
Tableau 8. Quelques probabilités de sous-catégorisation acquise ssur un corpus médical<br />
3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation<br />
Après de longues années d’une adhésion obstinée et exclusive à l’apprentissage<br />
endogène, et avec l’arrivée de Cécile Frérot dans le projet, j’ai travaillé à l’élaboration de<br />
109
essources générales, susceptibles d’être exploitées pour tout corpus. Dans le cadre de sa<br />
thèse, Cécile Frérot a expérimenté l’utilisation d’un lexique de sous-catégorisation<br />
construit à partir des tables du Lexique Grammaire (Frérot et al., 2003 ; Frérot, 2005).<br />
Devant les limites d’une telle approche, j’ai développé une méthode d’acquisition<br />
automatique d’un lexique de probabilités de sous-catégorisation à partir d’un corpus de<br />
très grande taille (Bourigault et Frérot, 2005).<br />
Les méthodes d’acquisition de propriétés de sous-catégorisation exploitent<br />
classiquement des corpus étiquetés de grande taille (Ushioda et al., 1993 ;<br />
Manning, 1993 ; Basili, Vindigni, 1998). Le Web est aussi considéré comme source<br />
potentielle d’acquisition (Gala Pavia, 2003 ; Volk, 2001). J’utilise comme base<br />
d’apprentissage un corpus de 200 millions de mots, constitué des articles du journal Le<br />
Monde, des années 1991 à 2000 (corpus LM10 39 ). Sa taille et sa diversité thématique en<br />
font un corpus référentiellement et linguistiquement peu marqué, à partir duquel il est<br />
raisonnable de chercher à acquérir des données de sous-catégorisation qui soient<br />
relativement génériques. La procédure d’acquisition est directement adaptée de la<br />
méthode d’apprentissage endogène présentée dans la section précédente. La méthode de<br />
calcul des probabilités de sous-catégorisation s’appuie sur un ensemble de triplets<br />
(w,p,w’) extraits d’une analyse <strong>syntaxique</strong> de l’ensemble du corpus LM10 effectuée par<br />
<strong>SYNTEX</strong> 40 . La procédure d’acquisition se déroule en deux étapes, au cours desquelles la<br />
même méthode de calcul de probabilités est lancée successivement sur deux ensembles<br />
différents de triplets : une étape d’amorçage et une étape de consolidation.<br />
- Au cours de l’étape d’amorçage, les probabilités sous-catégorisation sont calculées<br />
exactement comme décrit précédemment, et donc à partir de triplets (w,p,w’) acquis<br />
dans des contextes non ambigus ;<br />
- Au cours de l’étape de consolidation, le module choisirCandidatPrep exploite le<br />
lexique construit lors de l’étape d’amorçage, et traite à son tour l’ensemble du<br />
corpus LM10, analysé par le module chercherCandidatPrep. Il revient sur les cas<br />
ambigus et choisit le gouverneur candidat dont la probabilité de construction avec la<br />
préposition, fournie dans le premier lexique, est la plus élevée. A partir de ces<br />
nouvelles annotations, un nouvel ensemble de triplets est constitué, qui inclut le<br />
précédent et auquel s’ajoutent les triplets (w,p,w’) issus des cas ambigus résolus. De<br />
nouvelles données de fréquence F(w,p,w’) et F(w,0) sont alors constituées, à partir<br />
desquelles un second ensemble de probabilités de sous-catégorisation est calculé,<br />
selon la même méthode. C’est le lexique construit à l’issue de cette étape de<br />
consolidation qui est utilisé dans <strong>SYNTEX</strong>.<br />
39 Ce corpus a été préparé, à partir de fichiers obtenus auprès de l’agence Elra, à l’aide de programmes, mis au<br />
point par Benoît Habert (LIMSI), qui ont effectué les tâches de nettoyage, de balisage et de signalisation<br />
nécessaires pour transformer les fichiers initiaux en un corpus effectivement « traitable » par des outils de<br />
Traitement Automatique des Langues. Nous remercions Benoît Habert et le LIMSI de nous avoir permis de<br />
bénéficier de ces programmes.<br />
40 Environ 24 heures de traitement sur un biprocesseur Xeon 3.06GHz (4 Go de RAM)<br />
110
Le nombre total d’occurrences de triplets (w,p,w’) à partir desquels les probabilités sont<br />
calculées est de l’ordre de 6,7 millions à l’issue de l’étape d’amorçage, et de 12 millions<br />
à l’issue de l’étape de consolidation. Le nombre total d’occurrences de mots ne régissant<br />
pas de préposition est d’environ 87 millions à l’issue de l’étape d’amorçage, et de 95<br />
millions à l’issue de l’étape de consolidation. Les probabilités ne sont calculées que pour<br />
les couples (w,p) tels que la fréquence totale du mot w est supérieure à 20. <strong>Un</strong> couple<br />
n’est retenu dans le lexique de désambiguïsation que si la probabilité dépasse le seuil de<br />
0.01. Le lexique final compte 6 693 verbes différents (chacun pouvant être présent avec<br />
plusieurs prépositions), 11 528 noms et 698 adjectifs. Je présente les résultats d’une<br />
évaluation comparative des ressources endogènes et exogènes pour la désambiguïsation<br />
prépositionnelle dans la section 3.2.10.<br />
3.2.9. Antécédence relative<br />
Je présente successivement les modules « à ambiguïté » : le module de rattachement des<br />
pronoms relatifs à leur antécédent (3.2.9), le module de rattachement des prépositions à<br />
leur gouverneur (3.2.10) et le module de rattachement des adjectifs épithètes à leur nom<br />
(3.2.11). Pour chacun de ces modules, je précise d’abord les conventions de<br />
représentation, puis l’algorithme de recherche des candidats gouverneurs et enfin les<br />
indices exploités pour la désambiguïsation.<br />
Représentation<br />
Comme la coordination, la relation de l’antécédence relative pose des problèmes de<br />
représentation. Ceux-ci ont pour origine la « nature double » du pronom relatif, pour<br />
reprendre les termes de Tesnière. Selon ce dernier, le pronom relatif est à la fois un<br />
« translatif », en tant qu’il confère à la subordonnée la valeur d’adjectif, et un<br />
« anaphorique », en connexion anaphorique avec son antécédent, subordonné au verbe<br />
de la proposition relative (Tesnière, 1959, pp. 560-561). Pour la représentation en<br />
stemma, Tesnière propose de disloquer en deux le pronom relatif qui : la forme qu- est le<br />
« transférème » et la forme –i est l’« anaphorème ». Le stemma correspondant à la<br />
séquence « l’homme qui écrit » est celui-ci :<br />
l’homme<br />
A<br />
qu- qu- écrit<br />
écrit<br />
-i<br />
-i<br />
(Tesnière, 1959, p. 561)<br />
La représentation de Mel’čuk est peu différente. Selon lui, le pronom relatif ne dépend<br />
<strong>syntaxique</strong>ment que du verbe de la subordonnée. Certes, le pronom relatif dépend aussi<br />
de son antécédent, mais simplement morphologiquement, et il y a par ailleurs un lien<br />
111
anaphorique entre le pronom et son antécédent, mais ceci est non pertinent du point de<br />
vue <strong>syntaxique</strong>. Du point de vue <strong>syntaxique</strong>, la subordonnée relative dépend de<br />
l’antécédent, via son verbe. On reprenant l’exemple de Tesnière, on peut reconstituer la<br />
représentation qu’en ferait Mel’čuk, et classiquement les praticiens de la dépendance,<br />
ainsi (les traits en pointillés représente un lien anaphorique) :<br />
L’homme qui écrit À partir de (Mel’čuk, 1988, p. 26)<br />
Dans <strong>SYNTEX</strong>, je ne dispose pas d’une catégorie spéciale pour les liens anaphorique, je<br />
traite la relation d’antécédence relative comme une relation <strong>syntaxique</strong>. J’ai choisi de<br />
représenter cette relation par un lien <strong>syntaxique</strong> dont la source est l’antécédent et la cible<br />
le pronom relatif. Je ne marque pas le lien entre le verbe de la subordonnée et<br />
l’antécédent ; ce lien est calculé par une fonction spécifique à chaque fois que cela est<br />
nécessaire dans les traitements. Dans la représentation <strong>SYNTEX</strong>, les pronoms relatifs ont<br />
potentiellement deux gouverneurs 41 . Le pronom relatif est la cible des relations de<br />
dépendance Sujet et Objet qui partent du verbe de la subordonnée (exemple 1a). Si le<br />
pronom relatif est gouverné par une préposition, celle-ci est gouvernée par le verbe de la<br />
relative. Avec une telle représentation, des croisements sont possibles (exemples 1b).<br />
REL SUJ REL<br />
OBJ<br />
(1a) l’homme qui mange l’homme que je vois<br />
(1b) l’homme qu’ a vu Jean l’homme avec lequel Jean mange<br />
Recherche des antécédents<br />
Pour la relation d’antécédence relative, la recherche des candidats est relativement<br />
simple. Le module chercherCandidat teste tous les noms qu’il trouve à gauche du<br />
pronom relatif, dans un contexte restreint, et il utilise deux contraintes pour les filtrer. La<br />
première contrainte est une contrainte d’accord, pour les pronoms relatifs en –quel, pour<br />
le pronom relatif sujet qui, et pour le pronom relatif que quand le verbe est à une forme<br />
composée. Dans l’exemple 2, le nom ministre est refusé comme candidat antécédent<br />
pour le pronom relatif laquelle, de même que le nom libération pour le pronom qui dans<br />
l’exemple 3, et que les noms collaboration, fonction et conseil dans l’exemple 4. La<br />
seconde contrainte est une contrainte de forme : le module rejette les noms au singulier<br />
sans déterminant, gouvernés par une préposition (loi dans l’exemple 5 et financement<br />
dans l’exemple 6).<br />
41 S. Kahane (1997) propose lui –aussi d’associer deux nœuds aux mots –wh.<br />
112
(2) L'opinion du ministre selon laquelle ces organismes sont incapables de<br />
subvenir à leurs besoins ont provoqué du mécontentement dans de<br />
nombreuses localités. [HAN]<br />
(2’) Le premier ministre confère un redoutable pouvoir d'empêchement aux<br />
organisations clandestines, sur les décisions desquelles la très grande<br />
majorité des Corses n'ont pas prise. [LMO]<br />
(3) Il permettra d'accélérer la libération des prisonniers qui, pour quelque raison<br />
que ce soit, seraient admissibles à la libération conditionnelle de jour. [HAN]<br />
(4) Ces lignes directrices avaient été préparées en collaboration avec les<br />
syndicats de la Fonction publique représentés au Conseil national mixte, qui<br />
les ont approuvées. [HAN]<br />
(5) Nous avons enfin adopté le projet de loi qui élargissait la Commission<br />
d'appel de l'immigration. [HAN]<br />
(6) C'est une formule de financement fort originale dont nous sommes très fiers<br />
parce qu'elle est fonction des résultats. [HAN]<br />
Désambiguïsation<br />
Pour choisir parmi plusieurs antécédents candidats, le module choisirCandidatRel utilise<br />
un seul indice, de type endogène, et uniquement dans le cas des pronoms relatifs qui ou<br />
que. Pour les autres pronoms, il applique la règle par défaut (cf. infra). Soit c le candidat,<br />
soit v le verbe de la relative. Si le pronom relatif est qui, l’indice affecté au candidat c est<br />
F(v, SUJ, c), c’est-à-dire le nombre de fois où l’antécédent c a été trouvé comme sujet du<br />
verbe v. Si le pronom relatif est que, l’indice affecté au candidat c est F(v, OBJ, c). Dans<br />
l’exemple 6 42 , c’est le nom problème qui a été choisi comme antécédent, plutôt que le<br />
nom interprétation, car le module Sujet a eu l’occasion d’établir ailleurs dans le corpus<br />
un lien entre le verbe demeurer et le nom problème. Dans l’exemple 7, c’est le nom<br />
fonctions qui a été choisi comme antécédent, plutôt que le nom anti-terrorisme, car le<br />
module Objet a eu l’occasion d’établir ailleurs dans le corpus un lien entre le verbe<br />
occuper et le nom fonction. Dans l’exemple 8, le nom rôle est choisi pour des raisons<br />
analogues.<br />
(6) Il n'est pas possible ici de traiter du problème + de l'interprétation des<br />
séquences, qui demeure le prochain défi à relever. [LMO]<br />
(7) Cette règle pourrait, en revanche, contraindre Jean-Louis Bruguière à quitter<br />
ses fonctions + de juge d'instruction spécialisé dans l'anti-terrorisme, qu'il<br />
occupe depuis plus de dix ans. [LMO]<br />
42 Dans les exemples suivants, le candidat choisi par le module de désambiguïsation est marqué par un ‘+’ en<br />
exposant.<br />
113
(8) <strong>Un</strong> policier algérien décide de passer du côté du FLN alors que son collègue<br />
français, témoin des exactions de l'armée, ne trouve plus sa place dans le<br />
rôle + de maintien de l'ordre qui lui est confié. [LMO]<br />
La règle par défaut, qui s’applique pour les pronoms relatifs autres que qui et que ou<br />
quand aucun indice n’a été trouvé pour aucun candidat, est la suivante : si le pronom<br />
relatif est dans une incise (précédé d’une virgule), choisir le candidat le plus éloigné du<br />
pronom relatif(exemples 9 et 10) ; sinon, choisir le candidat le plus proche (exemples 11<br />
et 12).<br />
(9) La Chambre a entendu les explications + du ministre, qu’on retrouve à la<br />
page 1147 du Hansard du 6 novembre. [HAN]<br />
(10) Le ministre pourra assurément trouver une ou deux personnes + parmi ces<br />
groupes, qui seraient favorables à certains des aspects de la mesure. [HAN]<br />
(11) Les sénateurs seront nommés à partir d'une liste proposée par le<br />
gouvernement de la province + où il y a des postes à combler. [HAN]<br />
(12) Le ministre de la Justice a entrepris une étude de cette question + au cours de<br />
laquelle il consultera les parties intéressées et les groupes professionnels.<br />
[HAN]<br />
3.2.10. Attachement des prépositions<br />
Représentation<br />
Pour la relation PREP, les conventions de représentation sont les suivantes : la relation<br />
PREP a pour source le gouverneur de la préposition, qui peut être un verbe, un nom ou un<br />
adjectif, et pour cible la préposition. Si le gouverneur est un verbe à une forme<br />
composée, c’est l’auxiliaire qui est la source du lien. Dans le cas de prépositions<br />
coordonnées, c’est le coordonnant qui est la cible de la relation. Il n’y pas de distinction<br />
de représentation entre complément et adjoint, ou entre complément « essentiel » et<br />
complément « circonstanciel » (exemple 1). Le problème essentiel en analyse <strong>syntaxique</strong><br />
automatique est de trouver le bon gouverneur d’une préposition. En corpus, la distinction<br />
argument/circonstant est difficile à établir dans nombre de cas, même pour un<br />
grammairien. Dans le cadre du développement de <strong>SYNTEX</strong>, C. Fabre et C. Frérot (2002)<br />
ont proposé une mesure simple pour distinguer automatiquement, au sein des groupes<br />
prépositionnels rattachés au verbe, les arguments et les circonstants. Cette mesure,<br />
endogène, utilise deux coefficients de productivité : la productivité du gouverneur verbal<br />
vis à vis de la préposition et celle du dépendant vis à vis de la préposition. Les résultats<br />
montrent que cette mesure permet de repérer les arguments avec une précision de 88%,<br />
et les circonstants avec une précision de 72%,<br />
<strong>SYNTEX</strong> n’effectue pas la distinction argument/circonstant, mais il tente de distinguer les<br />
compléments dits « de phrase », ceux qui ne dépendent <strong>syntaxique</strong>ment d’aucun mot de<br />
la phrase, et qu’il convient de laisser « flotter » dans la séquence (exemple 2).<br />
114
(1) Jean donne un bonbon à Marie. Jean regarde un film à la télévision.<br />
(2) Après le travail, Jean rentre chez lui.<br />
Recherche des gouverneurs candidats<br />
PREP PREP<br />
Quand on évoque les prépositions en analyse <strong>syntaxique</strong> automatique, on parle le plus<br />
souvent du problème de l’ambiguïté de rattachement, c’est-à-dire de celui du choix du<br />
bon gouverneur parmi plusieurs candidats (en général deux). On s’étend rarement sur le<br />
problème de la reconnaissance des gouverneurs candidats. Or, quand il s’agit de<br />
développer un <strong>analyseur</strong> <strong>opérationnel</strong>, mettre au point des procédures qui cherchent à<br />
gauche d’une préposition l’ensemble des mots susceptibles de la gouverner est un<br />
problème en soi. Le module chercherCandidatPrep s’appuie sur les liens <strong>syntaxique</strong>s<br />
déjà placés pour parcourir la séquence de droite à gauche. Il dispose d’un certain nombre<br />
de critères d’arrêt, décrivant les configurations dans lesquelles il doit stopper sa<br />
recherche. Il n’est pas question ici de décrire en détail l’algorithme. Je donne quelques<br />
indications en fonction de la catégorie des mots rencontrés par le module pendant le<br />
parcours : nom, adjectif, préposition, verbe, virgule.<br />
Nom. Si le module rencontre un nom, il le prend comme candidat, puis il se déplace au<br />
recteur de ce nom, sauf si celui-ci est placé à droite, comme c’est le cas en particulier s’il<br />
est antécédent d’un pronom relatif ou sujet. Dans l’exemple 3, la recherche des<br />
gouverneurs candidats pour la préposition sur s’arrête au nom loi qui est lié<br />
<strong>syntaxique</strong>ment au pronom relatif laquelle situé à droite de la préposition. Dans<br />
l’exemple 4, la recherche pour la préposition de s’arrête au nom filles qui est lié<br />
<strong>syntaxique</strong>ment au pronom relatif qui situé à droite de la préposition. Dans l’exemple 5,<br />
la recherche pour la préposition à s’arrête au nom conflits qui est sujet du verbe se<br />
poursuivent situé à droite de la préposition.<br />
(3) Ce procédé représente de probables atteintes à la loi sur les partis, laquelle fixe<br />
en particulier le financement politique. [HAN]<br />
115<br />
REL<br />
(4) Engels s'est plié une fois à l' exercice, sur l' instance des filles de Marx qui le<br />
considéraient comme leur oncle. [LMO]<br />
(5) Elle intervient alors que des conflits liés à l'application des 35 heures se poursuivent<br />
dans plusieurs secteurs. [LMO]<br />
Adjectif. Si le module rencontre un adjectif, il conserve cet adjectif comme candidat<br />
uniquement si celui-ci est placé immédiatement à gauche de la préposition. La recherche<br />
des gouverneurs candidats pour les prépositions et pour les adjectifs s’effectue au cours<br />
d’une seule et même passe sur la séquence, de gauche à droite. A un adjectif situé à<br />
gauche d’une préposition, le module chercherCandidatAdj peut avoir affecté un ou<br />
REL<br />
SUJ
plusieurs gouverneurs nominaux dont l’adjectif est potentiellement épithète<br />
(section 3.2.11). Chacun de ces noms est récupéré comme candidat de la préposition, et<br />
la recherche continue à partir du plus à gauche de ces noms. Dans l’exemple 6, le<br />
module chercherCandidatPrep retient, pour la préposition en, l’adjectif judiciaire<br />
comme candidat, ainsi que ses gouverneurs potentiels dossiers et commissions,<br />
préalablement identifiés par le module chercherCandidatAdj. Il retient ensuite le nom<br />
ingérence situé immédiatement à gauche du gouverneur des du nom commissions. Dans<br />
l’exemple 7, il retient, pour la préposition du, l’adjectif Mondiale, et tous ses<br />
gouverneurs nominaux candidats.<br />
(6) L’ingérence des commissions dans des dossiers judiciaires en cours. [LMO]<br />
(7) L’ouverture de la réunion de l’Organisation Mondiale du Commerce. [LMO]<br />
Préposition. Si le module rencontre une préposition, il récupère tous les gouverneurs<br />
candidats qu’il a lui-même identifiés pour cette préposition, quelque instants auparavant.<br />
Dans l’exemple 8, le module chercherCandidatPrep retient, pour la seconde préposition<br />
à, le participe passé limitée, puis le nom négociation, puis les deux gouverneurs<br />
candidats échec et préfère qu’il avait retenus pour la première préposition à.<br />
(8) OMC : la France préfère un échec à une négociation limitée à l'agriculture. [LMO]<br />
Verbe. Si le module rencontre un verbe, il le retient comme candidat et arrête sa<br />
recherche. Les cas où cet arrêt est prématuré, par exemple quand il s’agit de trouver un<br />
gouverneur verbal au-delà d’une relative, sont extrêmement rares. Ils sont pour le<br />
moment mal traités par l’<strong>analyseur</strong>.<br />
Virgule. <strong>Un</strong> cas problématique est celui où une virgule, non coordinatrice, précède<br />
immédiatement une préposition. A ce stade du traitement, il est difficile de déterminer<br />
s’il faut aller chercher les gouverneurs candidats juste après cette virgule, au cas où la<br />
préposition serait tête d’un syntagme prépositionnel en position incise, ou bien s’il faut<br />
« sauter » une section incise jusqu’à une éventuelle virgule « ouvrante » pour retrouver<br />
le gouverneur de la préposition. On peut être en présence d’un « complément de phrase »<br />
qu’il serait malvenu de lier <strong>syntaxique</strong>ment à quoi que ce soit. C’est pourquoi le<br />
rattachement des prépositions précédées d’une virgule est reporté à un stade ultérieur de<br />
l’analyse, quand tous les liens ont été posés (section 3.2.8).<br />
Dans beaucoup d’études sur l’ambiguïté de rattachement prépositionnel, en particulier<br />
dans les travaux fondateurs de Hindle et Rooth (1993), les configurations sur lesquelles<br />
116<br />
ADJ<br />
ADJ
sont testés les algorithmes de désambiguïsation ne sont constituées que de deux<br />
candidats, un verbe et un nom. Dans les corpus, les configurations d’ambiguïtés,<br />
exprimées en termes de suite des catégories des candidats repérés par le module<br />
chercherCandidatPrep, sont en fait très diverses. Dans l’expérience que nous avons<br />
menée avec Cécile Frérot, et présentée dans (Bourigault et Frérot, 2005), nous avons<br />
montré que, sur les 4 corpus de test, la configuration ‘V N’, où seuls un verbe et un nom<br />
sont en compétition ne représente que 50 % des cas dans le corpus littéraire, 35 % dans<br />
le corpus journalistique et 15 % dans le corpus juridique et le corpus technique.<br />
Indices et stratégie de désambiguïsation<br />
Le module choisirCandidatPrep exploite essentiellement trois indices : deux indices<br />
endogènes (F et ProbaEndo) et un indice exogène (ProbaExo). Soit, p la préposition, w le<br />
dépendant de la préposition, C la catégorie de ce dépendant. Soit {ci, i=1, …, n}, les<br />
gouverneurs candidats.<br />
- L’indice Fi pour le candidat ci est égal à la fréquence du triplet (ci,p,w) dans le<br />
corpus. C’est un indice endogène. Si la préposition est de, le module calcule un<br />
autre indice endogène du même type, en exploitant le lexique de correspondance<br />
verbo-nominale VERBACTION, développé par Nabil Hathout 43 . Pour chaque<br />
gouverneur candidat qui est un nom, si ce nom ci est associé à un verbe vi dans<br />
VERBACTION, l’indice Fvi pour le candidat ci est égal à somme des fréquences des<br />
triplets (vi,SUJ,w) et (vi,OBJ,w).<br />
- L’indice ProbaEndoi pour le candidat ci est égal à la probabilité endogène du couple<br />
(ci,pC) dans le corpus.<br />
- L’indice ProbaExoi pour le candidat ci est égal à la probabilité exogène du couple<br />
(ci,pC).<br />
L’algorithme de choix, dans sa version simplifiée, est le suivant : choisir le candidat dont<br />
l’indice F est le plus élevé ; ou bien choisir le candidat dont l’indice ProbaEndo ou<br />
ProbaExo est le plus élevée ; ou, par défaut, laisser l’ambiguïté, qui sera prise en charge<br />
par le module de désambiguïsation globale (section 3.2.12).<br />
Quelques exemples de désambiguïsation réussie. Dans l’exemple 9, le nom rappel est<br />
choisi comme gouverneur de la préposition au, sur la base de l’indice F, car le triplet<br />
(rappel,à,règlement) a été extrait 3 fois dans le corpus, dans des contextes non ambigus<br />
comme celui de l’exemple 9’. Dans l’exemple 10, le participe passé venus est choisi<br />
comme gouverneur de la préposition à, sur la base de l’indice F, car le triplet<br />
(venir,à,Seattle) a été extrait 2 fois dans le corpus, dans des contextes non ambigus<br />
comme celui de l’exemple 10’. Dans l’exemple 11, le nom délivrance est choisi comme<br />
gouverneur de la préposition de, sur la base de l’indice Fv, car le couple (délivrer,<br />
délivrance) est présent dans le lexique VERBACTION et le triplet (délivrer,OBJ,pilule) a<br />
été extrait 5 fois dans le corpus. Dans l’exemple 12, le nom modifications est choisi<br />
43 http://w3.univ-tlse2.fr/erss/ressources/verbaction/<br />
117
comme gouverneur de la préposition au, sur la base de l’indice ProbaEndo, car la<br />
probabilité endogène du couple (modification, àNom) est de 0.10, supérieure aux<br />
probabilités endogène et exogène du couple (étudier, àNom). Dans l’exemple 13, le verbe<br />
attirer est choisi comme gouverneur de la préposition sur, sur la base de l’indice<br />
ProbaExo, car la probabilité exogène du couple (attirer, surNom) est de 0.14, alors que les<br />
probabilités associées aux autres gouverneurs candidats sont nulles.<br />
(9) Monsieur le Président, j'aimerais aussi participer quelques minutes au<br />
rappel + au règlement qui a été soulevé par mon collègue. [HAN]<br />
(9’) Ce rappel + au Règlement est complexe et touche à la politique des musées<br />
au Canada. [HAN]<br />
(10) Glen Mpufane fait partie des manifestants venus + du monde entier à<br />
Seattle pour protester contre la liberté du commerce. [MON]<br />
(10’) BILL CLINTON est venu + à Seattle exposer les positions américaines. [MON]<br />
(11) Il s’agit de la décision d'autoriser la délivrance + de la « pilule du<br />
lendemain » aux adolescentes dans les établissements scolaires. [MON]<br />
(12) Je suis membre du comité chargé d'étudier les modifications + au régime<br />
d'assurance chômage. [HAN]<br />
(13) Elles visent à attirer+ l'attention des Canadiens sur une initiative politique<br />
très importante pour notre pays. [HAN]<br />
Evaluation<br />
Dans (Bourigault et Frérot, 2005), nous présentons une évaluation détaillée de<br />
différentes stratégies de désambiguïsation. Nous testons 4 stratégies : une stratégie de<br />
base, qui n’exploite que la règle par défaut d’attachement au candidat le plus éloigné,<br />
une stratégie endogène, qui est analogue à la stratégie décrite ci-dessus mais qui<br />
n’exploite que les indices endogènes, une stratégie exogène, qui est analogue à la<br />
stratégie décrite ci-dessus mais qui n’exploite que les indices exogènes, et enfin une<br />
stratégie dite « mixte », qui est la stratégie décrite ci-dessus. Nous avons testé ces 4<br />
stratégies sur un grand nombre de cas d’ambiguïté de rattachement, annotés à la main sur<br />
4 corpus de genre différents :<br />
- BAL. Le roman Splendeurs et misères des courtisanes, d’Honoré de Balzac<br />
(199 789 mots) : 672 cas annotés.<br />
- LMO. <strong>Un</strong> extrait du journal Le Monde (673 187 mots) : 1 238 cas annotés.<br />
- TRA. Le Code du travail de la législation française (509 124 mots) : 1 150 cas<br />
annotés.<br />
- REA. <strong>Un</strong> corpus de comptes-rendus d’hospitalisation dans le domaine de la<br />
réanimation chirurgicale (377 967 mots) : 646 cas annotés.<br />
118
BAL LMO TRA REA<br />
base 83.0 70.3 65.5 59.9<br />
endogène 83.5 (-2.9) 80.1 (-33.0) 82.3 (-48.7) 78.0 (-45.1)<br />
exogène 86.9 (-22.9) 86.6 (-54.9) 86.3 (-60.3) 66.3 (-16.0)<br />
mixte 86.6 (-21.2) 85.9 (-52.5) 87.3 (-63.2) 78.3 (-45.9)<br />
Tableau 9. Taux de précision des différentes stratégies de désambiguïsation sur les 4<br />
corpus de test (avec le taux de réduction de l’erreur par rapport à la stratégie de base).<br />
Le tableau 9 donne les taux de précision des différentes stratégies de désambiguïsation<br />
sur les 4 corpus de test, ainsi que, pour un corpus donné, le taux de réduction de l’erreur<br />
par rapport à la stratégie de base. Les principales conclusions que l’on peut tirer de ces<br />
résultats sont les suivantes :<br />
- L’apport des ressources exogènes génériques est indéniable. Le taux de réduction de<br />
l’erreur, qui est de 22.9 % pour le corpus littéraire (BAL), sur lequel la stratégie de<br />
base est déjà très performante, s’élève à 54.9 % pour le corpus journalistique (LMO)<br />
et à 60.3 % pour le corpus juridique (TRA).<br />
- Il n’y a que sur le corpus médical (REA) que l’apprentissage endogène s’avère être<br />
indispensable. La réduction du taux d’erreur est de 45.1 % avec la stratégie<br />
endogène, alors qu’elle n’est que de 16 % avec la stratégie exogène. Plus que par le<br />
domaine couvert, ceci s’explique par le style très particulier utilisé par les médecins<br />
pour rédiger les comptes rendus d’hospitalisation, avec un usage abondant de<br />
phrases nominales et d’une phraséologie très spécifique.<br />
- Le résultat le plus remarquable, et le moins attendu, est la très grande homogénéité<br />
des taux de précision obtenus avec les stratégies exploitant le lexique générique<br />
(stratégies exogène ou mixte) sur les corpus littéraire, journalistique et juridique.<br />
Ces taux ont des écart de moins de 2 % (respectivement 86.6 %, 85.9 % et 87.3 %<br />
pour ces trois corpus avec la stratégie mixte). L’exploitation de ressources exogènes<br />
conduit à un resserrement et à un rapprochement par le haut des performances.<br />
On peut rapprocher ces résultats de ceux, récapitulés dans (Pantel et Lin, 2000), obtenus<br />
sur 3 000 cas ambigus extraits de la partie Wall Street Journal du Penn TreeBank par<br />
différentes méthodes : 81,6% avec une méthode supervisée utilisant un modèle<br />
d’entropie maximale (Ratnaparkhi et al., 1994), 88,1% avec une méthode supervisée<br />
utilisant un dictionnaire sémantique (Stetina, Nagao, 1997) et 84.3% avec une méthode<br />
non supervisée utilisant des mots distributionnellement proches (Pantel et Lin, op.cit.).<br />
Mais puisque les langues, le type de corpus de test et les conventions d’annotations sont<br />
différentes, il est délicat de comparer ces chiffres avec ceux que nous présentons dans le<br />
tableau 3.<br />
Les ressources de sous-catégorisation <strong>syntaxique</strong> construites à partir du corpus LM10<br />
sont exploitées par l’<strong>analyseur</strong> sans avoir été validées manuellement, et les résultats<br />
montrent qu’elles sont performantes pour cette tâche. Il convient de préciser que, sur le<br />
plan linguistique, ces propriétés de sous-catégorisation ne sont pas comparables aux<br />
descriptions que l’on peut trouver dans des lexiques construits à la main, comme le<br />
119
Lexique Grammaire ou le lexique Dicovalence 44 , dans les dictionnaires de langue ou<br />
dans les études de psycholinguistique. C’est vrai particulièrement pour les verbes. La<br />
probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de<br />
toutes les occurrences (lemmatisées) de ce verbe, sans distinction des différentes<br />
acceptions du verbe, alors que l’on sait qu’un même verbe peut avoir des cadres de souscatégorisation<br />
différents selon ses différents sens. Dans le contexte du développement<br />
d’un <strong>analyseur</strong> <strong>syntaxique</strong> « tout terrain », l’approximation à laquelle conduit ce lissage<br />
des sens est un mal nécessaire.<br />
3.2.11. Attachement des adjectifs<br />
Représentation<br />
La relation épithète, notée ADJ, a pour source un nom et pour cible un adjectif<br />
qualificatif, un participe passé ou un participe présent. L’adjectif peut être antéposé.<br />
Dans le cas d’une coordination de noms gouverneurs, la relation a pour source le<br />
coordonnant. Dans le cas d’une coordination de dépendants, la relation a pour cible le<br />
coordonnant.<br />
Recherche des gouverneurs candidats<br />
Après avoir testé la possibilité d’un gouverneur à droite, dans le cas d’un adjectif<br />
qualificatif, le module chercherCandidatAdj remonte la séquence à gauche à la<br />
recherche de noms gouverneurs candidats. S’il rencontre un nom, il teste l’accord, retient<br />
ce nom s’il n’y pas d’incompatibilité, et dans tous les cas poursuit au gouverneur de ce<br />
nom. Dans le cas de noms coordonnés, s’il y a accord avec le premier de ces noms (le<br />
plus à droite), le module retient uniquement celui-ci, et remonte au gouverneur du<br />
coordonnant (exemples 1 et 2). S’il n’y a pas accord avec le premier nom, il peut retenir<br />
dans certains cas le coordonnant comme gouverneur candidat (exemples 3 et 4). La<br />
recherche s’arrête si le gouverneur d’un nom retenu comme gouverneur candidat est<br />
situé à droite de l’adjectif. Dans l’exemple 5, la recherche de gouverneurs candidats pour<br />
l’adjectif stratégique s’arrête au nom plan, antécédent du pronom relatif lequel situé à<br />
droite de l’adjectif, et ne se poursuit donc pas au nom mouture.<br />
(1) Il se traduit dans l' agencement des tables, l' accueil prévenant et la cuisine<br />
désormais très personnelle de l' ancien chef du restaurant Le Quai d' Orsay.<br />
[LMO]<br />
(2) Les artistes et les musiciens contemporains. [LMO]<br />
44 http://bach.arts.kuleuven.be/dicovalence/<br />
120
(3) Exeunt les représentants de l' Etat et les mutuelles , considérés comme<br />
« juge et partie ». [LMO]<br />
(4) Il s’agit de connaître la nature et la structure exactes des terrains<br />
sédimentaires sur lesquels la ville de Grenoble est construite. [LMO]<br />
(5) La première mouture du plan stratégique , dans lequel le statut<br />
de l' AFP est identifié comme un frein à son développement. [LMO]<br />
Indices et stratégie de désambiguïsation<br />
Le module choisirCandidatAdj n’utilise qu’un indice, de type endogène. Soit a l’adjectif<br />
et {ci, i=1, …, n} les gouverneurs candidats. L’indice Fi pour le candidat ci est égal à la<br />
fréquence du triplet (ci,ADJ,a). Le module choisit le candidat qui a l’indice le plus élevé,<br />
ou, par défaut, il laisse l’ambiguïté, qui sera prise en charge par le module de<br />
désambiguïsation globale (section 3.2.12). Dans l’exemple 6, le module choisit le<br />
gouverneur information, car le triplet (information,ADJ,judiciaire) a été extrait de<br />
nombreuses fois dans le corpus dans des contextes non ambigus. Dans le cas où le<br />
dépendant est un participe passé, le module choisirCandidatAdj utilise un second indice<br />
endogène, qui est égal à la fréquence du triplet (a,OBJ, ci). Dans l’exemple 7, le module<br />
choisit pour le participe passé déposée le nom plainte, car le triplet (déposer,obj,plainte)<br />
a une fréquence non nulle.<br />
(6) Cela permet aussitôt l'ouverture d'une nouvelle information + judiciaire.<br />
[LMO]<br />
(7) Le tribunal des prud'hommes devait juger une plainte+ pour discrimination<br />
déposée par six militants de la CGT. [LMO]<br />
3.2.12. Procédure de désambiguïsation globale<br />
La tâche de désambiguïsation des liens PREP et ADJ est réalisée par un module<br />
spécifique qui intervient sur le treillis des liens placés par ces modules<br />
chercherCandidatPrep et chercherCandidatAdj. La stratégie de désambiguïsation<br />
exploite la contrainte de projectivité : au sein d’une séquence, deux liens <strong>syntaxique</strong>s ne<br />
peuvent se croiser, sauf exceptions répertoriées. Dans le treillis de liens <strong>syntaxique</strong>s, il y<br />
a deux types de liens : les liens surs, pour lesquels les source et cible sont des mots<br />
uniques, et les liens possibles qui pointent sur le même dépendant et qui sont<br />
incompatibles entre eux. La stratégie de désambiguïsation est simple, elle comporte trois<br />
étapes.<br />
1- Elagage préliminaire. Le module calcule d’abord les croisements entre liens<br />
<strong>syntaxique</strong>s. Dès qu’il repère un croisement entre un lien sûr et un lien possible, il<br />
élimine le lien possible, ce qui élimine un gouverneur de la liste des candidats<br />
121
gouverneurs du mot sur lequel pointait le lien possible. Dans l’exemple 1, le lien<br />
entre donne et à et le lien entre bonbon et à sont des liens possibles, incompatibles<br />
entre eux. Le lien entre bonbon et rose est un lien sûr. Il y a croisement entre ce lien<br />
et le premier des deux liens pointant sur à, qui est alors éliminé. Le rattachement de<br />
la préposition à est désambiguïsé.<br />
(1) Il donne des bonbons à la fraise roses.<br />
(1’) Il donne des bonbons à la fraise roses.<br />
2- Prise en compte des indices positifs. Le module parcourt la séquence de gauche à<br />
droite. Si le mot courant est ambigu, c’est-à-dire qu’il a plusieurs gouverneurs<br />
candidats, il lance le module de désambiguïsation correspondant<br />
(choisirCandidatPrep ou choisirCandidatAdj, selon la catégorie du mot). Je rappelle<br />
que ces modules de désambiguïsation ne prennent aucune décision lorsque aucun<br />
indice positif ne permet de choisir un gouverneur candidat. Si aucun candidat n’est<br />
sélectionné, le module passe au mot suivant. Si un candidat est sélectionné, il place<br />
le lien de dépendance entre ce gouverneur et le mot courant, en éliminant tous les<br />
liens possibles qui pointaient vers ce dernier. Puis il élimine le cas échéant les liens<br />
possibles qui croisent ce nouveau lien sûr. La désambiguïsation d’un lien peut ainsi<br />
réduire l’ambiguïté d’autres mots de la séquence 45 . Par exemple, dans l’exemple 3,<br />
aucun indice ne permet de lever l’ambiguïté sur le gouverneur de la préposition de<br />
(affiche ou volonté). Puis aucun indice ne permet de lever l’ambiguïté sur le<br />
gouverneur de l’adjectif franche (volonté ou discussion). En revanche, parmi les<br />
gouverneurs candidats de la préposition avec, le nom discussion possède un indice<br />
positif : la probabilité exogène que ce nom se construise avec la préposition avec est<br />
de 0.11 (ProbaExo(discussion,avec)=0.11). Le lien <strong>syntaxique</strong> entre discussion et<br />
avec est retenu comme sûr, ce qui conduit à l’élimination des autres liens pointant<br />
sur avec, ainsi que celle du lien possible entre volonté et franche. Le rattachement<br />
de l’adjectif est alors désambiguïsé (exemple 3’).<br />
3- Décisions par défaut. Le module parcourt une seconde fois la séquence de gauche à<br />
droite. Si le mot courant est ambigu, il applique la règle de rattachement par défaut :<br />
si le mot est une préposition, il choisit le dernier candidat, c’est-à-dire le plus<br />
éloigné de la préposition, dans le cas où la préposition n’est pas de, il choisit le<br />
premier si la préposition est de ; si le mot est un adjectif, il choisit le premier<br />
45 Il est possible d’imaginer des procédures de désambiguïsation globale différentes de celle présentée dans<br />
cette section : par exemple, plutôt que de résoudre en parcourant les mots de gauche à droite, il serait possible<br />
de le faire en parcourant les liens possibles par indice de confiance décroissant. Les gains seraient, je pense,<br />
relativement marginaux.<br />
122
candidat. Après chaque application d’une règle par défaut, le module élimine le cas<br />
échéant des liens possibles croisants.<br />
(3) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.<br />
(3’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.<br />
(3’’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.<br />
3.2.13. Analyse profonde<br />
<strong>Un</strong> certain de nombre de liens <strong>syntaxique</strong>s (ne) peuvent être placés (qu’) en fin<br />
d’analyse, quand la plupart des liens <strong>syntaxique</strong>s qui structurent la séquence ont été<br />
posés par les différents modules décrits jusqu’ici. Ces liens correspondent pour certain à<br />
une analyse dite « profonde ». La combinaison de techniques d’analyse superficielle et<br />
profonde est une problématique d’actualité. Blache (2005) dresse un bilan sur les<br />
différentes approches testées pour combiner ces analyses. Il identifie 4 types<br />
d’approches : (1) L’approche pré-traitement, où l’entrée a été préformatée avec des<br />
outils de désambiguïsation morpho<strong>syntaxique</strong> et de reconnaissances d’entités nommées ;<br />
(2) l’approche pré-analyse, où l’entrée est le résultat d’une analyse superficielle ; (3)<br />
l’approche contrôle, dans laquelle un <strong>analyseur</strong> profond est guidé par un <strong>analyseur</strong><br />
superficiel ; (4) l’approche granularité variable, dans laquelle la finesse d’un même<br />
<strong>analyseur</strong> peut être réglée en fonction des objectifs (op. cit., pp. 96-98). Blache et al.<br />
(2002) proposent un <strong>analyseur</strong> du dernier type, basé sur les contraintes, dans lequel les<br />
seuils et les types de contraintes sont les variables de réglage. Dans <strong>SYNTEX</strong>, certaines<br />
des analyses que l’on qualifie de profondes sont réalisées en fin de traitement par ce<br />
module final. Les principales analyses effectuées par ce module concernent le repérage<br />
de dépendances non bornées et celui des sujets logiques de l’infinitif.<br />
Dépendances non bornées avec relatif<br />
Le phénomène de dépendance non bornée est « le fait que deux éléments liés l’un à<br />
l’autre se trouvent à une distance structurelle (en termes de dépendances <strong>syntaxique</strong>s)<br />
potentiellement illimitée » (Kahane, 2002, p. 51). Le module traite certains cas de<br />
dépendance non bornée mettant en jeu des relatives (du type « l’homme avec lequel je<br />
souhaite manger » ou « l’homme auquel je cherche à parler »), dans lesquels le pronom<br />
relatif est gouverné par une préposition, et le verbe de la relative gouverne directement<br />
123
ou indirectement un infinitif. Dans ce cas, la source du lien de dépendance pointant sur<br />
la préposition, est déplacée du verbe de la relative au verbe infinitif (exemples 1 et 1’, 2<br />
et 2’). Dans l’état actuel de l’<strong>analyseur</strong>, l’ambiguïté de rattachement n’est pas traitée, le<br />
verbe infinitif est systématiquement choisi, alors que le verbe de la relative peut être le<br />
bon gouverneur (exemples 3 et 3’). Le module traite aussi certains cas d’extraction<br />
(exemples 4 et 4’).<br />
(1) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord . [LMO]<br />
(1’) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord. [LMO]<br />
(2) <strong>Un</strong> projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO]<br />
(2’) <strong>Un</strong> projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO]<br />
(3) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO]<br />
(3’) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO]<br />
(4) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO]<br />
(4’) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO]<br />
124
Dans le cas de dépendances non bornées impliquant le pronom relatif que, le traitement<br />
est plus complexe, pour tenir compte d’une possible erreur d’étiquetage de cette forme,<br />
et la corriger le cas échéant. Si le verbe à l’infinitif est transitif et n’a pas d’objet, la<br />
source du lien objet qui pointe sur que est déplacée du verbe principal au verbe à<br />
l’infinitif (exemples 5 et 5’). Si le verbe à l’infinitif a déjà un objet, le module constate<br />
une incompatibilité. Il réétiquette le mot que en conjonction de subordination et<br />
transforme le lien objet entre le verbe conjugué et que en un lien de subordination entre<br />
que et le verbe (exemples 6 et 6’).<br />
(5) Le bouclier que ProRel Washington tient à déployer a des effets déstabilisants.<br />
[LMO]<br />
(5’) Le bouclier que ProRel Washington tient à déployer a des effets déstabilisants.<br />
[LMO]<br />
(6) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste<br />
que ProRel nous continuerons à exercer notre activité. [LMO]<br />
(6’) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste<br />
que CSub nous continuerons à exercer notre activité. [LMO]<br />
Sujet logique des infinitifs<br />
Le module traite le cas des sujets des infinitifs. Il ajoute une relation Sujet logique qui<br />
part de l’infinitif vers un des dépendants du verbe gouverneur. Le module utilise des<br />
listes de verbes. Dans les exemples 7 à 9, le sujet de l’infinitif est le sujet du verbe à<br />
contrôle. Dans les exemples 10 et 11, le sujet de l’infinitif est le complément d’objet du<br />
verbe à contrôle. Dans les exemples 12 et 13, le sujet de l’infinitif est un complément<br />
indirect du verbe à contrôle.<br />
(7) Rares sont les hommes politiques et les intellectuels qui osent s'opposer à la<br />
croisade sanglante menée par Vladimir Poutine dans le Caucase du Nord.<br />
(8) Tous les économistes s'accordent à dire qu'elle se situe à la marge.<br />
(9) Sensibles aux barrières symboliques, les opérateurs risqueraient alors de<br />
fuir en masse.<br />
(10) Nous avons décidé d'occuper le terrain militaire pour forcer l'Etat Français à<br />
engager le règlement politique de la question corse.<br />
125
(11) Cela ne devrait pas empêcher les partisans de la démocratie de mettre ses<br />
bonnes intentions à l'épreuve.<br />
(12) Elle reproche à France-Télécom d'abuser de sa position dominante dans les<br />
communications locales.<br />
(13) Ce texte interdit notamment aux enfants de voyager sur des strapontins.<br />
Analyse globale<br />
Enfin, le module construit la forme <strong>syntaxique</strong> finale de la séquence, en termes de<br />
succession de clauses. Chaque clause est la projection d’un mot non gouverné.<br />
L’algorithme de construction de cette forme est simple. Le résultat de cette construction<br />
est la forme globale de la séquence, telle qu’elle est obtenue à l’issue d’une phase<br />
d’analyse exclusivement ascendante au cours de laquelle l’<strong>analyseur</strong> a cherché à lier<br />
autant que possible chacun des mots de la séquence à un gouverneur <strong>syntaxique</strong>. A partir<br />
de cette forme globale, on peut envisager une phase d’analyse descendante,au cours de<br />
laquelle l’<strong>analyseur</strong> a une vision globale des clauses construites lors de la première<br />
phase, vision globale qui peut lui permettre de compléter l’analyse <strong>syntaxique</strong>. Dans<br />
l’état actuel du développement de <strong>SYNTEX</strong>, cette étape d’analyse descendante reste<br />
marginale. Le seul traitement effectué est le rattachement de certaines prépositions<br />
précédées d’une virgule (exemples 4 et 5). Les recherches pour reconnaître, avec cette<br />
nouvelle perspective, de nouveaux liens, ou pour corriger des liens existants, se<br />
poursuivent…<br />
(3) Il refuse de créer avec lui , hors de tout cadre légal , une hypothétique entité<br />
constitutionnelle basque . [MON]<br />
(4) Comme le fut en son temps , dans les mêmes conditions , le Tornado , le nouvel<br />
avion de combat européen est très inspiré par la « culture » militaro-industrielle<br />
britannique . [MON]<br />
(5) Le FBI estime que, pendant la même période, plus de cent personnes pourraient<br />
avoir été enterrées dans des fosses communes. [LMO]<br />
3.2.14. Evaluation<br />
126<br />
SUJ<br />
OBJ<br />
COMP<br />
Je présente les résultats obtenus dans le cadre de la campagne nationale EASY 46<br />
d’évaluation des <strong>analyseur</strong>s <strong>syntaxique</strong>s du français. Cette campagne était une des 8<br />
46 http://www.limsi.fr/Recherche/CORVAL/easy/
campagnes d’évaluation des technologies de la langue du projet EVALDA 47 , piloté par<br />
l’agence ELDA et financé par le Ministère français en charge de la Recherche dans le<br />
cadre du programme Technolangue (décembre 2002 - avril 2006). Les organisateurs de<br />
la campagne EASY ont été l’agence ELDA et le laboratoire LIMSI du CNRS. Dans cette<br />
campagne, les 15 <strong>analyseur</strong>s ont participé à la compétition, provenant de 13 participants<br />
différents : <strong>ERSS</strong>, FT R&D, INRIA, LATL, LIC2M, LIRMM, LORIA, LPL, STIM,<br />
SYNAPSE, SYSTAL, TAGMATICA, VALORIA et XRCE. Les corpus annotés ont été<br />
fournis par 5 partenaires : l’ATILF, le LLF, le DELIC, le STIM et ELDA. La tâche des<br />
fournisseurs de corpus a consisté en la collecte du corpus de différents genres de textes<br />
et en leur annotation (tableau 10). Les différents corpus sont les suivants : Web, des<br />
pages WEB du site ELDA ; Le Monde, des articles du journal Le Monde ; Parlement,<br />
des transcriptions de débats parlementaires (Sénat français et Parlement Européen) ;<br />
Littérature, des textes littéraires, issus de la base Frantext de l’ATILF ; Mail, des<br />
emails ; Médical, des textes médicaux (pathologies et traitements) ; Oral, des<br />
transcriptions de parole ; Questions, des questions, issues de la campagne EQUER.<br />
Le protocole d’évaluation EASY supposait que tous les participants adoptent la même<br />
segmentation en mots et en énoncés. En concertation avec les participants, les<br />
organisateurs ont défini un formalisme et des conventions d’annotation censés permettre<br />
d’exprimer l’essentiel d’une annotation <strong>syntaxique</strong> quelle que soit sont type (de surface<br />
ou profonde, complète ou partielle), ceci sans privilégier une approche particulière. Le<br />
formalisme d’annotation EASY permet d’annoter des constituants continus et<br />
non-récursif, ainsi que des relations <strong>syntaxique</strong>s. Les relations peuvent associer<br />
indifféremment des mots ou des constituants. Dans EASY, il y a 6 types de constituants :<br />
nominal, adjectival, prépositionnel, adverbial, verbal et prépositionnel-verbal. Il y a 14<br />
types de relations fonctionnelles : sujet-verbe, auxilliaire-verbe, complément d’objet<br />
direct, complément-verbe, modifieur de nom, modifieur de verbe, modifieur d’adjectif,<br />
modifieur d’adverbe, modifieur de préposition, complémenteur, attribut du sujet/objet,<br />
coordination, apposition, juxtaposition. Pour plus de détails, voir (Vilnat et al., 2004)<br />
(Paroubek & Robba, 2006) (Paroubek et al., 2007).<br />
Nous n’avons participé qu’à l’évaluation sur les relations, puisque <strong>SYNTEX</strong> ne fabrique<br />
pas de constituants. Par ailleurs, j’avais décidé d’emblée de ne pas fournir de résultats<br />
sur les corpus Oral et Mail, pour marquer le fait que <strong>SYNTEX</strong> n’avait pas été conçu pour<br />
traiter des corpus de n’importe quel type, mais qu’il avait été mis au point pour, et été<br />
testé sur, des corpus qui respectent les normes <strong>syntaxique</strong>s de l’écrit standard.<br />
L’essentiel du travail a consisté, d’une part, à réaliser les programmes de conversion en<br />
amont de l’<strong>analyseur</strong>, pour prendre en entrée le découpage en mots fourni par les<br />
organisateurs, et en aval de l’<strong>analyseur</strong>, pour rendre les résultats dans le format XML<br />
demandé, et, d’autre part, à compléter l’<strong>analyseur</strong> pour qu’il traite correctement des<br />
47 http://www.elda.org/<br />
127
elations (locales) sur lesquelles j’avais alors peu avancé. L’ensemble de ces tâches a été<br />
mené à bien, de main de maître, par Marie-Paule Jacques 48 .<br />
Je présente dans les tableaux 12a-h les résultats, pour les relations, de tous les <strong>analyseur</strong>s<br />
sur tous les corpus, en termes de précision, rappel et f-mesure. Le tableau 11 rassemble<br />
ces résultats pour <strong>SYNTEX</strong>, sur les 6 corpus qu’il a traités. On constate que <strong>SYNTEX</strong> est<br />
classé premier partout, sauf en rappel sur les corpus Littéraire (3 ème ), Le Monde (3 ème ) et<br />
Parlement (2 ème ). Le résultat le plus remarquable est l’écart entre <strong>SYNTEX</strong> et ses suivants<br />
en terme de précision : en moyenne 10 points de précision en plus.<br />
Corpus Fournisseur Enoncés Mots Enoncés Mots<br />
annotés annotés<br />
Web ELDA 836 16 786 77 2 104<br />
Le Monde LLF 2 950 86 273 380 10 081<br />
Parlement ELDA 2 818 81 310 276 7 551<br />
Littérature ATILF 8 062 229 894 892 24 358<br />
Mail ELDA 7 976 149 328 852 9 243<br />
Médical STIM 2 270 48 858 554 11 799<br />
Oral DELIC 522 8 106 505 8 117<br />
Questions ELDA 3 528 51 546 203 4 116<br />
Tableau 10. Les corpus de la campagne EASY<br />
Corpus Précision Rappel F mesure<br />
r S-n°2 r S-n°1 r S-n°2<br />
Web 0.80 1 + 0.11 0.60 1 0 0.69 1 + 0.12<br />
Médical 0.79 1 + 0.14 0.63 1 0 0.70 1 + 0.07<br />
Littéraire 0.80 1 + 0.12 0.55 3 - 0.07 0.65 1 + 0.03<br />
Le Monde 0.76 1 + 0.10 0.58 3 - 0.02 0.66 1 + 0.04<br />
Parlement 0.75 1 + 0.11 0.57 2 - 0.02 0.64 1 + 0.05<br />
Questions 0.77 1 + 0.09 0.63 1 0 0.70 1 + 0.05<br />
Mail<br />
Oral<br />
Tableau 11. Résultats de <strong>SYNTEX</strong> dans la compagne EASY (pour les relations), sur 6<br />
corpus. Précision, rappel et f-mesure, avec le rang de classement (r) et l’écart avec<br />
l’<strong>analyseur</strong> classé deuxième pour la précision et la f-mesure (S-n°2), et l’écart avec<br />
l’<strong>analyseur</strong> classé premier pour le rappel (S-n°1).<br />
48 Elle était alors jeune doctorante au sein de l’<strong>ERSS</strong>. Je la remercie ici chaleureusement, et je suis heureux de<br />
partager avec elle la joie de voir d’avoir obtenu de si bons résultats.<br />
128
p r f<br />
P1 0.59 0.51 (3) 0.55 (3)<br />
P2 0.42 0.16 0.23<br />
P3 - - -<br />
P4 0.55 0.33 0.42<br />
P5 0.55 0.44 0.49<br />
P6 0.46 0.41 0.43<br />
P7 0.61 0.39 0.47<br />
Sy 0.80 (1) 0.60 (1) 0.69 (1)<br />
P9 0.69 (2) 0.30 0.42<br />
P10 0.60 0.55 (2) 0.57 (2)<br />
P11 0.67 (3) 0.06 0.11<br />
P12 0.41 0.29 0.34<br />
P13 0.27 0.24 0.26<br />
P14 - - -<br />
P15 0.34 0.32 0.33<br />
Tableau 12a. Résultats EASY<br />
(relations) sur le corpus Web<br />
p r f<br />
P1 0.61 0.54 0.58<br />
P2 0.08 0.04 0.05<br />
P3 0.58 0.62 (1) 0.60 (3)<br />
P4 0.53 0.36 0.43<br />
P5 0.51 0.41 0.46<br />
P6 - - -<br />
P7 0.68 (2) 0.43 0.52<br />
Sy 0.80 (1) 0.55 (3) 0.65 (1)<br />
P9 0.02 0.01 0.02<br />
P10 0.64 (3) 0.61 (2) 0.62 (2)<br />
P11 0.64 0.09 0.16<br />
P12 0.39 0.27 0.32<br />
P13 0.43 0.38 0.40<br />
P14 - - -<br />
P15 0.38 0.31 0.34<br />
Tableau 12c. Résultats EASY<br />
(relations) sur le corpus Littéraire<br />
129<br />
p r f<br />
P1 0.60 0.53 0.56<br />
P2 0.07 0.04 0.05<br />
P3 0.64 (3) 0.63 (2) 0.63 (2)<br />
P4 0.28 0.20 0.23<br />
P5 0.56 0.49 0.52<br />
P6 - - -<br />
P7 0.65 (2) 0.44 0.53<br />
Sy 0.79 (1) 0.63 (1) 0.70 (1)<br />
P 9 0.04 0.02 0.03<br />
P10 0.61 0.59 (3) 0.60 (3)<br />
P11 0.62 0.10 0.17<br />
P12 0.43 0.33 0.38<br />
P13 0.36 0.33 0.34<br />
P14 - - -<br />
P15 0.33 0.28 0.30<br />
Tableau 12b. Résultats EASY<br />
(relations) sur le corpus Médical<br />
p r f<br />
P1 0.57 0.52 0.54<br />
P2 0.32 0.12 0.17<br />
P3 0.63 (3) 0.60 (1) 0.62 (2)<br />
P4 0.58 0.32 0.41<br />
P5 0.56 0.46 0.51<br />
P6 0.42 0.34 0.38<br />
P7 0.66 (2) 0.43 0.52<br />
Sy 0.76 (1) 0.58 (3) 0.66 (1)<br />
P9 - - -<br />
P10 0.61 0.59 (2) 0.60 (3)<br />
P11 0.60 0.07 0.13<br />
P12 0.41 0.29 0.34<br />
P13 0.36 0.32 0.34<br />
P14 - - -<br />
P15 0.34 0.29 0.31<br />
Tableau 12d. Résultats EASY<br />
(relations) sur le corpus Le Monde
p r f<br />
P1 0.58 0.52 0.55<br />
P2 0.29 0.11 0.16<br />
P3 0.59 0.59 (1) 0.59 (2)<br />
P4 0.55 0.32 0.40<br />
P5 0.53 0.43 0.47<br />
P6 0.41 0.34 0.37<br />
P7 0.64 (2) 0.41 0.50<br />
Sy 0.75 (1) 0.57 (2) 0.64 (1)<br />
P9 - - -<br />
P10 0.58 0.56 (3) 0.57 (3)<br />
P11 0.60 (3) 0.08 0.14<br />
P12 0.37 0.24 0.29<br />
P13 0.34 0.31 0.32<br />
P14 - - -<br />
P15 0.34 0.29 0.31<br />
Tableau 12e. Résultats EASY<br />
(relations) sur le corpus Parlement<br />
p r f<br />
P1 0.57 0.48 (3) 0.52 (3)<br />
P2 0.13 0.05 0.08<br />
P3 0.60 (3) 0.55 (1) 0.57 (1)<br />
P4 0.55 0.04 0.07<br />
P5 0.50 0.40 0.44<br />
P6 - - -<br />
P7 0.64 (2) 0.36 0.46<br />
Sy - - -<br />
P9 0.04 0.02 0.03<br />
P10 0.57 0.52 (2) 0.55 (2)<br />
P11 0.66 (1) 0.01 0.02<br />
P12 0.39 0.24 0.30<br />
P13 0.45 0.36 0.40<br />
P14 - - -<br />
P15 0.41 0.29 0.34<br />
Tableau 12g. Résultats EASY<br />
(relations) sur le corpus Mail<br />
130<br />
p r f<br />
P1 0.68 (2) 0.62 (2) 0.65 (2)<br />
P2 0.16 0.06 0.09<br />
P3 0.66 0.61 (3) 0.64 (3)<br />
P4 0.67 (3) 0.56 0.61<br />
P5 0.45 0.38 0.41<br />
P6 - - -<br />
P7 0.67 0.43 0.52<br />
Sy 0.77 (1) 0.63 (1) 0.70 (1)<br />
P9 0.11 0.05 0.07<br />
P10 0.64 0.61 0.62<br />
P11 0.61 0.09 0.16<br />
P12 0.48 0.35 0.40<br />
P13 0.35 0.31 0.33<br />
P14 - - -<br />
P15 0.36 0.29 0.32<br />
Tableau 12f. Résultats EASY<br />
(relations) sur le corpus Questions<br />
p r f<br />
P1 0.61 (3) 0.49 (1) 0.54 (1)<br />
P2 0.33 0.09 0.14<br />
P3 0.56 0.48 (3) 0.51 (2)<br />
P4 0.56 0.39 0.46<br />
P5 0.51 0.36 0.43<br />
P6 - - -<br />
P7 0.63 (2) 0.33 0.43<br />
Sy - - -<br />
P9 0.26 0.09 0.13<br />
P10 0.52 0.48 (2) 0.50 (3)<br />
P11 0.65 (1) 0.10 0.18<br />
P12 0.34 0.21 0.26<br />
P13 - - -<br />
P14 - - -<br />
P15 - - -<br />
Tableau 12h. Résultats EASY<br />
(relations) sur le corpus Oral
3.3. Discussion<br />
Pour conclure ce mémoire, je consacre cette dernière section à une discussion<br />
épistémologique sur le statut de l’<strong>analyseur</strong> <strong>SYNTEX</strong> et sur la valeur des connaissances<br />
générées par le projet de recherche décrit dans ce mémoire. Dans une première partie<br />
(section 3.3.1), je situe les recherches présentées dans ce mémoire par rapport au<br />
paradigme des grammaires formelles, qui domine largement le domaine de l’analyse<br />
<strong>syntaxique</strong> au sein du TAL depuis les travaux de N. Chomsky. Je reprends<br />
l’argumentation épistémologique de Jean-Marie Marandin (1993), à propos de<br />
l’inadéquation des grammaires formelles pour l’analyse d’énoncés réels. Je discute<br />
ensuite les oppositions entre approche procédurale et approche déclarative, et entre<br />
analyse et génération. J’insiste sur le rôle central de la grammaire traditionnelle, tant<br />
pour le projet de la Grammaire Générative Transformationnelle, que pour celui du<br />
développement d’un <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>. Je conclus cette section sur la<br />
nécessité de choisir un cadre épistémologique au sein duquel il soit possible de penser le<br />
statut et la valeur de connaissances des objets techniques réalisés par l’ingénierie<br />
linguistique. Dans la deuxième partie de cette section (3.3.2), je me situe dans le cadre<br />
épistémologique de la philosophie de la technique de Gilbert Simondon. Je montre<br />
comment les concepts d’adaptation et d’auto-corrélation élaborés par Simondon<br />
permettent de décrire de façon particulièrement éclairante le processus de<br />
développement de l’<strong>analyseur</strong> <strong>SYNTEX</strong> en tant qu’objet technique. La dernière partie de<br />
cette section (3.3.3) pose la question du savoir sur la langue produit par le projet<br />
<strong>SYNTEX</strong>, et y répond, partiellement, en proposant d’utiliser l’<strong>analyseur</strong> comme un<br />
instrument d’observation en corpus des structures <strong>syntaxique</strong>s de la langue.<br />
3.3.1. Situation par rapport au paradigme formel<br />
La critique de J.-M. Marandin (1993)<br />
Dans un article de la revue Traitement Automatique des Langues publié en 1993,<br />
Jean-Marie Marandin expose une critique épistémologie du principe de l’utilisation des<br />
grammaires formelles en analyse <strong>syntaxique</strong> automatique (Marandin, 1993). Le point de<br />
départ de sa réflexion est la question suivante : « Quel statut (…) prend, ou peut prendre,<br />
un <strong>analyseur</strong> dans un programme de recherche consacrée au langage » (op. cit., p. 5).<br />
Marandin examine le statut de l’<strong>analyseur</strong> <strong>syntaxique</strong> dans trois programmes de<br />
recherche : le Traitement du Langage Naturel, la syntaxe et la compréhension. Je me<br />
concentre ici sur ce que dit Marandin du premier programme, le plus proche de mon<br />
propre projet. Marandin nomme ce projet « 3A », pour Analyse Automatique Autonome,<br />
et il le définit ainsi : « concevoir, étant donné une grammaire, l’algorithme ou<br />
l’heuristique qui permet de décrire des énoncés dans les termes de cette grammaire ;<br />
implémenter la procédure ». Marandin affirme que, bien que les tenants de ce<br />
131
programme s’en défendent ou bien l’ignorent, ce programme est entièrement déterminé<br />
par la problématique de la Grammaire Générative transformationnelle (GGT) dans sa<br />
version standard, puisque, de fait, l’<strong>analyseur</strong> 3A occupe la place du dispositif de<br />
performance telle qu’elle est définie dans ce cadre théorique. Or, explique Marandin, « il<br />
est faux de considérer que l’appareil de performance, tel que le propose la GGT, en<br />
particulier Chomsky dans Aspects, soit réductible à une pure application des règles<br />
<strong>syntaxique</strong>s » (op. cit., p. 12), et il poursuit en citant N. Chomsky : « la grammaticalité<br />
est seulement l’un des nombreux facteurs qui, par leur interaction, déterminent<br />
l’acceptabilité [des énoncés] » (Chomsky, 1971, p. 23). Ainsi, selon Marandin, les<br />
difficultés rencontrées par 3A dans la mise en œuvre effective de son programme<br />
viennent d’une inadéquation de fond entre le dispositif abstrait des grammaires<br />
formelles, emprunté au cadre théorique de la GGT dans lequel il est exploité pour<br />
générer des phrases grammaticales, et la fonction assignée à l’<strong>analyseur</strong> par le<br />
programme 3A, à savoir de produire automatiquement des descriptions <strong>syntaxique</strong>s<br />
d’énoncés appréhendés dans des échanges langagiers. <strong>Un</strong> énoncé n’est que partiellement<br />
organisé par la grammaire conçue comme un système de règles de bonne formation (voir<br />
section 3.1.2). L’énoncé est hétérogène, en tant que résultat intriqué de l’interaction de<br />
plusieurs principes organisationnels, et cela se marque dans la forme même des énoncés :<br />
« le système des circonstanciels, par exemple, échappe en grande partie au contrôle de la<br />
syntaxe ; il en est de même pour les différents système d’anaphore et certains aspects de<br />
la sous-catégorisation verbale quand on ne se laisse pas leurrer par le dogme de la<br />
projection (ou ses équivalents) » (Marandin, 1993, p. 14).<br />
Procéduralité vs. déclarativité<br />
On a vu dans le chapitre 2 que l’arrivée sur le devant de la scène des grammaires<br />
d’unification pour l’analyse <strong>syntaxique</strong>, est concomitant du discrédit dans lequel tombe<br />
le paradigme des ATN, au moment où l’Intelligence Artificielle promeut la déclarativité<br />
au rang de principe incontournable. Le principe de la séparation des règles de grammaire<br />
et des algorithmes, cher à Yngve dès les années 1950, est un principe essentiel du<br />
paradigme formel. S’écarter de ce paradigme impose-t-il de renoncer au principe de la<br />
séparation ? La question est ouverte. Parmi les travaux en analyse <strong>syntaxique</strong> robuste<br />
présentés dans le chapitre 2, la plupart s’inscrivent dans une philosophie procédurale.<br />
P. S. Garvin, dès 1967, remet en cause le principe d’une tripartition des <strong>analyseur</strong><br />
<strong>syntaxique</strong>s (dictionnaire électronique, base de règles grammaticales, algorithme<br />
d’analyse) avec l’argument que dès que la grammaire atteint une taille réaliste, il n’est<br />
plus possible de maintenir le principe d’une indépendance entre les règles et les<br />
algorithmes, qui rend possible la modification ou l’ajout des règles sans qu’il soit<br />
nécessaire de modifier l’algorithme. Son <strong>analyseur</strong> <strong>syntaxique</strong> pour le russe est un<br />
système bipartite, constitué d’un dictionnaire et d’un algorithme. Il en est de même de<br />
<strong>SYNTEX</strong>. Les connaissances grammaticales sont incluses, « encapsulées », dans les<br />
algorithmes. Le grammairien concepteur doit maîtriser intégralement, à la fois le<br />
développement des algorithmes locaux de reconnaissance <strong>syntaxique</strong>, et la mise au point<br />
de l’architecture globale de l’<strong>analyseur</strong>.<br />
Analyse vs. génération<br />
132
<strong>Un</strong> autre dogme du paradigme formel est celui de la réversibilité. L’un des intérêts<br />
affichés des grammaires formelles est qu’elles sont censées pouvoir fonctionner en<br />
analyse et en génération. Tous les travaux en analyse <strong>syntaxique</strong> robuste se consacrent<br />
exclusivement à la tâche d’analyse, et c’est peut-être l’une des raisons de leur succès.<br />
Peut-être faut-il assumer le fait qu’en Traitement Automatique des Langues les tâches<br />
d’analyse et de génération sont radicalement différentes, et donc qu’elles exigent des<br />
choix méthodologiques potentiellement différents ? S. Kahane explique que « le choix<br />
d’un ensemble de fonctions <strong>syntaxique</strong>s est directement lié à la façon dont seront écrites<br />
les règles de pronominalisation, linéarisation, redistribution ou coordination » (Kahane,<br />
2001, p. 25). Les règles évoquées sont des règles de génération. Par exemple, il faut<br />
deux relations différentes, complément oblique et complément locatif, pour distinguer la<br />
relation entre compte et sur dans Marie compte sur Pierre de la relation entre pose et sur<br />
dans Marie pose le livre sur la table, de façon à gérer correctement les différences de<br />
pronominalisation en y. En analyse, ces contraintes sur le degré de finesse de la<br />
description <strong>syntaxique</strong> ne s’appliquent pas nécessairement. C’est sans doute sur le<br />
lexique que l’impact du choix entre analyse et génération est le plus fort. En génération,<br />
il est crucial de coder dans le lexique toutes les informations lexicales nécessaire pour<br />
placer les mots, et leur affecter des cas ; la connaissance est concentrée dans le lexique.<br />
En analyse, beaucoup d’information est apportée par la séquence en entrée, et ce<br />
d’autant plus qu’elle a été préalablement étiquetée. C’est pour cette raison que, dans le<br />
projet <strong>SYNTEX</strong>, j’ai pu adopter, concernant le lexique, une approche minimaliste:<br />
(i) Partir de rien. J’ai fait le choix initial de la table rase. Contrairement aux approches<br />
qui choisissent, pour réaliser un <strong>analyseur</strong> <strong>syntaxique</strong>, de développer au préalable un<br />
lexique <strong>syntaxique</strong> très riche recensant les propriétés <strong>syntaxique</strong>s des mots de la<br />
langue, j’ai commencé sans aucune information de ce type. Cette approche est<br />
possible à partir du moment où l’on a choisi de s’appuyer sur les résultats d’un<br />
étiqueteur (on bénéficie indirectement des ressources lexicales éventuellement<br />
exploitées par celui-ci).<br />
(ii) Identifier les besoins en ressources lexicales au fur et à mesure du développement de<br />
l’<strong>analyseur</strong>. Dans un certain nombre de cas, ces ressources sont des listes fermées<br />
d’unités lexicales, que l’on peut construire à partir de la consultation de bonnes<br />
grammaires. Pour la constitution de listes non fermées d’unités lexicales, les<br />
informations sont acquises de façon automatique à partir de corpus, à l’aide de et<br />
pour l’<strong>analyseur</strong>, sans validation manuelle.<br />
La place de la grammaire<br />
La grammaire, en tant que tradition séculaire de description des structures <strong>syntaxique</strong>s<br />
des langues, joue un rôle fondamental dans le projet de développement d’un <strong>analyseur</strong><br />
<strong>syntaxique</strong> <strong>opérationnel</strong>. Sur ce point, la position que j’adopte est analogue à celle de la<br />
Grammaire Générative Transformationnelle : la grammaire comme base d’appui. Dans<br />
son Introduction à une science du Langage, J.-C. Milner (1989) montre qu’une science<br />
linguistique n’est possible que parce que la grammaire existe et qu’elle fournit les<br />
descriptions minimales dont a besoin cette science pour fonctionner comme une science<br />
133
empirique. C’est un postulat qui est à la base de la grammaire générative. Dès le début<br />
d’Aspects, Chomsky revendique le recours à la grammaire traditionnelle comme un point<br />
de passage indispensable pour élaborer la théorie de la grammaire générative : « [Le<br />
linguiste] aura grand avantage à commencer par étudier le type d’information structurale<br />
que présentent les grammaires traditionnelles et le type de processus linguistiques<br />
qu’elles ont mis au jour, sans encore les formaliser » (Chomsky, 1971, p. 15). Mais c’est<br />
Milner qui, dans ses efforts pour reconstituer le cadre épistémologique de la grammaire<br />
générative, explicite le statut de la grammaire dans l’édifice théorique. A une science du<br />
langage qui se veut empirique, la grammaire fournit ses observables, à savoir les<br />
exemples. Dans la grammaire, l’exemple n’est pas un énoncé attesté, c’est le<br />
représentant d’une classe d’équivalence, qui rassemble toutes les données de langue<br />
(phrases) qui partagent un ensemble de propriétés. L’exemple, et donc l’observable,<br />
n’existe que parce qu’il est possible d’attribuer des propriétés à des données de langue.<br />
Or, ce qui garantit qu’il soit simplement possible, de manière générale, d’attribuer des<br />
propriétés à des données de langue, c’est l’existence de fait de ce qu’on appelle les<br />
grammaires (Milner, 1989, p. 53). La grammaire fournit au linguiste une analyse<br />
grammaticale minimale, qui segmente les unités, leur attribue un type (nom, verbe…) et<br />
identifie des relations. Cette analyse minimale initiale aura à être reprise, critiquée, voire<br />
modifiée, mais elle est nécessaire et elle ne peut être entièrement produite par la théorie<br />
linguistique elle-même.<br />
Selon mon point de vue, le développement d’une théorie formelle et celui d’un <strong>analyseur</strong><br />
<strong>opérationnel</strong> ne sont pas des chemins consécutifs, mais parallèles, qui prennent comme<br />
point de départ les concepts de la tradition grammaticale. De même que l’existence des<br />
grammaires rend possible la construction d’une science linguistique, de même elle rend<br />
possible l’élaboration d’<strong>analyseur</strong>s <strong>syntaxique</strong>s. Comme pour la théorie, les concepts et<br />
descriptions de la grammaire ne sont qu’un point de départ, duquel on s’éloigne vite dès<br />
que l’entreprise avance. Dans le contexte du développement d’un <strong>analyseur</strong>, cette prise<br />
de distance s’impose parce que les descriptions <strong>syntaxique</strong>s que propose la grammaire<br />
sont celles d’exemples et non d’énoncés réels. Les exemples sont construits par le<br />
grammairien de façon à être le plus simples possible pour isoler au mieux les règles que<br />
ces exemples sont censés illustrer : « Quant aux règles qui fonctionnent avec des<br />
exemples inventés, elles s’attacheront à inventer des phrases où l’on pourra sans trop de<br />
difficulté neutraliser tout ce qui dans la phrase ne relève pas de la règle considérée »<br />
(Milner, 1989, p. 113). La matière à traiter par l’<strong>analyseur</strong> n’est pas constituée<br />
d’exemples, mais de séquences réelles, qui possèdent le caractère empirique des données<br />
de langue que Milner nomme la concrétion. Tout énoncé résulte de l’application de<br />
plusieurs règles <strong>syntaxique</strong>s. Le grammairien est capable de fabriquer ces artefacts<br />
presque purs que sont les exemples, il est aussi capable d’exercer son talent d’analyste<br />
pour identifier la description <strong>syntaxique</strong> d’un énoncé attesté, aussi complexe soit-il. Si le<br />
grammairien sait en plus programmer, alors il peut mettre au point un système de<br />
reconnaissance de ces formes <strong>syntaxique</strong>s.<br />
Science et ingénierie linguistiques<br />
134
<strong>Un</strong> argument régulièrement avancé par les promoteurs des grammaires formelles est<br />
celui de la possibilité d’un partage des tâches entre linguistes et informaticiens. Avec<br />
l’approche formelle et déclarative, chaque communauté de spécialistes peut se<br />
concentrer sur son domaine de compétence : aux linguistes la tâche de développer les<br />
grammaires, aux informaticiens celle de s’occuper des algorithmes et de toute la<br />
mécanique informatique. Il existe une autre voie, celle de l’ingénierie linguistique<br />
(Natural Language Engineering). Cette voie se caractérise d’abord par des objectifs<br />
appliqués, mais aussi par des profils de compétence particuliers, qui associent chez des<br />
individus, d’un côté, un goût prononcé pour la chose linguistique, une bonne<br />
connaissance de la grammaire et une bonne culture <strong>syntaxique</strong>, ainsi que l’absence<br />
d’aversion pour le dépouillement de corpus, et, de l’autre côté, de solides compétences<br />
en programmation. Ces linguistes informaticiens ne seront pas considérés comme des<br />
informaticiens par les informaticiens, à juste titre, ni comme des linguistes par les<br />
linguistes, ce qui est sans doute plus regrettable. Ce sont des ingénieurs linguistes. <strong>Un</strong><br />
ingénieur linguiste, ou une équipe d’ingénieurs linguistes, peut mener à bien un projet de<br />
recherche visant la réalisation d’un <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>.<br />
Le partage des tâches est selon moi dépassé, mais la route est longue avant que les<br />
clivages s’estompent. A la conclusion de sa critique du programme de recherche de<br />
l’Analyse Automatique Autonome, J.-M. Marandin affiche un certain scepticisme sur la<br />
possibilité d’un programme de recherche en ingénierie linguistique : « L’<strong>analyseur</strong> prend<br />
le statut d’une machine industrielle dans le TAL ; il est soumis aux impératifs de la<br />
technologie, ce ne sont pas toujours ceux d’un programme de recherche » (Marandin,<br />
1993, p. 31). Nous avons vu aussi, à la fin de la section 2.2.3, comment J. Léon et<br />
M. Cori regrettaient que le tournant déclaratif, en encourageant un partage des tâches<br />
entre la description des données linguistiques, d’un côté, et l’écriture de modèles et<br />
algorithmes, de l’autre, ait contribué à faire réapparaître une ligne de fracture entre la<br />
linguistique et l’informatique, et provoqué une régression dans le chemin vers la<br />
constitution du TAL comme discipline scientifique, en laissant le champ libre aux<br />
ingénieurs :<br />
Seuls peuvent se réclamer sans équivoque du domaine les ingénieurs qui<br />
réalisent des applications industrielles et qui, donc, ont simultanément<br />
besoin des algorithmes et de la description des données. Alors même qu’en<br />
adoptant des modèles déclaratifs le TAL cherche à s’imposer des critères<br />
de rigueur, il tend du même coup à rendre impossible sa constitution<br />
comme discipline scientifique.<br />
(Cori et Léon, 2002, p. 50)<br />
Cette réticence à accorder un crédit scientifique à un programme de recherche en<br />
ingénierie linguistique vient d’une conception schématique et partielle des rapports entre<br />
sciences et techniques. Cette conception est exposée pour la linguistique de façon très<br />
nette par Jean-Claude Milner dans son ouvrage de 1989. Même si l’épistémologie<br />
invoquée par Milner n’est sans doute pas appropriée à l’objet qu’elle vise, on peut sans<br />
doute estimer qu’elle est acceptée aisément au sein de la communauté du TAL. Milner<br />
s’interroge sur la manière dont la question de la science est pertinente pour la<br />
135
linguistique. Il reprend l’hypothèse du programme de recherche initial de la grammaire<br />
générative : si la linguistique est une science, elle est une science empirique ; elle l’est au<br />
même sens que le sont les sciences de la nature et elle relève donc de la même<br />
épistémologie. Or Milner rappelle que, depuis A. Koyré, on caractérise la science par la<br />
combinaison de deux traits :<br />
(I) La mathématisation de l’empirique (…) ; (II) La constitution d’une<br />
relation avec une technique, telle que la technique se définisse comme<br />
l’application pratique de la science (d’où le thème de la science appliquée)<br />
et que la science se définisse comme la théorie de la technique (d’où le<br />
thème de la science fondamentale).<br />
(Milner, 1989, p. 23)<br />
Pour accéder au statut de science empirique, la linguistique doit fonctionner comme la<br />
théorie d’une ou de plusieurs techniques qui en seraient la version appliquée, autrement<br />
dit il faut qu’il existe une « linguistique industrielle ». Pour Milner, on pourra parler de<br />
linguistique industrielle quand on disposera de techniques informatiques capables de<br />
« transformer » les objets que vise la science linguistique, c’est-à-dire non pas tant les<br />
langues elles-mêmes que les réalisations de langue : textes, messages, slogans, discours,<br />
etc. Milner évoque des outils informatiques capables de traitements de textes <strong>syntaxique</strong>s<br />
dignes de ce nom, c’est-à-dire au moins capables de réaliser des opération <strong>syntaxique</strong>s<br />
telles que la transposition du style direct au style indirect, ou la conversion actif/passif,<br />
ou la correction grammaticale, avec, pour commencer, la vérification de l’accord<br />
(op. cit., note 11, pp. 34-35). Mais il ne suffira pas que tels outils existent, il faudra aussi<br />
que ces systèmes aient été construits à partir des lois des langues découvertes et<br />
organisées en théorie par les linguistes, lois qui régissent ces matières réalisées que sont<br />
les productions textuelles. Or Milner constate qu’on est loin de cette situation. La raison<br />
essentielle pour lui est que la relation de la science moderne à la technique n’est ni<br />
simple, ni directe : il y a loin de la proposition théorique à la procédure technique. Il<br />
prend l’exemple de la physique. Le théoricien ne sera satisfait que quand la technique du<br />
moteur à explosion pourra être présentée comme déductible de la théorie d’Einstein, et<br />
donc comme une application de la physique d’Einstein. Or les ingénieurs n’en ont cure.<br />
Ils construisent de leur côté pour leurs propres besoins une physique pour l’ingénieur, en<br />
détachant de la science physique quelques parties plus ou moins étendues et détaillées.<br />
Toujours selon Milner, ce qui est vrai pour la physique est encore plus vrai pour la<br />
linguistique, où l’indifférence réciproque entre linguistes et techniciens de la langue est<br />
plus accentuée qu’ailleurs. Ainsi il s’est construit une « linguistique pour ingénieur »,<br />
qui « n’a guère dépassé en profondeur et en étendue les manuels de grammaire du cours<br />
préparatoire » (op. cit., p 34). L’avènement d’une linguistique industrielle n’est pas pour<br />
demain, où l’on verrait les ingénieurs venir puiser dans des théories linguistiques les<br />
connaissances à appliquer pour construire de belles réalisations industrielles.<br />
Au reste, l’on entrevoit déjà ce que promet l’avenir, en ce qui concerne les<br />
doctrines du langage et de la langue : d’un côté, l’appel aux technologies<br />
obtuses ; de l’autre, la résurgence des bavardages romanesques. En tout<br />
état de cause, le fil de la science est bien prêt d’être rompu.<br />
136
(Milner, 1989, p. 19)<br />
Il ne conviendrait pas que, poussé par l’exaspération que suscite<br />
légitimement l’intervention répétée des charlatans, le linguiste entonne<br />
sans prudence le cantique des applications.<br />
(Milner, 1989, p. 32)<br />
L’épistémologie adoptée par Milner privilégie l’idée d’une relation orientée entre<br />
sciences et techniques, dans laquelle les techniques sont fécondées par les sciences, en<br />
tant qu’elles n’en sont que des applications, qui, le cas échéant, viennent les valider. <strong>Un</strong><br />
tel cadre épistémologique laisse donc peu de place à une réflexion sur le statut des<br />
techniques, leur valeur de connaissances intrinsèque et leur identité propre. Dans le<br />
domaine du TAL, et bien au-delà, on reste souvent prisonnier de la vison traditionnelle<br />
d’une dichotomie entre la science fondamentale, noble, et la science appliquée, plus<br />
vulgaire, et de la technique comme simple application de la science. Dans cette vision<br />
classique, il n’y a pas de place pour un programme de recherche en ingénierie<br />
linguistique, au prétexte qu’il ne peut y avoir production de connaissances quand on<br />
cherche à réaliser des objets techniques utiles. Dans le domaine du TAL, cette<br />
conception sert de justification à l’implication limitée des acteurs de la recherche<br />
universitaire dans le monde industriel du TAL et de ses applications, où ils auraient<br />
pourtant beaucoup à faire et beaucoup à apprendre. Si l’on veut sortir de la situation<br />
d’ignorance ou de méfiance entre linguistes et ingénieurs, et renouveler au-delà des<br />
vœux pieux un dialogue entre science et ingénierie linguistiques, il faut dans un premier<br />
temps trouver un cadre épistémologique dans lequel les ingénieurs linguistes puissent<br />
conceptualiser leur activité de production et donner un statut aux objets qu’ils<br />
produisent. B. Habert (2006), dans son article qui présente « le linguiste à l’instrument »,<br />
suggère de se référer au cadre épistémologique de Gilbert Simondon (Simondon, 1958,<br />
1971).<br />
3.3.2. <strong>SYNTEX</strong>, un « objet technique »<br />
Georges Simondon et la philosophie de l’objet technique<br />
G. Simondon a développé une philosophie de la technique. Ancien élève de l’Ecole<br />
Normale Supérieure de la rue d’Ulm et agrégé de philosophie en 1948, Simondon a été<br />
nommé au lycée Descartes de Tours, où, de 1948 à 1955, il a enseigné non seulement la<br />
philosophie, mais aussi la physique dans la classe de philosophie. En 1963, il a été<br />
nommé professeur à la Sorbonne, puis à l’<strong>Un</strong>iversité Paris V, où il a dirigé<br />
l’enseignement de psychologie générale et a fondé le laboratoire de psychologie générale<br />
et technologie. C’est dans son premier ouvrage, publié en 1958 (Simondon, 1958), dont<br />
le titre est « Du mode d’existence des objets techniques », qu’il développe sa philosophie<br />
de la technique. Son objectif est de réduire les conflits entre les valeurs de la culture<br />
classique et celles qui sont liées aux sciences et aux techniques :<br />
Cette étude est animée par l’intention de susciter une prise de conscience<br />
du sens des objets techniques. La culture s’est constituée en système de<br />
137
défense contre les techniques ; or cette défense se présente comme une<br />
défense de l’homme, supposant que les objets techniques ne présentent pas<br />
de réalité humaine. Nous voudrions montrer que la culture ignore dans la<br />
réalité technique une réalité humaine, et que, pour jouer son rôle complet,<br />
la culture doit incorporer les êtres techniques sous forme de connaissance<br />
et de sens des valeurs.<br />
(Simondon, 1958, p. 9)<br />
La philosophie de la technique de Simondon est une philosophie de l’invention. Les<br />
réalisations techniques apparaissent par invention. Les concepts qu’il met en place pour<br />
décrire les objets techniques et l’activité d’invention sont élaborés à partir de l’analyse<br />
historique, psychologique, technique d’un très grand nombre de réalisations techniques,<br />
empruntées à tous les domaines de l’activité humaine. La perspective historique est<br />
fondamentale, en ce sens que, pour Simondon, la genèse de l’objet technique fait partie<br />
de son être : « L’unité de l’objet technique, son individualité, sa spécificité sont les<br />
caractères de consistance et de convergence de sa genèse » (Simondon, 1971, p. 20).<br />
Simondon parle de genèse concrétisante. L’étude d’un objet technique doit être<br />
appréhendée en tant qu’il appartient à une lignée et marque à un moment donné une<br />
étape dans l’évolution de cette lignée. C’est pourquoi j’ai retracé, dans le chapitre 1 de<br />
ce mémoire, en quoi l’<strong>analyseur</strong> <strong>SYNTEX</strong> était un descendant de l’outil LEXTER, et j’ai<br />
cherché ensuite à inscrire mon travail de recherche dans une lignée de travaux en<br />
Traitement Automatique des Langues dont l’unité et la convergence se concrétisent par<br />
l’objectif commun de réaliser des <strong>analyseur</strong>s <strong>opérationnel</strong>s (chap. 2). Dans ce deuxième<br />
chapitre, la perspective adoptée n’a pas été celle, classique dans les disciplines<br />
scientifiques, d’un « état de l’art » dans lequel on montre comment les résultats présentés<br />
constituent une contribution à l’avancée des connaissances dans un domaine scientifique.<br />
Même si on peut identifier des choix méthodologiques proches dans ces divers travaux,<br />
on est moins dans une évolution cumulative des connaissances que dans la réitération<br />
d’efforts, accomplis par des chercheurs inventeurs le plus souvent isolés, pour résoudre<br />
le même problème, mais dans des contextes différents (différences de langues, de<br />
contraintes technologiques, de principes de base, d’applications cibles). L’émergence<br />
d’inventions techniques analogues à des dates et des lieux différents n’est d’ailleurs pas<br />
un cas rare dans le développement des techniques.<br />
Les concepts clés de la philosophie de Simondon sont ceux d’adaptation et<br />
d’auto-corrélation. La caractéristique de l’objet technique est d’être un mixte<br />
d’adaptation et d’auto-corrélation :<br />
L’objet technique est d’une part un médiateur entre organisme et milieu,<br />
d’autre part une réalité intérieurement organisée et cohérente ; comme<br />
médiateur, il doit s’adapter à des termes extrêmes qu’il relie, et c’est un<br />
des aspects de son progrès d’améliorer son couplage aux réalités entre<br />
lesquelles il jette un pont ; mais cette augmentation de complexité et de<br />
distance entre les termes extrêmes doit être compensée par un surcroît<br />
d’organisation et de cohérence entre les différentes parties de l’objet<br />
138
technique ; le progrès se fait par oscillation entre les progrès de la<br />
médiation et ceux de l’auto-corrélation.<br />
(Simondon, 1971, p. 101-102)<br />
Ces concepts ont été élaborés à partir d’études approfondies de multiples inventions,<br />
menées par Simondon, que celui-ci a l’habitude de fournir en détail dans ses exposés<br />
pour appuyer ces propositions théoriques. Je reproduis ici l’illustration donnée par<br />
Simondon à propos de la roue :<br />
<strong>Un</strong>e étude plus exhaustive de la roue véhiculaire ne pourrait être faite sans<br />
tenir compte des étapes de l’adaptation aux termes extrêmes, le plan de<br />
roulement (appartenant au milieu) et le véhicule (portant l’organisme et<br />
conduit par lui) ; la roue s’adapte au plan de roulement en se différenciant<br />
(roue de chemin de fer, roue d’automobile, roue avant et roue arrière de<br />
tracteur) très particulièrement au niveau du contact avec le plan de<br />
roulement (pneumatiques pour la neige, tout-terrain…) ; elle s’adapte au<br />
véhicule par la suspension, les amortisseurs, les boggies. Ces progrès<br />
relationnels amènent à une nécessité d’auto-corrélation plus serrée, en<br />
particulier pour les virages (différentiel, système de la barre de couplage<br />
des roues directrices avec fusées entraînées par des leviers dont les<br />
prolongements géométriques se coupent au milieu du pont arrière) ; dans<br />
le cas des chemins de fer, l’auto-corrélation dans les virages est obtenue<br />
par inclinaison de la voie, conicité des roues et prescription d’une vitesse<br />
définie pour chaque courbe.<br />
(Simondon, 1971, p. 102)<br />
L’analogie entre la roue et un <strong>analyseur</strong> <strong>syntaxique</strong> ne va a priori pas de soi. La<br />
différence des déterminants devant ces deux objets est le signe qu’il est trop tôt pour<br />
parler de l’<strong>analyseur</strong> <strong>syntaxique</strong> comme d’un objet technique reconnu. Néanmoins, les<br />
concepts d’adaptation et d’auto-corrélation sont pour moi des clés essentielles pour<br />
parler du développement de l’<strong>analyseur</strong> <strong>SYNTEX</strong> et pour théoriser l’activité de recherche<br />
en ingénierie linguistique dont il est un résultat. Dans la suite de cette section, j’applique<br />
d’abord les concepts d’adaptation et d’auto-corrélation aux systèmes de traitement de<br />
l’information qui intègrent un <strong>analyseur</strong> <strong>syntaxique</strong> comme composant. Je considère<br />
ensuite l’<strong>analyseur</strong> <strong>syntaxique</strong> en tant qu’objet technique et j’utilise ces mêmes concepts<br />
pour décrire les dimensions selon lesquelles se sont développées les évolutions de<br />
l’<strong>analyseur</strong> <strong>syntaxique</strong>.<br />
Adaptation et auto-corrélation de systèmes intégrateurs<br />
L’<strong>analyseur</strong> <strong>syntaxique</strong> n’est quasiment jamais en contact direct avec l’organisme,<br />
c’est-à-dire avec un utilisateur final. Pour une première mise en scène, dans le domaine<br />
de l’ingénierie linguistique, des concepts d’adaptation et d’auto-corrélation, et avec eux<br />
ceux d’organisme et de milieu, entre lesquels l’objet technique vient établir une liaison,<br />
je propose d’observer d’abord des systèmes au sein desquels l’<strong>analyseur</strong> <strong>syntaxique</strong> est<br />
un composant. Je prends les trois exemples suivants :<br />
139
- une plateforme d’acquisition de terminologie. L’<strong>analyseur</strong> <strong>syntaxique</strong> est utilisé<br />
pour fournir les analyses <strong>syntaxique</strong>s des séquences du corpus d’étude, à partir<br />
desquelles un programme d’extraction construit un réseau de candidats termes<br />
complexes (syntagmes verbaux, nominaux, adjectivaux). L’utilisateur est un<br />
terminologue ou un spécialiste qui construit une ressource terminologique pour un<br />
domaine donné.<br />
- une chaîne d’analyse distributionnelle. Les analyses <strong>syntaxique</strong>s fournies par<br />
l’<strong>analyseur</strong> sont exploitées par un programme de calcul distributionnel qui extrait les<br />
contextes <strong>syntaxique</strong>s associés aux mots du corpus d’étude et qui rapproche les mots<br />
qui ont des profils <strong>syntaxique</strong>s proches. L’utilisateur est un linguiste spécialiste de<br />
sémantique lexicale, ou un chercheur en sciences humaines, intéressé par l’évolution<br />
des mots et concepts dans une communauté donnée.<br />
- un moteur de recherche sur site Web. L’<strong>analyseur</strong> <strong>syntaxique</strong> est utilisé pour<br />
extraire des mots clés liés aux mots de la requête posée par l’utilisateur qui seront<br />
proposés comme suggestions de reformulation. L’utilisateur final est le responsable<br />
du site, qui souhaite intégrer à son site des facilités de navigation, soit pour satisfaire<br />
l’internaute qui visite le site, en l’aidant à trouver le plus vite possible l’information<br />
qu’il recherche, soit pour le maintenir le plus longtemps possible sur le site.<br />
Dans toutes ces applications, le système doit s’adapter aux termes extrêmes qu’il relie, à<br />
savoir un fond textuel (milieu) et un utilisateur (organisme). Les adaptations concernent<br />
d’abord les frontières externes, avec le milieu d’un côté et avec l’organisme de l’autre.<br />
Le système doit comporter en début de chaîne, côté milieu, des programmes de captage,<br />
de conversion, de balisage, de nettoyage de sources textuelles, qui permettent la prise en<br />
compte de fichiers aux formats divers et leur conversion dans le format adéquat exigé<br />
par l’<strong>analyseur</strong> <strong>syntaxique</strong>. Puisque l’<strong>analyseur</strong> <strong>SYNTEX</strong> attend le corpus à traiter au<br />
format texte avec un balisage minimal (séparation en unités textuelles), il faut<br />
débarrasser le texte du balisage initial quand il existe, pour éventuellement le récupérer<br />
et le reprojeter le cas échéant une fois l’analyse effectuée. Dans certains cas, la phase de<br />
pré-traitement peut comporter une étape de découpage du corpus en séquences, dans les<br />
contextes où un simple découpage sur ponctuations fortes apparaît inadéquat. Le système<br />
intégrateur doit être équipé en fin de chaîne, du côté de l’organisme, d’interfaces<br />
adaptées aux besoins de l’utilisateur. Dans les première et troisième applications, il faut<br />
intégrer, en aval de l’<strong>analyseur</strong>, un extracteur, c’est-à-dire un module capable de passer<br />
de la représentation <strong>syntaxique</strong> en dépendance des phrases à des syntagmes structurés 49 .<br />
Ces adaptations sont obligatoires pour permettre la communication entre composants.<br />
D’autres adaptations ne sont pas obligatoires, mais sont ajoutées de façon opportuniste<br />
pour renforcer le potentiel du système. Par exemple, en amont de l’<strong>analyseur</strong>, des<br />
procédures de prétraitement <strong>syntaxique</strong>s peuvent être intercalées avant l’analyse<br />
<strong>syntaxique</strong> pour le traitement d’entités nommées spécifiques au domaine traité<br />
(reconnaissance de noms de société, de gênes, de composés chimiques, etc.). En aval,<br />
49 J’ai réalisé un tel extracteur pour l’<strong>analyseur</strong> <strong>SYNTEX</strong>. Bien que cela représente une quantité de travail non<br />
négligeable et un certain intérêt, j’ai choisi de ne pas présenter ce travail dans le présent document.<br />
140
des extensions peuvent être apportées aux interfaces utilisateurs dans le cas où<br />
l’<strong>analyseur</strong> intégré apporte plus d’informations que le strict nécessaire requis<br />
initialement par les spécifications de l’application. Par exemple, si l’<strong>analyseur</strong> est<br />
capable de repérer des relations de variations morpho<strong>syntaxique</strong>s entre candidats termes,<br />
ou peut produire des liens de proximités distributionnelles entre candidats termes, les<br />
interfaces doivent intégrer la possibilité de visualiser ces liens supplémentaires.<br />
Inversement, il existe des applications dans lesquelles il convient plutôt de réduire les<br />
capacités de l’<strong>analyseur</strong>, pour ne se saisir que des résultats pertinents pour l’application<br />
(uniquement des syntagmes nominaux, par exemple).<br />
Toutes ces interventions portent sur l’amélioration de la caractéristique d’adaptation des<br />
systèmes de traitement de l’information qui intègrent un <strong>analyseur</strong> <strong>syntaxique</strong>. Au-delà<br />
de ces adaptations plus ou moins ad hoc, les concepteurs de tels systèmes sont amenés à<br />
réfléchir à une meilleure auto-corrélation de ces systèmes. C’est particulièrement<br />
nécessaire quand il s’agit de quitter le cadre des solutions artisanales et d’adopter des<br />
solutions ingénieriques destinées à favoriser la maintenance, la réutilisabilité et la<br />
généricité de ces systèmes. On peut faire référence à l’initiative GATE pour les<br />
applications d’extraction d’information (Cunningham et al., 1996, Cunningham et al.,<br />
2002), ainsi qu’aux propositions de F. Cerbah sur une architecture à base de services<br />
Web pour la mise en œuvre d’applications d’acquisition terminologique (Cerbah et<br />
Daille, 2006). Ces efforts n’ont pas un impact immédiat fort visible du côté de<br />
l’utilisateur final, mais ils permettent des progrès à moyen terme sur le développement<br />
des systèmes qui aboutiront à une meilleure adaptation aux besoins des utilisateurs.<br />
Adaptation de l’<strong>analyseur</strong> <strong>syntaxique</strong><br />
Après avoir présenté l’adaptation et l’auto-corrélation de systèmes qui intègrent comme<br />
composant un <strong>analyseur</strong> <strong>syntaxique</strong>, je m’intéresse à l’<strong>analyseur</strong> lui-même en tant<br />
qu’objet technique. L’<strong>analyseur</strong> est bien un objet technique au sens où l’entend<br />
Simondon car les progrès dans son développement peuvent être décrits de façon<br />
parfaitement adéquate en exploitant les deux dimensions de l’adaptation et de<br />
l’auto-corrélation. Les termes extrêmes entre lesquelles l’<strong>analyseur</strong> doit réaliser<br />
l’adaptation sont d’un côté des séquences issues de corpus à analyser, et de l’autre les<br />
descriptions grammaticales idéales de ces séquences. Pour une séquence donnée en<br />
entrée, l’analyse produite doit être la plus proche possible de l’analyse correcte.<br />
Améliorer l’adaptation de l’<strong>analyseur</strong>, c’est réduire les différences entre analyses<br />
produites et analyses correctes. Il s’agit non pas d’améliorations locales qui viseraient à<br />
traiter correctement des exemples que telle théorie <strong>syntaxique</strong> considérerait comme<br />
difficiles, mais d’une amélioration globale, dont la mesure doit être effectuée, en terme<br />
de rappel et de précision, sur de larges échantillons de corpus de test annotés à la main.<br />
Améliorer l’<strong>analyseur</strong> consiste d’abord à améliorer sa couverture, à savoir le type de<br />
relations <strong>syntaxique</strong>s qu’il est capable de reconnaître, et pour chacune de ces relations<br />
améliorer le rappel et la précision, c’est-à-dire reconnaître sans erreur le maximum de<br />
liens <strong>syntaxique</strong>s dans les énoncés. Ces progrès passent essentiellement par une<br />
augmentation de la résistance de l’<strong>analyseur</strong>. On parle souvent de robustesse à propos<br />
141
d’analyse <strong>syntaxique</strong> et l’on entend généralement la capacité d’un <strong>analyseur</strong> à traiter des<br />
énoncés comportant des malformations grammaticales. Par résistance, j’entends sa<br />
capacité à reconnaître les liens <strong>syntaxique</strong>s dans des configurations complexes, que la<br />
caractéristique de concrétion de la langue rend fréquentes dans les corpus. Les séquences<br />
réelles sont souvent longues, par rapport aux exemples de la grammaire, et donc les liens<br />
<strong>syntaxique</strong>s sont nombreux et intriqués dans des configurations complexes. Par exemple,<br />
améliorer l’adaptation de l’<strong>analyseur</strong> sur la relation Sujet, c’est complexifier et enrichir<br />
les algorithmes de reconnaissance pour trouver les liens Sujet même s’il y a intercalation<br />
de chaînes coordonnées, d’incises, de subordonnées relatives entre le verbe et son sujet.<br />
La démarche adoptée pour améliorer l’adaptation de l’<strong>analyseur</strong> est une démarche<br />
pragmatique, par essais et erreurs, qui enchaîne de façon systématique programmation et<br />
tests sur corpus. C’est une démarche d’ingénierie linguistique. Comme je l’ai dit dans la<br />
section précédente, il n’y a pas de partage des tâches, entre d’un côté ce qui relèverait de<br />
l’informatique et de l’autre de la linguistique. Le concepteur doit avoir des compétences<br />
de grammairien, d’un niveau nettement supérieur à celui du cours moyen ou du collège.<br />
Il doit être capable de déterminer lui-même pour tout énoncé sa description <strong>syntaxique</strong>.<br />
De plus, même si la démarche de développement est empirique, elle n’est pas<br />
exclusivement guidée par l’observation du corpus. Le recours au corpus est fondamental<br />
pour mettre au jour et faire plus rapidement l’inventaire des multiples configurations de<br />
surface au sein desquelles il faut reconnaître les liens <strong>syntaxique</strong>s. Mais le concepteur<br />
doit être capable de prévoir des règles pour des configurations qui ne sont pas attestées<br />
dans le corpus d’apprentissage. C’est la connaissance qu’il a de la grammaire de la<br />
langue qui lui permet de dépasser les configurations qu’il observe en corpus, et<br />
d’abstraire à partir d’elles des règles de reconnaissance dont la couverture dépassera les<br />
simples cas observés. En revanche, ce sont ses réflexes d’ingénieurs qui vont lui<br />
permettre de faire des choix, de prioriser les développements et d’accepter des pertes, en<br />
laissant tomber des cas trop spécifiques au corpus, trop rares, voire anecdotiques, ou<br />
d’une complexité telle que la résolution entraînerait la mise en place, coûteuse en temps,<br />
d’un arsenal sophistiqué pour une amélioration de l’adaptation à peine sensible. Le<br />
recours aux tests sur corpus est indispensable pour se donner les moyens d’élaborer une<br />
stratégie de développement qui optimise le ratio temps passé sur progrès réalisés.<br />
Les progrès de l’adaptation sont le résultat d’une démarche méthodique, systématique de<br />
test sur des corpus variés. C’est d’abord de la sueur : le concepteur « a la tête dans le<br />
guidon », l’œil rivé sur les compteurs de rappel et de précision, toute l’énergie mobilisée<br />
pour faire bouger les aiguilles. C’est un travail quotidien de développement et<br />
d’enrichissement de règles et d’heuristiques, dont le concepteur peut difficilement<br />
s’enorgueillir dans de magistrales publications scientifiques. Les progrès d’adaptation et<br />
ceux de l’auto-corrélation se manifestent de façon radicalement différente :<br />
De manière assez générale, les progrès relationnels sont des<br />
perfectionnements progressifs, continus, se faisant par essais et erreurs au<br />
cours de l’usage ; ils résultent de l’expérience et s’additionnent : ils<br />
conservent l’allure temporelle de la relation entre organisme et milieu.<br />
(…) Par contre, les progrès de l’auto-corrélation demandent une résolution<br />
142
de problème, une invention qui pose un système synergétique de<br />
compatibilité. Cette invention peut être amenée par le besoin des progrès<br />
relationnels, mais elle ré-engendre la logique interne du système, qui est<br />
auto-normatif, et confère à ses sous-ensembles des propriétés provenant du<br />
fonctionnement et le rendant possible.<br />
(Simondon, 1971, p. 102)<br />
Auto-corrélation de l’<strong>analyseur</strong> <strong>syntaxique</strong><br />
Les progrès d’auto-corrélation concernent l’architecture globale du système, c’est-à-dire<br />
d’une part la stratégie d’enchaînement des modules, et d’autre part les fonctions et<br />
procédures génériques partagées par l’ensemble des modules. Ils exigent du recul, et ne<br />
peuvent se produire qu’à partir d’une réflexion distanciée sur les limites patentes de<br />
l’<strong>analyseur</strong>, à la fois en termes de performances et de facilité de maintenance et de<br />
développement, et de la formulation de l’ensemble des difficultés sous la forme d’un ou<br />
plusieurs problèmes à résoudre. Alors peut jaillir la trouvaille géniale, l’idée, l’invention,<br />
qui conduit à un bond qualitatif que n’auraient pu générer les progrès de l’adaptation.<br />
Au départ du projet, j’ai volontairement choisi une architecture initiale simple : la<br />
séquence est traitée en plusieurs passes ; chaque passe est dédiée à la reconnaissance<br />
d’un type de relation et d’un seul ; chaque module résout immédiatement ses ambiguïtés<br />
de rattachement et transmet une séquence sans ambiguïtés au module de la passe<br />
suivante ; aucun module ne remet en cause les catégories morphologiques ou les liens<br />
<strong>syntaxique</strong>s posés par les modules antérieurs. Ce choix d’une architecture simple a été<br />
une condition nécessaire pour avancer dans la réalisation de l’<strong>analyseur</strong>, en particulier<br />
dans la programmation des algorithmes de recherche de gouverneurs candidats et des<br />
procédures de désambiguïsation et des ressources lexicales nécessaires et suffisantes. Il<br />
y a eu une longue phase de développement continu visant à améliorer l’adaptation de<br />
l’<strong>analyseur</strong>, sans que l’architecture soit modifiée. Les contraintes simplificatrices ont été<br />
poussées jusque dans leurs derniers retranchements.<br />
A plusieurs stades du cycle de développement de l’<strong>analyseur</strong>, j’ai procédé à des<br />
restructurations de l’architecture pour améliorer l’auto-corrélation de l’<strong>analyseur</strong>. Ces<br />
opérations se sont imposées sous la pression de différents facteurs : (i) le constat d’un<br />
certaine stagnation dans l’amélioration des performances, et l’identification de<br />
configurations de surface difficiles à traiter avec une architecture séquentielle<br />
cloisonnée ; (ii) la mise en chantier d’un <strong>SYNTEX</strong> anglais, à l’occasion de laquelle j’ai<br />
cherché au maximum à identifier des traitements génériques et à réaliser des fonctions<br />
partagées ; (iii) la rédaction du présent mémoire, qui m’a obligé à prendre du recul et<br />
m’a incité à m’interroger sur une meilleure cohérence interne et un meilleur équilibre de<br />
l’<strong>analyseur</strong> ; (iv) enfin, et surtout, la volonté de ne pas laisser <strong>SYNTEX</strong> devenir une<br />
« usine à gaz » qui ne pourrait être entretenue que par son concepteur historique.<br />
Les « révolutions » importantes dans l’évolution de l’auto-corrélation de l’<strong>analyseur</strong> ont<br />
été l’intégration du retour en arrière et la globalisation de la désambiguïsation. Le<br />
principe de l’interdiction du retour en arrière qui, après avoir longtemps été utile pour<br />
développer en profondeur les différents modules, s’est avéré être à l’origine d’une<br />
143
stagnation dans l’amélioration des performances. J’ai alors choisi d’intégrer dans<br />
l’<strong>analyseur</strong> la possibilité du retour en arrière. Bien entendu, le premier effet de cette<br />
décision n’a pas été une amélioration subite des performances de l’<strong>analyseur</strong>, mais,<br />
comme le formule Simondon, un ré-engendrement de la logique interne du système. Dès<br />
lors que cette possibilité est incluse, la philosophie de développement des modules est<br />
modifiée de façon profonde : il devient possible d’implémenter la pose de liens<br />
provisoires, qui pourront être supprimés lors des étapes ultérieures du traitement si des<br />
informations plus complètes sur la forme <strong>syntaxique</strong> de la séquence l’imposent. Ce<br />
changement donne une meilleure prise pour affronter le problème de la circularité, lié à<br />
l’incompatibilité entre l’intrication des liens <strong>syntaxique</strong>s et la séquentialité des<br />
traitements (section 3.1.4). Mais il impose de reprendre un à un les différents modules<br />
pour les repenser vis-à-vis de cette nouvelle norme et assurer une nouvelle logique<br />
interne du système. Cela revient à identifier les configurations dans lesquelles des liens<br />
déjà posés peuvent être supprimés et inversement celles où des liens peuvent être placés<br />
de façon éventuellement provisoire.<br />
La globalisation de la désambiguïsation participe du même effort vers une meilleure<br />
prise en compte du problème de la circularité. La modification consiste d’abord à<br />
développer une procédure de désambiguïsation sur le treillis des liens placés par les<br />
modules à ambiguïté. Mais elle impose aussi un ré-engendrement de la logique interne<br />
du système, en particulier au niveau de la formalisation du parcours, puisqu’il faut<br />
intégrer le fait qu’à une étape d’un parcours on peut passer sur un mot qui est cible de<br />
plusieurs liens de dépendance.<br />
3.3.3. Savoirs<br />
Quel savoir sur la langue le projet <strong>SYNTEX</strong> produit-t-il ? C’est sur cette interrogation que<br />
je conclus ce mémoire. Elle ne s’impose pas en droit. Pour reprendre la question de<br />
Marandin, « quel est le statut que prend, ou peut prendre, un <strong>analyseur</strong> dans un<br />
programme de recherche consacré au langage » (Marandin, 1993, p. 5, cf. section 3.3.1),<br />
je rappelle que mon programme de recherche initial n’était pas explicitement consacré<br />
au langage. Mon objectif (cf. section 3.1.1) était de construire un <strong>analyseur</strong> <strong>syntaxique</strong><br />
<strong>opérationnel</strong>, précis et efficace, qui produise des analyses aussi correctes et complètes<br />
que possible, sur des textes de genres variés, qui soit utilisable dans une large gamme<br />
d’applications, que ce soit du côté de la recherche académique ou de celui des<br />
applications industrielles. Ce n’était pas un objectif de connaissance, mais un objectif<br />
d’utilité. Par rapport à cet objectif, un premier et rapide bilan peut être tiré après<br />
quelques années. D’abord, les résultats de <strong>SYNTEX</strong> sont exploités par plusieurs dizaines<br />
de chercheurs, auxquels j’ai fourni des résultats sur les corpus qu’ils m’ont envoyés.<br />
Cette tâche est consommatrice de temps, parfois fastidieuse, mais elle fait partie du<br />
contrat initial. Les retours, quand retours il y a, sont souvent très utiles (Bourigault et al.,<br />
144
2004). Pour alléger le travail, une interface Web est mise en place à l’<strong>ERSS</strong> 50 pour<br />
permettre aux utilisateurs de déposer leur corpus et de le récupérer un peu plus tard,<br />
analysé. Par ailleurs, une version de <strong>SYNTEX</strong> pour la recherche est diffusée aux<br />
laboratoires qui souhaitent être autonomes.<br />
Ensuite, très tôt dans le projet, une convention de collaboration a été négociée entre le<br />
CNRS, l’<strong>Un</strong>iversité Toulouse Le Mirail et la société Synomia 51 , pour que celle-ci<br />
exploite commercialement l’<strong>analyseur</strong> dans le domaine de la recherche d’informations<br />
sur Internet. Depuis 2003, la société Synomia commercialise des solutions de recherche<br />
d’informations sur site Internet. La collaboration avec cette entreprise a été extrêmement<br />
stimulante. Outre le retour permanent et systématique sur les erreurs, bugs et limites de<br />
l’<strong>analyseur</strong>, elle m’a permis de mener avec les ingénieurs linguistes de l’entreprise une<br />
réflexion particulièrement féconde sur les utilisations potentielles d’un <strong>analyseur</strong><br />
<strong>syntaxique</strong> 52 . Bien entendu, tout n’a pas été toujours facile, que ce soit dans mes<br />
relations avec la société, puisque nos contraintes et objectifs concernant la diffusion des<br />
résultats n’ont pas toujours été immédiatement compatibles, ou au sein de ma<br />
communauté de recherche, où l’on regarde souvent avec beaucoup de suspicion toute<br />
collaboration avec le « privé ». Il reste que, sans cette collaboration, <strong>SYNTEX</strong> n’aurait pas<br />
atteint le niveau de performance qu’il a aujourd’hui.<br />
Même si la visée utilitaire a été primordiale au départ du projet, ce n’est pas elle qui a été<br />
proprement le moteur de la recherche. Comme le dit Simondon, les conditions<br />
extrinsèques de l’ambiance dans lesquelles naît une invention et se développe un objet<br />
technique, c’est-à-dire les facteurs économiques, culturels, psychologiques…, peuvent<br />
participer à la formulation d’une demande d’invention, mais elles ne peuvent produire à<br />
elles seules une telle invention : « c’est de la formulation, puis de la résolution du<br />
problème que dépendent de façon décisive l’invention et l’existence de la réalité<br />
technique. » (Simondon, 1971, p. 45). Le problème vers la résolution duquel ma<br />
recherche a été dirigée est celui de l’analyse <strong>syntaxique</strong> <strong>opérationnel</strong>le, abordé non<br />
comme un problème de compilation, mais comme un problème de reconnaissance de<br />
forme. Je l’ai formulé ainsi : pour chaque mot de la séquence, identifier son gouverneur<br />
<strong>syntaxique</strong> (section 3.1.2). La difficulté essentielle est la circularité : l’intrication globale<br />
des liens <strong>syntaxique</strong>s dans une séquence fait que chaque position ne peut être reconnue<br />
qu’en interdépendance avec les autres. Or le traitement informatique est séquentiel. Le<br />
problème de fond est donc un problème d’architecture : selon quel enchaînement<br />
séquentiel passer progressivement des places de mots, qui peuvent être perçues par<br />
l’<strong>analyseur</strong>, à leurs positions, qui doivent être reconnues par lui. L’<strong>analyseur</strong> <strong>SYNTEX</strong><br />
constitue une solution technique à ce problème. Pour penser comment l’existence de cet<br />
objet technique pourrait contribuer à une avancée du savoir sur les langues, il faut se<br />
50 Je remercie Franck Sajous, qui a réalisé cette interface, pour l’ensemble de sa contribution pour faire de<br />
<strong>SYNTEX</strong> un outil utilisable.<br />
51 www.synomia.com<br />
52 Je remercie très chaleureusement Gaëlle Récourcé, de la société Synomia, pour les innombrables discussions<br />
enrichissantes que nous avons eues pendant toute la période de développement de <strong>SYNTEX</strong>.<br />
145
éférer à ce que dit Simondon des rapports entre invention technique et savoir<br />
scientifique :<br />
Les besoins pratiques ont contraint l’Homme à améliorer les techniques<br />
sans attendre le développement de toutes les sciences ; (…) cette avance<br />
est surtout caractérisée par le progrès des adaptations et la relative<br />
précarités des auto-corrélations ; c’est en partie ce hiatus au cœur des<br />
techniques qui a fait ressentir le besoin de sciences, tandis que les parties<br />
déjà constituées des techniques offraient aux sciences naissantes non<br />
seulement des problèmes théoriques à résoudre (…), mais encore des<br />
moyens d’expérimentation : le besoin d’un complément interne de<br />
l’invention déjà adaptée est en fait un appel au savoir scientifique ; du<br />
progrès rapide réalisé par la constitution de la science répondant à cet<br />
appel, il ne faut pas tirer trop hâtivement la conclusion du primat de la<br />
science en matière d’invention technique ; la science renouvelle très vite<br />
une technique lorsqu’elle a seulement à combler le hiatus central de l’autocorrélation<br />
; si les adaptations ne sont pas constituées avant l’étape<br />
scientifique, le progrès est moins rapide.<br />
(Simondon, 2005, p. 232)<br />
Si l’on fait confiance à Simondon, on peut rêver à des rapports nouveaux entre science<br />
du langage et ingénierie linguistique. Si le projet <strong>SYNTEX</strong> doit produire des<br />
connaissances sur la langue, c’est du côté de l’auto-corrélation du système qu’il faut aller<br />
chercher. Il faut analyser à quelle logique et organisation internes de l’<strong>analyseur</strong> a abouti<br />
le processus de résolution du problème de la reconnaissance <strong>syntaxique</strong> : si une<br />
architecture optimale et des fonctions génériques partagées se dégagent de façon<br />
singulière de l’élaboration d’<strong>analyseur</strong>s <strong>syntaxique</strong>s pour des langues appartenant à des<br />
familles différentes, alors sans doute pourra-t-on affirmer que « ça dit quelque chose »<br />
de fondamental sur la structure <strong>syntaxique</strong> des langues. Se dessinent ce que pourraient<br />
être de nouveaux rapports entre théorie linguistique et développement d’objet<br />
techniques : la science linguistique élabore une théorie <strong>syntaxique</strong>, qui s’appuyant sur les<br />
résultats de la technique, produit en retour un cadre théorique capable de faire progresser<br />
de façon rationnelle le développement de la technique…<br />
Sans attendre la convergence hypothétique entre une science linguistique à construire et<br />
une ingénierie linguistique productrice d’objets techniques, il est possible de mettre en<br />
oeuvre ces derniers dans une activité de connaissance sur la langue, en les utilisant<br />
comme des instruments d’observation (Habert, 2005, chap. VII, 2006). Le double usage<br />
de l’objet technique comme outil et comme instrument est une idée fondamentale de la<br />
philosophie de Simondon :<br />
L’outil est l’objet technique qui permet de prolonger et d’armer le corps<br />
pour accomplir un geste, l’instrument est l’objet technique qui permet de<br />
prolonger et d’adapter le corps pour obtenir une meilleure perception ;<br />
l’instrument est outil de perception. Mais un outil peut servir d’instrument,<br />
c’est-à-dire pour prélever des informations sur la tâche qu’il permet<br />
d’exécuter (ex marteau). Il y a une manière de considérer et d’étudier la<br />
146
technique qui recherche toujours également ce en quoi l’outil est<br />
instrument, c’est-à-dire (…) est le premier moyen de s’instruire de ce qu’il<br />
effectue, de considérer ce qu’il fait comme un monde (une dimension ou<br />
une partie nouvelle du monde) qu’il donne aussi à connaître –<br />
considération qui n’est pas négligeable à l’égard des relations entre la<br />
science et la technique.<br />
(op. cit., p. 58)<br />
<strong>Un</strong>e fois encore, le recours à Simondon est salutaire. <strong>Un</strong> <strong>analyseur</strong> <strong>syntaxique</strong><br />
<strong>opérationnel</strong> peut servir à acquérir des connaissances sur la tâche de description<br />
<strong>syntaxique</strong>, et donc sur la structure <strong>syntaxique</strong> des langues. Pour encourager cette<br />
production de savoir, nous mettons en place à l’<strong>ERSS</strong> un certain nombre d’outils<br />
d’analyse de corpus, associés à un ensemble de corpus diversifiés analysés<br />
<strong>syntaxique</strong>ment, et accessibles via le Web. Ceci pourrait ensemble constituer un<br />
observatoire de la langue française 53 . Différents outils sont envisagés : un concordancier<br />
permettant d’effectuer des requêtes, sur tout ou partie du corpus, portant sur les liens<br />
<strong>syntaxique</strong>s ; des modules d’extraction permettant d’obtenir des listes d’unités lexicales<br />
présentant telles ou telles propriétés <strong>syntaxique</strong>s ; des modules de calcul de corrélation<br />
entre faits <strong>syntaxique</strong>s ; des interfaces d’accès aux résultats d’analyse distributionnelle<br />
contrastée sur deux corpus. Bien entendu, ce type d’outils ne présente d’utilité que pour<br />
des approches en linguistique qui s’intéressent aux usages plus qu’à la norme, et aux<br />
tendances plus qu’aux démarcations binaires. Avec dans le lointain horizon la promesse<br />
de nouveaux rapports en science et ingénierie linguistiques, c’est d’abord dans<br />
l’utilisation de l’<strong>analyseur</strong> en tant qu’instrument que l’on doit attendre la production de<br />
savoirs diversifiés sur la langue. Et pour cela, on peut raisonnablement compter sur le<br />
génie des utilisateurs de <strong>SYNTEX</strong>.<br />
53 Je remercie une nouvelle fois Franck Sajous, qui pilote ce projet.<br />
147
148
Bibliographie<br />
ABEILLE A. & BLACHE P. (1997) Etat de l’art : la syntaxe. In Traitement Automatique<br />
des Langues, 38(2), pp. 69-90<br />
ABNEY S. (1987) The English Noun Phrase in Its Sentential Aspects. Thèse du<br />
Massachusetts Institute of Technology, Cambridge<br />
ABNEY S. (1990a) Rapid incremental parsing with repair. In Proceedings of the 6th New<br />
OED Conference: Electronic Text Research, pp. 1-9, <strong>Un</strong>iversity of Waterloo<br />
ABNEY S. (1990b) Parsing by Chunks. In BERWICK R., ABNEY S. & TENNY D., Eds,<br />
Principle-Based Parsing. Kluwer Academic Publishers<br />
ABNEY S. (1996) Partial parsing via finite-state cascades. In Natural Language<br />
Engineering 2(4), Cambridge <strong>Un</strong>iversity Press. pp. 337-344<br />
ADDA G., LECOMTE J., MARIANI J., PAROUBEK P. & RAJMAN M. (1998), The GRACE<br />
French Part-Of-Speech Tagging Evaluation Task, In proceedings of the 1 st International<br />
Conference on Language Resources and Evaluation (LREC’1998),Granada<br />
ADDA G., MARIANI J., PAROUBEK P. & RAJMAN M. & LECOMTE J. (1999) Métrique et<br />
premiers résultats de l'évaluation GRACE des étiqueteurs morpho<strong>syntaxique</strong>s pour le<br />
français. In Actes de la 6 ème conférence Traitement Automatique du Langage Naturel<br />
(TALN’1999), Cargese<br />
AÏT-MOKHTAR S. & CHANOD J.-P. (1997a) Incremental finite-state parsing. In<br />
Proceedings of the 5 th Conference on Applied Natural Language Processing<br />
(ANLP’1997), pp. 72-79, Washington DC<br />
AÏT-MOKHTAR S. & CHANOD J.-P. (1997b) Subject and object dependency extraction<br />
using finite-state transducers. In Proceedings of the ACL workshop on Automatic<br />
Extraction and Building of Lexical Semantic Resources for NLP applications, pp. 71-77,<br />
Madrid<br />
AÏT-MOKHTAR S., CHANOD J.-P. & ROUX C. (2002) Robustness beyond shallowness:<br />
incremental deep parsing. Natural Language Engineering 8(2/3), pp. 121-144<br />
ALPAC (1966) Language and Machines. Computers in translation and linguistics. A<br />
report by the Automatic Language Processing Advisory Committee (ALPAC), National<br />
Academy of Sciences, National Research Council.<br />
ASSADI H. (1998) Méthodologie et outils informatiques pour l'acquisition de<br />
connaissances à partir de textes, Thèse en informatique de l’<strong>Un</strong>iversité Paris 6<br />
ASSADI H. & BOURIGAULT D. (1995) Classification d'adjectifs extraits d'un corpus pour<br />
l'aide à la modélisation des connaissances. In Actes des 3èmes Journées internationales<br />
d'Analyse des Données Textuelles (JADT’1995), pp. 313-320, Rome<br />
ASSADI H. & BOURIGAULT D. (1996) Acquisition et modélisation des connaissances à<br />
partir de textes : outils informatiques et éléments méthodologiques. In Actes du 10ème<br />
149
congrès Reconnaissance des Formes et Intelligence Artificielle (RFIA’1996),<br />
pp. 505-514, Rennes<br />
AUSSENAC N., KRIVINE J.-P. & SALLENTIN J. (1992) L’acquisition des connaissances<br />
pour les systèmes à base de connaissances. Revue d’Intelligence Artificielle 6(1-2)<br />
BACHIMONT B. (1996) Herméneutique matérielle et artéfacture : des machines qui<br />
pensent aux machines qui donnent à penser. Thèse de l’Ecole Polytechnique<br />
BAR-HILLEL Y. (1951) The present state of research on mechanical translation. In<br />
American Documentation 2, pp. 229-237<br />
BAR-HILLEL Y. (1953) A Quasi-Arithmetic Notation for Syntactic Description,<br />
Language 29, pp. 47-58.<br />
BAR-HILLEL Y. (1960) The Present Status of Automatic Translation of Languages, In<br />
Advances in Computers 1, pp. 91-141<br />
BASILI R., PAZIENZA M.T., VINDIGNI M. (1999) Adaptive Parsing and Lexical Learning,<br />
in Actes de VEXTAL’1999, Venise.<br />
BASILI R., VINDIGNI M. (1998) Adapting a Subcategorization Lexicon to a Domain,<br />
Proceedings of the ECML98 Workshop TANLPS, Chemnitz<br />
BENVENISTE E. (1974) Forme nouvelle de la composition nominale, Problèmes de<br />
linguistique générale, 2, pp. 163-176<br />
BERRENDONNER A. (2002) Les deux syntaxes, in Verbum 1-2, pp. 23-35<br />
BLACHE P. (2005) Combiner analyse superficielle et profonde : bilan et perspectives, in<br />
Actes de la 11 ème conférence sur le Traitement Automatique des Langues Naturelles<br />
(TALN’2005), pp. 93-102, Dourdan<br />
BLACHE P., BALFOURIER J.-M. et VAN RULLEN T. (2002). From Shallow to Deep Parsing<br />
Using Constraint Satisfaction, in Proceedings of 19th International Conference on<br />
Computational Linguistics (COLING’2002), Taipei<br />
BLANCHE-BENVENISTE C. (2002) Phrase et construction verbale, in Verbum 1-2,<br />
pp. 7-22<br />
BOUAUD J., BACHIMONT B., CHARLET J. & ZWEIGENBAUM P. (1995) Methodological<br />
Principles for Structuring an Ontology, In Proceedings of the IJCAI-95 Workshop on<br />
Basic Ontological Issues in Knowledge Sharing, Montreal<br />
BOURIGAULT D. (1991) LEXTER, un Logiciel d’Extraction de TERminologie. In Actes du<br />
colloque sur le Repérage de l’information textuelle, Ministère des Communications du<br />
Gouvernement du Québec et Hydro-Québec, pp. 15-25, Montréal<br />
BOURIGAULT D. (1993) Analyse <strong>syntaxique</strong> locale pour le repérage de termes complexes<br />
dans un texte, Traitement Automatique des Langues 34(2), pp. 105-117<br />
BOURIGAULT D. (1994a) Extraction et structuration automatiques de terminologie pour<br />
l'aide à l'acquisition des connaissances à partir de textes. In Actes du 9ème congrès<br />
Reconnaissance des Formes et Intelligence Artificielle (RFIA&1994). pp. 397-408, Paris<br />
150
BOURIGAULT D. (1994b) Lexter, un logiciel d’extraction de terminologie. Application à<br />
l’acquisition des connaissances à partir de textes, Thèse en Mathématique, Informatique<br />
Appliquées aux Sciences Humaines de l’Ecole des Hautes Etudes en Sciences Sociales,<br />
Paris<br />
BOURIGAULT D., AUSSENAC-GILLES N. & CHARLET J. (2004) Construction de<br />
ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour<br />
trois études de cas, Revue d'Intelligence Artificielle 18(1), pp. 87-110<br />
BOURIGAULT D. & FABRE C. (2000), Approche linguistique pour l’analyse <strong>syntaxique</strong> de<br />
corpus, Cahiers de Grammaire 25, pp. 131-151 <strong>Un</strong>iversité Toulouse le Mirail<br />
BOURIGAULT D. & FREROT C. (2005) Acquisition et évaluation sur corpus de propriétés<br />
de sous-catégorisation <strong>syntaxique</strong>. In Actes de la 12ème conférence sur le Traitement<br />
Automatique des Langues Naturelles (TALN’2005), pp. 373-382, Dourdan<br />
BOURIGAULT D. & JACQUEMIN C. (1999) TERM EXTRACTION + TERM<br />
CLUSTERING: An Integrated Platform for Computer-Aided Terminology. In<br />
Proceedings of the 9th Conf. of the European Chapter of the Association for<br />
Computational Linguistics (EACL’1999), pp. 15-22, Bergen<br />
BOURIGAULT D. & JACQUEMIN C. (2000) Construction de ressources terminologiques, in<br />
J.-M. PIERREL, Ed., Ingénierie des langues, Hermès, pp. 215-233<br />
BOURIGAULT D. & SLODZIAN C. (1999) Pour une terminologie textuelle. In Actes des<br />
troisèmes rencontres Terminologie et Intelligence Artificielle, numéro spécial<br />
Terminologies nouvelles 19, pp. 29-32<br />
KAPLAN R. M. & BRESNAN J. (1982). Lexical-Functional Grammar: A formal system for<br />
grammatical representation. In J. BRESNAN, Ed., The Mental Representation of<br />
Grammatical Relations, chapter 4, p. 173-281. Cambridge, Mass.: MIT Press<br />
BROWN P. E., COCKE J., DELLA PIETRA S. A., DELLA PIETRA V. J., JELINEK F.,<br />
LAFFERTY J. D., MERCER R. L. & ROOSSIN P. S. (1990). A statistical approach to<br />
machine translation, Computational Linguistics 16(2), pp. 79-85<br />
CERBAH F., DAILLE B. (2007) <strong>Un</strong>e architecture à base de services pour mieux spécialiser<br />
les processus d’acquisition de terminologie. In Traitement Automatique des Langues<br />
47(1), www.atala.org/tal/<br />
CHANOD J.-P. (1993) Problèmes de robustesse en analyse <strong>syntaxique</strong>. In Actes de la 2 ème<br />
Conférence Informatique et Langues Naturelles (ILN’1993), pp. 223-244, Nantes<br />
CHANOD J.-P. (2000) Robust parsing and beyond. In VAN VOORD G. & JUNQUA J. C.,<br />
Eds, Robustness in Language Technology, Kluwer Academic Publishers, pp. 132-139<br />
CHOMSKY N. (1965) Aspects de la théorie <strong>syntaxique</strong>, Editions du Seuil [1971]<br />
COLBY K. (1973) Simulations of Belief systems. In SCHANK R. & COLBY K., Eds.,<br />
Computer Models of Thought and Language, Freeman, San Francisco<br />
151
CORI M. & LEON J. (2002) La constitution du TAL, étude théorique des dénominations<br />
et des concepts. In Traitement Automatique des Langues 43(3), pp. 21-55<br />
CUNNINGHAM H., WILKS Y. & GAIZAUSKAS R. (1996) GATE - A General Architecture<br />
for Text Engineering, In Proceedings of 16th Conference on Computational Linguistics<br />
(COLING'96), Copenhagen<br />
CUNNINGHAM H., MAYNARD D., BONTCHEVA K. & TABLAN V. (2002) GATE : A<br />
Framework and Graphical Development Environment for Robust NLP tools and<br />
applications, In Proceedings of 40th Anniversary Meeting of the Association for<br />
Computational Linguistics (ACL’2002), Philadelphia<br />
DAVID J.-M., KRIVINE J.-P. & SIMMONS R. (1993) Second generation expert systems,<br />
Springer-Verlag<br />
DEBILI F. (1982) Analyse syntaxico-sémantique fondée sur une acquisition de relations<br />
lexicales-sémantiques. Thèse en informatique de l’<strong>Un</strong>iversité Paris XI, Orsay<br />
FABRE C. & FREROT C. (2002) Groupes prépositionnels arguments ou circonstants : vers<br />
un repérage automatique en corpus. In Actes de la 9 ème conférence sur le Traitement<br />
Automatique des Langues Naturelles (TALN’2002), pp. 215-224, Nancy<br />
FABRE C., HABERT B. & LABBE D. (1997) La polysémie dans la langue générale et les<br />
discours spécialisés. Sémiotiques 13, pp. 15-31<br />
FELBER H. (1987) Manuel de terminologie, <strong>Un</strong>esco, Paris<br />
FILLMORE C. J. (1968) The case for case. In BACH & HARMS, Eds, <strong>Un</strong>iversal in<br />
linguistic theory. New York: Holt, Rinehart and Winston, pp. 1-90<br />
FOLCH H. & HABERT B. (1998) Proximités de comportement <strong>syntaxique</strong> entre les mots.<br />
In S. MELLET, Ed, In Actes des 4èmes journées internationales d'analyse statistique des<br />
données textuelles (JADT’1998), pp. 297-303<br />
FREROT C. (2005) Construction et évaluation en corpus variés de lexiques <strong>syntaxique</strong>s<br />
pour la résolution des ambiguïtés de rattachement prépositionnel, Thèse en sciences du<br />
langage de l’<strong>Un</strong>iversité Toulouse le Mirail<br />
FREROT C., BOURIGAULT D. & FABRE C. (2003) Marier apprentissage endogène et<br />
ressources exogènes dans un <strong>analyseur</strong> <strong>syntaxique</strong> de corpus. Le cas du rattachement<br />
verbal à distance de la préposition de, in Traitement Automatique des Langues 44(3),<br />
pp. 167-186<br />
GALA PAVIA N. (2003) <strong>Un</strong> modèle d’<strong>analyseur</strong> <strong>syntaxique</strong> robuste basé sur la<br />
modularité et la lexicalisation de ses grammaires, Thèse en informatique de l’<strong>Un</strong>iversité<br />
de Paris XI, Orsay<br />
GAMBIER Y. (1995) Implications épistémologiques et méthodologiques de la<br />
socioterminologie. Actes de langue française et linguistique 7/8, pp. 99-115<br />
152
GARCIA D. (1998) L’analyse automatique des textes pour l’organisation causale des<br />
actions. Réalisation du système informatique COATIS. Thèse en informatique de<br />
l’<strong>Un</strong>iversité Paris-Sorbonne<br />
GARSIDE R. (1987) The CLAWS Word-tagging System. In GARSIDE R., LEECH G. &<br />
SAMPSON G., Eds, The Computational Analysis of English: A Corpus-based Approach.<br />
London: Longman<br />
GARVIN P. L. (1967) The fulcrum syntactic analyzer for Russian. In actes de la<br />
conférence internationale sur le traitement automatique des langues (COLING’1967),<br />
Grenoble<br />
GAZDAR G., KLEIN E., PULLUM G. K. & SAG I. A. (1985) Generalized Phrase Structure<br />
Grammar. Cambridge, MA: Harvard <strong>Un</strong>iversity Press<br />
GAUDIN F. (1996) Terminologie : l’ombre du concept. Meta XLI-4, pp. 605-621<br />
GERDES K., KAHANE S. (2006) L'amas verbal au coeur dune modélisation topologique du<br />
francais, in: Linguisticae Investigationes, vol. 29, p. 75-89<br />
GREFFENSETTE G. (1983) Traitements linguistiques appliquées à la documentation<br />
automatique, Thèse en informatique de l’<strong>Un</strong>iversité Paris XI<br />
GREFFENSETTE G. (1994) Exploration in Automatic Thesaurus Discovery, Kluwer<br />
Academic Publishers<br />
GREFFENSETTE G. (1996) Light Parsing as Finite-State Filtering, In Proceedings of the<br />
ECAI’96 workshop on extended finite state models of language, Budapest<br />
GUILBERT B. (1965) La formation du vocabulaire de l’aviation, Larousse<br />
HABERT B. (1998) Des mots complexes possibles aux mots complexes existants : l'apport<br />
des corpus. Habilitation à diriger des recherches en linguistique, <strong>Un</strong>iversité de Lille III<br />
HABERT B. (2005) Instruments et ressources électroniques pour le français, Ophrys<br />
HABERT B (2006) Portrait de linguiste(s) à l'instrument. In GUILLOT C., HEIDEN S. &<br />
PREVOST S., Eds, À la quête du sens : études littéraires, historiques et linguistiques en<br />
hommage à Christiane Marchello-Nizia, ENS Éditions, Lyon , pp. 124-132<br />
HABERT B., BARBAUD P., DUPUIS F. & JACQUEMIN C. (1995) Simplifier des arbres<br />
d’analyse pour dégager les comportements syntactico-sémantiques des formes d’un<br />
corpus. Cahiers de grammaire 20, <strong>Un</strong>iversité de Toulouse Le Mirail, pp. 1-32<br />
HABERT B. & FOLCH (1998) Compter sur les arbres. In P. FIALA & P. LAFON, Eds.,<br />
Hommage à Maurice Tournier, Éditions de l'École Normale Supérieure de<br />
Fontenay/Saint-Cloud, pp. 55-63<br />
HABERT B. & NAZARENKO A. (1996) La syntaxe comme marche-pied de l’acquisition<br />
des connaissances : bilan critique d’une expérience. In Actes des 6èmes Journées<br />
d’Acquisition des Connaissances, pp. 137-142, Sète<br />
153
HAYES P. J. & WEINSTEIN S. P. (1990) CONSTRUE/TIS: A System for Content-Based<br />
Indexing of a Database of News Stories, In Proceedings of the The Second Conference<br />
on Innovative Applications of Artificial Intelligence, pp. 49-64, Georgetown <strong>Un</strong>iversity<br />
HEIDORN G. E. (1972) Natural Language Inputs to a Simulation Programming System.<br />
Technical Report NPS-55HD72101A, Naval Postgraduate School, Monterey, California<br />
HINDLE D. (1990) Noun Classification from Predicate Argument Structures. In<br />
proceedings of the 28st Annual Meeting of the Association for Computational Linguistics<br />
(ACL’1990), pp. 268-275, Pittsburgh<br />
HINDLE D., ROOTH M. (1993) Structural Ambiguity and Lexical Relations,<br />
Computational Linguistics 19(1), pp. 103-120<br />
HUDSON R. (2000) Discontinuity, Traitement Automatique des Langue 41(1), pp. 15-56<br />
HUTCHINS, J. W. (1986) Machine Translation: Past, Present, Future. Ellis Horwood<br />
Limited, England (http://ourworld.compuserve.com/homepages/WJHutchins/PPF-<br />
TOC.htm)<br />
JACQUEMIN C. (1997) Variation terminologique : reconnaissance et acquisition<br />
automatique de termes et de leurs variantes en corpus. Habilitation à diriger des<br />
recherches en informatique, <strong>Un</strong>iversité de Nantes<br />
JACQUEMIN C. & BOURIGAULT D. (2003) Term Extraction and Automatic Indexing, in<br />
MITKOV R., Ed, The Oxford Handbook of Computational Linguistics, Oxford <strong>Un</strong>iversity<br />
Press, pp. 599-615<br />
JACQUES M.-P. (2005) Que, la valse des étiquettes, in Actes de la 11 ème conférence sur le<br />
Traitement Automatique des Langues Naturelles (TALN’2005), pp. 133-142, Dourdan<br />
JENSEN K. (1988) Why computational grammarians can be sceptical about existing<br />
linguistic theories, In Proceedings of 6th International Conference on Computational<br />
Linguistics (COLING’1988), pp. 448-449, Budapest<br />
JENSEN K., HEIDORN G. E., MILLER L. A. & RAVIN Y. (1983) Parse Fitting and Prose<br />
Fixing: Getting a Hold on Ill-formedness. American Journal of Computational<br />
Linguistics 9(3-4), pp. 147-160<br />
JENSEN K., HEIDORN G. E. & RICHARDSON S. D., Eds (1992) Natural Language<br />
Processing: the PLNLP approach, Kluwer Academic Publishers<br />
JOSHI A. K. (1987) An introduction to tree adjoining grammars. In MANASTER-RAMER<br />
A., Ed, Mathematics of Language, John Benjamins Publishing Co., pp. 87-115<br />
JOSHI A. K. & HOPELY P. (1996) A Parser from Antiquity, Natural Language<br />
Engineering 2(4), pp. 291-294<br />
JOSHI A. K. & HOPELY P. (1999) A Parser from Antiquity, in KORNAI A., Ed, Extended<br />
Finite State Models of Language, Cambridge <strong>Un</strong>iversity Press, pp. 6-15<br />
154
KAHANE S. (1997) Bubble trees and syntactic representations, in BECKER & KRIEGER<br />
(eds), In Proc. 5th Meeting of the Mathematics of Language (MOL5), Saarbrücken:<br />
DFKI, pp. 70-76<br />
KAHANE S. (2000) Extraction dans une grammaire de dépendance lexicalisée à bulles, in<br />
Traitement Automatique des Langues 41(1), pp. 211-243<br />
KAHANE S. (2001) Grammaire de dépendance formelles et théorie Sens-texte, (tutoriel)<br />
in Actes de la 8 ème conférence sur le Traitement Automatique des Langues Naturelles<br />
(TALN’2002), pp. 17-77, Tours<br />
KAHANE S. (2002) Grammaire d'<strong>Un</strong>ification Sens-texte : vers un modèle mathématique<br />
articulé de la langue. Habilitation à Diriger les Recherches, <strong>Un</strong>iversité Paris 7<br />
KAY M. (1973) Automatic translation of natural languages, Daedalus 102(3),<br />
pp. 217-230<br />
KAY M. (2002) Introduction, In MITKOV R., Ed., The Oxford Handbook of<br />
Computational Linguistics, Oxford <strong>Un</strong>iversity Press, pp. xvii-xx<br />
L’HOMME M.-C. (1998) Caractérisation des combinaisons lexicales spécialisées par<br />
rapport aux collocations de langue générale. In Proceedings of the 8th EURALEX<br />
international congress on lexicography (EURALEX’1998), pp. 513-522, Liège<br />
LYTINEN S. & GERSHMAN A. (1986) ATRANS: automatic processing of money transfer<br />
messages. In Proceedings of the Fifth National Conference on Artificial Intelligence,<br />
pp. 1089-1095, Philadelphia<br />
MANNING C. (1993) Automatic Acquisition of Large Subcategorization Dictionary from<br />
Corpora, In Proceedings of the 31st Meeting of the Association for Computational<br />
Linguistics, pp. 235-242, Morristown<br />
MANNING C. D. & SCHÜTZE H. (1999) Foundations of Statistical Natural Language<br />
Processing. The MIT Press, Cambridge, Massachusetts<br />
MARANDIN J.-M. (1993) Analyseurs <strong>syntaxique</strong>s, équivoques et problèmes. In<br />
Traitement Automatique des Langues 34(1), pp. 5-33<br />
MARCUS M. P. (1980) A theory of syntactic recognition for natural language, The MIT<br />
Press, Cambridge, Massachusetts<br />
MARCUS M. P., SANTORINI B. & MARCINKIEWICZ M. A. (1994) Building a Large<br />
Annotated Corpus of English: The Penn Treebank, Computational Linguistics 19(2),<br />
pp. 313-330<br />
MARCUS M., KIM G., MARCINKIEWICZ M., MACINTYRE R., BIES A., FERGUSON M,<br />
KATZ K. & SCHASBERGER B. (1994) The Penn treebank: Annotating predicate argument<br />
structure. In proceedings of the ARPA Human Language Technology Workshop,<br />
pp. 114-119? Plainsboro<br />
155
MATTHEWS G. H. (1962) Analysis by synthesis of natural languages. In Proceedings of<br />
the International Conference on Machine Translation and Applied Language Analysis,<br />
Londres<br />
MEL’CUK I. (1988) Dependency Syntax: Theory and Practice, Albany, N.Y.: The SUNY<br />
Press<br />
MILLER P. & TORRIS T. (1990) Formalismes <strong>syntaxique</strong>s pour le traitement automatique<br />
du langage naturel, Hermès<br />
MILNER J.-C. (1989) Introduction à une science du langage, Seuil<br />
NAGAO M. (1988) Language Engineering: the real bottle neck of Natural Language<br />
Processing. In Proceedings of the 12th International Conference on Computational<br />
Linguistics (COLING’1988), pp. 448-449, Budapest<br />
PANTEL P. & LIN D. (2000) An <strong>Un</strong>supervised Approach to Prepositional Phrase<br />
Attachment using Contextually Similar Words. In Proceedings of the 38th Meeting of<br />
the Association for Computational Linguistics, pp. 101-108, Hong Kong<br />
PAROUBEK P. & ROBBA I. (2006) Data, annotations and measures in Easy - the<br />
evaluation campaign for parsers of french. In ELRA, Ed., Proceedings of the fifth<br />
international conference on Language Resources and Evaluation (LREC’2006),<br />
pp. 315-320, Genoa<br />
PAROUBEK P., VILNAT A., ROBBA I. & AYACHE C. (2007) Les résultats de la campagne<br />
EASY d’évaluation des <strong>analyseur</strong>s <strong>syntaxique</strong>s du français, in actes de la 14 ème<br />
conférence sur le Traitement Automatique des Langues Naturelles (TALN’2007),<br />
Toulouse<br />
PEREIRA C. N. & WARREN D. H. (1980) Definite clause grammars for language analysis<br />
- a survey of the formalism and a comparison with augmented transition networks.<br />
Artificial Intelligence 13, pp. 231-278<br />
POLLARD C. & SAG I. A. (1987) Information-based Syntax and Semantics. Volume I:<br />
Fundamentals. Stanford: CSLI<br />
RATNAPARKHI A., REYNAR J. & ROUKOS S. (1994) A maximum entropy model for<br />
prepositional phrase attachment. In proceedings of the ARPA Human Language<br />
Technology Workshop, pp. 250-55<br />
RASTIER F. (1987) Sémantique interprétative. Presses <strong>Un</strong>iversitaires de France<br />
RASTIER F. (1991) Sémantique et recherches cognitives. Presses <strong>Un</strong>iversitaires de<br />
France<br />
RASTIER F. (1995) Le terme : entre ontologie et linguistique. In Actes des premières<br />
rencontres Terminologie et Intelligence Artificielle, numéro spécial de la Banque des<br />
mots 7, pp. 35-65<br />
RASTIER F., CAVAZZA M. & ABEILLE A. (1994) Sémantique pour l’analyse. Masson<br />
156
SAGER, N. (1970). The Sublanguage Method in String Grammars. In EWTON Jr. R.W. &<br />
ORNSTEIN J., Eds, Studies in Language and Linguistics, pp. 89-98, <strong>Un</strong>iversity of Texas<br />
at El Paso<br />
SEGUELA P., AUSSENAC-GILLES N. (1999) Extraction de relations sémantiques entre<br />
termes et enrichissement de modèles du domaine, In Actes de la conférence Ingénierie<br />
des Connaissances (IC’1999), pp. 79-88, Palaiseau<br />
SCHANK R. C. (1975) Conceptual Information Processing. North-Holland, Amsterdam<br />
SHIEBER (1990) Les grammaires basées sur l’unification, In MILLER P. & TORRIS T.,<br />
Eds, Formalismes <strong>syntaxique</strong>s pour le traitement automatique du langage naturel,<br />
Hermès, pp. 27-85<br />
SIMONDON G. (1958) Du mode d’existence des objets techniques. Aubier, Paris<br />
SIMONDON G. (1971) L’invention dans les techniques. Editions du Seuil [2005], Paris<br />
SLODZIAN M. (1994) La doctrine terminologique, nouvelle théorie du signe au carrefour<br />
de l’universalisme et du logiscisme ? In Actes de Langue française et linguistique,<br />
volume 7/8, pp. 121-136<br />
SLODZIAN M. (1995) Comment revisiter la doctrine terminologique aujourd’hui ? In<br />
Actes des premières rencontres Terminologie et Intelligence Artificielle, numéro spécial<br />
Banque des mots 7, pp. 11-18<br />
STETINA J. & NAGAO M. (1997) Corpus-based PP Attachment Ambiguity Resolution<br />
with a Semantic Dictionary. In J. ZHOU and K. CHURCH, Eds, Proceedings of the 5th<br />
Workshop on Very Large Corpora, pp. 66-80, Beijing & Hong Kong<br />
TAYLOR A., MARCUS M. & SANTORINI B. (2003) The Penn Treebank: an overview. In<br />
ABEILLÉ A., Ed., Treebanks: Building and using parsed corpora, Kluwer academic<br />
publishers, pp. 5-22<br />
TESNIERES L. (1959) Eléments de syntaxe structurale. Klincksieck<br />
USHIODA A., EVANS D., GIBSON T. & WAIBEL A. (1993) The Automatic Acquisition of<br />
Frequencies of Verb Subcategorization Frames from Tagged Corpora. In BOGURAEV B.,<br />
PUSTEJOVSKY J., Eds, Proceedings of the Workshop on Acquisition of Lexical<br />
Knowledge from Text, pp. 95-106, Columbus<br />
VERGNE J. (1995) Les cadres théoriques des TAL <strong>syntaxique</strong>s: quelle adéquation<br />
linguistique et algorithmique ? <strong>Un</strong>e étude et une alternative. In Actes de la conférence<br />
Traitement Automatique du Langage Naturel (TALN’1995), pp. 24-33, Marseille<br />
VERGNE J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de<br />
l'ordinateur. Analyse <strong>syntaxique</strong> automatique non combinatoire, Habilitation à Diriger<br />
les Recherches, <strong>Un</strong>iversité de Caen<br />
VERGNE J. & GIGUET E. (1998) Regards théoriques sur le tagging, in Actes de la 5ème<br />
conférence Traitement Automatique du Langage Naturel (TALN’1998), pp. 22-31, Paris<br />
157
VILNAT A., PAROUBEK P., MONCEAUX L., ROBBA I., GENDNER V., ILLOUZ G. &<br />
JARDINO M. (2004) The ongoing evaluation campaign of syntactic parsing of French :<br />
Easy. In Proceedings of the 4th International Conference on Language Resources and<br />
Evaluation (LREC), p. 2023-2026, Lisboa<br />
VOLK M. (2001) Exploiting the WWW as a Corpus to Resolve PP Attachment. In<br />
Proceedings of Conference on Corpus Linguistics, pp. 601-606, Lancaster<br />
WEAVER, W. (1949) Translation. Repr. in LOCKE W.N. & BOOTH A.D. , Eds. (1955)<br />
Machine translation of languages: fourteen essays, Press of the Massachusetts Institute<br />
of Technology, pp. 15-23<br />
WILKS Y. (2005) Computational Linguistics: History, In Encyclopedia of Language &<br />
Linguistics (2 nd Edition), Elsevier<br />
WILKS Y. & FASS D. (1992) The preference semantics family, In Computers &<br />
mathematics with applications 23(2-5), pp. 205-221<br />
WINOGRAD T. (1972) <strong>Un</strong>derstanding Natural Language, Academic Press<br />
WOODS W. (1970), Transition Network Grammars for Natural Language Analysis,<br />
Communications of the ACM, 13, pp. 59-60<br />
158