23.06.2013 Views

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Un</strong>iversité Toulouse-Le Mirail<br />

<strong>Un</strong> <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong> : <strong>SYNTEX</strong><br />

Didier BOURIGAULT<br />

Laboratoire CLLE-<strong>ERSS</strong> (UMR 5263)<br />

CNRS & <strong>Un</strong>iversité Toulouse-Le Mirail<br />

Mémoire présenté pour l’obtention d’une<br />

Habilitation à Diriger les Recherches<br />

Spécialité : sciences du langage<br />

Le samedi 9 juin 2007<br />

M. B. HABERT, Professeur, <strong>Un</strong>iversité de Paris 10 (rapporteur)<br />

M. S. KAHANE, Professeur, <strong>Un</strong>iversité de Paris 10 (rapporteur)<br />

Mme M.-P. PERY-WOODLEY, Professeure, <strong>Un</strong>iversité de Toulouse Le Mirail<br />

(rapporteur)<br />

M. J.-P. CHANOD, Manager, Xerox Research Centre Europe<br />

M. J. VERONIS, Professeur, <strong>Un</strong>iversité d’Aix-en-Provence<br />

M. B. VICTORRI, Directeur de recherche, Ecole Normale Supérieure<br />

1


Résumé<br />

Dans ce mémoire, rédigé pour l’obtention de l’Habilitation à Diriger les Recherches, je<br />

présente les recherches que j’ai menées ces dix dernières années autour de la réalisation<br />

logiciel <strong>SYNTEX</strong>, un <strong>analyseur</strong> <strong>syntaxique</strong> automatique du français. Dans la première<br />

partie du mémoire, je retrace le chemin qui m’a conduit de LEXTER, un <strong>analyseur</strong><br />

<strong>syntaxique</strong> robuste dédié au repérage des syntagmes nominaux terminologiques dans les<br />

corpus spécialisés, à <strong>SYNTEX</strong>, un <strong>analyseur</strong> à plus large couverture. La deuxième partie<br />

du mémoire est consacrée à un panorama historique du domaine du Traitement<br />

Automatique des Langues, dans lequel je montre que les recherches dans ce domaine ont<br />

toujours été partagées entre les travaux théoriques et les applications à visée industrielle.<br />

Ce panorama est suivi d'une revue de travaux en analyse <strong>syntaxique</strong> robuste, qui<br />

identifie une lignée dans laquelle s'inscrivent mes propres travaux de recherche. Dans la<br />

troisième partie, je présente d’abord les concepts clés qui ont guidé la conception de<br />

l'<strong>analyseur</strong> <strong>SYNTEX</strong>, en défendant l’idée que l'analyse <strong>syntaxique</strong> automatique peut être<br />

vue comme un problème de reconnaissance de formes, représentées par des structures de<br />

dépendance <strong>syntaxique</strong>. Je décris ensuite en détail l’architecture et les principes de<br />

fonctionnement de <strong>SYNTEX</strong>, qui est un <strong>analyseur</strong> procédural à cascades. Je montre enfin<br />

comment, sur le plan épistémologique, <strong>SYNTEX</strong> peut être caractérisé comme un objet<br />

technique, au sens de la philosophie des techniques de G. Simondon, en tant que ses<br />

progrès se développent selon les deux dimensions de l'adaptation et de l'auto corrélation.<br />

3


Table des matières<br />

Chapitre 1 De LEXTER à <strong>SYNTEX</strong> : ruptures, continuités, évolutions ................ 7<br />

1.1. Recherches en ingénierie linguistique............................................................... 8<br />

1.2. Analyse <strong>syntaxique</strong> locale............................................................................... 10<br />

1.3. La fonction initiale de LEXTER : extraire des étiquettes de concepts .............. 12<br />

1.4. LEXTER à l’épreuve des usages : revirement théorique................................... 13<br />

1.5. <strong>Un</strong> outil d’aide à l’analyse sémantique de textes spécialisés .......................... 16<br />

1.6. <strong>Un</strong> outil d’identification de contextes <strong>syntaxique</strong>s pour l’analyse<br />

distributionnelle .......................................................................................................... 19<br />

1.7. Bilan : LEXTER a servi, vive <strong>SYNTEX</strong>.............................................................. 22<br />

Chapitre 2 Etat de l’art en analyse <strong>syntaxique</strong> robuste .................................... 25<br />

2.1. L’analyse <strong>syntaxique</strong> automatique au sein du TAL ........................................ 25<br />

2.2. Panorama historique du Traitement Automatique des Langues...................... 27<br />

2.2.1. Les débuts de la traduction automatique ................................................. 27<br />

2.2.2. L’avènement de la « computational linguistics ».................................... 32<br />

2.2.3. Le « tournant déclaratif » et les grammaires d’unification...................... 35<br />

2.2.4. Le Natural Language Processing............................................................. 38<br />

2.3. Travaux en analyse <strong>syntaxique</strong> robuste........................................................... 42<br />

2.3.1. La robustesse en analyse <strong>syntaxique</strong>....................................................... 42<br />

2.3.2. L’<strong>analyseur</strong> FULCRUM de P. S. Garvin.................................................... 45<br />

2.3.3. L’<strong>analyseur</strong> du projet TDAP................................................................... 46<br />

2.3.4. L’<strong>analyseur</strong> de F. Debili.......................................................................... 48<br />

2.3.5. Le projet PLNLP..................................................................................... 50<br />

2.3.6. L’analyse par chunks de S. Abney .......................................................... 53<br />

2.3.7. L’<strong>analyseur</strong> 98 de J. Vergne.................................................................... 58<br />

2.3.8. L’analyse <strong>syntaxique</strong> robuste selon J. P. Chanod.................................... 61<br />

2.3.9. Bilan : une lignée .................................................................................... 65<br />

Chapitre 3 Description de l’<strong>analyseur</strong> <strong>SYNTEX</strong>.................................................. 67<br />

3.1. Principes de base............................................................................................. 67<br />

3.1.1. Analyseur <strong>syntaxique</strong> <strong>opérationnel</strong> ......................................................... 67<br />

3.1.2. <strong>Un</strong> problème de reconnaissance de formes ............................................. 68<br />

3.1.3. Fonctionnement simplifié........................................................................ 71<br />

3.1.4. Architecture............................................................................................. 74<br />

3.1.5. Algorithmes de reconnaissance............................................................... 76<br />

5


3.2. Description des modules ................................................................................. 77<br />

3.2.1. Enchaînement des modules de reconnaissance ....................................... 77<br />

3.2.2. Formalisation du parcours....................................................................... 78<br />

3.2.3. Les relations locales ................................................................................ 84<br />

3.2.4. Coordination............................................................................................ 89<br />

3.2.5. Objet et attribut ....................................................................................... 97<br />

3.2.6. Sujet ...................................................................................................... 101<br />

3.2.7. Les relations ambiguës : apprentissage endogène ................................. 106<br />

3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation 109<br />

3.2.9. Antécédence relative ............................................................................. 111<br />

3.2.10. Attachement des prépositions................................................................ 114<br />

3.2.11. Attachement des adjectifs ..................................................................... 120<br />

3.2.12. Procédure de désambiguïsation globale ................................................ 121<br />

3.2.13. Analyse profonde .................................................................................. 123<br />

3.2.14. Evaluation ............................................................................................. 126<br />

3.3. Discussion ..................................................................................................... 131<br />

3.3.1. Situation par rapport au paradigme formel............................................ 131<br />

3.3.2. <strong>SYNTEX</strong>, un « objet technique » ............................................................ 137<br />

3.3.3. Savoirs................................................................................................... 144<br />

6


Chapitre 1<br />

De LEXTER à <strong>SYNTEX</strong> : ruptures,<br />

continuités, évolutions<br />

Dans ce chapitre, je retrace le chemin qui m’a conduit de LEXTER à <strong>SYNTEX</strong>. La période<br />

couverte s’étend de juin 1994, date de la soutenance de ma thèse sur LEXTER, à<br />

l’automne 1999, quand je décide à mon arrivée dans l’Equipe de Recherches en Syntaxe<br />

et Sémantique de Toulouse, de me lancer, avec C. Fabre, dans la réalisation d’un nouvel<br />

<strong>analyseur</strong> <strong>syntaxique</strong>. Cette période m’a vu changer radicalement de position sur un<br />

certain nombre de points, techniques, méthodologiques ou théoriques, et maintenir mes<br />

convictions sur d’autres. Ce sont ces ruptures et ces continuités que je tente de mettre en<br />

évidence ici. Je reste fidèle à une approche ingénierique des recherches en Traitement<br />

Automatique des Langues (section 1.1). Sur le plan de la couverture, LEXTER réalise une<br />

analyse <strong>syntaxique</strong> locale et partielle, dédiée au repérage de syntagmes nominaux à<br />

allure dénominative (section 1.2), alors que <strong>SYNTEX</strong> est un <strong>analyseur</strong> <strong>syntaxique</strong> de<br />

phrase. La principale évolution concerne la conception de l’utilisation de l’<strong>analyseur</strong> :<br />

LEXTER est conçu au départ comme un outil d’extraction de « candidats termes », vus<br />

comme des étiquettes de concepts, pour l’élaboration ou l’enrichissement de thesaurus<br />

(section 1.3). Les expériences d’utilisation de LEXTER dans des contextes d’usages<br />

diversifiés me poussent à changer radicalement mes appuis théoriques : j’abandonne les<br />

postulats de la doctrine terminologique classique pour m’inspirer de la sémantique<br />

interprétative de F. Rastier (section 1.4). La nécessité de définir un cadre<br />

méthodologique cohérent pour l’utilisation de LEXTER m’amène à le présenter non plus<br />

comme un simple pourvoyeur d’étiquettes de concepts, mais comme un outil d’aide à<br />

l’interprétation de textes et à la modélisation des connaissances (section 1.5). <strong>Un</strong>e<br />

seconde rupture avec la fonction initiale de LEXTER se produit quand différentes<br />

expériences montrent l’utilité des analyses <strong>syntaxique</strong>s de groupes nominaux produites<br />

par LEXTER comme entrées d’outils d’analyse distributionnelle (section 1.6). <strong>Un</strong> bilan<br />

rétrospectif de ce chemin mouvementé éclaire les raisons pour lesquelles je décide fin<br />

1999 de m’attaquer la réalisation d’un nouvel <strong>analyseur</strong> <strong>syntaxique</strong> à la couverture et<br />

aux fonctions élargies (section 1.7).<br />

7


1.1. Recherches en ingénierie linguistique<br />

J’ai effectué ma thèse dans un contexte industriel, à la Direction des Etudes et<br />

Recherches (DER) d’EDF, au sein du service Informatique et Mathématiques<br />

Appliquées (septembre 1990-juin 1994) 1 . Le sujet de recherche avait été déterminé suite<br />

à la question précise et concrète adressée par les responsables du Service Information,<br />

Prospective et Normalisation de la DER à leur collègues du service Informatique et<br />

Mathématiques Appliquées : comment enrichir et maintenir à jour le thesaurus<br />

électronique utilisé par le système d’indexation automatique de la DER. J’ai été<br />

d’emblée plongé dans le contexte d’une recherche guidée par un problème à résoudre.<br />

Ingénieur de formation, et après trois années d’études en linguistique théorique et<br />

formelle à l’<strong>Un</strong>iversité Paris VII, je n’ai pas été rebuté par ces conditions de travail, que<br />

j’ai toujours considérées comme stimulantes 2 . Au long de mon parcours de chercheur, de<br />

la DER d’EDF au CNRS, cette « obligation de résultats », contrainte subie et acceptée au<br />

départ de ma recherche, est devenue une dimension constitutive assumée de ma<br />

conception du travail de chercheur en Traitement Automatique des Langues (TAL).<br />

Dans le paysage de la recherche en TAL, marqué par « la cohabitation paradoxale et<br />

nécessaire des recherches théoriques et des applications à visée industrielle » (Cori &<br />

Léon, 2002), je revendique une démarche ingénierique, où la définition du programme<br />

de recherche est, pour partie, liée à l’identification d’applications cibles ou de problèmes<br />

concrets, et où la validation des résultats passe par la confrontation des outils réalisés<br />

avec des contextes d’usages aussi réels que possible.<br />

Ce parti pris d’une recherche située en ingénierie linguistique est clairement assumé et<br />

affiché dans ma thèse soutenue en juin 1994. Il est révélé par l’architecture même du<br />

mémoire, et en particulier par les choix concernant la traditionnelle partie « état de<br />

l’art ». Le premier chapitre est consacré à la présentation des principes de base du<br />

logiciel. Il commence par l’énoncé du problème à résoudre, à savoir la constitution et<br />

l’enrichissement de thesaurus, et par la présentation de la solution visée : la réalisation<br />

d’un logiciel d’extraction de terminologie, prenant en entrée un corpus étiqueté portant<br />

sur un domaine spécialisé, et effectuant une analyse <strong>syntaxique</strong> pour extraire des<br />

syntagmes nominaux susceptibles de représenter les concepts du domaine. Pour la mise<br />

en contexte de la recherche, plutôt que d’inscrire mon travail dans un champ particulier<br />

de la linguistique ou du Traitement Automatique des Langues, je choisis de le situer en<br />

évoquant la « demande », c’est-à-dire les domaines d’application de la terminologie<br />

(traduction automatique, informatique documentaire, gestion de la connaissance). En<br />

restant dans la même veine « génie logiciel », je définis ensuite un cahier des charges<br />

minimal pour la réalisation du logiciel en imposant deux contraintes : généralité – le<br />

1 Je dois beaucoup à Gérard Hatabian, alors chef du groupe Statistiques, Optimisation, Aide à la Décision, qui<br />

m’a fait confiance à ce moment crucial de mon parcours professionnel.<br />

2 Il faut bien reconnaître qu’à cette époque la Direction des Etudes et Recherches d’EDF constituait un lieu<br />

extrêmement favorable et confortable pour des recherches à visée applicatives certes, mais avec une pression<br />

quant aux résultats beaucoup moindre que dans les entreprises industrielles du secteur privé.<br />

8


logiciel doit être capable de traiter des corpus de domaines quelconques, et robustesse –<br />

le logiciel doit être capable de traiter des corpus de taille importante dans des temps<br />

raisonnables. C’est à la fin de ce premier chapitre que se glisse une discussion<br />

bibliographique sur les techniques de Traitement Automatique des Langues, dans<br />

laquelle je décris en détail et j’évalue par rapport à mes propres choix de conception<br />

deux séries de travaux : ceux de F. Debili d’une part, et ceux de S. David et P. Plante<br />

d’autre part. Le tout en une douzaine de pages. La « vraie » partie état de l’art est placée<br />

dans le dernier chapitre (chapitre 6). J’y expose un état de l’art très complet et détaillé<br />

(une soixantaine de pages) sur la problématique de l’acquisition des connaissances à<br />

partir de textes, domaine d’application que j’ai choisi pour le logiciel. Je présente,<br />

décortique et critique un bon nombre de travaux en acquisition des connaissances à partir<br />

de textes, et je propose en conclusion une typologie des outils d’analyse de textes pour<br />

l’acquisition des connaissances.<br />

Ce rapide retour en arrière sur l’architecture de mon mémoire de thèse révèle bien ma<br />

volonté de valoriser ma recherche selon le point de vue de l’utilisation de LEXTER, et<br />

donc de sa validation, plutôt que sur sa conception, en négligeant de me situer, dans le<br />

domaine du TAL, par rapport aux travaux sur l’analyse <strong>syntaxique</strong> automatique 3 . En ce<br />

qui concerne ma position par rapport aux théories et travaux en linguistique, je fais<br />

référence dans ma thèse à la Théorie Générale de la Terminologie et à certains linguistes<br />

reconnus (Benveniste, Guilbert). Je peux dire maintenant que ce positionnement est un<br />

habillage rapidement cousu au moment de la rédaction de la thèse pour justifier des<br />

choix de conception et d’implémentation que j’avais effectués sur des bases entièrement<br />

pragmatiques.<br />

En 1999, quand j’attaque la conception de l’<strong>analyseur</strong> <strong>syntaxique</strong> <strong>SYNTEX</strong>, je suis bien<br />

décidé à problématiser enfin la distance entre les théories linguistiques et la conception<br />

d’un <strong>analyseur</strong> <strong>opérationnel</strong>. Au moment où nous commençons à travailler sur ce nouvel<br />

<strong>analyseur</strong>, C. Fabre et moi rédigeons, pour un numéro spécial des Cahiers de Grammaire<br />

sur « Sémantique et corpus », un article qui constitue l’acte de baptême de <strong>SYNTEX</strong> et<br />

qui restera pendant plusieurs années sa seule référence bibliographique (Bourigault et<br />

Fabre, 2000). Dans cet article, j’amorce une réflexion sur les rapports entre certains des<br />

choix méthodologiques effectués pour le développement d’un <strong>analyseur</strong> <strong>syntaxique</strong><br />

<strong>opérationnel</strong> et certaines des positions théoriques défendues par J.-C. Milner dans son<br />

Introduction à une science du langage (Milner, 1999). Mais une fois la rédaction de<br />

l’article achevée, je me plonge à nouveau dans les développements informatiques,<br />

pendant 5 années, période au bout de laquelle est achevée une première version stable de<br />

l’<strong>analyseur</strong>.<br />

3 Cette disproportion entre une étude bibliographique hypertrophiée sur l’acquisition des connaissances à partir<br />

de textes et une discussion relativement légère sur les techniques de traitement automatique des langues n’a pas<br />

manqué de surprendre Jean Véronis, qui écrit dans son rapport sur la thèse : « J’ai été surpris tout d’abord par<br />

la place de cette étude qui constitue en quelque sorte un état de l’art, et il m’a semblé qu’elle aurait mieux eu<br />

sa place au début du mémoire, de façon à ce que l’exposé s’appuie sur elle. Mais il est vrai qu’elle ne porte<br />

pas exactement sur le thème général de la thèse, mais sur le seul aspect particulier de l’acquisition des<br />

connaissances. On peut alors se demander pourquoi une bibliographie si élaborée sur ce thème et pas sur le<br />

thème central de la thèse. »<br />

9


La rédaction du présent mémoire est pour moi l’occasion d’une pause, urgente et<br />

salutaire, dans le développement du logiciel et dans la course aux applications, pour<br />

reprendre mes interrogations sur théorie linguistique et développement informatique en<br />

ingénierie linguistique.<br />

1.2. Analyse <strong>syntaxique</strong> locale<br />

LEXTER est un logiciel d’extraction de terminologie. Il prend en entrée un corpus de<br />

textes, préalablement étiqueté 4 , puis effectue une extraction de candidats termes<br />

nominaux en deux étapes : (1) découpage, (2) décomposition. Au cours de l’étape de<br />

découpage, LEXTER isole dans la chaîne étiquetée des groupes nominaux maximaux en<br />

repérant des patrons morpho<strong>syntaxique</strong>s de frontières. Il s’agit par exemple des mots de<br />

catégorie Verbe, Pronom, Conjonction de subordination, etc., ou des séquences de<br />

catégories morpho<strong>syntaxique</strong>s, par exemple certaines suites Nom + Préposition ou<br />

Préposition + Déterminant, qui ne peuvent être constituants de termes. Au cours de<br />

l’étape de décomposition, LEXTER analyse les groupes nominaux maximaux dégagés lors<br />

de l’étape de découpage pour les décomposer récursivement de façon binaire en une tête<br />

et une expansion 5 . Par exemple, le groupe nominal maximal pompe de refoulement<br />

rapide est décomposé en une tête, le groupe nominal pompe de refoulement et une<br />

expansion, l’adjectif rapide, et le groupe nominal pompe de refoulement est lui-même<br />

décomposé en une tête, pompe, et une expansion, refoulement. Pour résoudre les<br />

ambiguïtés de rattachement adjectival au sein des groupes nominaux maximaux ou<br />

certaines ambiguïtés de rattachement prépositionnel lors de l’étape de découpage,<br />

LEXTER met en œuvre le principe de l’apprentissage endogène : il acquiert lui-même,<br />

par analyse de configurations non ambiguës au sein corpus en cours de traitement, les<br />

informations lexico-<strong>syntaxique</strong>s qui lui sont nécessaires pour traiter les configurations<br />

ambiguës. Par exemple, LEXTER effectue l’analyse donnée ci-dessus du groupe pompe<br />

de refoulement rapide parce qu’il a repéré dans le corpus des occurrences non ambiguës<br />

des groupes pompe rapide ou pompe de refoulement, et aucune occurrence non ambiguë<br />

de refoulement rapide. De même, c’est parce qu’il aura repéré plusieurs contextes non<br />

ambigus dans lesquels le nom action est construit avec la préposition sur que le logiciel<br />

ne coupera pas à la séquence sur + le dans la phrase « Le système déclenche une action<br />

sur le bouton poussoir », et extraira ainsi le groupe nominal maximal action sur le<br />

bouton poussoir. En revanche, il considérera cette même séquence comme une frontière<br />

dans la phrase « on raccorde le câble d’alimentation sur le coffre de décharge » au motif<br />

qu’il n’aura repéré aucune occurrence non ambiguë de alimentation + sur dans le<br />

corpus.<br />

4 L’étiqueteur utilisé au départ du projet est AlethIPCat de la société GSI-Erli.<br />

5 Je reviens à la fin de la section 1.5 sur les motivations de cette décomposition binaire récursive.<br />

10


Le concept fondateur de LEXTER est celui de frontière. Dès le début de ma réflexion sur<br />

une méthode d’identification de termes dans des corpus, j’ai eu à ma disposition un<br />

étiqueteur, et l’observation de corpus de test étiquetés m’a guidé vers l’idée d’une<br />

extraction de groupes nominaux maximaux par repérage de marqueurs de frontière.<br />

Pourquoi avoir choisi une méthode « en négatif », par patrons de frontière, plutôt qu’une<br />

méthode beaucoup plus classique par patrons de termes (Nom Adjectif, Nom Prep Nom,<br />

etc.) ? Sans doute parce que le premier corpus sur lequel j’ai travaillé avait cette<br />

particularité de regorger de syntagmes nominaux extraordinairement complexes, avec de<br />

magnifiques enchâssements (par exemple : amélioration des connaissances actuelles sur<br />

les propriétés électriques et mécaniques des accéléromètres à fibre otique). Ce corpus de<br />

200 000 mots était constitué de textes rédigés par les ingénieurs de la DER qui<br />

décrivaient leurs thèmes et actions de recherche pour l’année à venir. Devant la diversité<br />

et la complexité des groupes nominaux utilisés pour nommer ces thèmes et actions, il<br />

m’est apparu plus facile de travailler dans un premier temps sur la caractérisation des<br />

limites extérieures de ces groupes que sur celle de leur structure interne. Dans une<br />

perspective de prototypage rapide, la mise au point d’une liste initiale de patrons de<br />

frontière m’est apparue chose aisée. <strong>Un</strong>e première version satisfaisante du module<br />

découpage a été prête assez vite. Comme prévu, les structures des séquences isolées à<br />

l’issue de la phase de découpage étaient très complexes et diversifiées. Pour extraire des<br />

sous-séquences, qui avaient plus de chances d’être des termes du domaine que les<br />

séquences maximales, je me suis lancé dans la mise au point des règles de<br />

décomposition. J’ai adopté une approche énumérative, totalement inductive, basée sur<br />

l’observation de ces syntagmes nominaux maximaux. En simplifiant, pour chaque motif<br />

possible de syntagme nominal maximal, décrit en terme de succession de catégories<br />

morpho<strong>syntaxique</strong>s (noms, adjectifs, participes passés, prépositions, adverbes,<br />

déterminants), j’ai construit une règle du module de décomposition, qui indique quels<br />

sont les constituants à extraire, ainsi que, dans le cas d’une ambiguïté de rattachement<br />

adjectival, quels sont les groupes dont il faut chercher des occurrences non ambiguës.<br />

Dans un premier temps, les règles énuméraient les sous-groupes à extraire, sans produire<br />

d’analyse en Tête et Expansion. J’ai introduit cette analyse dans un second temps,<br />

d’abord pour faciliter la navigation dans l’interface de consultation des résultats<br />

(section 1.5). <strong>Un</strong>e des grandes richesses de LEXTER est la connaissance accumulée dans<br />

les dizaines de règles du module décomposition.<br />

Pour qualifier le type d’analyse effectuée par LEXTER, j’ai parlé d’« analyse <strong>syntaxique</strong><br />

locale » (Bourigault, 1993). Cette mention concerne l’analyse effectuée par le module de<br />

découpage, qui s’appuie sur des patrons catégoriels de faible empan (séquences d’une ou<br />

deux, voire trois, catégories) pour extraire des syntagmes nominaux <strong>syntaxique</strong>ment<br />

valides 6 . Dans ma thèse, je justifie le non recours à une analyse <strong>syntaxique</strong> globale des<br />

phrases de la façon suivante : (1) mon objectif est limité à l’identification de syntagmes<br />

6 Alors que le module de décomposition, lui, met en œuvre une analyse <strong>syntaxique</strong> globale des syntagmes<br />

nominaux maximaux, en ce sens que chaque règle de décomposition correspond à un motif possible de<br />

syntagme nominal maximal décrivant l’intégralité du syntagme à analyser.<br />

comporte en partie gauche le mtof<br />

11


nominaux complexes dans des corpus de grande taille, (2) l’analyse <strong>syntaxique</strong> des<br />

phrases est rarement décisive pour identifier les frontières de syntagmes nominaux, (3) le<br />

fait d’adopter une méthode robuste autorise une démarche expérimentale par tests<br />

nombreux sur corpus de grande taille et une mise au point fine des règles d’extraction.<br />

J’argumente ainsi que la méthode de LEXTER est plus précise qu’une méthode par simple<br />

repérage de patrons de termes, et plus efficace et robuste qu’une méthode par analyse<br />

<strong>syntaxique</strong> globale 7 . J’affirme même : « La synergie entre repérage de termes et analyse<br />

<strong>syntaxique</strong> doit s’effectuer dans le sens inverse. D’un point de vue théorique, toute<br />

approche structurale de l’analyse de la langue qui fonde sur la compositionnalité une<br />

organisation des traitements en niveaux (<strong>syntaxique</strong>, sémantique) se doit de considérer<br />

les termes comme des unités sur le plan <strong>syntaxique</strong>, puisque ce sont des unités sur le<br />

plan interprétatif. D’un point de vue pratique, il est nécessaire de fournir à un <strong>analyseur</strong><br />

<strong>syntaxique</strong> la liste des termes (et des noms composés) qu’il est susceptible de rencontrer<br />

dans les textes, pour limiter le nombre de cas d’ambiguïtés auxquels il sera confronté. »<br />

(Bourigault, 1994b, p. 70). J’évoque à ce propos un « principe d’incertitude », qui<br />

interdirait d’obtenir, avec une égale précision et en exploitant les mêmes informations, à<br />

la fois la structure <strong>syntaxique</strong> d’une phrase et le repérage d’unités complexes qui la<br />

constitueraient. Je n’approfondirai jamais cette idée. A rebours, je réalise quelques<br />

années plus tard un <strong>analyseur</strong> <strong>syntaxique</strong> de phrase dont une des applications en aval est<br />

l’extraction de termes (section 1.7).<br />

1.3. La fonction initiale de LEXTER : extraire des étiquettes<br />

de concepts<br />

LEXTER est développé initialement pour répondre au problème de la constitution et de<br />

l’enrichissement de thesaurus. Je le conçois comme un outil dont la fonction est<br />

d’extraire automatiquement d’un corpus de textes des séquences de mots aptes à intégrer<br />

directement la nomenclature d’un thesaurus, sans retouche de forme. Par exemple, le<br />

logiciel doit extraire la séquence nominale paroi d’enceinte, mais doit écarter la<br />

séquence paroi de cette enceinte, parce que la présence du déterminant démonstratif<br />

vient la disqualifier pour le titre d’étiquette de concept. Ce parti pris relève de la<br />

conception naïve de la terminologie qui est la mienne tout au long de mon travail de<br />

thèse : le terme est une étiquette de concept, il est figé à la fois dans sa fonction<br />

7 Cette polémique peut paraître quelque peu datée, au regard de la popularité gagnée ces dix dernières années<br />

par les travaux en analyse <strong>syntaxique</strong> robuste par bribes. A l’époque, la nécessité de mettre au point un tel<br />

argumentaire m’est apparue, quelques mois après le début de ma thèse, à l’occasion d’un colloque sur le<br />

repérage de l’information textuelle organisé à l’<strong>Un</strong>iversité du Québec à Montréal. Je présentais pour la<br />

première fois le principe du découpage par marqueurs de frontière, et celui, qui suit logiquement, de<br />

décomposition des syntagmes nominaux maximaux (Bourigault, 1991). <strong>Un</strong> membre de l’équipe de l’UQAM,<br />

qui travaillait alors sur le progiciel Termino, m’a demandé comment je pouvais extraire des syntagmes<br />

nominaux sans analyse <strong>syntaxique</strong> de la phrase. Ce point, dont je constate retrospectivement avoir surestimé<br />

l’importance, m’a conduit à l’époque à mobiliser une partie de mon énergie à justifier le non recours à<br />

l’analyse <strong>syntaxique</strong> de phrase.<br />

12


éférentielle et dans sa forme, car le système conceptuel préexiste à toute production<br />

textuelle. Le corpus n’est qu’un simple réservoir d’attestations. Cette conception n’est<br />

pas ébranlée par mes diverses lectures issues de la littérature classique de la<br />

terminologie. Ni du côté de E. Benveniste (1966) ou de L. Guilbert (1965), dont la<br />

citation que je donne page 26 de ma thèse conforte parfaitement ma conception initiale<br />

de l’extraction automatique de termes : « Les unités lexicales complexes ne sont en<br />

définitive que des segments d’énoncés extraits de leur contexte. » (Guilbert, 1965,<br />

p. 273). Ni du côté de la Théorie Générale de la Terminologie d’Eugène Wüster, telle<br />

qu’elle est exposée dans le Manuel de terminologie de H. Felber, auquel j’emprunte<br />

page 19 de ma thèse cette définition du terme : « un terme est un symbole conventionnel<br />

représentant une notion définie dans un certain domaine de savoir » (Felber, 1987, p. 1).<br />

Dans la section de ma thèse consacrée à la caractérisation linguistique du terme,<br />

j’affirme que la propriété définitoire essentielle du terme est sa propriété<br />

d’interprétabilité hors contexte (Bourigault, 1994b, p. 21). J’affirme ensuite que si cette<br />

contrainte d’interprétabilité hors contexte ne permet pas de déduire directement les<br />

principes d’une implémentation, elle induit sur la forme du terme des contraintes<br />

morpho<strong>syntaxique</strong>s qui, elles, peuvent servir de bases descriptives pour<br />

l’implémentation. C’est ainsi que je justifie le fait que LEXTER extrait des séquences<br />

contiguës d’unités lexicales, correspondant à des groupes nominaux figés, dont la forme<br />

les rend aptes à intégrer directement la nomenclature d’une terminologie. Cette traque de<br />

l’étiquette est poursuivie de façon obsessionnelle pendant toute la conception du logiciel<br />

LEXTER (1990–1994). Elle me conduit à imposer des contraintes fortes sur le filtrage des<br />

groupes nominaux à extraire des corpus. En particulier, j’écarte tout groupe qui a pour<br />

constituant un article autre que l’article défini (comme refroidissement d’une enceinte)<br />

ou, plus encore, qui a pour constituant un article défini à valeur non générique : une règle<br />

de découpage considère comme une frontière les séquences de + article défini quand le<br />

nom qui suit l’article est suivi d’une relative. Par exemple, dans la phrase « le débit de la<br />

pompe qui alimente le circuit de refroidissement», la séquence débit de la pompe ne sera<br />

pas retenue car dans ce contexte le déterminant la n’a pas la valeur générique, mais celle<br />

de spécifiant.<br />

1.4. LEXTER à l’épreuve des usages : revirement théorique<br />

Après la soutenance de ma thèse en juin 1994, j’arrête tout travail de développement<br />

informatique sur le logiciel LEXTER lui-même, et je consacre la période 1994–1999<br />

d’une part à l’animation de la recherche, au sein de la communauté de l’Ingénierie des<br />

Connaissances et dans le groupe « Terminologie et Intelligence Artificielle », que j’ai<br />

créé avec A. Condamines en 1994, et d’autre part à la mise en place et à l’animation<br />

d’un certain nombre de projets de recherche dans lesquels le logiciel LEXTER est utilisé,<br />

13


que ce soit au sein de la DER d’EDF 8 ou dans des laboratoires de la recherche<br />

universitaire.<br />

Assez vite après le début de la thèse, j’avais changé sensiblement la visée applicative de<br />

mon travail. Je m’étais détourné du domaine de l’informatique documentaire, et avais<br />

abandonné le problème spécifique de la constitution de thesaurus, pour inscrire mes<br />

recherches dans le domaine de l’Intelligence Artificielle, et m’intéresser au problème de<br />

la conception des systèmes experts 9 . Ce geste fut de grande importance pour la suite de<br />

ma recherche, car le domaine de l’Intelligence Artificielle a vécu au début des années<br />

1990 une sorte de révolution culturelle, avec un vaste mouvement d’idées autour de<br />

l’activité d’acquisition et de modélisation des connaissances pour les systèmes experts,<br />

au sein duquel la réflexion sur l’utilisation des textes et des outils informatiques<br />

d’analyse de textes a occupé une place centrale. Au début de leur développement, les<br />

systèmes experts étaient conçus comme des ensembles uniformes de règles<br />

d’association, permettant de passer d’un ensemble de prémisses à des conclusions. Ces<br />

règles étaient établies à partir des explications fournies par les experts sur leur façon de<br />

résoudre les problèmes. L’acquisition des connaissances était donc appréhendée comme<br />

un problème d’extraction et de retranscription de connaissances que posséderait un<br />

expert vers un système expert. Au début des années 1990, un certain nombre de<br />

chercheurs, pour lesquels cette conception expliquait en partie l’échec des systèmes<br />

experts de première génération, proposent une nouvelle approche qui voit l’acquisition<br />

des connaissances comme un problème de construction de modèles (Aussenac et al.,<br />

1992).<br />

Le domaine de l’acquisition des connaissances pour les systèmes à base de<br />

connaissances se caractérise par l’identification et l’agencement des<br />

processus requis pour l’élaboration (conception, évaluation, évolution)<br />

d’un Système à Base de Connaissances à partir de sources hétérogènes de<br />

connaissances (documentaires, humaines, expérimentales).<br />

(op. cit., p. 8)<br />

Il ne s’agit plus de « mimer » le raisonnement d’un expert dans un système informatique,<br />

mais de construire un artefact informatique, un « système à base de connaissances », qui<br />

viendra s’intégrer au dispositif utilisé par les spécialistes dans leur activité experte. <strong>Un</strong><br />

tel changement de conception entraîne un changement radical dans les méthodologies<br />

d’acquisition des connaissances. En particulier, le recours aux textes n’est plus le même<br />

qu’avec la vision classique des systèmes experts, pour laquelle seules les retranscriptions<br />

8 Ce fut une période particulièrement active, au cours de laquelle j’ai eu le bonheur de travailler, toujours à<br />

EDF, avec Cécile Gros et Henri Boccon-Gibod, bientôt rejoints par Daniela Garcia. L’aide qu’ils m’ont<br />

apportée a été capitale.<br />

9 Je dois l’idée de ce changement à Jean-Paul Krivine, chercheur au service Informatique et Mathématiques<br />

Appliquées de la DER, qui crée et anime à partir d’octobre 1991 le Groupe de Recherche en Acquisition des<br />

Connaissances (GRACQ). Il perçoit l’intérêt d’un rapprochement des recherches en extraction de terminologie<br />

avec celles qui portent sur la construction de systèmes experts, et il m’invite à participer aux deuxièmes<br />

journées d’Acquisition des Connaissances, en avril 1992 à Dourdan. Je lui suis d’autant plus redevable que sa<br />

suggestion est intervenue au moment où des problèmes de relation entre services au sein de la DER rendaient<br />

difficile la poursuite du projet de mise à jour du thesaurus EDF.<br />

14


d’entretiens avec les experts sont dignes d’intérêt. Les quelques travaux entrepris en<br />

Traitement Automatique des Langues dans cette logique aujourd’hui abandonnée, basés<br />

sur l’utopie d’une traduction automatique possible des discours des experts en des règles<br />

de systèmes expert, n’avaient en effet produit que peu de résultats intéressants<br />

(Bourigault, 1994b, chap. 5). Avec la nouvelle approche des systèmes à base de<br />

connaissances, il apparaît que les connaissances à modéliser pour réaliser les artefacts<br />

informatiques vont bien au-delà des connaissances verbalisées par les experts. Ces<br />

connaissances sont susceptibles d’être exprimées dans de multiples sources textuelles, de<br />

types très divers selon les applications : documentations techniques, ouvrages de<br />

référence, rapports de projets, comptes rendus d’activité, etc. Dès lors, puisque les<br />

termes techniques présents dans ces documents constituent les points d’accès privilégiés<br />

aux connaissances qui y sont exprimées, et face à la masse des documents à étudier, la<br />

communauté de l’Ingénierie des Connaissances s’est ouverte aux recherches autour de la<br />

terminologie et de l’analyse automatique de corpus.<br />

C’est précisément pour favoriser la réflexion interdisciplinaire entre la linguistique de<br />

corpus, la terminologie, le Traitement Automatique des Langues et l’Ingénierie des<br />

Connaissances qu’Anne Condamines, de l’Equipe de Recherche en Syntaxe et<br />

Sémantique (<strong>ERSS</strong>) de Toulouse, et moi créons en 1994 le groupe « Terminologie et<br />

Intelligence Artificielle » (TIA). Ce groupe va être le creuset d’une bouillonnante<br />

activité de discussion et de réflexion, et constituer un centre d’animation de la recherche<br />

particulièrement actif pendant toute la seconde moitié des années 1990. Personnellement,<br />

c’est grâce aux échanges et aux collaborations avec les membres de ce groupe de travail<br />

que j’ai pu engager une réflexion sérieuse sur les bases théoriques de mon travail, puis<br />

élaborer le cadre théorique et méthodologique de mes recherches sur l’utilisation d’outils<br />

de TAL pour la modélisation des connaissances à partir de textes. L’une des actions<br />

importantes du Groupe TIA aura été de participer à la critique des bases théoriques et<br />

épistémologiques de la terminologie classique. Celles-ci étaient déjà remises en cause à<br />

cette époque par les tenants de la socioterminologie (Gambier, 1995, Gaudin, 1995). Elle<br />

l’étaient aussi par M. Slodzian, qui mettait en évidence que la vision mécaniste du<br />

couplage entre le terme et la notion s’était imposée dans le cadre intellectuel de<br />

l’universalisme et de l’empirisme logique, que le monde scientifique avait depuis<br />

largement remis en cause (Slodzian, 1994). A partir des discussions menées au sein du<br />

groupe TIA, je tente de contribuer moi aussi à cet effort de renouvellement des bases<br />

théoriques de la terminologie, en apportant le point de vue d’un concepteur de logiciel<br />

d’extraction de termes. Je remets en question mes conceptions théoriques initiales, sur<br />

les bases d’un constat dressé sur le terrain des différents projets utilisant LEXTER :<br />

l’hypothèse de l’existence et de l’unicité d’un réseau notionnel et d’une terminologie<br />

pour un domaine donné ne résiste pas à l’évidence de la grande diversité des ressources<br />

terminologiques qu’il est possible de concevoir. Cette diversité est elle-même liée à la<br />

diversité des applications utilisatrices de telles ressources, qui se multiplient avec le<br />

développement des réseaux et de la société de l’information multilingue (thesaurus pour<br />

les systèmes d'indexation automatique, index structurés pour les documentations<br />

techniques hypertextuelles, ontologies pour les mémoires d'entreprise, pour les systèmes<br />

d’aide à la décision ou pour les systèmes d’extraction d’information, etc.). Dans les<br />

15


projets menés en particulier à EDF, l’expérience me montrait que, pour le terminologue<br />

face à un candidat terme, la bonne question n’était jamais « Cette unité lexicale<br />

réfère-t-elle à un concept du domaine ? », mais plutôt « Est-il utile/pertinent d’intégrer<br />

cet élément dans la ressource terminologique en cours de construction, utile/pertinent<br />

vis-à-vis de l’application dans laquelle cette ressource sera utilisée ? ». Le cadre<br />

théorique de la doctrine terminologique classique, qui contraint à poser le problème de la<br />

construction de terminologie comme une activité de découverte des traces linguistiques<br />

d’un réseau de concepts préexistants, n’est pas compatible avec la réalité du terrain. Il<br />

s’écroule. Le terme n’est pas découvrir, le terme est un élément d’une ressource<br />

terminologique à construire en fonction d’une application cible.<br />

1.5. <strong>Un</strong> outil d’aide à l’analyse sémantique de textes<br />

spécialisés<br />

A ce moment de ma réflexion, la découverte de la sémantique de F. Rastier fut pour moi<br />

une révélation. Je trouve exprimées dans les écrits de F. Rastier (1987, 1991, et al.,<br />

1994) des positions qui entrent en résonance avec mes propres constats empiriques. <strong>Un</strong>e<br />

sémantique textuelle, qui pose les textes comme objets empiriques de la linguistique, et<br />

interprétative, qui place au centre du dispositif théorique les concepts de contexte et<br />

d’interprétation, était celle dont j’avais besoin pour m’affranchir du recours infructueux<br />

aux propositions théoriques de la doctrine terminologique, ainsi qu’à celles des<br />

sémantiques référentielles ou des sémantiques conceptuelles que je connaissais mieux<br />

alors. La communication de F. Rastier aux premières journées organisées par le groupe<br />

TIA en avril 1995 à Villetaneuse, intitulée « Le terme : entre ontologie et linguistique »<br />

(Rastier, 1995), fut pour moi décisive. L’auteur propose d’en finir avec une conception<br />

de la terminologie comme discipline qui s’opposerait à la linguistique, ainsi que le<br />

revendiquent Wüster et ses disciples, et annonce que maintenir une sécession de la<br />

terminologie causerait un préjudice à l'ensemble des sciences du langage :<br />

Alors que ses objectifs pratiques relèvent de la linguistique appliquée, les<br />

préjugés logico-positivistes de sa doctrine doivent être abandonnés, d'une<br />

part parce qu'ils entravent la réalisation même de ses objectifs, d'autre part<br />

parce qu'ils donnent du langage une image à la fois simpliste et obsolète,<br />

sans permettre de comprendre la richesse et la complexité du<br />

fonctionnement effectif des textes de spécialité. (…) En resserrant ses<br />

liens avec la linguistique, et notamment la sémantique des textes<br />

scientifiques et techniques, la terminologie va devenir mieux à-même de<br />

remplir ses multiples missions, en problématisant la recherche et la<br />

constitution de ses unités, et en s'adaptant mieux à ses domaines d'action<br />

privilégiés : documentation et indexation, aide à la traduction.<br />

(op. cit., p. 61-62).<br />

16


Il s’agit de considérer la terminologie comme une branche descriptive et normative de la<br />

linguistique appliquée, relevant de la lexicologie et traitant séparément de domaines<br />

sémantiques correspondant à diverses disciplines. Il devient alors possible d’utiliser les<br />

bases et concepts théoriques de la sémantique lexicale, en s’appuyant en particulier sur le<br />

concept de contexte que théorise la sémantique textuelle dont elle procède, pour adopter<br />

une vision constructiviste de la terminologie : en terminologie, comme en lexicologie,<br />

tout lexique est une reconstruction, qui fait abstraction du contexte et du texte :<br />

<strong>Un</strong> mot-occurrence ne se définit que dans et par un contexte, et reçoit des<br />

déterminations du texte. Le placer sous l’autorité d’un type revient à le<br />

décontextualiser et le dé-textualiser. (…) les types ne préexistent pas aux<br />

occurrences, mais sont reconstruits à partir d’elles. Ainsi tout type résulte<br />

d’une décontextualisation (…). Le mot-type est un artefact des linguistes,<br />

comme le terme est un artefact de la discipline qui l’instaure.<br />

(op. cit., p. 53).<br />

Cette position méthodologique rejoint les constats faits sur le terrain. On doit considérer<br />

que le travail de construction d’une ressource terminologique relève d’une activité<br />

d’interprétation, guidée par l’objectif de l’application. « L’interprétation est elle-même<br />

située. Elle prend également place dans une pratique sociale, et obéit aux objectifs<br />

définis par cette pratique. Ils définissent à leur tour les éléments retenus comme<br />

pertinents » (Rastier et al., 1994, p. 13). Dès lors que la terminologie est intégrée dans le<br />

giron de la sémantique textuelle, il devient possible selon F. Rastier de prendre en<br />

compte la dimension textuelle dans les études en terminologie, et de coupler ainsi le<br />

point de vue paradigmatique, systématiquement privilégié dans l’étude des vocabulaires<br />

spécialisés, avec un point de vue syntagmatique qui étudie la constitution des termes, le<br />

rapport des termes aux non termes, le rapport du terme au contexte et le rapport du terme<br />

au texte. Dans ce contexte, l’auteur affirme que « les outils statistiques, les<br />

concordanciers, et les logiciels d’analyse sémantique permettent d’apporter du nouveau,<br />

pour peu que les stratégies de recherche tiennent compte de la textualité. » (Rastier,<br />

1995, p. 58-59).<br />

Dans un article publié en septembre 1995, dans les actes des 4èmes journées<br />

scientifiques du Réseau Lexicologie, Terminologie, Traduction, j’affiche une position<br />

sur la terminologie radicalement différente de celle présentée dans ma thèse, où je<br />

m’étais docilement rangé derrière les tenants de la doctrine et les grands noms de la<br />

discipline. Influencé par F. Rastier, ainsi que par B. Bachimont qui reprend lui aussi à<br />

son compte la théorie de F. Rastier dans ses travaux en Ingénierie des Connaissances<br />

(Bachimont, 1996), je ne présente plus le terme comme le représentant d’un concept, sa<br />

trace linguistique qu’il s’agirait d’aller retrouver dans les textes, mais comme un élément<br />

d’une ressource terminologique qu’il s’agit de construire, à partir de l’analyse des textes,<br />

pour une application identifiée. Ce revirement méthodologique m’amène à proposer une<br />

nouvelle définition de la notion de candidat terme. Dans ma thèse, j’avais justifié cette<br />

notion par le fait que, puisque la caractérisation première du terme était sa fonction<br />

sémantique de représentation de concept, et puisque le logiciel ne s’appuyait que sur des<br />

contraintes d’ordre morpho<strong>syntaxique</strong> pour extraire des syntagmes nominaux, ceux-ci ne<br />

17


pouvaient être que des « candidats » termes. La tâche du terminologue était de distinguer<br />

les termes des non termes parmi les candidats termes. Mais cette dichotomie terme/non<br />

terme n’est plus valide dans une approche qui assume le principe d’une dépendance de la<br />

tâche de sélection vis-à-vis de l’application. Je justifie alors la notion de candidat terme<br />

comme nécessaire pour rendre compatible la variété des ressources terminologiques que<br />

l’on peut construire à partir des résultats de LEXTER, avec la contrainte de généricité<br />

imposée au logiciel, dans lequel je n’intègre aucune règle de filtrage qui dépendrait du<br />

type d’application. La tâche du terminologue est alors de retenir parmi les candidats<br />

termes les termes qui sont pertinents vis-à-vis de l’application.<br />

Ce changement, qui peut apparaître anodin, est la trace d’un premier pas important vers<br />

la redéfinition de la fonction de LEXTER. J’accomplis le second pas dans le même élan<br />

inspiré par la théorie de F. Rastier. Dans le cadre de la « terminologie textuelle »,<br />

promue par le groupe TIA (Bourigault et Slodzian, 1999), le terme est un construit : il est<br />

le produit d’un travail d’interprétation mené par l’analyste. Celui-ci construit son corpus<br />

d’étude, puis définit sa stratégie de lecture, choisit ses parcours interprétatifs et effectue<br />

ses choix de modélisation au niveau local (sélection et description des termes) guidé par<br />

la spécification au niveau global de la ressource visée. Avec une telle conception,<br />

LEXTER ne doit plus être vu comme un simple pourvoyeur d’étiquettes de concepts, mais<br />

comme un outil d’aide à l’analyse sémantique de textes spécialisés dédié à la tâche de<br />

construction de ressources terminologiques. Le réseau terminologique construit en<br />

connectant chaque candidat terme complexe à sa tête (lien T) et à son expansion (lien E)<br />

est directement implémenté dans l’interface de consultation des résultats de LEXTER, dite<br />

« Hypertexte Terminologique LEXTER » (HTL) dans laquelle les liens T et E deviennent<br />

des liens de navigation 10 . Il est possible pour un mot donné de visualiser d’un coup d’œil<br />

la liste de ses descendants en Tête et de ses descendants en Expansion, et de se<br />

transporter rapidement à l’un de ceux-ci. Chaque candidat terme peut être ainsi saisi et<br />

interprété au sein d’une série paradigmatique de candidats termes partageant la même<br />

tête ou la même expansion. Cette fonctionnalité s’avère particulièrement intéressante<br />

dans la perspective de modélisation des connaissances. L’interface HTL permet une<br />

navigation hypertextuelle au sein du réseau terminologique, ainsi qu’entre le réseau de<br />

candidats termes et les textes, en donnant accès pour un candidat donné à tous ses<br />

contextes d’occurrence. Elle invite l’analyste à adopter un mode de lecture non<br />

séquentiel du corpus, que l’on peut qualifier de paradigmatique. L’action du logiciel peut<br />

ainsi être vue comme l’enchaînement d’une étape de dé-contextualisation et d’une étape<br />

de re-contextualisation : les candidats termes sont extraits de leurs contextes<br />

d’occurrence, puis plongés dans leurs contextes paradigmatiques, reconstitués par<br />

l’analyse. Cette double opération n’est pas irréversible, puisque l’analyste a toujours<br />

accès au corpus et aux contextes d’occurrence des candidats termes. Le réseau<br />

10 Dès le début de mon travail à EDF, alors même que le logiciel était encore dans les limbes, j’avais réfléchi à<br />

la conception d’une interface hypertextuelle qui valoriserait les résultats extraits par le logiciel dans une station<br />

de travail pour terminologue, de façon à pouvoir le (faire) tester dans des applications réelles. J’ai eu alors la<br />

chance de travailler avec Jean-Louis Vuldy, de la DER, qui a développé avec le logiciel Hypercard une<br />

magnifique interface hypertextuelle.<br />

18


terminologique navigable construit par LEXTER propose à l’analyste « une image<br />

réorganisée du texte » 11 .<br />

1.6. <strong>Un</strong> outil d’identification de contextes <strong>syntaxique</strong>s pour<br />

l’analyse distributionnelle<br />

Le renouvellement des conceptions théoriques et le développement des applications en<br />

terminologie ouvrent en France au milieu des années 1990 un nouveau paradigme de<br />

recherche en TAL sur les outils d’aide à l’analyse sémantique de textes spécialisés<br />

(Bourigault et Jacquemin, 2000) (Jacquemin et Bourigault, 2003). Les recherches portent<br />

sur les techniques de TAL pour extraire des textes des informations (termes, relations,<br />

classes, etc.) utiles pour la construction de ressources lexicales spécialisées. On parle<br />

alors d’outils d’aide, non pas parce que ces outils sont imparfaits et nécessitent une<br />

intervention humaine pour corriger les erreurs, mais parce que l’analyse des résultats<br />

qu’ils fournissent est une tâche d’interprétation qui ne peut être menée à bien que par un<br />

analyste humain muni d’un objectif.<br />

Dans ce contexte, l’extraction de candidats termes n’est qu’une des applications du TAL<br />

utiles à la modélisation des connaissances. Toute méthode permettant de classer,<br />

structurer, mettre en relation, filtrer une liste de candidats termes extraits est la<br />

bienvenue. C’est ainsi que l’observation des réseaux terminologiques construits par<br />

LEXTER me suggère l’idée d’utiliser ce réseau aussi comme input pour des calculs<br />

statistiques permettant de caractériser les candidats termes en fonction de la cartographie<br />

du réseau local qui les entoure (Bourigault, 1994a) 12 . L’idée de proposer une<br />

décomposition <strong>syntaxique</strong> binaire récursive en Tête et Expansion des syntagmes<br />

nominaux s’est imposée initialement pour structurer la liste des candidats termes extraits<br />

et pour permettre une meilleure navigation dans l’interface HTL (le long des liens Tête<br />

et Expansion 13 ). Ce n’est que dans un second temps qu’il m’est apparu que le réseau<br />

terminologique pouvait constituer un résultat intermédiaire exploitable pour de nouveaux<br />

calculs. Les réseaux terminologiques construits à partir de corpus spécialisés de grande<br />

taille possèdent la caractéristique particulièrement intéressante d’avoir une densité<br />

absolument non uniforme. <strong>Un</strong> petit nombre de nœuds attracteurs concentrent l’essentiel<br />

11 Expression utilisée par (Habert & Nazarenko, 1996) à propos des réseaux distributionnels construits par leur<br />

outil ZELLIG.<br />

12 Avec cet article, je reçois le prix « jeune chercheur » lors de la conférence Reconnaissance des Formes et<br />

Intelligence Artificielle (RFIA 1994), à 37 ans…<br />

13 En fait, j’ai distingué deux types de décomposition en Tête et Expansion, selon le type du connecteur<br />

prépositionnel entre la tête et l’expansion. Dans les cas où la tête et l’expansion sont connectées par une<br />

séquence de+le (du, de la, des), les positions Tête et Expansion sont notées T’ et E’. Dans tous les autres cas,<br />

elles sont notées T et E. Cette distinction est issue du constat suivant : la préposition de est une préposition<br />

vide, qui constitue un bon indice de comportement dénominatif quand elle est attestée sans déterminant défini ;<br />

en revanche, le déterminant le a de façon très largement majoritaire en corpus une valeur anaphorique ou<br />

cataphorique, qui rend les séquences de+le plus souvent non interprétables hors contexte.<br />

19


des liens 14 . Surtout, les nœuds présentent des profils de répartition des liens entrants T,<br />

E, T’, E’ très dissemblables. J’analyse ces profils à partir de la notion de productivité. La<br />

productivité en T d’un nœud est le nombre de lien T qui pointent vers ce nœud, c’est-àdire<br />

le nombre de termes qui ont le terme pivot en position T, de même pour la<br />

productivité en E, en T’ et en E’. <strong>Un</strong> simple calcul sur les profils de répartition des<br />

productivités permet d’isoler certains noms du corpus qui ont un comportement marqué :<br />

par exemple, les noms qui sont proportionnellement beaucoup plus productifs en<br />

position T’ (tête de syntagme ayant comme connecteur de+le) que dans les autres<br />

positions désignent très probablement des actions importantes dans le domaine. Dans<br />

(Bourigault, 1994a), je formule ainsi 4 propositions d’interprétation, qui seront affinées<br />

dans (Assadi et Bourigault, 1996). Le résultat produit par LEXTER n’est plus uniquement<br />

un ensemble d’étiquettes de termes. Le réseau terminologique que permet de construire<br />

l’analyse <strong>syntaxique</strong> binaire en tête et expansion des candidats termes complexes devient<br />

une ressource intermédiaire pour des traitements ultérieurs dont les résultats servent eux<br />

aussi à l’aide à la modélisation des connaissances à partir de textes.<br />

Ce filon est exploité avec beaucoup d’énergie, avec l’arrivée dans le groupe SOAD<br />

d’H. Assadi, qui entame une thèse dans le domaine de la modélisation des connaissances<br />

à partir de textes. Dès les premières expériences de modélisation, menées dans le<br />

domaine de la planification de réseaux électriques, H. Assadi constate que les adjectifs<br />

extraits par LEXTER sont bien plus difficiles à valider que les groupes nominaux pour le<br />

cogniticien. Par exemple, celui-ci n’éprouve pas de difficulté particulière à valider des<br />

candidats termes tels que réseau, poste, hypothèse de consommation, alors que les<br />

candidats termes adjectivaux comme national, admissible ou fort lui posent plus de<br />

problèmes. Mais l’observation de l’ensemble des termes complexes {hydraulicité forte,<br />

puissance forte, section forte} par opposition à l’ensemble {hydraulicité faible,<br />

puissance faible, section faible} révèle quasiment immédiatement que les adjectifs faible<br />

et fort désignent des valeurs possibles d’attributs. Dans une tâche de modélisation des<br />

connaissances, l’accès à un tel rapprochement est primordial, puisque identifier les<br />

attributs et leurs domaines de variation est une condition essentielle pour la construction<br />

de taxinomies formalisables. Nous avons donc l’idée de travailler sur des méthodes<br />

automatiques de classification d’adjectifs apparaissant dans les mêmes contextes<br />

<strong>syntaxique</strong>s, c’est-à-dire modifieurs des mêmes noms ou syntagmes nominaux. La<br />

méthode que nous testons d’abord, et dont nous publions les premiers résultats lors des<br />

3èmes Journées d’Analyse de Données Textuelles en décembre 1995 (Assadi et<br />

Bourigault, 1995), consiste à construire un tableau de présence/absence, dont chaque<br />

ligne correspond à un adjectif et chaque colonne à un nom, puis à calculer à partir de ce<br />

tableau une matrice de similarité entre les individus à classer, et enfin à lancer sur cette<br />

matrice une procédure de classification hiérarchique ascendante. Les classes d’adjectifs<br />

sont obtenues en coupant à un niveau donné l’arbre représentant la hiérarchie des<br />

classes. Pour chaque classe d’adjectif, on construit le contexte de la classe, c’est-à-dire<br />

l’ensemble des noms ou syntagmes nominaux ayant au moins l’un des adjectifs de la<br />

14 Les réseaux terminolgiques ont les propriétés des graphes de petits mondes, qui ont été bien explorées<br />

justement depuis cette époque.<br />

20


classe en expansion. Par exemple, le contexte de la classes d’adjectifs {primaire,<br />

secondaire} est l’ensemble des termes {circuit, enroulement, intensité nominale,<br />

réglage, tension nominale}. Ce type de résultats nous apparaît être une amorce fort utile<br />

pour la modélisation. Sans le savoir à l’époque, nous mettions nos pieds dans les traces<br />

de Zellig S. Harris 15 .<br />

Parallèlement à ces recherches, B. Habert « recycle » (selon une de ses expressions<br />

favorites) les résultats de LEXTER pour entreprendre toute une série d’études ayant<br />

comme objet le fonctionnement en corpus des dénominations complexes (Habert,<br />

1998) 16 . Son projet était relativement éloigné du contexte applicatif dans lequel je<br />

développais LEXTER. Suite à des discussions avec C. Jacquemin sur la variation<br />

terminologique, il a l’idée de « déconstruire » (selon une autre de ses expressions<br />

favorites) les arbres d’analyse en Tête et Expansion produits par LEXTER pour en<br />

restituer les dépendances élémentaires fondamentales sous-jacentes. Dans un article<br />

publié en 1995 dans les Cahiers de Grammaire (Habert et al., 1995), B. Habert et ses<br />

collègues, s’inscrivent résolument dans l’horizon théorique de l’approche harrissienne<br />

d’analyse des sous langages et présentent les premiers résultats d’une exploitation des<br />

arbres de dépendances élémentaires extraits des arbres d’analyse de LEXTER pour classer<br />

les mots en fonction de leur contextes <strong>syntaxique</strong>s. Puis, B. Habert et A. Nazarenko<br />

développent ZELLIG, une chaîne de recyclage des résultats d’<strong>analyseur</strong>s <strong>syntaxique</strong>s<br />

robustes destinée à une analyse distributionnelle de contextes rendus élémentaires<br />

(Habert et Nazarenko, 1996). Avec ZELLIG, ils mènent des études sur la délimitation de<br />

classes sémantiques dans des corpus spécialisés (Habert et al., 1995 ; Bouaud et al.,<br />

1995). La représentation logique des arbres permet à B Habert et H. Folch de développer<br />

des méthodes efficaces pour analyser les régularités de fonctionnement des mots et<br />

mettre en évidence les opérateurs et opérandes caractéristiques d’un domaine donné<br />

(Folch et Habert, 1998) (Habert et Folch, 1998). Ils le font de façon beaucoup plus<br />

précise et plus systématique que mes propres tentatives d’analyse du réseau<br />

terminologique évoquées au début de cette section.<br />

B. Habert a donc procédé à un « détournement » de LEXTER en exploitant ses résultats<br />

dans une perspective de recherche différente de celle dans laquelle le logiciel a été<br />

conçu. Ce décalage dans les objectifs a révélé des limites importantes de LEXTER<br />

vis-à-vis d’une exploitation pour l’analyse distributionnelle : restriction aux syntagmes<br />

nominaux (pas d’analyse autour du verbe) ; parmi les syntagmes nominaux, restriction<br />

aux groupes « d’allure dénominative » (exclusion de certains déterminants, de certaines<br />

modifications adjectivales). Ces limitations sont apparues d’autant plus pénalisantes<br />

quand B. Habert et C. Fabre ont appliqué la méthode ZELLIG à des corpus plus proches<br />

15 Cf. cette gentille pique adressée par B. Habert et A Nazarenko, faisant référence aux travaux du type des<br />

nôtres qui commençaient à se développer au milieu des années 90 : « explicitement, ou, plus souvent,<br />

implicitement [c’est moi qui souligne], ces recherches s’inscrivent dans la conception "distributionnaliste" de la<br />

sémantique défendue et mise en œuvre par ZELLIG Harris : le sens des mots se déduit des constructions dans<br />

lesquelles ils figurent » (Habert & Nazarenko, 1996).<br />

16 Quand B. Habert me demande des sorties de Lexter, je n’imagine pas à quel point l’utilisation qu’il va en<br />

faire aura une grande influence sur la suite de mes recherches.<br />

21


de la langue générale, en comparant les regroupements effectués à partir d’un corpus<br />

médical de comptes rendus d’hospitalisation (corpus Menelas) et à partir d’un corpus<br />

politique constitué des interventions radiotélévisées de F. Mitterrand pendant son<br />

premier septennat (corpus Mitterrand1) :<br />

Le groupe nominal semble un moins bon observatoire des<br />

fonctionnements sémantiques pour Mitterrand1 que pour Menelas. (…)<br />

Dans une phase ultérieure, il s’agira donc d’affranchir ZELLIG de la<br />

contrainte consistant à intervenir en aval d’<strong>analyseur</strong>s spécialisés dans<br />

l’analyse des groupes nominaux.<br />

(Fabre et al., 1997, p. 29)<br />

1.7. Bilan : LEXTER a servi, vive <strong>SYNTEX</strong><br />

Ce retour en arrière sur la période 1990–1999 a montré les deux phases distinctes de la<br />

vie du logiciel LEXTER : une phase de développement (1990–1994), une phase<br />

d’utilisation (1994–1999). Pendant les 4 premières années de ma recherche, j’ai travaillé<br />

de façon appliquée et consciencieuse à la réalisation d’un outil d’extraction d’étiquettes<br />

de concepts pour l’enrichissement de thesaurus. A partir de l’objectif fixé, des<br />

contraintes de résultats imposées et des ressources à ma disposition, j’ai concentré mes<br />

efforts sur les développements informatiques dans une démarche très pragmatique, plus<br />

motivé par l’action que par la spéculation gratuite, et soucieux de mener à bien une<br />

recherche utile. L’esprit concentré sur cet horizon, j’ai mené une recherche plutôt isolée<br />

sur le plan scientifique, indépendamment de tout courant, toute école ou toute<br />

communauté de la recherche universitaire.<br />

La situation fut toute autre durant la seconde phase du cycle de vie du logiciel<br />

(1994-1999). J’ai cherché activement, au sein et à l’extérieur d’EDF, à monter des<br />

projets de recherche et développement utilisant le logiciel LEXTER. La confrontation du<br />

logiciel à la réalité des usages fut pleine d’enseignements, pas tant sur les techniques<br />

d’extraction implémentées dans le logiciel, que sur son mode d’utilisation. Dans une<br />

perspective d’ingénierie linguistique, il ne suffit pas de fabriquer un prototype, il faut<br />

aussi réfléchir à la façon dont il peut être utilisé. Grâce à la réflexion menée au sein du<br />

groupe TIA, j’ai pu m’appuyer sur les constats empiriques effectués sur le terrain, pour<br />

élaborer progressivement un cadre méthodologique pour l’utilisation d’outils de TAL en<br />

acquisition des connaissances à partir de textes.<br />

Au-delà de l’utilisation « normale » de LEXTER comme extracteur de candidats termes,<br />

j’ai eu la chance que certains collègues aient cherché à profiter de la disponibilité des<br />

résultats de LEXTER pour les exploiter pour leurs besoins propres. J’ai cité H. Assadi, qui<br />

a réalisé au cours de sa thèse l’outil LEXICLASS (Assadi, 1998), et B. Habert, avec les<br />

chercheurs qu’il a su mobiliser autour du projet ZELLIG. Les uns et les autres ont utilisé<br />

les analyses produites par LEXTER comme entrée pour leurs outils d’analyse<br />

distributionnelle. Je dois mentionner aussi les travaux de D. Garcia qui a cherché à<br />

22


intégrer les résultats de LEXTER dans son système COATIS de repérage des relations de<br />

causalité dans les textes (Garcia, 1998), ainsi que ceux de N. Aussenac-Gilles et<br />

P. Séguela qui ont fait de même avec l’outil CAMELEON d’extraction de relations<br />

sémantiques à partir de marqueurs lexico-<strong>syntaxique</strong>s (Séguela et Aussenac-Gilles,<br />

1999). Grâce à ces utilisations détournées, qui ont poussé LEXTER dans certains de ses<br />

retranchements, j’ai pu mesurer à quel point la fonction d’extraction de termes étaient<br />

inscrite « en dur » dans le logiciel lui-même.<br />

Ce constat m’a convaincu de la nécessité de disposer d’un <strong>analyseur</strong> <strong>syntaxique</strong> à plus<br />

large couverture, plus neutre quant à ses exploitations possibles, pour une utilité sociale<br />

plus grande. Alors, fallait-il consacrer d’abord tant de temps à un développement poussé<br />

du logiciel avant de réfléchir sérieusement et concrètement à son utilisation ? Oui. C’est<br />

parce que LEXTER était dans un état de maturité suffisamment avancé, en terme de<br />

robustesse, de couverture et d’efficacité, qu’il a pu être testé dans des contextes<br />

d’utilisation variés, et ce sont les retours d’expérience générés par les différents projets<br />

d’utilisation de LEXTER qui ont orienté ma recherche pour les années 1999–2005.<br />

A l’automne 1999, quelques mois après mon arrivée à l’<strong>ERSS</strong>, C. Fabre et moi nous<br />

mettons au travail pour réaliser un nouvel <strong>analyseur</strong> <strong>syntaxique</strong>. Notre premier souci à<br />

cette époque est de travailler sur l’extraction de syntagmes verbaux, pour alimenter les<br />

outils d’analyse distributionnelle, qui ne pouvaient se satisfaire de contextes uniquement<br />

nominaux. Par ailleurs, les retours d’expérience des projets de modélisation des<br />

connaissances à partir de textes, ainsi que les travaux de M.-C. L’Homme sur les<br />

combinaisons lexicales spécialisées (L’Homme, 1998) et ceux de C. Jacquemin sur la<br />

variation terminologique (Jacquemin, 1997 ; Bourigault et Jacquemin, 1999), m’avaient<br />

convaincu que, même pour des applications d’extraction de terminologie, il fallait des<br />

outils capables d’extraire des syntagmes verbaux.<br />

Sur le plan informatique, nous repartons de zéro, mais nous reprenons de l’expérience<br />

LEXTER un certain nombre de choix méthodologiques (dont chacun sera rediscuté dans<br />

la suite de ce mémoire) :<br />

- Les contraintes de robustesse et d’efficacité s’imposent, puisqu’il s’agit de réaliser<br />

un <strong>analyseur</strong> devant traiter des corpus réels de taille importante.<br />

- L’entrée de l’<strong>analyseur</strong> est un corpus préalablement étiqueté 17 .<br />

- L’<strong>analyseur</strong> n’exploite pas de grammaire formalisée, il est constitué<br />

d’heuristiques 18 .<br />

- La méthodologie de développement est expérimentale, basée sur des tests nombreux<br />

sur corpus.<br />

17 Nous utilisons alors le logiciel Cordial Analyseur développé par D. Laurent de la société Synapse<br />

Développement.<br />

18 Ces heuristiques sont programmées dans le langage Perl.<br />

23


- Au départ du projet, l’<strong>analyseur</strong> n’exploite pas de lexique général de souscatégorisation,<br />

il est doté d’heuristiques d’apprentissage pour acquérir des<br />

informations de sous-catégorisation à partir du corpus en cours de traitement.<br />

Par rapport à LEXTER, où l’analyse était directement dédiée à l’extraction de syntagmes<br />

nominaux, nous choisissons d’externaliser la tâche d’extraction de syntagmes en aval de<br />

l’analyse <strong>syntaxique</strong> : l’extraction de syntagmes (verbaux, nominaux, adjectivaux) et la<br />

construction du réseau terminologique se fait à l’issue de l’analyse <strong>syntaxique</strong> en<br />

dépendance de l’ensemble des phrases du corpus.<br />

Nous décidons de nous attaquer en premier lieu au problème de la résolution des<br />

ambiguïtés de rattachement prépositionnel. Nous formalisons ce problème de la façon<br />

suivante : 1) étant donnée une préposition dans une phrase, identifier à gauche de la<br />

préposition, dans la chaîne étiquetée, les différents mots susceptibles de la régir ; 2) à<br />

partir d’informations de sous-catégorisation acquises sur le corpus, sélectionner le<br />

meilleur recteur parmi les candidats. Subrepticement, et de façon très naturelle, nous<br />

avons adopté le principe d’une analyse en dépendance. Ce passage en douceur d’une<br />

analyse en constituant à une analyse en dépendance est, sur le plan conceptuel, au-delà<br />

de l’extension de la couverture de l’<strong>analyseur</strong>, la principale rupture entre LEXTER et<br />

<strong>SYNTEX</strong>.<br />

24


Chapitre 2<br />

Etat de l’art en analyse <strong>syntaxique</strong><br />

robuste<br />

2.1. L’analyse <strong>syntaxique</strong> automatique au sein du TAL<br />

Au coeur du domaine du Traitement Automatique des Langues, le champ de recherche<br />

sur l’analyse <strong>syntaxique</strong> automatique peut être en première approximation décrit comme<br />

partagé entre deux pôles : le paradigme des grammaires formelles d’unification, et le<br />

paradigme des <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes. A l’origine du premier paradigme, on<br />

trouve la publication des travaux fondateurs de N. Chomsky en 1957. Chomsky introduit<br />

la théorie des langages formels et définit une hiérarchie de classes de grammaires et de<br />

langages devenues depuis classique, en informatique et en linguistique. Il propose le<br />

modèle transformationnel comme alternative aux grammaires régulières et aux<br />

grammaires non contextuelles jugées insuffisantes pour décrire la syntaxe des langues<br />

naturelles. C’est le début de la tradition formelle, qui va développer une réflexion très<br />

riche et d’une importance considérable sur la nature des formalismes nécessaires pour<br />

décrire les langues. Les hypothèses adoptées sont d’abord que la syntaxe des langues est<br />

descriptible avec des modèles formels de type génératif, et ensuite qu’on peut réaliser<br />

des <strong>analyseur</strong>s à partir de ces modèles, en posant le problème de l’analyse <strong>syntaxique</strong><br />

comme un problème de compilation.<br />

Depuis les débuts des années 1990, le terme de robustesse est régulièrement invoqué<br />

pour qualifier des travaux en analyse <strong>syntaxique</strong> automatique qui visent la réalisation de<br />

systèmes capables fournir, dans des temps raisonnables, une analyse <strong>syntaxique</strong><br />

suffisamment complète et juste pour toute séquence donnée en entrée. C’est dans ce<br />

nouveau paradigme que se situent mes recherches autour de l’<strong>analyseur</strong> <strong>SYNTEX</strong>. Le<br />

terme « paradigme » en l’occurrence serait plutôt flatteur. Contrairement au courant des<br />

grammaires formelles, qui est structuré et cohérent, avec des hypothèses fondatrices<br />

partagées, des théories élaborées, des conférences et des leaders, les travaux en analyse<br />

<strong>syntaxique</strong> robuste sont eux beaucoup plus dispersés. Le terme « nouveau » est lui aussi<br />

usurpé. En effet, comme je le montre dans la section suivante, où je présente un rapide<br />

panorama historique des recherches en TAL, les recherches de ce domaine ont toujours<br />

25


été partagées entre deux pôles, théorique et appliqué, dont l’opposition entre paradigme<br />

formel et paradigme de la robustesse est une instanciation dans le sous-domaine de<br />

l’analyse <strong>syntaxique</strong> automatique.<br />

Les chercheurs francophones ont adopté au début des années 1990 le terme de<br />

« Traitement Automatique des Langues » pour désigner leur société savante (Association<br />

pour le Traitement Automatique des Langues), leur revue (Revue Traitement<br />

Automatique des Langues) et, avec un qualificatif accolé, leur conférence annuelle<br />

(Traitement Automatique des Langues Naturelles). Cette belle cohérence dans les termes<br />

n’est qu’apparente et ne reflète pas la multiplicité des désignations qui ont vu le jour<br />

depuis la fin des années 1980. Dans leur étude très documentée et très utile sur les<br />

dénominations utilisées depuis l’origine pour nommer ce champ disciplinaire, Cori et<br />

Léon (2002) notent :<br />

D’innombrables termes fleurissent pour désigner le domaine au début des<br />

années 1990 : Industries de la langue, Ingénierie linguistique, Natural<br />

Language Engineering, Technologies de la langue, etc. Il n’est toutefois<br />

pas certain que cette inflation de termes et cette frénésie de la<br />

dénomination parviennent à masquer l’inanité d’une impossible quête,<br />

celle de définir un champ unifié qui, tout en englobant les applications<br />

industrielles, soit scientifiquement fondé.<br />

(Cori et Léon, 2002, p. 43)<br />

Ces mêmes auteurs expliquent comment le domaine du TAL se constitue et se remodèle<br />

depuis ses origines dans une tension permanente entre des forces antagonistes, qui<br />

s’organisent selon deux lignes d’opposition :<br />

- la première concerne l’objectif des recherches. Elle oppose les travaux théoriques et<br />

les applications à visée industrielle. D’un côté des chercheurs, de l’autre des<br />

ingénieurs.<br />

- une seconde concerne les disciplines impliquées. Elle oppose à l’origine la<br />

linguistique et l’informatique, plus tard rejointes par les mathématiques,<br />

l’intelligence artificielle et les statistiques.<br />

La première ligne de tension s’est dessinée dès les débuts du domaine. Dans son rapport<br />

de 1951, qui constitue le premier état de l’art sur le domaine de la traduction<br />

automatique (Bar-Hillel, 1951),Yehoshua Bar-Hillel mentionne déjà que le problème de<br />

l’utilisation des calculateurs pour la traduction peut être intéressant soit d’un point de<br />

vue théorique, en favorisant de recherches sur le fonctionnement du langage, soit d’un<br />

point de vue pratique, en particulier pour résoudre les problèmes de la traduction des<br />

publications scientifiques étrangères (op. cit., p. 229). Dans son état de l’art sur la<br />

traduction automatique (TA) publié en 1986, John Hutchins affirme que cette distinction<br />

de points de vue est le point qui fait le plus débat au sein de la communauté de<br />

chercheurs en qui se constitue dans les années 1950 et 1960. Il décrit comment, jusqu’au<br />

milieu des années 1960, le débat entre les « pragmatiques » et les « perfectionnistes » est<br />

vif. Les premiers pensent qu’il est important de développer aussi vite que possible des<br />

systèmes <strong>opérationnel</strong>s en arguant que les systèmes de traduction mot à mot donnent des<br />

26


ésultats finalement prometteurs, et qu’ils constituent une base de départ qui pourra<br />

évoluer grâce aux améliorations techniques des ordinateurs et à la mise au point de<br />

nouveaux algorithmes. Les seconds refusent cette précipitation, affichent l’objectif de<br />

réaliser des systèmes de haute qualité et affirment la nécessité de recherches<br />

fondamentales préalables en linguistique.<br />

L’existence d’une tension entre recherches théoriques et applications pratiques est un fait<br />

constant dans la jeune histoire du TAL. Avant un état de l’art sur l’analyse <strong>syntaxique</strong><br />

robuste (section 2.3), la première partie de ce chapitre (section 2.2) est consacrée à un<br />

panorama historique des travaux dans le domaine du TAL. Celui-ci montre que les deux<br />

pôles ont alternativement mobilisé le devant de la scène. A cause de cet opposition, et<br />

parce que le domaine est encore jeune, il est difficile de dresser un état des lieux<br />

consensuel et définitif des évolutions du domaine. Le recul manque. Mais il peut y avoir<br />

consensus sur l’identification de moments charnières et d’évolutions majeures. Pour la<br />

trame de cette description, je me suis appuyé, entre autres, sur trois sources principales :<br />

- l’ouvrage de John Hutchins, publié en 1986, « Machine translation : past, present,<br />

future » (Hutchins, 1986).<br />

- l’article de Marcel Cori et Jacqueline Léon intitulé « La constitution du TAL, étude<br />

théorique des dénominations et des concepts », publié dans un numéro de la revue<br />

TAL sur le thème des problèmes épistémologiques (Cori et Léon, 2002).<br />

- l’article de Yorrik Wilks « Computational Linguistics » de la seconde édition de<br />

l’Encyclopedia of languages and linguistics (Wilks, 2006).<br />

Cette première partie est organisée en 4 sections :<br />

- Les débuts de la traduction automatique (section 2.2.1)<br />

- L’avènement de la « computational linguistics » (section 2.2.2)<br />

- Le « tournant déclaratif » et les grammaires d’unification (section 2.2.3)<br />

- Le « Natural Language Processing » (section 2.2.4)<br />

2.2. Panorama historique du Traitement Automatique des<br />

Langues<br />

2.2.1. Les débuts de la traduction automatique<br />

On s’accorde pour identifier comme événement déclencheur des recherches en<br />

Traitement Automatique des Langues la diffusion en 1949 du mémorandum de Weaver<br />

(1949), qui lancera les recherches en traduction automatique (désormais TA). Warren<br />

Weaver est directeur de la division Natural Sciences à la fondation Rockfeller quand il<br />

rédige, en juillet 1949, le mémorandum dans lequel il expose ses idées sur la possible<br />

utilisation des calculateurs qui viennent d’être inventés pour traduire des documents<br />

27


d’une langue vers une autre. Il envoie ce mémorandum à une trentaine de ses<br />

connaissances. Le mémorandum est diversement reçu, mais il constitue le point de<br />

départ des recherches dans le domaine nouveau de la traduction automatique. Selon<br />

Hutchins (1999), l’un des résultats immédiats les plus significatifs du mémorandum est<br />

la décision du Massachusetts Insitute of Technology (MIT) de recruter comme chercheur<br />

sur le thème de la Traduction Automatique, en mai 1951, le logicien de l’<strong>Un</strong>iversité<br />

Hébraïque de Jérusalem Yehoshua Bar-Hillel. Bar-Hillel publie le premier état de l’art<br />

sur le domaine de la TA à la fin de l’année 1951 (Bar-Hillel, 1951).<br />

Le rapport de Bar-Hillel est fondamental. Tout y est dit. Rien dans les évolutions futures<br />

du domaine ne viendra contredire les propositions de Bar-Hillel, concernant, d’une part,<br />

l’architecture des traitements et l’importance de l’analyse <strong>syntaxique</strong> et, d’autre part, les<br />

rapports entre théories et applications. Bar-Hillel affirme d’emblée qu’à cause des<br />

ambiguïtés sémantiques la traduction entièrement automatique de haute qualité (fully<br />

automatic high quality translation, FAHQT) n’est pas accessible, et il s’interroge sur les<br />

différents modes de collaboration possibles entre la machine et un ou plusieurs<br />

opérateurs humains, en développant les idées de pré- et post-édition. Par ailleurs, il met<br />

en évidence la nécessité d’une analyse <strong>syntaxique</strong> pour l’élimination des ambiguïtés<br />

grammaticales et le réarrangement de l’ordre des mots. Il propose que ce processus<br />

d’analyse se réalise selon les étapes suivantes :<br />

1. Mechanical analysis of each word in the Source Language into the stem<br />

(lexical unit) and morphological category. (…)<br />

2. Mechanical identification of small syntactical units within the given<br />

sentence on the basis of the morphological categories to which its words<br />

belong and, for most languages, their order.<br />

3. Transformation of the given sentence into another that is logically<br />

equivalent to it, and rearrangement of the parts of the transformed sentence<br />

in accordance with some standard order of the Target Language.<br />

(Bar-Hillel, 1951, p. 232)<br />

Cette architecture sera en effet adoptée par tous les systèmes <strong>opérationnel</strong>s de TA de<br />

première génération. C’est à propos de la deuxième tâche qu’il évoque l’idée essentielle<br />

d’une syntaxe <strong>opérationnel</strong>le (operational syntax). Pour Bar-Hillel, une syntaxe<br />

<strong>opérationnel</strong>le d’une langue, c’est un système unique constitué d’une séquence<br />

d’instructions qui opèrent sur la suite des mots d’une phrase munis de leur catégorie<br />

morphologique et qui identifie les unités <strong>syntaxique</strong>s selon lesquelles la phrase doit être<br />

décomposée. Cette décomposition est nécessaire pour préparer la transformation<br />

structurelle conduisant à la production de la phrase traduite. Dans son rapport, il se<br />

contente d’affirmer la nécessité d’un tel programme. Mais il soutient que, malgré la<br />

masse des connaissances qu’ils ont accumulées, tout reste à faire de la part des linguistes<br />

pour mener à bien ce projet. Selon lui, même la description la plus complète des<br />

catégories <strong>syntaxique</strong>s d’une langue donnée, selon les normes et principes<br />

communément adoptés par les linguistes, n’est pas adéquate pour la réalisation d’un<br />

programme de reconnaissance effective de la structure <strong>syntaxique</strong> des phrases de la<br />

28


langue en question. Bar-Hillel émet le vœu que les linguistes saisissent l’importance et la<br />

nécessité de produire des descriptions et théories spécifiques pour la réalisation de ce<br />

nouveau programme. Lui-même proposera une définition <strong>opérationnel</strong>le des catégories<br />

<strong>syntaxique</strong>s, qu’il développera dans le cadre de la grammaire catégorielle<br />

(Bar-Hillel, 1953).<br />

A la lumière des évolutions ultérieures des domaines de la TA et du TAL, on peut<br />

relever deux questions fondamentales évoquées par Bar-Hillel dans ce rapport :<br />

- Quelles connaissances issues de la linguistique sont utiles pour le projet de la TA ?<br />

- Le projet de la TA peut-il ou doit-il être le lieu d’une recherche théorique sur le<br />

langage ou les langues, ou bien seule une approche pragmatique peut-elle conduire à<br />

des résultats ?<br />

Ces deux questions sont corrélées. On vient de le voir, la position de Bar-Hillel sur le<br />

premier point est radicale. Les connaissances accumulées à ce jour ne sont pas adéquates<br />

pour le projet de la TA. Cette position est généralement celle des pionniers de la TA. Sur<br />

le second point, il apparaît à la lecture de l’article que, même si Bar-Hillel s’interroge<br />

sérieusement sur les problèmes pratiques et les solutions techniques de la TA, son regard<br />

est d’abord celui d’un théoricien qui voit dans les recherches menées autour du problème<br />

de la TA un enjeu théorique fort, ou au moins la possibilité d’un questionnement<br />

théorique renouvelé. Il débute son article en présentant le projet de la TA comme<br />

l’instanciation d’une situation classique où l’introduction d’un nouvel outil vient<br />

renouveler une recherche théorique en suggérant des solutions techniques inédites à des<br />

problèmes anciens. La linguistique est concernée. Après avoir fait état de certaines des<br />

étapes qui ont été franchies vers l’objectif finalisé de la traduction automatique, Bar-<br />

Hillel relève :<br />

Interest in mechanical translation (MT) may arise through sheer<br />

intellectual curiosity concerning a problem whose solution, perhaps even<br />

attempted solutions, will in all probability provide valuable insights into<br />

the functioning of linguistic communication. Interest may also arise from<br />

many practical standpoints. One of these is the urgency of having foreign<br />

language publications, mainly in the fields of science, finance, and<br />

diplomacy, translated with high accuracy and reasonable speed.<br />

(Bar-Hillel, 1951, p. 229)<br />

Cette distinction de points de vue, pragmatique et théorique, clairement visible dans la<br />

position de Bar-Hillel, est, selon Hutchins (1986), le point essentiel sur lequel se<br />

cristallisent les oppositions au sein de la communauté de chercheurs qui se constitue<br />

dans les premières années de la TA.<br />

For this period (in the 1950’s and 1960’s), the most important distinctions<br />

(for MT researchers) were between the ‘engineering’ and the<br />

‘perfectionist’ approaches, between the empiricist and other<br />

methodologies, and between the syntax orientation and various lexical and<br />

word-centred approaches.<br />

29


(Hutchins, 1986, section 3.10)<br />

Pour illustrer les recherches menées dans les années 1950 et 1960, j’ai choisi deux<br />

équipes de chercheurs parmi les pionniers de cette grande époque, représentant chacune<br />

un des deux courants (Hutchins, 1986, sections 4.2 et 4.3). Comme représentants du<br />

courant pragmatique, je présente les chercheurs de l’université de Georgetown, parce<br />

qu’ils ont été les tenants les plus actifs de cette approche et parce que leurs recherches,<br />

entamées dès 1952, ont conduit au système SYSTRAN, très largement utilisé de nos<br />

jours 19 . Comme représentant du courant perfectionniste, je présente l’équipe de<br />

recherche sur la TA au Massachusetts Institute of Technology, parce qu’elle a placé<br />

d’emblée le transfert <strong>syntaxique</strong> au centre de son modèle de traduction automatique, et<br />

parce qu’elle a développé très tôt l’idée de la déclarativité.<br />

A l’université de Georgetown, les recherches sur la TA ont été lancées par Leon Dostert<br />

en juin 1952 et développées en collaboration avec IBM. En janvier 1954, une première<br />

démonstration d’une maquette expérimentale donne des résultats suffisamment<br />

impressionnants à l’époque pour que la National Science Fundation décide de<br />

subventionner de façon massive les recherches sur la TA à Georgetown. <strong>Un</strong>e vingtaine<br />

de chercheurs sont recrutés sur le projet. <strong>Un</strong>e équipe menée par Michael Zarenach<br />

développe une méthode dite « General Analysis Technique », rebaptisée ensuite<br />

« Georgetown Automatic Translation » (GAT). Cette méthode est implémentée dans un<br />

système de traduction Russe-Anglais (SERNA system) par Peter Toma en 1959, système<br />

qui est installé à EURATOM à Ispra en Italie en 1963, et au Laboratoire National d’Oak<br />

Ridge en 1964. Pour des raisons mal connues (on évoque des conflits entre linguistes et<br />

programmeurs), les subventions s’arrêtent et les recherches sur la TA à Georgetown<br />

s’interrompent. Ces deux systèmes seront utilisés, à la satisfaction des utilisateurs selon<br />

plusieurs enquêtes réalisées sur le terrain, jusqu’à leur remplacement par SYSTRAN, à<br />

Ispra en 1970 et à Oak Ridge en 1980.<br />

Le système GAT était présenté par les auteurs comme constitué de plusieurs « niveaux »,<br />

ou de plusieurs « passes » : (1) consultation du dictionnaire, analyse morphémique et<br />

résolution des homographes, (2) analyse syntagmatique pour le repérage de<br />

combinaisons de mots basée sur les relations d’accord, de gouvernance et d’apposition,<br />

(3) analyse <strong>syntaxique</strong> pour le repérage des relations sujet/prédicat. Dans les faits,<br />

l’analyse effectivement réalisée était très rudimentaire (Hutchins, 1986, section 4.2). Elle<br />

était chargée de lever les ambiguïtés morphologiques par l’examen des catégories des<br />

mots précédent et suivant. La méthode de développement adoptée par les concepteurs du<br />

système était entièrement « guidée par les textes », selon un mode par essai/erreur. Les<br />

programmes étaient testés sur un corpus particulier, étendus ou corrigés en fonction des<br />

résultats, puis testés sur un autre corpus, et ainsi de suite. Selon (Kay, 1973), cité par<br />

(Hutchins, 1986), le résultat fut une grammaire « monolithique » de taille et de<br />

complexité monstrueuse, développée sans conception claire de ce que devait être une<br />

règle grammaticale et une structure <strong>syntaxique</strong>, dans laquelle les phases d’analyse de la<br />

phrase source et de transfert vers la langue cible étaient intriquées, rendant les évolutions<br />

19 www.systran.fr<br />

30


et améliorations de plus en plus difficiles à introduire. Ce constat établi par Kay en<br />

particulier constitua une leçon pour les développements futurs, pour lesquels les notions<br />

d’architecture et de modularité furent mises en avant. C’est ainsi que, à partir de 1964,<br />

Peter Toma a continué ses recherches et a développé le système SYSTRAN, dans lequel la<br />

complexité monolithique du système sera réduite grâce à la modularisation du système :<br />

In many respects, Systran may be regarded as essentially a greatly<br />

improved descendant of the Georgetown ‘direct translation’ system.<br />

Linguistically there is little advance, but computationally the<br />

improvements are considerable, resulting in the main from the<br />

‘modularity’ of its programming design.<br />

(Hutchins, 1986, section 12.1)<br />

Au Massachusetts Institute of Technology, après le départ de Y. Bar-Hillel à Jérusalem<br />

en juillet 1953, c’est Victor H. Yngve qui prend la direction du projet de recherche sur la<br />

traduction automatique au MIT. D’emblée, il se donne comme objectif la traduction<br />

automatique de haute qualité, et donne une orientation très théorique aux recherches.<br />

L’effort porte sur des recherches fondamentales en linguistique, en particulier autour des<br />

grammaires transformationnelles, à partir des travaux de Chomsky, et sur le<br />

développement d’outils de programmation dédiés au développement en TA. Yngve<br />

développe COMIT, le premier langage de programmation dédié à la manipulation et au<br />

filtrage de chaînes de caractères. Selon Yngve, COMIT peut être appris assez rapidement<br />

par les linguistes et doit leur permettre de formuler leurs idées de façon claire et concise.<br />

Ceci doit mettre fin à situation dans laquelle les linguistes sont contraints de confier la<br />

tâche de programmer leurs algorithmes à des informaticiens spécialistes de l’assembleur,<br />

ce qui est très peu efficace sur le plan des résultats et très frustrant pour les deux parties.<br />

Yngve insiste sur le principe de la séparation nette entre, d’une part, les règles et<br />

connaissances linguistiques et, d’autre part, les algorithmes et programmes. Les règles et<br />

connaissances abstraites sur les structures linguistiques des langues doivent être séparées<br />

des choix de programmation particuliers adoptés dans un système de traduction<br />

particulier donné. On l’a vu ce principe n’a pas été adopté dans le système GAT où des<br />

règles d’analyse et de transfert étaient codées dans le cœur même du lexique. Matthews<br />

et Rodovin conçoivent, et développent dans le langage COMIT, une méthode d’analyse<br />

<strong>syntaxique</strong> qui identifie les constituants <strong>syntaxique</strong>s d’une phrase en entrée en cherchant<br />

à découvrir l’enchaînement des règles de grammaires qui ont dû être appliquées pour<br />

produire cette phrase, dans le sens des règles génératives de Chomsky. Matthews (1962)<br />

formule de façon plus explicite ce principe d’analyse par synthèse (« analysis by<br />

synthesis » approach). L’idée est de comparer symbole (classe grammaticale) par<br />

symbole la séquence à analyser avec toutes les séquences de même nombre de symboles<br />

susceptibles d’être générées par la grammaire. Les séquences qui correspondent<br />

fournissent une analyse en constituants possible pour la phrase initiale. Cette méthode<br />

était reconnue a priori comme inefficace, mais elle était supposée pouvoir être rendue<br />

plus performante par l’introduction de règles et de stratégies adéquates.<br />

31


2.2.2. L’avènement de la « computational linguistics »<br />

Si la seconde moitié des années 1950 est une période de grand espoir de réussite de la<br />

TA, très vite l’optimisme cède le pas à une certaine désillusion. Celle-ci naît du constat<br />

que les progrès sont lents et que cette lenteur est due non seulement à des problèmes<br />

matériels liés à la technologie et aux capacités des machines, mais aussi à la complexité<br />

des problèmes linguistiques (Hutchins, 1986, section 8.2). En février 1959, après avoir<br />

visité les laboratoires les plus importants de l’époque et interrogé les pionniers du<br />

domaine, Bar-Hillel publie un rapport intitulé Report on the state of machine translation<br />

in the <strong>Un</strong>ited State and Great Britain, qui connaîtra une large diffusion après sa<br />

publication dans la revue Advances in Computers (Bar-Hillel, 1960). L’effet de ce<br />

rapport sur le domaine de la TA est terrible. Bar-Hillel affirme que la recherche en TA<br />

poursuit un but inatteignable : une traduction automatique de haute qualité, équivalente à<br />

celle d’un bon traducteur humain. Pour appuyer cette affirmation, Bar-Hillel donne<br />

l’exemple de la phrase, désormais célèbre, « the box was in the pen ». On peut adapter la<br />

démonstration en français avec la phrase « Jean est dans le bureau ». Pour traduire<br />

correctement le mot bureau, il faut savoir qu’un bureau meuble n’est en général pas<br />

capable de loger un être humain de taille normale. <strong>Un</strong> système de TA devrait donc<br />

posséder des connaissances de type encyclopédique, ce qui paraît tout à fait irréaliste. On<br />

a reproché à Bar-Hillel de n’avoir pas basé ses positions sur une analyse effective des<br />

systèmes qui, en 1958, au moment où il a réalisé ses investigations, étaient en gestation<br />

dans les équipes, ainsi que d’avoir utilisé comme seul argument théorique un exemple<br />

qui ne constitue pas une preuve : « In general, Bar-Hillel’s opinions were not based on a<br />

careful evaluation of the actual achievements of MT projects but they were already<br />

formed before the review was undertaken. » (Hutchins, 1986, section 8.3). Néanmoins, il<br />

reste qu’il régnait à l’époque un certain consensus sur le fait que la traduction<br />

automatique de haute qualité ne devait plus être l’objectif des recherches en TA, et que<br />

celles-ci devaient s’orienter vers la traduction assistée par ordinateur.<br />

C’est le rapport de l’ALPAC qui, en 1966, va consacrer une rupture dans le domaine, en<br />

condamnant les recherches qui visent la réalisation de systèmes de traduction<br />

automatique et en préconisant d’encourager des recherches plus théoriques, rendues<br />

possibles par l’usage des ordinateurs, sur les caractéristiques formelles des langues. En<br />

avril 1964, l’Académie Nationale des Sciences des Etats-<strong>Un</strong>is forme le comité ALPAC<br />

(Automatic Language Processing Advisory Commitee) en lui donnant pour mission<br />

d’évaluer l’intérêt de continuer à financer les recherches en TA. Le comité entreprend<br />

des études et enquêtes sur les besoins en traduction des scientifiques (principalement du<br />

russe vers l’anglais), sur l’état de l’offre en traduction et sur ses coûts, sur la<br />

disponibilité de traducteurs humains, sur l’évaluation de certains systèmes de traduction<br />

automatique et sur les coûts de post-édition liés à l’utilisation de ces systèmes. La<br />

conclusion est sans appel : la traduction automatique n’est pas une bonne solution au<br />

problème de la traduction scientifique.<br />

“Machine translation” presumably means going by algorithm from<br />

machine-readable text to useful target text, without recourse to human<br />

32


translation or editing. In this context, there has been no machine<br />

translation of general scientific text, and none is in immediate prospect.<br />

(ALPAC, 1966, p. 19)<br />

Si l’ALPAC recommande dans son rapport un arrêt des subventions sur les projets de<br />

traduction automatique, il constate que le travail réalisé dans l’optique de la traduction<br />

automatique a eu un effet extrêmement positif sur le développement d’un type<br />

radicalement nouveau de recherches en linguistique, stimulées par l’usage des<br />

ordinateurs : « The advent of computational linguistics promises to work a revolution in<br />

the study of natural languages. » (ALPAC, 1966, p. 29). Les membres du Comité<br />

proposent d’encourager le développement de ce type de recherches, et consacrent ainsi<br />

l’avènement d’une nouvelle discipline, la computational linguistics. D’après Martin Kay,<br />

c’est probablement David G. Hayes, pionnier de la TA et membre du comité ALPAC,<br />

qui a forgé ce terme, jugeant qu’il pouvait être opportun de baptiser un nouveau champ<br />

de recherches pour tenter de détourner les subventions dont la TA allait être privée (Kay,<br />

2002, p. xvii). Le rapport de l’ALPAC propose de dissocier radicalement les recherches<br />

théoriques sur le langage et les applications industrielles de la traduction automatique, et<br />

d’utiliser l’ordinateur pour renouveler les recherches sur le langage. Deux types d’usage<br />

de l’ordinateur sont ainsi évoqués : l’ordinateur en tant qu’il permet au linguiste de<br />

manipuler des données langagières complexes et volumineuses pour élaborer des<br />

descriptions linguistiques ; l’ordinateur en tant qu’il oblige à la formalisation des<br />

théories et permet leur évaluation.<br />

Such research must make use of computers. The data we must examine in<br />

order to find out about language is overwhelming both in quantity and in<br />

complexity. Computers give promise of helping us control the problems<br />

related to the tremendous volume of data, and to a lesser extent the<br />

problems of data complexity. But we do not yet have good, easily used,<br />

commonly known methods for having computers deal with language data.<br />

Therefore, among the important kinds of research that need to be done and<br />

should be supported are (1) basic developmental research in computer<br />

methods for handling language, as tools for the linguistic scientist to use as<br />

a help to discover and state his generalizations, and as tools to help check<br />

proposed generalizations against data ; and (2) developmental research in<br />

methods to allow linguistic scientist to use computers to state in detail the<br />

complex kinds of theories (for example, grammars and theories of<br />

meaning) they product, so that the theories can be checked in detail.<br />

(ALPAC, 1966, p.31)<br />

C’est le début du règne sans partage de la syntaxe et de l’analyse <strong>syntaxique</strong> automatique<br />

dans le domaine de la computational linguistics. Dans ce contexte, le formalisme des<br />

ATN (Augmented Transition Networks) (Woods, 1970) a une influence considérable<br />

dans les années 1970-1980 sur les recherches dans le domaine. <strong>Un</strong> très grand nombre de<br />

chercheurs les utilisent. Les ATN constituent l’aboutissement de recherches menées dès<br />

le début des années 1950 par Rhodes au National Bureau of Standards sur le principe de<br />

l’analyse <strong>syntaxique</strong> prédictive (predictive syntactic analyser) (Hutchins, 1986,<br />

33


section 9.13). L’idée de base de Rhodes était que, étant donné dans une phrase un mot<br />

dont on a identifié la catégorie morpho<strong>syntaxique</strong>, il est possible de prévoir avec une<br />

certaine probabilité les catégories des mots qui le suivent. Ce principe est implémenté<br />

sous la forme d’une analyse mot à mot gauche-droite contrôlée par une procédure last in<br />

first out. Pour le mot courant, les actions à effectuer sont déterminées en deux temps :<br />

d’abord vérifier si la classe du mot satisfait une prédiction faite précédemment, en<br />

partant de la plus probable, puis soit modifier les prédictions existantes, soit ajouter une<br />

ou plusieurs prédictions. Les prédictions sont de différents types : satisfaction immédiate<br />

(par exemple par le mot suivant), satisfaction multiple (une même contrainte peut être<br />

satisfaite plusieurs fois, par exemple l’accord de l’adjectif avec le nom), satisfaction<br />

obligatoire. A la fin de la phrase, l’analyse est réussie si toutes les prédictions<br />

obligatoires ont été satisfaites, et si tous les mots ont été inclus dans l’analyse. Ceci<br />

impose donc des procédures de retour en arrière en cas d’échec.<br />

Très vite, le principe de ne retenir qu’un seul chemin, le plus probable, est apparu<br />

comme non adéquat. Les chercheurs de Harvard, qui poursuivent les recherches<br />

entamées par Rhodes, développent la méthode multiple-path predictive syntactic<br />

analysis, qui permet la génération de toutes les analyses possibles pour une phrase<br />

donnée. On peut dater de cette époque le début de l’envahissement du domaine du TAL<br />

par les forêts d’arbres <strong>syntaxique</strong>s. Les chercheurs constatent que parmi les analyses très<br />

nombreuses produites, beaucoup ne correspondent pas à de réelles ambiguïtés et que,<br />

parfois, la bonne analyse n’y figure pas. L’autre défaut auquel s’attaquent les chercheurs<br />

est que la même séquence dans la même phrase pouvait être analysée un grand nombre<br />

de fois (autant de fois qu’il y avait de chemins). Ce problème est plus ou moins réglé par<br />

des implémentations successives.<br />

William A. Woods invente les ATN dans le cadre de la réalisation d’une interface en<br />

langue naturelle à une base de données sur les roches rapportées de la lune<br />

(Woods, 1970). Deux améliorations essentielles sont apportées aux implémentations de<br />

l’époque :<br />

(1) Le système est récursif. Les transitions dans un réseau peuvent être étiquetées par<br />

les noms d’autres réseaux. Il y a autant de réseaux que de type de constituants qui<br />

peuvent apparaître dans la structure de surface d’une phrase. Si une transition dans<br />

un de ces réseaux est étiquetée par le nom d’un autre réseau, cette transition ne sera<br />

acceptée que s’il existe un chemin acceptable pour ce second réseau. Il s’agit donc<br />

de réseaux de transition récursifs.<br />

(2) <strong>Un</strong> certain nombre d’actions conditionnelles peuvent être associées à des transitions,<br />

celles-ci étant testées quand l’arc est emprunté. Ces actions peuvent par exemple<br />

consister à stocker des fragments d’arbres dans des registres, pour ensuite les<br />

comparer plus tard dans l’analyse à d’autres mots ou arbres de la chaîne courante.<br />

Ces actions peuvent aussi consister à assembler les contenus de ces registres pour<br />

construire des représentations <strong>syntaxique</strong>s profondes, et ainsi, par exemple, produire<br />

une analyse identique pour l’actif et le passif.<br />

34


Ces améliorations ont permis au formalisme de Woods de vaincre beaucoup des<br />

difficultés rencontrées lors de la conception des <strong>analyseur</strong>s avec des règles de<br />

transformation. C’est ce qui explique que le formalisme des ATN ait occupé une place<br />

quasi-hégémonique pendant les années 1970–1980. D’après Hutchins (1986,<br />

section 9.13), l’enthousiasme des chercheurs pour l’approche prédictive en analyse<br />

<strong>syntaxique</strong> s’explique non pas par ses qualités théoriques intrinsèques, puisque les ATN<br />

n’imposent pas de restrictions formelles, mais par son intérêt pratique et calculatoire. Le<br />

formalisme des ATN peut être utilisé pour décrire des dépendances <strong>syntaxique</strong>s assez<br />

compliquées, de façon relativement intuitive et facile à implémenter.<br />

Les ATN constituent d’une certaine manière un aboutissement presque<br />

idéal de (la) tendance à l’intégration des différents niveaux de traitement.<br />

Les ATN, en effet, peuvent être vus tout à la fois comme un outil<br />

informatique d’analyse <strong>syntaxique</strong>, comme un langage de programmation<br />

défini à partir du langage LISP, ou comme un formalisme permettant de<br />

décrire des langues naturelles. Ceci est rendu possible par le fait que dans<br />

le langage LISP les programmes et les données ont la même structure.<br />

(Cori et Léon, p. 48–49)<br />

2.2.3. Le « tournant déclaratif » et les grammaires d’unification<br />

Y. Wilks (2006) voit dans le conflit entre Yngve et Chomsky, au MIT dans les années<br />

1960, un schisme fondateur dans l’histoire du TAL. En 1960, dans le cadre de la<br />

réalisation de son système de génération de phrases en anglais, Yngve formule son<br />

hypothèse sur la profondeur (depth hypothesis) : alors qu’il semble n’y avoir aucune<br />

limite en anglais à l’accumulation de constituants enchâssés s’ils sont à branchement à<br />

droite (this is the cat that killed the rat that ate the malt…), il y a une limite supérieure<br />

pour les branchements à gauche, et cette limite serait liée aux capacités mémorielles des<br />

locuteurs. Or on sait que pour Chomsky l’incapacité des grammaires à états finis à<br />

modéliser la possibilité indéfinie des enchâssements disqualifie ces formalismes pour la<br />

description théorique des langues. Yngve affirme que les procédures de calcul des<br />

structures <strong>syntaxique</strong>s doivent prendre en compte des contraintes de stockage qui selon<br />

lui sont intimement corrélées aux capacités humaines de compréhension, alors que<br />

Chomsky rejette en bloc ce type de considérations, sous le motif qu’elles relèvent de la<br />

performance et non de la compétence. Pendant les années qui ont suivi, selon Wilks, à<br />

cause du peu de goût de Chomsky pour la chose computationnelle et à cause des échecs<br />

des recherches visant à réaliser des <strong>analyseur</strong>s <strong>syntaxique</strong>s transformationnels,<br />

l’influence des linguistes dans le domaine de la Computational Linguistics est très<br />

limitée.<br />

Toujours selon Wilks, le schisme fondateur ne se cicatrise qu’au début des années 1980,<br />

lorsque Gerald Gazdar devient le premier linguiste d’envergure à embrasser le<br />

paradigme computationnel, en développant des grammaires sophistiquées, basées<br />

principalement sur des structures en constituants, spécifiquement destinées à servir de<br />

base à des <strong>analyseur</strong>s. Au début des années 1980, le domaine de la Computational<br />

35


Linguistics vit une véritable révolution culturelle. M. Cori et J. Léon (2002) parlent de<br />

« tournant déclaratif ». Le tournant déclaratif fait référence à l’émergence pendant les<br />

années 1980 de formalismes déclaratifs (DCG, PATR II) et de théories <strong>syntaxique</strong>s<br />

(GPSG, LFG, TAG, HSPG) développées dans des formalismes déclaratifs. Dans ces<br />

théories, les descriptions linguistiques et les règles de grammaire sont développées de<br />

façon indépendante des langages formels dans lesquels elles sont écrites et des<br />

algorithmes d’analyse <strong>syntaxique</strong> qui les exploitent. On retrouve là le principe de la<br />

séparation des données et des programmes défendu par Yngve dès 1960. Ce principe<br />

rencontre un écho d’autant plus favorable auprès des chercheurs, linguistes en<br />

particulier, que la philosophie procédurale des ATN, très en vogue à l’époque, laissait<br />

peu de place à l’intervention de linguistes non programmeurs. La facilité de<br />

développement avec le formalisme des ATN conduit à des programmes dans lesquels les<br />

règles de grammaire et les procédures d’analyse sont complètement intriquées. Par<br />

exemple, l’équivalence entre l’actif et le passif est directement implémentée dans des<br />

réseaux de transitions, par des tests sur les transitions et les opérations sur les registres,<br />

pour qu’en fin d’analyse le système produise des structures prédicat/argument identiques<br />

pour une phrase active et la phrase passive équivalente. Au contraire, dans une<br />

grammaire formelle, ce principe d’équivalence entre l’actif et le passif sera exprimé de<br />

façon explicite par une règle de correspondance entre structure de surface et structure<br />

profonde, sans prescription de procédures permettant de construire l’une à partir de<br />

l’autre. De façon plus générale, on a reproché aux ATN de produire des programmes<br />

difficiles à maintenir, du fait de l’intrication des règles de grammaire dans les<br />

algorithmes, de ne pas fournir des principes généraux d’implémentation, en particulier<br />

en ce qui concerne les conditions et les actions sur les registres, et même de n’avoir<br />

jamais conduit à une véritable théorie linguistique 20 . A rebours, les promoteurs des<br />

nouvelles grammaires formalisées partagent la conviction que le développement<br />

d’<strong>analyseur</strong>s <strong>syntaxique</strong>s doit se baser sur des théories <strong>syntaxique</strong>s autonomes et<br />

formellement bien définies. Cette position est bien synthétisée par P. Miller et T. Torris<br />

dans l’introduction à leur ouvrage Formalismes <strong>syntaxique</strong>s pour le traitement<br />

automatique des langues, publié au début des années 1990 :<br />

L’existence d’une théorie linguistique, indépendante à la fois de son<br />

implémentation et des analyses particulières qu’elle permet, constitue une<br />

base nécessaire pour le développement de systèmes de TAL dépassant le<br />

niveau de l’ad hoc. (…) Le développement d’un système de TAL pose des<br />

problèmes vastes et complexes qu’une théorie linguistique autonome et<br />

formellement bien définie permet de mieux distinguer. L’indépendance de<br />

la théorie par rapport à l’implémentation et à la description des<br />

phénomènes devrait également faciliter les changements et les corrections<br />

nécessaires lors du développement d’un système de TAL, ainsi que la<br />

conservation des acquis au travers des modifications<br />

(Miller et Torris, 1990, p. 16)<br />

20 Ce qui ne semble jamais avoir été leur objectif…<br />

36


Les DCG (Definite Clause Grammars) (Pereira et Warren, 1980) ont sans doute été le<br />

premier modèle revendiqué clairement comme déclaratif par ses auteurs (Cori et Léon,<br />

2002, p. 49). Ce formalisme dérive des recherches en traduction automatique menées par<br />

A. Colmerauer à l’université de Montréal. Colmerauer est responsable du développement<br />

du premier prototype de système de traduction français-anglais dans l’équipe TAUM<br />

(Traduction Automatique à l’<strong>Un</strong>iversité de Montréal). Dans ce prototype, testé pour la<br />

première fois en 1971, les concepteurs ont cherché à séparer strictement données et<br />

programmes. Il a été développé à l’aide du formalisme du système-Q (Q pour Québec),<br />

un langage de manipulation de structures d’arbres et de chaînes d’arbres développé par<br />

Colmerauer. C’est aussi dans ce langage qu’a été programmée la première version du<br />

système TAUM-METEO. Les recherches menées avec ce langage ont fortement<br />

influencé la conception, par Colmerauer et ses collègues, du langage Prolog, qui allait<br />

lui-même inspirer la communauté des chercheurs en programmation logique, et en<br />

particulier F. Pereira et D. Warren qui inventent les DCG. Les DCG sont un formalisme<br />

qui permet de développer de façon déclarative des systèmes de règles indépendantes,<br />

qu’il est facile d’étendre et de modifier. Et comme leur puissance est équivalente à celle<br />

des ATN, la déclarativité devient un argument décisif en faveur de leur supériorité (Cori<br />

et Léon, 2002, p. 50).<br />

Comme le souligne S. Shieber (1990), il faut distinguer les « formalismes outils » du<br />

type des DCG ou de PATR, qui ont été développés dès l’origine dans la perspective de<br />

réaliser des systèmes de TAL et qui donc devaient avoir une expressivité maximale, des<br />

« formalismes proprement linguistiques », élaborés en tant que théories du savoir<br />

linguistique, et qui visent au contraire à contraindre l’expressivité de façon à limiter<br />

l’ensemble des phrases possibles. Ces derniers (GPSG, LFG, TAG, HSPG) proposent<br />

des théories linguistiques en tant que telles, au sens où l’entendait Chomsky, à savoir des<br />

modèles qui décrivent l’ensemble des phrases possibles d’une langue, avec leurs<br />

propriétés structurales et éventuellement leur sémantique sous la forme de relations<br />

prédicat-argument, et ce indépendamment du modèle formel dans lequel ils sont écrits et<br />

des procédures concrètes de génération ou d’analyse. Ces théories, désignées sous le<br />

nom générique de « grammaires d’unification », sont développées dans le cadre de<br />

collaborations impliquant selon les cas des linguistes, des psycholinguistes, des logiciens<br />

et des informaticiens. Je cite ici pour mémoire les formalismes les plus connus (Abeillé<br />

et Blache, 1997) :<br />

- GPSG (Generalized Phrase Structure Grammar) est issu des recherches du linguiste<br />

G. Gazdar qui, en 1982, introduit dans son modèle une relation d’unification. Il<br />

décompose les catégories en traits et exprime des principes de partage de valeurs de<br />

traits entre syntagmes pour rendre compte de l’accord et de certaines relations<br />

systématiques de paraphrase (Gazdar et al., 1985). HPSG (Head Driven Phrase<br />

Structure Grammar) est un successeur de GPSG (Pollard et Sag, 1987).<br />

- LFG (Lexical Functional Grammar) est développé par R. M. Kaplan et J. Bresnan<br />

(1982), qui utilisent des arbres classiques pour représenter les formes de surface, et<br />

des structures de traits pour représenter les structures profondes, avec lesquelles sont<br />

définies les fonctions grammaticales.<br />

37


- TAG (Tree Adjoining Grammar) est proposé par A. Joshi (1987), qui déporte la<br />

grammaire vers le lexique, dans lequel les unités sont décrites sous la forme de<br />

structures arborescentes élémentaires (arbres lexicalisés) enrichies par des traits,<br />

combinées par des opérations de substitution ou d’adjonction.<br />

L’arrivée des formalismes déclaratifs constitue une révolution dans le domaine du TAL<br />

puisqu’elle donne aux linguistes une place de choix dans le nouveau paysage des<br />

recherches, en permettant (imposant) une redistribution des rôles entre linguistes et<br />

informaticiens. Ce nouveau partage des tâches reflète le principe de la séparation des<br />

données et des programmes dans les systèmes : aux linguistes la tâche de développer les<br />

grammaires et descriptions linguistiques (formelles), selon le formalisme théorique<br />

choisi ; aux informaticiens celle de mettre aux points les algorithmes et procédures qui<br />

mettront en musique ces descriptions. Le retour en force et l’implication nouvelle des<br />

linguistes dans l’arène du TAL, pour productive qu’elle soit, se réalise selon un mode de<br />

partage des tâches qui finalement entraîne ceux-ci et avec eux une partie de la<br />

computational linguistics vers des problématiques théoriques, et les éloigne des<br />

applications concrètes, ce que regrettent Cori et Léon :<br />

Cette évolution vers des modèles déclaratifs a les plus grandes<br />

conséquences sur l’unité du TAL. Les acteurs, en effet, sont incités à se<br />

replier sur une spécialité donnée : les uns sur la description des données<br />

linguistiques, d’autres sur l’écriture de modèles, d’autres enfin sur la mise<br />

au point d’algorithmes. On peut dire que réapparaissent sous la forme de<br />

lignes de fracture les frontières entre les disciplines dont les apports variés<br />

ont permis que soit fondé le TAL en tant que domaine. Seuls peuvent se<br />

réclamer sans équivoque du domaine les ingénieurs qui réalisent des<br />

applications industrielles et qui, donc, ont simultanément besoin des<br />

algorithmes et de la description des données. Alors même qu’en adoptant<br />

des modèles déclaratifs le TAL cherche à s’imposer des critères de<br />

rigueur, il tend du même coup à rendre impossible sa constitution comme<br />

discipline scientifique.<br />

(Cori et Léon, 2002, p. 50)<br />

2.2.4. Le Natural Language Processing<br />

Pendant les années 1980, le paysage des recherches en TAL se caractérise donc d’abord<br />

par le recentrage d’une partie de la communauté vers des problématiques théoriques : du<br />

côté de la linguistique, autour de l’élaboration de théories et de grammaires formelles,<br />

destinées au TAL, mais surtout fécondes pour l’analyse du langage ; du côté de<br />

l’informatique, sur la mise au point d’algorithmes, de structures et modèles de données<br />

et de langages, utiles pour le TAL mais pouvant avoir aussi une vocation plus générale.<br />

Pendant cette période, le paysage du TAL est grandement remodelé avec l’implication<br />

des chercheurs en Intelligence Artificielle (IA), discipline qui se donne parmi ses<br />

objectifs fondamentaux la description des mécanismes de la compréhension du langage<br />

naturel. Ces chercheurs investissent le terrain de l’analyse du langage avec des<br />

38


problématiques et des méthodes qui diffèrent radicalement de celles des pionniers de la<br />

TA et des tenants des grammaires d’unification. En particulier, alors que la syntaxe a<br />

toujours été considérée comme devant occuper une place centrale dans les recherches et<br />

les applications en TAL, tous les chercheurs en IA ne partagent pas le point de vue de la<br />

nécessité et de l’importance d’un module <strong>syntaxique</strong> dans les modèles théoriques de la<br />

compréhension, et encore moins dans les applications de simulation de la compréhension<br />

du langage naturel. Pour tester l’hypothèse d’une analogie entre le cerveau et<br />

l’ordinateur, les informaticiens chercheurs en IA focalisent leurs recherches sur la<br />

réalisation de systèmes « intelligents » qui simulent partiellement les processus de<br />

compréhension, c’est-à-dire de systèmes informatiques qui exécutent des tâches qui,<br />

quand elles sont réalisées par des humains, sont réputées solliciter des capacités de<br />

maîtrise du langage. Les premières réalisations sont des systèmes de simulation intégrés<br />

dans des applications « jouets ». Puis, au cours des années 1980, les chercheurs de l’IA<br />

délaissent progressivement la réalisation de systèmes jouets, pour s’attaquer à la mise au<br />

point de systèmes informatiques, incluant des ressources et des traitements linguistiques,<br />

utiles dans des contextes réels. Pour illustrer cette évolution, qui allait conduire au<br />

Natural Language Processing (NLP), je décris deux systèmes pionniers, SHRDLU et<br />

PARRY, réalisés au début des années 1970, puis deux systèmes industriels, <strong>opérationnel</strong>s<br />

à la fin des années 1980, CONSTRUE et ATRANS 21 .<br />

- Le système SHRDLU est réalisé par Terry Winograd pendant sa thèse au MIT<br />

(Winograd, 1972). C’est un système de dialogue qui permet à un opérateur humain<br />

de piloter à l’aide d’instructions données en anglais une grue pouvant manipuler et<br />

déplacer des blocs de taille et de couleur variées. Le système est très sophistiqué. Il<br />

inclut en particulier l’implémentation d’une grammaire inspirée des travaux de<br />

Halliday dans un langage procédural, ainsi qu’une méthode pour construire<br />

automatiquement les conditions de vérité exprimant le contenu sémantique d’un<br />

énoncé et pour les confronter à l’état du monde, c’est-à-dire la position courante des<br />

blocs. Il s’agit d’un monde très restreint où toutes les actions possibles sont connues.<br />

Le système n’est capable de traiter qu’une poignée de phrases, comme c’est la<br />

norme pour les systèmes de ce type qui vont voir le jour à cette époque.<br />

- Le système PARRY est réalisé par Kenneth M. Colby à Stanford (Colby, 1973). C’est<br />

aussi un système de dialogue, qui permet de mener une conversation avec un<br />

soi-disant malade paranoïaque interné dans un hôpital de vétérans. Le système est<br />

très robuste. Il n’est doté d’aucune grammaire ou <strong>analyseur</strong>, mais il est constitué<br />

d’un ensemble d’environ 6 000 patrons qui lui permettent de réagir aux énoncés de<br />

ces interlocuteurs, de façon suffisamment réaliste pour que ceux-ci soient<br />

convaincus la plupart du temps d’avoir affaire à un vrai malade.<br />

21 Les deux premiers sont ceux que Y. Wilks choisit de décrire dans l’introduction de son article History of<br />

Computational Linguistics de la seconde version de l’Encyclopedia of language and linguistics (2006), et les<br />

deux autres sont ceux que Philip J. Hayes décrit en détail dans l’article Natural Language Processing :<br />

Applications de la première version de cette même encyclopédie (Hayes, 1994).<br />

39


- Le système CONSTRUE (Hayes et al., 1987) est développé au Carnegie Group Inc<br />

pour l’agence Reuters. C’est un système qui classe automatiquement un flux de<br />

dépêches de presse économiques ou financières dans une ou plusieurs catégories<br />

d’un ensemble de 674 catégories prédéfinies. CONSTRUE utilise des techniques de<br />

pattern-matching et des règles d’appariement pondérées pour identifier dans les<br />

dépêches des mots ou séquences de mots qu’il associe avec une certaine pondération<br />

aux thèmes ou concepts d’une base de connaissance du domaine. Il exploite ensuite<br />

des règles de classification de type si–alors qui tiennent compte des concepts<br />

activés, des parties de textes où figurent les mots activateurs, ainsi que des poids<br />

d’activation, pour affecter la dépêche analysée à une ou plusieurs catégories. Les<br />

règles et la base de connaissances exploitées par le système sont totalement<br />

dépendantes du domaine. Le coût de leur construction est estimé à une<br />

année-homme par P. J. Hayes.<br />

- Le système ATRANS (Lytinen et Gershman, 1986) est développé par la société<br />

Cognitive Systems pour la Société Générale de Banque de la Belgique. C’est un<br />

système d’extraction de faits (fact extraction, on ne dit pas encore information<br />

extraction) qui traite des télex concernant des opérations de transfert d’argent, et<br />

extrait de ces dépêches des informations pertinentes (les banques, leur rôle dans<br />

l’opération de transfert, les montant, dates, etc.). Les résultats sont validés par un<br />

opérateur humain. Les techniques utilisées dans ATRANS sont basées sur le<br />

formalisme de la dépendance conceptuelle développé par R. Schank (Schank, 1975),<br />

fondateur de Cognitive Systems. Etant donné le style très particulier des dépêches et<br />

la focalisation de l’analyse sur l’extraction d’informations de type prédéfini, le<br />

système n’inclut pas de module standard d’analyse <strong>syntaxique</strong>, l’extraction est<br />

guidée par la « sémantique » du domaine et de la tâche.<br />

A la fin des années 1980 émerge ainsi, dans le champ du TAL, un nouveau paradigme,<br />

en anglais le Natural Language Processing (NLP). Dans ce paradigme, les recherches<br />

sont guidées par les applications, et non par l’objectif d’une meilleure compréhension du<br />

langage humain. En ce sens, le NLP n’est pas un programme d’investigation<br />

scientifique, contrairement à la Computational Linguistics qui continue à revendiquer<br />

l’objectif d’une description théorique des langues. Ce paradigme s’est développé de<br />

façon d’autant plus foudroyante que le développement de la microinformatique, l’essor<br />

de la documentation électronique et l’arrivée d’Internet ont fait émerger des besoins<br />

nouveaux et ont généré une demande sociale forte. Les applications du NLP sont bien<br />

connues : extraction d’informations, classification de documents, résumés de documents.<br />

Ces applications s’ajoutent aux applications historiques que sont la traduction<br />

automatique pour le TAL et la recherche d’informations pour l’informatique<br />

documentaire. Les recherches sont encouragées non seulement par la demande sociale,<br />

mais aussi et surtout par les campagnes d’évaluation lancées par l’agence DARPA<br />

(Defense Advanced Research Projects Agency), du Département de la Défense des Etats-<br />

<strong>Un</strong>is, qui ont contribué à façonner le paysage de la recherche en TAL, au moins aux<br />

Etats-<strong>Un</strong>is.<br />

40


Dans la philosophie du NLP, il convient de faire feu de tout bois dans la recherche des<br />

résultats attendus. Il s’agit de mettre en œuvre de façon optimale les techniques et les<br />

ressources nécessaires pour atteindre un objectif donné, avec autant que possible le souci<br />

constant d’ajuster les coûts d’élaboration des systèmes aux gains escomptés lors de leur<br />

utilisation dans des contextes réels. Comme on le voit dans les exemples illustratifs<br />

ci-dessus, les systèmes se distinguent les uns des autres selon le type de traitements<br />

linguistiques qu’ils opérationnalisent et selon le type et le volumes des connaissances<br />

qu’ils mettent en œuvre. Certaines applications se contentent de méthodes d’extraction<br />

simples et robustes, alors que d’autres requièrent une phase d’analyse linguistique<br />

détaillée. Concernant l’analyse <strong>syntaxique</strong>, même dans les cas où une analyse du contenu<br />

est nécessaire, la syntaxe n’est pas mise nécessairement de façon primordiale au centre<br />

du dispositif. <strong>Un</strong> certain nombre de chercheurs ont travaillé sur l’hypothèse que la<br />

structure sémantique était première, et (relativement) indépendante de la structure<br />

<strong>syntaxique</strong>, dès lors que l’on s’intéressait à la détermination du contenu informatif des<br />

énoncés. On peut citer le système des dépendances conceptuelles de Schank (1975) et<br />

celui des préférences sémantiques de Wilks (Wilks et Fass, 1992), tous les deux inspirés<br />

de la grammaire des cas de Fillmore (1968). <strong>Un</strong>e autre ligne d’opposition concerne les<br />

connaissances sur le domaine. Certaines applications sont peu exigeantes en<br />

connaissances sur le domaine, alors que d’autres requièrent la construction de bases de<br />

connaissances très riches sur le domaine et sur la tâche. Et le principal problème auquel<br />

se sont heurtées les recherches en IA à la fin des années 1990 est celui du goulet<br />

d’étranglement que constitue la tâche de modélisation des connaissances à intégrer dans<br />

les systèmes devant effectuer des tâches complexes dans des domaines où ces<br />

connaissances ne se formalisent pas de façon immédiate. L’activité d’acquisition des<br />

connaissances pour les systèmes à base de connaissances est devenue un thème de<br />

recherche en soi autour duquel se sont articulées des recherches issues de différentes<br />

disciplines et elle a donné lieu à la réflexion sur des systèmes experts de deuxième<br />

génération (David et al., 1993). C’est dans cette mouvance que j’ai entrepris mes<br />

recherches sur LEXTER et sur l’acquisition des connaissances à partir de textes<br />

(cf. Chapitre 1).<br />

Le problème du coût de construction manuelle des systèmes de TAL allait trouver des<br />

solutions avec l’explosion, dans les années 1990, du TAL dit « empirique » ou<br />

« statistique », qui se caractérise par l’arrivée en force et la généralisation des méthodes<br />

statistiques ou numériques dans quasiment tous les secteurs d’investigation du TAL. En<br />

particulier, l’utilisation de méthodes d’apprentissage automatique sur des données<br />

annotées à la main s’est révélée extrêmement féconde pour passer le goulet<br />

d’étranglement dans certaines applications, entre autres pour les systèmes d’extraction<br />

d’information (Maning et Schütze, 1999 ; p. 19). Selon Wilks (2006), l’élan a été donné<br />

à l’origine par Fred Jelinek à IBM, qui met en place un programme de recherche en<br />

traduction automatique (Brown et al., 1990), dans lequel les méthodes statistiques qui<br />

avaient été appliquées avec succès à la reconnaissance de la parole sont testées avec non<br />

moins de succès en traduction automatique. Il s’agit par exemple de techniques<br />

d’apprentissage automatique lancées sur le corpus bilingue anglais/français du Hansard.<br />

On peut faire remonter l’origine de l’apprentissage automatique en TAL aux travaux de<br />

41


Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur<br />

morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus<br />

annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement<br />

exponentiel des capacités des machines et la multiplication des ressources textuelles<br />

électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à<br />

toutes les tâches du TAL.<br />

Concernant l’analyse <strong>syntaxique</strong> automatique, toute une série de travaux convergent vers<br />

la construction automatique de grammaires hors contextes probabilistes à partir de<br />

l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des<br />

grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de<br />

dérivation. Ces probabilités sont calculées à partir de corpus annotés <strong>syntaxique</strong>ment,<br />

presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir<br />

parmi les multiples analyses d’une phrase fournies par l’<strong>analyseur</strong> quelles sont celles qui<br />

ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres<br />

11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse<br />

<strong>syntaxique</strong> automatique.<br />

2.3. Travaux en analyse <strong>syntaxique</strong> robuste<br />

2.3.1. La robustesse en analyse <strong>syntaxique</strong><br />

Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce<br />

chapitre à une revue de travaux en analyse <strong>syntaxique</strong> robuste. L’analyse <strong>syntaxique</strong><br />

robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive<br />

dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la<br />

mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les<br />

deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL<br />

depuis 50 ans. Dès les débuts de la TA, on a fabriqué des <strong>analyseur</strong>s <strong>syntaxique</strong>s, et si le<br />

problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était<br />

acquis que les <strong>analyseur</strong>s devaient fournir une analyse <strong>syntaxique</strong> la plus complète, la<br />

plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept<br />

de robustesse en analyse <strong>syntaxique</strong> peut s’expliquer par deux facteurs concomitants :<br />

l’échec rencontré par les approches théorisantes en syntaxe à produire des <strong>analyseur</strong>s<br />

utiles, et la pression de la demande sociale liée au développement des nouvelles<br />

technologies de l’information. Les années 1980 voient l’arrivée des grammaires<br />

d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a<br />

conduit à l’élaboration de théories <strong>syntaxique</strong>s très fécondes, qui ont contribué à une<br />

meilleure description des langues. Mais il est apparu que cet objectif théorique était<br />

difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’<strong>analyseur</strong>s<br />

<strong>syntaxique</strong>s utilisables dans des contextes applicatifs. Les limites des <strong>analyseur</strong>s<br />

s’appuyant sur les descriptions formelles développées par ces théories sont connues :<br />

temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites<br />

42


en performance ne remettent pas nécessairement en cause les programmes de recherche à<br />

la base de ces <strong>analyseur</strong>s. Il faut garder à l’esprit que le paradigme formel et celui de<br />

l’analyse <strong>syntaxique</strong> robuste relèvent de positions épistémologiques fondamentalement<br />

différentes : visée clairement théorisante d’un côté, objectifs prioritairement pratiques de<br />

l’autre. <strong>Un</strong>e grammaire formelle peut être vue comme une théorie de la langue au sens<br />

de Chomsky, un <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong> peut être vu comme un objet<br />

technique, au sens de Gilbert Simondon dans sa philosophie des techniques, comme je le<br />

défendrai à la fin du chapitre 3.<br />

Du côté des applications, la pression de la demande sociale pour des outils de traitement<br />

de l’information s’est intensifiée avec le développement de la bureautique et<br />

l’accroissement exponentiel de la documentation électronique. Des outils de TAL<br />

robuste(s) sont requis comme composants des applications informatiques visant à gérer,<br />

traduire, classer, fouiller, interroger ces sources électroniques, nécessaires et accessibles<br />

dans une grande diversité d’activités humaines. Néanmoins, il ne faudrait pas surestimer<br />

l’importance et la nouveauté d’un tel phénomène. Pour les recherches en TAL, la<br />

pression de la demande sociale a toujours existé. Le TAL est né de cette pression, quand<br />

des esprits inventifs ont imaginé que les nouveaux calculateurs pourraient résoudre les<br />

immenses problèmes de la traduction à la fin des années 1940. Dans les années 1990, et<br />

dans le domaine de l’analyse <strong>syntaxique</strong> automatique, c’est donc le décalage entre les<br />

résultats produits par les approches dominantes en analyse <strong>syntaxique</strong> automatique et la<br />

demande en outils utilisables qui a conduit à l’émergence de la notion de robustesse pour<br />

caractériser les travaux de plus en plus nombreux développés en dehors du paradigme<br />

des grammaires formelles.<br />

Pour préciser la notion de robustesse, je reprends la caractérisation proposée par Salah<br />

Aït-Mokhtar, Jean-Pierre Chanod et Claude Roux dans leur article publié en 2002 dans<br />

le numéro spécial de la revue Natural Language Engineering sur les méthodes robustes<br />

en Traitement Automatique des Langues :<br />

We think of robustness as the ability of a language analyzer to provide<br />

useful analyses for real-world input texts. By useful analyses, we mean<br />

analyses that are (at least partially) correct and usable in some automatic<br />

task or application. That definition implies two requirements: first, a<br />

robust system should product (at least) one analysis for any real-world<br />

input. (…) A robust system should also limit the number of concurrent<br />

analyses it produces or a least give indications on which are the preferred<br />

ones.<br />

(Aït-Mokhtar et al., 2002, p. 122–123)<br />

Cette définition résume l’ironie pour les tenants d’une approche pratique en Traitement<br />

Automatique des Langues de devoir forger un concept spécifique pour caractériser leurs<br />

<strong>analyseur</strong>s en reprenant les termes même de leur cahier des charges. Le concept de<br />

robustesse s’efface devant celui d’utilité, qui est le concept fondamental. Dès lors qu’on<br />

ne poursuit pas l’objectif théorique d’une meilleure connaissance des langues, il s’agit de<br />

faire des <strong>analyseur</strong>s <strong>syntaxique</strong>s utiles, c’est-à-dire des <strong>analyseur</strong>s capables de produire<br />

dans des temps raisonnables, pour toute séquence fournie en entrée, une analyse la plus<br />

43


complète et la plus juste possible, qui soit utilisable pour une gamme d’applications<br />

spécifiées.<br />

Aït-Mokhtar et al. (2002) identifient trois grands courants nouveaux à partir des années<br />

1990 visant la robustesse en analyse <strong>syntaxique</strong> automatique. Le premier courant<br />

cherche à étendre des systèmes classiques basés sur des modèles théoriques avec des<br />

procédures, heuristiques et mécanismes visant à récupérer des analyses partielles quand<br />

le système a échoué à analyser la phrase entière, et à trier ou sélectionner les meilleures<br />

analyses quand le système en a produit un grand nombre. La deuxième approche est<br />

celle de l’analyse <strong>syntaxique</strong> statistique, où les systèmes sont constitués de règles qui ont<br />

été apprises automatiquement à partir de corpus annotés <strong>syntaxique</strong>ment. La troisième<br />

voie est celle de l’analyse <strong>syntaxique</strong> superficielle, dans laquelle on revoit à la baisse les<br />

ambitions des <strong>analyseur</strong>s pour réaliser des systèmes qui reconnaissent des structures<br />

<strong>syntaxique</strong>s minimales.<br />

Au-delà de ces approches contemporaines, il est possible d’identifier et de rassembler<br />

une famille de travaux, dont les premiers datent des débuts de la TA, qui, en dehors de<br />

toute visée théorique, se fixent comme objectif de développer des <strong>analyseur</strong>s<br />

<strong>syntaxique</strong>s, à base de règles de reconnaissance opératoires, utiles pour certaines<br />

applications. Ces travaux sont moins nombreux, et plus isolés, car souvent menés dans le<br />

cadre d’entreprises personnelles et autonomes. Parce qu’ils ne s’inscrivent pas dans une<br />

approche ou une école de pensée académique identifiée et structurée, avec ses leaders et<br />

ses conférences, ils sont peu visibles, et quand ils sont aperçus, ils peuvent être taxés de<br />

n’être que du « bricolage » ou de relever de l’« ingénierie ». En sélectionnant les travaux<br />

présentés dans cette section, j’ai cherché à établir une lignée dans laquelle s’inscrit mon<br />

propre <strong>analyseur</strong>. J’ai voulu assurer une certaine profondeur historique, en choisissant<br />

des travaux anciens mais qui s’inscrivent dans la veine actuelle de l’analyse robuste, j’ai<br />

donné un petit coup de projecteur à des travaux menés en France, et j’ai privilégié des<br />

auteurs qui, au-delà des réalisations effectives, ont tenté de problématiser leur approche<br />

en analyse <strong>syntaxique</strong>.<br />

Je présente successivement les travaux suivants :<br />

- L’<strong>analyseur</strong> FULCRUM de P. S. Garvin (section 2.3.2)<br />

- L’<strong>analyseur</strong> du projet TDAP (section 2.3.3)<br />

- L’<strong>analyseur</strong> de F. Debili (section 2.3.4)<br />

- Le projet PLNLP (section 2.3.5)<br />

- L’analyse par chunks de S. Abney (section 2.3.6)<br />

- L’<strong>analyseur</strong> 98 de J. Vergne (section 2.3.7)<br />

- L’analyse <strong>syntaxique</strong> robuste selon J. -P. Chanod (section 2.3.8)<br />

44


2.3.2. L’<strong>analyseur</strong> FULCRUM de P. S. Garvin<br />

Paul S. Garvin commence ses recherches, dans les années 1950, à l’université de<br />

Georgetown, au sein de l’équipe qui travaille sur le développement du système de<br />

traduction automatique GAT (section 2.2), et il les poursuit au sein de Ramo-Wooldridge<br />

Corporation, toujours dans le cadre de la traduction automatique, entreprise dont il prend<br />

la direction en mars 1960. Il développe une méthode d’analyse <strong>syntaxique</strong>, dite Fulcrum<br />

method. Dans l’article qu’il présente lors de la deuxième conférence internationale sur le<br />

Traitement Automatique des Langues, à Grenoble en août 1967 (Garvin, 1967), Paul<br />

Garvin présente l’<strong>analyseur</strong> <strong>syntaxique</strong> FULCRUM pour le russe, qui possède la<br />

caractéristique essentielle d’être un système bipartite, constitué d’un dictionnaire et d’un<br />

algorithme. Le dictionnaire recense de façon classique les formes avec leurs catégories<br />

potentielles, et l’algorithme ordonne des règles de reconnaissance de patrons<br />

linguistiques dans différentes parties de la phrase pour identifier les structures<br />

<strong>syntaxique</strong>s. En cela, le système FULCRUM se démarque de la majorité des systèmes de<br />

traduction développés à l’époque, dans lesquels, selon le principe de séparation cher à<br />

Yngve (section 2.2.1), les règles de grammaire étaient séparées des algorithmes<br />

d’analyses. Ces systèmes étaient tripartites, composés d’un dictionnaire électronique,<br />

d’une base de règles grammaticales et sémantiques, et d’un algorithme d’analyse. Les<br />

arguments pour une telle séparation étaient la possibilité d’un partage des tâches entre<br />

les linguistes, qui se concentrent sur la mise au point de règles de grammaire, et les<br />

informaticiens, qui eux planchent sur la conception d’algorithmes performants, ainsi<br />

qu’une meilleure maintenabilité. Selon Garvin, ce cloisonnement n’est viable que tant<br />

qu’il y a indépendance entre les règles et les algorithmes, et donc qu’il est possible de<br />

modifier ou d’ajouter des règles sans qu’il soit nécessaire de modifier l’algorithme. Or ce<br />

n’est plus le cas dès que le nombre de règles augmente et que la grammaire atteint une<br />

taille réaliste. La base de règles ne peut plus être gérée par un algorithme simple. Soit il<br />

faut adapter l’algorithme à la base de règles, et l’algorithme perd toute généralité, soit il<br />

faut un algorithme secondaire servant d’interface entre l’algorithme général et la base de<br />

règles. Dans les deux cas, l’indépendance n’existe plus, et les avantages apportés par la<br />

séparation sont illusoires. C’est pourquoi Garvin opte pour un système bipartite.<br />

Les deux concepts essentiels de la méthode sont les suivants :<br />

- La méthode par passes. <strong>Un</strong>e phrase est traitée en plusieurs passes, à chaque passe<br />

sont identifiées un certain nombre de relations <strong>syntaxique</strong>s grâce à la reconnaissance<br />

de patrons grammaticaux. Les passes se succèdent de telle façon que soient<br />

reconnus d’abord les constituants <strong>syntaxique</strong>s de la phrase, puis les relations entre<br />

ces constituants, et enfin la structure générale de la phrase. Les règles de<br />

reconnaissance sont appliquées par l’algorithme dans un ordre tel que chacune est<br />

testée au moment où les informations grammaticales nécessaires sont disponibles<br />

(les étiquettes et relations posées lors des passes précédentes).<br />

45


- Le concept de « fulcrum ». Pour une fonction de recherche donnée (par exemple le<br />

rattachement des adverbes à des adjectifs), les « fulcra 22 » sont les mots pivots à<br />

partir desquels est lancée une analyse locale portant sur les mots voisins dans la<br />

phrase pour placer une relation de dépendance <strong>syntaxique</strong>. A chaque passe, le<br />

système ne traite donc pas tous les mots de la phrase successivement de gauche à<br />

droite (ou de droite à gauche), mais « saute » de mot pivot en mot pivot en<br />

effectuant à chaque fois une analyse locale.<br />

Dans un tel système bipartite, les connaissances linguistiques sur la grammaire de la<br />

langue sont contenues dans l’algorithme :<br />

This means that the highly complex system of rules that makes up the real<br />

grammar of a language is distributed over a correspondingly complex<br />

algorithm which applies the rules in terms of the ordering that the<br />

language requires.<br />

(Garvin, 1967, p. 1)<br />

2.3.3. L’<strong>analyseur</strong> du projet TDAP<br />

Entre juin 1958 et juillet 1959, au sein du projet Transformations and Discourse<br />

Analysis Project (TDAP) dirigé par Zellig S. Harris à l’université de Pennsylvania, un<br />

<strong>analyseur</strong> <strong>syntaxique</strong> de l’anglais est conçu et développé par une équipe composée de<br />

L. Gleitman, A. Joshi, B. Kauffman et N. Sager, rejoints plus tard par Caroll Chomsky.<br />

Ces recherches ont été menées en marge du courant des recherches en traduction<br />

automatique. Cet <strong>analyseur</strong> a été réécrit au milieu des années 1990 par A. Joshi et<br />

P. Hopely (Joshi & Hopely, 1996, 1999) à partir de la documentation de l’époque.<br />

L’<strong>analyseur</strong> est implémenté comme une cascade de transducteurs. Selon Joshi et Hopely,<br />

il s’agit de la première application des transducteurs à états finis à l’analyse <strong>syntaxique</strong>.<br />

L’analyse se déroule en 7 passes successives.<br />

1. Analyse morphologique. A partir de la consultation d’un dictionnaire, le système<br />

attribue une ou plusieurs étiquettes grammaticales aux mots de la phrase. Dans le<br />

dictionnaire, les catégories affectées à une forme sont classées par ordre de<br />

fréquence décroissante.<br />

2. Traitement des locutions grammaticales. Certaines locutions grammaticales sont<br />

remplacées par une étiquette grammaticale ; par exemple of course est remplacée<br />

par l’étiquette d’adverbe.<br />

3. Désambiguïsation morphologique. Elle est effectuée à l’aide de 14 règles de<br />

désambiguïsation, qui ont pour fonction d’éliminer des étiquettes affectées aux mots<br />

ambigus et qui s’appuient sur les contextes droit et gauche. Les règles s’enchaînent<br />

et le processus se répète jusqu’à ce que plus aucune désambiguïsation ne soit<br />

effectuée. Il peut subsister des mots non désambiguïsés.<br />

22 Fulcrum désigne en anglais le pivot d’un levier, ou le couteau d’une balance.<br />

46


4. Repérage des groupes nominaux simples (« simple noun phrases »). Ce repérage est<br />

effectué par deux transducteurs à états finis, un premier qui parcourt la phrase de<br />

droite à gauche, et qui repère les groupes nominaux à partir d’une limite finale sûre<br />

(nom ou pronom), puis un second de gauche à droite, et qui repère les groupes<br />

nominaux à partir d’une limite initiale sûre (article). Les catégories admises par le<br />

premier transducteur sont nom, adjectif et article. Le transducteur parcourt le graphe<br />

jusqu’à un point de sortie, en adoptant la stratégie du chemin le plus long. En<br />

particulier, s’il rencontre un mot ambigu, il choisit l’étiquette qui lui permet de<br />

continuer le chemin. C’est ainsi que certaines ambiguïtés sont résolues à ce stade.<br />

De la même façon, si le transducteur rencontre une conjonction de coordination, il<br />

l’absorbe si cela lui permet de continuer le chemin. Le second transducteur repère<br />

les groupes nominaux élémentaires qui commencent par un article. Les groupes<br />

nominaux reconnus à cette étape sont placés entre crochets (Exemples : [the rich<br />

man], [increased production]).<br />

5. Repérage des adjoints simples (« simple adjuncts »). <strong>Un</strong> transducteur gauche droite<br />

repère les groupes prépositionnels ou adverbiaux simples. Dans l’exemple « in<br />

increased production », le tranducteur peut repérer à in le début d’un groupe<br />

prépositionnel parce que le transducteur droite gauche de la passe précédente a<br />

d’abord reconnu le groupe nominal qui commence juste après la préposition. Les<br />

auteurs soulignent que c’est tout l’intérêt d’une architecture séquentielle enchaînant<br />

les transducteurs que de rendre facile la reconnaissance des groupes <strong>syntaxique</strong>s.<br />

Les groupes reconnus à cette étape sont placés entre parenthèses (Exemples : (very<br />

clearly), (rapidly), (to date), (in [increased production])).<br />

6. Repérage des noyaux verbaux simples (« verb clusters »). <strong>Un</strong> transducteur à états<br />

finis gauche droite repère des noyaux verbaux, n’incluant que des compléments<br />

verbaux, ainsi que des adjoints simples reconnus lors de la phase précédente. Les<br />

groupes reconnus à cette étape sont placés entre accolades (Exemples : {went}, {has<br />

gone fishing}, {may have been (already) published}, {have been observed and<br />

reported to be}, {wants to leave}, et {wants} [the man] (from [Philadelphia]) {to<br />

leave}).<br />

7. Repérage des propositions. Toutes les structures repérées dans les phases<br />

précédentes sont dites de premier ordre, car non enchâssées (nested). Au cours de la<br />

phase de repérage des propositions, les structures repérées peuvent être enchâssées.<br />

Le repérage de propositions se fait grâce à l’application itérative d’un transducteur<br />

gauche droite qui commence sa recherche par les propositions les plus<br />

profondément enchâssées. Au cours de la reconnaissance d’une proposition, les<br />

adjoints sont soit sautés, soit considérés comme compléments. Des informations de<br />

sous-catégorisation sont exploitées. La stratégie du complément le plus long est<br />

adoptée, et le rattachement se fait au verbe le plus proche.<br />

Joshi et Hopely expliquent que les transducteurs utilisés dans les phases 1 à 6 ont été<br />

rendus déterministes grâce au choix de l’ordre d’enchaînement des transducteurs et de<br />

leur sens de parcours (gauche droite ou droite gauche), et grâce à l’adoption de la<br />

stratégie du plus long chemin. Dans le cadre du projet TDAP, l’<strong>analyseur</strong> a été<br />

47


développé à l’origine pour être utilisé dans diverses tâches applicatives, dont le résumé<br />

automatique d’articles scientifiques. Les phrases analysées sont des phrases réelles,<br />

extraites de textes de biochimie. Ce programme est le précurseur du programme de la<br />

grammaire de chaînes que développera N. Sager à l’université de New-York (Sager,<br />

1970), qui donnera lieu aux <strong>analyseur</strong>s développés par R. Grishman et L. Hirschman.<br />

2.3.4. L’<strong>analyseur</strong> de F. Debili<br />

Fathi Debili soutient sa thèse intitulée Analyse syntaxico-sémantique fondée une<br />

acquisition de relations lexicales-sémantiques en janvier 1982. Il a mené sa recherche<br />

dans une équipe animée par A. Andreewsky, et dont les travaux en Traitement<br />

Automatique des Langues sont orientés vers la recherche documentaire dans des bases<br />

textuelles (de type juridique essentiellement). F. Debili s’intéresse plus précisément à la<br />

détection de la paraphrase. A la question « Qui nomme le premier ministre ? », un<br />

système documentaire devrait fournir des documents contenant les phrases « Le premier<br />

ministre est nommé par le président de la république. » ou « La nomination du premier<br />

ministre par le président de la république a été (…) ». L’<strong>analyseur</strong> <strong>syntaxique</strong> développé<br />

par F. Debili est un <strong>analyseur</strong> en dépendance, qui s’appuie sur les résultats d’un<br />

étiqueteur morphologique. Le système exploite de façon massive un principe que j’ai<br />

qualifié d’apprentissage endogène, dix ans plus tard lors de la conception de LEXTER<br />

(Chap. 1, section 1.2). Le système est constitué de 3 composantes, morphologique,<br />

<strong>syntaxique</strong>, sémantique. La composante morphologique repose sur un découpage des<br />

mots étiquetés du corpus en préfixe + radical + suffixe et a pour fonction de regrouper<br />

les mots du corpus en familles morphologiques. La composante <strong>syntaxique</strong> segmente<br />

d’abord la phrase en chaînes nominales et verbales, puis construit toutes les relations de<br />

dépendance potentielles entre les mots. La composante sémantique a pour fonction de<br />

résoudre les ambiguïtés de rattachement laissées par le module <strong>syntaxique</strong>, à l’aide d’un<br />

raisonnement par analogie. Par exemple (Debili, 1982, p. 5), dans la phrase « La<br />

nomination par le ministre des membres du conseil supérieur … », la composante<br />

<strong>syntaxique</strong> a identifié 2 gouverneurs potentiels pour le nom membres : les noms ministre<br />

et nomination. Si le corpus comprend la phrase « Les membres du conseil supérieur sont<br />

nommés … », et si la composante morphologique a acquis le lien morphologique entre<br />

nomination et nommer, et si la composante <strong>syntaxique</strong> a identifié sans ambiguïté la<br />

relation sujet entre le nom membres et le verbe nommer au passif, alors la composante<br />

sémantique va lever l’ambiguïté dans la première phrase en choisissant le nom<br />

nomination comme gouverneur de membres. C’est ce principe de désambiguïsation<br />

endogène qui fait la principale originalité du système de F. Debili. Le système prend en<br />

entrée un corpus de phrases, supposé être suffisamment homogène sur le plan des<br />

caractéristiques lexico-<strong>syntaxique</strong>s pour que des propriétés morpho<strong>syntaxique</strong>s des mots<br />

considérés comme types soient acquises sur l’ensemble de ce corpus et propagées<br />

rétrospectivement lors de passes ultérieures à l’ensemble des occurrences de ces types.<br />

Dans le module <strong>syntaxique</strong>, le traitement se déroule en deux étapes : une étape de<br />

segmentation, une étape de mise en relation. Lors de la première étape, le système<br />

48


effectue le découpage de la phrase en « chaînes nominales » et « chaînes verbales ». Les<br />

exemples donnés ci-dessous donnent une idée du type de résultat produit par le<br />

découpage (CN : chaîne nominale, CV : chaîne verbale, X : élément autre).<br />

/CN1 Ces dispositions /CV1 ne sont pas opposables /CN2 aux personnes /X<br />

qui /CV2 auront déposé /CN3 une demande de permis de construire /<br />

/CN1 Les faces directement accessibles des conduits adossés à un mur<br />

extérieur /CV1 doivent avoir /CN2 une isolation suffisante /X pour que<br />

/CN3 le refroidissement /CV2 ne contrarie pas /CN 4 le tirage.<br />

La description de ce qu’est une chaîne nominale est donnée sous la forme d’une matrice<br />

de reconnaissance dont les lignes et les colonnes sont des filtres catégoriels élémentaires.<br />

Ceux-ci ont pour fonction de reconnaître les éléments qui peuvent faire partie d’une<br />

chaîne nominale (substantifs, adjectifs antéposés, adjectifs postposés, préposition de et à,<br />

articles, verbe infinitif…). La valeur d’une cellule de cette matrice renseigne sur la<br />

possibilité qu’un mot dont la catégorie est donnée par la ligne soit suivi d’un mot dont la<br />

catégorie est donnée par la colonne. Dans cette matrice, sont indiquées aussi les<br />

catégories possibles de début et de fin de chaîne. Cette matrice est donc la représentation<br />

d’un automate à états finis, qui reconnaît les chaînes nominales. Il existe aussi une<br />

matrice de reconnaissance des chaînes verbales bâtie sur le même principe.<br />

Lors de la seconde étape de l’analyse <strong>syntaxique</strong>, le système identifie les relations de<br />

dépendance potentielles entre les mots de la phrase. F. Debili distingue deux types de<br />

relations : les relations homo-syntagmatiques, qui s’établissent entre des mots<br />

appartenant à une même chaîne nominale ou verbale, et les relations<br />

hétéro-syntagmatiques, qui s’établissent entre un mot appartenant à une chaîne nominale<br />

et un mot appartenant à une chaîne verbale. Les principales relations<br />

homo-syntagmatiques repérées au sein des chaînes nominales sont les relations entre un<br />

nom et un adjectif postposé, et entre un nom et une préposition. Les procédures de<br />

reconnaissance de ces relations sont définies sous la forme de filtres <strong>syntaxique</strong>s qui<br />

spécifient des contraintes, en terme de catégories et de succession de catégories, sur la<br />

séquence de mots qui peut se trouver entre un nom régisseur et un adjectif postposé, et<br />

entre une préposition et un nom régisseur. Par exemple, pour la relation Nom-Adjectif<br />

postposé, une de ces contraintes est qu’on ne peut trouver entre un nom et un adjectif de<br />

prépositions autres que de, à et en, ni de séquences participe passé + préposition. Dans la<br />

chaîne nominale « dispositif de surveillance par détecteur à ionisation autonome », le<br />

système va identifier deux relations de dépendances à partir de l’adjectif postposé<br />

autonome, l’une qui pointe vers le nom ionisation et l’autre vers le nom détecteur. Les<br />

noms dispositif et surveillance ne seront pas reconnus comme régisseurs potentiels, car il<br />

se situent au-delà de la barrière qu’est la préposition par.<br />

Les principales relations hétéro-syntagmatiques sont les relations sujet, complément<br />

d’objet et complément d’objet indirect. L’algorithme de reconnaissance du sujet d’un<br />

verbe choisit le nom ou le pronom libre, c’est-à-dire non régi par un autre élément, le<br />

plus proche à gauche du verbe. Il n’y pas de restriction sur le champ d’investigation,<br />

c’est-à-dire pas de contraintes négatives, en terme de barrières, sur la séquence<br />

49


séparative. L’algorithme de reconnaissance du complément d’objet d’un verbe choisit le<br />

nom libre le plus proche à droite du verbe. Les barrières sont les chaînes verbales à la<br />

forme active, les conjonctions de subordination ou de coordination, les ponctuations, les<br />

pronoms sujets. Concernant la relation entre un verbe et une chaîne nominale introduite<br />

par une préposition (complément prépositionnel), il est à noter que F. Debilli ne traite<br />

que les cas où le verbe est au passif. Il laisse donc de côté les configurations où un verbe<br />

à l’actif est suivi d’un complément direct, puis d’un groupe prépositionnel, qui sont<br />

pourtant les configurations prototypiques de l’ambiguïté de rattachement prépositionnel<br />

mettant en jeu un verbe conjugué.<br />

Les règles d’analyse <strong>syntaxique</strong> sont donc implémentées sous forme d’automates à états<br />

finis qui décrivent les parcours possibles entre un élément régisseur (resp. régi) et un<br />

élément régi (resp. régisseur), en terme de successions licites ou illicites de catégories<br />

morpho<strong>syntaxique</strong>s. F. Debili ne donne pas de précision dans sa thèse sur<br />

l’ordonnancement des traitements, en particulier sur l’ordre d’enchaînement des<br />

algorithmes de reconnaissance de relations : y-a-t-il un seul parcours de la phrase, de<br />

gauche à droite, au cours duquel un algorithme de reconnaissance est lancé dès que la<br />

catégorie du mot courant le justifie, ou bien y-a-t-il autant de parcours de la phrase que<br />

de relations ? Comme c’est souvent le cas pour les travaux précurseurs, développés en<br />

marge des courants porteurs, les travaux de F. Debili sont assez peu connus. Ils sont<br />

cependant cités par Gregory Greffenstette (1994, 1996), quand celui-ci décrit ses<br />

travaux, menés dans le même esprit que F. Debili, sur l’utilisation de transducteurs à<br />

états finis pour la réalisation d’<strong>analyseur</strong>s <strong>syntaxique</strong>s légers et robustes.<br />

G. Greffenstette a soutenu en 1983, dans la même équipe et à la même époque que<br />

F. Debili, une thèse intitulée « Traitements linguistiques appliqués à la documentation<br />

automatique » (Greffenstette, 1983).<br />

2.3.5. Le projet PLNLP<br />

Le concept de robustesse a été au centre des préoccupations des chercheurs du Centre de<br />

Recherche d’IBM à Yorktown, qui ont travaillé sur le projet PLNLP (Programming<br />

Language for Natural Language Processing) pendant les années 1980. Lors de l’édition<br />

de 1988 de la conférence COLING organisée à Budapest, Makato Nagao, chercheur à<br />

l’université de Kyoto et pionnier de la traduction automatique au Japon, organise une<br />

table ronde intitulée « Language Engineering : the real bottleneck of Natural Language<br />

Processing » 23 , qu’il introduit ainsi:<br />

The bottleneck in building practical natural language processing system is<br />

not those problems which have been often discussed in research papers,<br />

but in handling much more dirty, exceptional (for theoreticians, but we<br />

frequently encounter) expressions.<br />

(Nagao, 1988, p. 448)<br />

23 Selon Ruslan Mitkov (1995), cité par (Cunningham, 2000), c’est de cet intitulé qu’a été reprise l’expression<br />

« Natural Language Engineering ».<br />

50


Karen Jensen, du Centre de Recherche d’IBM, propose une intervention dont le titre est<br />

« Why computational grammarians can be sceptical about existing linguistic theories ».<br />

Elle y expose en quoi les descriptions produites par les théoriciens de la syntaxe ne sont<br />

que d’un intérêt limité dès lors que l’on cherche à réaliser des grammaires à large<br />

couverture, utiles pour des systèmes <strong>opérationnel</strong>s devant traiter des productions<br />

textuelles réelles.<br />

Existing theories are of limited usefulness to broad-coverage, real-world<br />

computational grammars, perhaps largely because existing theorists focus<br />

on limited notions of “grammaticality”, rather than the goal of dealing, in<br />

some fashion, with any piece of input text. Therefore, existing theories<br />

play the game of ruling out many strings of language, rather than the game<br />

of trying to assign plausible structures to all strings.<br />

(Jensen, 1988, p. 449)<br />

Ce constat est tiré de l’expérience de réalisation d’un système de correction<br />

grammaticale et de vérification de style, le système EPISTILE (Jensen et al., 1983). Par<br />

définition, le système doit être en mesure de traiter des textes produits en milieu<br />

professionnel, comme des lettres, des rapports, des manuels. Le système opère en deux<br />

étapes fortement différentes. Au cours de la première étape, une grammaire de base<br />

(core grammar) est exploitée pour analyser la séquence en entrée. Cette grammaire de<br />

base est censée couvrir le plus largement possible les structures fondamentales du<br />

langage. Elle comporte 300 règles, écrites dans le langage NLP (Heidorn, 1972). Quand<br />

la grammaire de base conduit à plusieurs analyses pour une sous-séquence, une<br />

procédure de désambiguïsation classe les analyses par ordre de plausibilité décroissante<br />

et choisit la meilleure. Si la grammaire échoue à reconnaître l’ensemble de la séquence<br />

comme une phrase, c’est-à-dire lorsqu’elle ne réussit pas à conclure l’analyse sur un<br />

noeud phrase, une procédure d’ajustement d’analyse (fitting procedure) est alors lancée<br />

dans une seconde étape. Cette procédure cherche, à partir de l’ensemble des constituants<br />

fabriqués lors de la première étape, à produire une approximation plausible de la<br />

structure de la séquence initiale en associant certains de ces constituants. Cette procédure<br />

est simple. Elle se déroule elle-même en deux temps. Dans un premier temps, elle choisit<br />

le constituant qui sera le constituant tête de la séquence, en testant les différents<br />

constituants candidats selon cet ordre de préférence :<br />

(a) constituant verbal avec verbe conjugué et sujet ;<br />

(b) constituant verbal avec verbe conjugué ;<br />

(c) constituant non verbal (groupe nominal, groupe prépositionnel…) ;<br />

(d) constituant verbal avec verbe non conjugué ;<br />

(e) autres.<br />

Si plus d’un candidat est trouvé pour une catégorie, la procédure d’ajustement choisit<br />

celui qui couvre la plus grande partie de la séquence d’entrée, et en cas de nouvelle<br />

égalité le plus à gauche. Dans un second temps, si le constituant tête sélectionné ne<br />

couvre pas toute l’entrée, la procédure intègre successivement les constituants restants, à<br />

51


gauche et à droite du constituant tête, selon l’ordre de préférence suivant : les<br />

constituants non verbaux, les constituants verbaux avec verbe non conjugué, les<br />

constituants verbaux avec verbe conjugué.<br />

Par exemple, si la séquence en entrée est<br />

Example : Your percentage of $255.00 is $187.50.<br />

la grammaire de base échoue à produire une analyse complète de phrase. La procédure<br />

d’ajustement tente alors de fabriquer, à partir des constituants extraits lors de la première<br />

étape, la structure la plus plausible et utile possible pour cette séquence. Pour trouver un<br />

constituant tête, elle recherche des constituants verbaux avec verbe conjugué : elle<br />

trouve dans le stock des constituants fabriqués par la grammaire de base : [$255.00 is],<br />

[percentage of $255.00 is], [$255.00 is $187.50], etc. Elle choisit le plus long, soit<br />

[Your percentage of $255.00 is $187.50]. La procédure cherche ensuite s’il reste des<br />

constituants à gauche, et ajoute ainsi le signe de ponctuation [:], puis le nom [Example].<br />

Elle ajoute à droite le point final. Le résultat de l’ajustement est l’arbre ajusté (fitted<br />

parse) constitué de la juxtaposition des constituants identifiés :<br />

[FITTED [NP Example] [PUNC:] [VP Your percentage of $255.00 is 187.50] [PUNC .] ]<br />

L’intérêt de l’approche présentée ne réside pas seulement dans les procédures et<br />

techniques concrètes mises en oeuvre pour construire un arbre plausible après un échec<br />

d’analyse. L’intérêt tient aussi à l’explicitation de la notion de robustesse en terme<br />

d’utilité. L’utilisation concrète des analyses produites par le système dans les<br />

applications de correction grammaticale et de vérification de style impose d’abord que le<br />

système produise une analyse pour toute séquence en entrée, et spécifie ensuite la forme<br />

des analyses qu’il doit produire en cas d’échec de la grammaire de base. La validité des<br />

arbres ajustés ne relève pas de la théorie <strong>syntaxique</strong>, mais de l’utilité pour la suite des<br />

traitements. <strong>Un</strong> autre apport du travail de K. Jensen se situe dans l’identification des<br />

« vraies » difficultés auxquelles se heurte un <strong>analyseur</strong> <strong>syntaxique</strong> qui reçoit des phrases<br />

réelles. C’est ainsi que les « horreurs de ponctuation » (punctuation horrors) rencontrées<br />

dans les textes sont élevées au rang de difficulté supérieure pour l’analyse <strong>syntaxique</strong> :<br />

Real-world natural processing must deal with huge amounts of data, which<br />

involve many, and messy, details. For example, punctuation is very<br />

important in processing real text, but current linguistic theories have<br />

nothing substantial to say about punctuation.<br />

(Jensen, 1988, p. 449)<br />

Enfin, la contribution sans doute la plus importante concerne l’articulation dans un<br />

système <strong>opérationnel</strong> entre la prise en compte de la norme, via la grammaire de base, et<br />

la prise en compte des écarts à cette norme, et donc des échecs de la grammaire, par une<br />

procédure d’ajustement, dans une architecture incrémentale qui délimite clairement la<br />

place et la fonction des deux types d’opérations. Il s’agit d’une implémentation simple<br />

mais pertinente de coopération entre une grammaire dans laquelle on souhaite décrire les<br />

structures et contraintes de la langue, et une procédure de relâchement qui vient prendre<br />

le relais quand la grammaire échoue. La procédure d’ajustement n’est pas conçue<br />

52


comme devant compenser les faiblesses de la grammaire de base, sur son domaine, qui<br />

est la reconnaissance des structures de base. Elle est là pour « récupérer » une analyse en<br />

cas d’échec de la grammaire, c’est-à-dire quand certaines des contraintes implémentées<br />

dans la grammaire de base ne sont pas respectées.<br />

«It should be emphasized that a fitting procedure cannot be used as a<br />

substitute for explicit rules, and that it in no way lessens the importance of<br />

the core grammar. There is a tight interaction between the two<br />

components. The success of the fitted parse depends on the accuracy and<br />

completeness of the core rules; a fit is as good as its grammar.<br />

(Jensen et al., 1983, p. 151)<br />

2.3.6. L’analyse par chunks de S. Abney<br />

Les travaux de Steven Abney sont parmi les plus connus parmi ceux publiés ces 15<br />

dernières années dans le domaine de l’analyse <strong>syntaxique</strong> robuste. Leur renommée tient<br />

autant à leur intérêt propre qu’au fait qu’ils ont été publiés à un moment où, face aux<br />

difficultés rencontrées par les approches classiques pour réaliser des <strong>analyseur</strong>s<br />

<strong>syntaxique</strong>s utiles, on s’intéresse plus ouvertement à l’analyse <strong>syntaxique</strong> robuste.<br />

S. Abney développe un <strong>analyseur</strong> <strong>syntaxique</strong> (CASS, pour Cascaded Analysis of Syntactic<br />

Structure) qui est à la fois rapide et fiable. Abney ne sacrifie pas la qualité pour la<br />

vitesse. Il vise l’objectif d’une analyse <strong>syntaxique</strong> qui soit à la fois plus rapide et plus<br />

fiable que ce que réalisent les <strong>analyseur</strong>s développés dans un cadre classique, sans<br />

rabattre le niveau d’exigence en terme de qualité et de profondeur des analyses. Sa<br />

réussite repose sur deux concepts clés, le concept linguistique de chunk et le concept<br />

informatique de cascade, le second dérivant du premier.<br />

Le concept de chunk est issu des travaux de thèse d’Abney sur la structure du groupe<br />

nominal anglais (Abney, 1987). Les chunks sont définis à partir des têtes sémantiques<br />

(major heads) des principaux types de groupes <strong>syntaxique</strong>s (NP, VP, PP, AP, AdvP).<br />

Tout mot plein est une tête sauf s’il est situé entre un mot fonctionnel (déterminant,<br />

préposition…) et le mot plein que ce mot fonctionnel sélectionne. <strong>Un</strong> chunk est constitué<br />

par la séquence des mots entre le mot fonctionnel et le mot tête sélectionné. Par exemple,<br />

the bald man est un chunk nominal dont la tête est man, was sitting un chunk verbal dont<br />

la tête est sitting, on his red suitcase est un chunk prépositionnel dont la tête est suitcase.<br />

Les chunks sont non récursifs. <strong>Un</strong> chunk a une structure <strong>syntaxique</strong> qui est un<br />

sous-graphe connecté de l’arbre <strong>syntaxique</strong> de la phrase, mais ce n’est pas<br />

nécessairement un constituant <strong>syntaxique</strong> intégral. Si Abney voit dans certaines<br />

expériences psycholinguistiques une validation au plan psychologique de la notion de<br />

chunk, c’est bien dans le cadre de l’analyse <strong>syntaxique</strong> automatique que le concept de<br />

chunk acquiert toute sa pertinence. Il joue un rôle clé dans la conception de l’<strong>analyseur</strong><br />

<strong>syntaxique</strong>. D’abord, ces unités non récursives que sont les chunks sont simples à<br />

reconnaître :<br />

A simple context-free grammar is quite adequate to describe the structure<br />

of chunks. By contrast, the relationships between chunks are mediated<br />

53


more by lexical selection than by rigid templates (…). The order in which<br />

chunks occur is much more flexible than the order of words within chunks.<br />

(Abney, 1990b, p. 1)<br />

Deux niveaux d’analyse s’imposent : un niveau de base, celui des chunks, et un niveau<br />

supérieur, celui des propositions (simplex clauses), au sein desquelles s’établissent les<br />

relations entre chunks. L’architecture de l’<strong>analyseur</strong> est alors la suivante : d’abord<br />

reconnaître les chunks, puis délimiter les propositions et enfin établir des liens entre<br />

chunks à l’intérieur des propositions. C’est le principe de l’analyse en cascade.<br />

L’analyse en cascade consiste en une succession de passes, chaque passe prenant en<br />

entrée la séquence des groupes du niveau inférieur pour fabriquer les groupes du niveau<br />

courant, qui deviennent eux-mêmes les unités de traitement de la passe suivante. Il n’y a<br />

pas de récursivité, les groupes d’un niveau ne contiennent pas de groupes de même<br />

niveau ou de niveau supérieur. Dans la seconde version de CASS (Abney, 1996), l’auteur<br />

envisage jusqu’à 9 niveaux, mais ils sont au nombre de deux dans la première version<br />

(Abney, 1990a, 1990b).<br />

Ce partage des tâches, d’abord la reconnaissance des chunks, ensuite la mise en relation<br />

des chunks au sein des propositions, présente l’avantage de maîtriser de façon optimale<br />

le problème des ambiguïtés de rattachement, qui constitue l’une des difficultés<br />

essentielles de l’analyse <strong>syntaxique</strong>. En effet, selon Abney, il convient de distinguer<br />

deux types d’ambiguïtés de rattachement : l’ambiguïté de rattachement à l’intérieur des<br />

chunks et l’ambiguïté de rattachement entre les chunks. Du point de vue de la<br />

reconnaissance automatique, ces deux types d’ambiguïté sont radicalement différents. Ils<br />

doivent être traités de façon séparés, séquentiellement, et avec des méthodes différentes.<br />

Au sein d’un chunk, par exemple un chunk nominal constitué d’une séquence de noms<br />

ou d’adjectifs, l’identification des rattachements ne peut être pris en charge par<br />

l’<strong>analyseur</strong> <strong>syntaxique</strong>. Dans le chunk [cherry picker exhaust manifold], toutes les<br />

combinaisons de rattachement binaire entre ces 4 éléments sont possibles d’un point de<br />

vue <strong>syntaxique</strong> : [[[cherry picker] exhaust] manifold], [[cherry picker] [exhaust<br />

manifold]], etc. Selon Abney, l’ambiguïté n’est pas <strong>syntaxique</strong>. L’<strong>analyseur</strong> <strong>syntaxique</strong><br />

peut retourner le chunk non analysé, avec implicitement toutes les analyses internes<br />

possibles. L’ambiguïté est sémantique, et c’est à un module sémantique de finir le<br />

travail. Il n’en va pas du tout de même pour l’ambiguïté de rattachement des chunks au<br />

sein d’une proposition en revanche. Abney prend l’exemple suivant (VP : chunk verbal,<br />

NP : chunk nominal, CP : clause, PP : chunk prépositionnel) :<br />

John [VP [met] [NP the woman] [CP he married] [PP in Italy]]<br />

Toutes les combinaisons de rattachement binaire entre éléments, au sein de la séquence<br />

de 4 éléments constituée du chunk verbal pivot et les 3 groupes qui suivent, ne sont pas<br />

<strong>syntaxique</strong>ment licites. Par exemple, la relative ne peut être attachée au verbe, le chunk<br />

prépositionnel ne peut être attaché au chunk nominal. Au sein d’une proposition, il peut<br />

y avoir des contraintes <strong>syntaxique</strong>s fortes pesant sur la détermination des attachements<br />

possibles, et la syntaxe doit d’abord dire son mot, avant de passer la main à la<br />

sémantique. La notion de chunk induit donc une séparation en deux du problème du<br />

rattachement et un partage des tâches qui permet de contrôler la propagation de<br />

54


l’ambiguïté en évitant qu’elle se multiplie entre des niveaux qui sont hétérogènes quant<br />

aux principes de désambiguïsation que l’on peut leur appliquer.<br />

Aux concepts de chunk et de traitement en cascade, il faut ajouter un troisième principe,<br />

indépendant des deux premiers, essentiel dans l’approche promue par Abney, au moins<br />

dans ses premiers écrits : séparer autant que possible les règles de grammaire des<br />

heuristiques et algorithmes. Dans ses deux articles de 1990, Abney fait référence aux<br />

<strong>analyseur</strong>s PARSIFAL de Marcus (Marcus, 1980) et FIDDITCH de Hindle (Hindle, 1990)<br />

pour montrer que l’on peut s’engager avec confiance dans la voie de l’analyse<br />

déterministe pour faire des <strong>analyseur</strong>s rapides et fiables. Néanmoins, tout en souhaitant<br />

s’inscrire dans cette lignée, Abney considère que l’<strong>analyseur</strong> FIDDITCH, qui est<br />

l’<strong>analyseur</strong> adoptant les principes de Marcus possédant la plus large grammaire, montre<br />

un certain nombre de limites, qui sont dues en partie à la non distinction des<br />

informations grammaticales et heuristiques. On retrouve là le débat récurrent sur la<br />

séparation des règles et des algorithmes.<br />

Marcus-style deterministic parsing has two related drawbacks. First, the<br />

complexity of the grammar development and debugging increases too<br />

rapidly. I believe this results partly from the use of a production-rule<br />

grammar format, and partly from the fact that grammatical and heuristic<br />

information are folded together indiscriminately. Second, if the parser’s<br />

best initial guess at every choice point leads to a dead end, the parser<br />

simply fails. It is much preferable to separate heuristic information from<br />

grammatical information, and use a non-deterministic architecture. As<br />

heuristics improve, we approach deterministic parsing on non-garden path<br />

sentences.<br />

(Abney, 1990b, p. 258)<br />

C’est pourquoi dans les deux versions de l’<strong>analyseur</strong> CASS, Abney développe un<br />

ensemble de grammaires hors contexte, une par niveau, chaque règle de grammaire étant<br />

donnée sous la forme d’une expression régulière, permettant de reconnaître les chunks<br />

du niveau correspondant. Ces grammaires ne constituent pas des descriptions théoriques<br />

des structures <strong>syntaxique</strong>s valides de la langue, comme c’est classiquement le cas, mais<br />

des ensembles de patrons de reconnaissance de morceaux de structure <strong>syntaxique</strong> :<br />

The grammar is not viewed as a linguistic description but as a<br />

programming language for recognizers. The goal is to write patterns that<br />

are reliable indicators of bits of syntactic structure, even if those bits of<br />

structure are “boundaries” or “kernels” rather than traditional phrases.<br />

(Abney, 1996, p. 339)<br />

Dans la version 2 de CASS, chaque expression régulière d’un niveau est transformée en<br />

un automate à états finis, et l’union de ces automates produit le reconnaisseur du niveau<br />

considéré. C’est la stratégie du plus long chemin qui est adoptée : si le reconnaisseur<br />

atteint un état final en plusieurs points, c’est l’état qui conduit au plus large<br />

recouvrement du flux en entrée qui est choisi. En cas d’échec, le premier mot est<br />

abandonné, et on passe au suivant. Dans la première version de l’<strong>analyseur</strong>, Abney<br />

55


n’utilise pas l’arsenal des automates à états finis, mais développe un compilateur<br />

spécifique pour ses grammaires, dans lequel il implémente un certain nombre<br />

d’heuristiques qui font de son <strong>analyseur</strong> un <strong>analyseur</strong> non déterministe. Ce compilateur<br />

est une version non déterministe d’un <strong>analyseur</strong> LR (Left-to-right Rightmost derivation),<br />

exploitant une recherche best-first. Il y a deux sources de non déterminisme : (1) un mot<br />

donné peut appartenir à plus d’une catégorie ; (2) les points où les chunks s’arrêtent ne<br />

sont pas marqués explicitement dans le flux de mots entrant, ce qui conduit à des<br />

ambiguïtés impliquant des chunks de différentes longueurs. Par exemple dans la phrase<br />

« In South Australia beds of boulders were deposited by melting icebergs. », si<br />

l’<strong>analyseur</strong> applique la stratégie du plus long chemin, il va reconnaître le chunk [South<br />

Australia beds], alors que la bonne analyse découpe cette séquence en deux chunks<br />

[South Australia] et [beds], dont le second est le sujet du verbe.<br />

Pour s’approcher d’un comportement déterministe sans perdre en robustesse, le<br />

compilateur effectue une recherche best-first, qui s’appuie sur une pondération des<br />

actions possibles à chaque itération. A chaque étape de l’analyse, étant donné la<br />

configuration en cours, le mot entrant et les règles de la grammaire, un certain nombre<br />

d’actions sont possibles : chacune de ces actions reçoit de façon dynamique un poids, qui<br />

est une estimation de la probabilité que cette action conduise à la meilleure analyse. Les<br />

actions sont alors placées dans la pile des actions possibles qui, à chaque itération, est<br />

mise à jour puis triée par ordre de poids décroissants. L’action de plus fort poids est<br />

choisie. Et le cycle se répète. Les actions alternatives non choisies restent dans la pile et<br />

peuvent ultérieurement passer en tête de liste, ce qui correspond à un retour en arrière<br />

dans l’analyse. C’est l’affectation de scores aux différentes actions qui détermine les<br />

choix de l’<strong>analyseur</strong>. Pour le chunker de la première version de CASS, dont la fonction<br />

est de reconnaître les chunks, les scores sont déterminés par quatre paramètres. Pour<br />

l’attacher, dont la fonction est de reconnaître les liens entre chunks, 2 paramètres<br />

supplémentaires s’ajoutent. Les quatre premiers paramètres sont les suivants :<br />

- fréquences lexicales relatives : préférer pour un mot la catégorie qu’il a le plus<br />

souvent ;<br />

- préférences générales sur les catégories : préférer une modification N-N à une<br />

modification adjectivale... ;<br />

- préférences liées aux conflits rencontrés par l’algorithme LR : préférer une<br />

opération shift à une opération reduce ;<br />

- préférences liées aux contraintes d’accord : préférer un choix qui ne viole aucune<br />

contrainte d’accord.<br />

Les deux paramètres supplémentaires exploités par l’attacheur sont les suivants :<br />

- préférer l’attachement d’un argument (vs. modifieur) 24 , préférer l’attachement à un<br />

verbe (vs. nom ou adjectif) ;<br />

24 L’auteur ne précise pas comment cette distinction est faite.<br />

56


- préférer un attachement bas.<br />

Notons que l’attacheur, contrairement au chunker, exploite aussi des informations sur les<br />

propriétés de restriction de sélection des mots, c’est-à-dire la possibilité pour un mot<br />

d’avoir un complément direct, obligatoire ou nom, positionné nécessairement après le<br />

mot ou non, d’avoir un ou plusieurs compléments prépositionnels ou une subordonnée.<br />

Les paramètres sont valués : le logarithme de la fréquence pour le premier, le nombre de<br />

violations des préférences pour les autres. Ces paramètres sont pondérés pour avoir une<br />

valeur unique. Les paramètres de pondération sont choisis de façon arbitraire, et Abney<br />

reconnaît qu’il faudrait les choisir après expérimentation. Pour finir, Abney fait dépendre<br />

les scores de façon dynamique du rang dans l’avancée de la phrase : les scores<br />

décroissent globalement de façon monotone au fur et à mesure que l’on avance dans<br />

l’analyse, ceci pour assurer que la première solution trouvée soit la meilleure…<br />

Devant une structure à ce point compliquée, on peut comprendre qu’Abney, dans la<br />

seconde version de CASS, ait remplacé son compilateur maison, saturé d’heuristiques<br />

quelque peu ad hoc et sans doute difficiles à maintenir, par la machinerie bien huilée des<br />

transducteurs, avec comme unique stratégie celle du plus long chemin. On peut aussi<br />

supposer que cet abandon a été rendu possible, sans perte en fiabilité de l’<strong>analyseur</strong>,<br />

parce que l’abandon des heuristiques complexes a été compensé par la multiplication des<br />

niveaux de traitement. Dans son article de 1996, Abney évoque une grammaire à 9<br />

niveaux. Dans l’exemple qu’il donne en introduction de son article, il apparaît clairement<br />

que la tâche d’identification des chunks, qui était réalisée en une seule passe par le<br />

chunkeur dans la première version, est ici distribuée sur plusieurs niveaux. On peut donc<br />

supposer que les heuristiques qui étaient nécessaires pour obtenir en une seule passe les<br />

meilleures analyses perdent de leur utilité quand on exploite à fond le principe de la<br />

cascade et que l’on multiplie les étages de l’analyse. La difficulté se reporte alors<br />

certainement sur le choix des niveaux et de l’ordre d’enchaînement des traitements.<br />

En résumé, les concepts clés de la philosophie d’Abney sont les suivants (Abney, 1996,<br />

p. 339) :<br />

- Commencer par le plus facile (easy-first parsing). Travailler par passes successives,<br />

traitant des problèmes de plus en plus difficiles, en ne prenant que des décisions<br />

sûres pour produire à chaque étape des résultats fiables.<br />

- S’appuyer sur des îlots de confiance (islands of certainty). Procéder en fabriquant<br />

des îlots de certitudes que l’on fait croître petit à petit pour obtenir des groupes de<br />

plus en plus larges, toujours en prenant les décisions les plus sûres, même si cela ne<br />

conduit pas à reconnaître la structure <strong>syntaxique</strong> de façon strictement ascendante.<br />

- Contenir l’ambiguïté (containment of ambiguity). Ne pas hésiter à reconnaître une<br />

relation à longue distance, toujours si la décision est sûre, avant d’avoir reconnu le<br />

détail de l’agencement <strong>syntaxique</strong> entre les deux unités reliées. L’identification des<br />

relations à grand empan permet de délimiter des zones de rattachement pour les<br />

unités enfermées, contribuant ainsi à contenir l’ambiguïté.<br />

57


Il reste un point qui n’est pas évoqué dans l’article de 1996 alors qu’il est<br />

particulièrement mis en exergue dans le premier article de 1990, c’est celui de la<br />

réparation d’erreurs (repair) Abney (1990a). Il s’agit de réparer les erreurs faites lors<br />

d’étapes antérieures dès qu’elles sont détectées, en modifiant la structure erronée, sans<br />

prendre en considération l’histoire du calcul qui a conduit à l’erreur. L’exemple donné<br />

concerne le problème de groupes nominaux « à rallonge » (« run-on NP »). Par exemple,<br />

dans l’exemple déjà donné plus haut, « In South Australia beds of boulders were<br />

deposited by melting icebergs », le chunkeur, en appliquant la stratégie du chemin le<br />

plus long, reconnaît le chunk [South Australia beds]. C’est l’attacheur qui, au moment<br />

où il cherche un sujet pour le chunk verbal [were deposited], peut détecter une erreur et,<br />

si l’analyse alternative en deux chunks [South Australia] et [beds] a été conservée, peut<br />

restituer l’analyse correcte. Il n’est pas clair que de telles réparations soient encore<br />

possibles dans une approche qui enchaîne strictement de simples transducteurs.<br />

2.3.7. L’<strong>analyseur</strong> 98 de J. Vergne<br />

Jacques Vergne est certainement le chercheur le plus actif en France pour critiquer<br />

l’approche classique en analyse <strong>syntaxique</strong> automatique. Sa première place lors de<br />

l’action Grace d’évaluation des étiqueteurs morpho<strong>syntaxique</strong>s du français (Adda et al.,<br />

1998, 1999) donne un poids certain à son entreprise courageuse de critique du courant<br />

dominant (Vergne, 1995, 1999 ; Vergne et Giguet, 1998). S’affichant autodidacte en<br />

linguistique et en informatique (Vergne, 1999, p. 41), J. Vergne dit ne pas avoir été<br />

influencé par le paradigme classique qui voit dans l’analyse <strong>syntaxique</strong> automatique des<br />

langues naturelles une tâche analogue à la compilation des langages informatiques. Selon<br />

lui, si les grammaires formelles constituent un outillage adéquat pour modéliser la<br />

syntaxe des langages de programmation, elles ne sont pas du tout adaptées à la<br />

description des langues naturelles, dont la syntaxe a très peu de caractéristiques<br />

communes avec celle des langages formels. Ses arguments sont les suivants :<br />

La redondance des formes est une caractéristique des langues, comme de<br />

tout code utilisé par des êtres vivants (…) ; comme un langage formel<br />

n’est pas redondant, une grammaire formelle n’est pas appropriée à tirer<br />

parti de cette redondance, qui constitue pourtant un des fondements du<br />

TAL.<br />

La récursivité des segments (et donc des règles) est une hypothèse sur les<br />

structures profondes de la compétence du locuteur natif, mais elle n’est pas<br />

indispensable pour modéliser la syntaxe des langues, car il n’y a jamais<br />

une infinité de compléments, ni des insertions multiples illimitées, alors<br />

qu’elle est indispensable pour la syntaxe d’un langage de programmation,<br />

car il n’y a pas de limite a priori à l’enchâssement des instructions.<br />

La polycatégorie (est) inexistante dans les langages formels, (…) le fait<br />

qu’une même graphie recouvre plusieurs rôles <strong>syntaxique</strong>s et plusieurs<br />

sens est une conséquence de la correspondance forme-sens non biunivoque<br />

dans les langues.<br />

58


(Vergne, 1999, p. 28)<br />

Selon J. Vergne, l’hypothèse implicite du courant formel, à savoir que tout l’objet<br />

analysé est connu (tous les mots, toutes leurs catégories, toutes les structures), est<br />

erronée : « ces attendus sont irréalistes et imposent des rattrapages par des procédures ad<br />

hoc (qui exploitent enfin contexte et redondance ») » (Vergne, 1999, p. 29). Ceci<br />

explique les échecs des systèmes d’analyse <strong>syntaxique</strong> basés sur cette hypothèse : temps<br />

d’analyse exorbitants, dus à la complexité des algorithmes, absence d’analyse ou<br />

multiplicité des analyses pour une phrase.<br />

L’<strong>analyseur</strong> de J. Vergne est structuré en deux phases : le « tagging » (étiquetage<br />

morphologique) et la mise en relation (pose de relations de dépendance). Le tagger<br />

exploite des ressources lexicales minimales et des règles de déduction contextuelle. A la<br />

sortie du tagger, presque tous les mots sont affectés d’une et une seule étiquette.<br />

Certaines ambiguïtés résiduelles sont levées au moment de la mise en relation. Le<br />

tagging n’est pas conçu comme une désambiguïsation, c’est-à-dire un choix parmi un<br />

ensemble d’étiquettes possibles extraites d’une ressource lexicale supposée exhaustive,<br />

mais comme un calcul par des règles de déduction contextuelle à partir des étiquettes<br />

issues de la ressource lexicale, considérées comme de simples amorces. Le calcul sur le<br />

contexte prime sur la consultation du dictionnaire « Le contexte ne filtre pas le lexical<br />

supposé exhaustif, mais comble les lacunes du lexical supposé partiel » (op. cit., p. 33).<br />

Par exemple, dans « je positive », le tagger affecte l’étiquette de verbe au mot positive,<br />

bien que cette forme n’apparaisse qu’avec la catégorie d’adjectif dans la ressource<br />

lexicale. De plus, dans le lexique, chaque forme a une catégorie par défaut, qui est<br />

affectée systématiquement aux occurrences de la forme dans les phrases. Ce sont les<br />

règles de déduction contextuelles qui viennent le cas échéant changer cette étiquette. Le<br />

tagger affecte des catégories grammaticales aux mots de la phrase et construit des<br />

« syntagmes non récursifs » (SNR), analogues aux chunks d’Abney. Par exemple, de la<br />

phrase « L’usine d’Eloyes dans les Vosges représente un investissement de 3,7 milliards<br />

de yens. », le tagger extrait et étiquette les SNR de la façon suivante :<br />

{l’usine} SNR nominal<br />

{d’Eloyes} SNR prépositionnel<br />

{dans les Vosges} SNR prépositionnel<br />

{représente} SNR verbal<br />

{un investissement} SNR nominal<br />

{de 3,7 milliards} SNR prépositionnel<br />

{de yens} SNR prépositionnel<br />

La très grande majorité des tokens est désambiguïsée par les règles de déduction<br />

contextuelles, mais il subsiste des mots qui résistent à la désambiguïsation contextuelle<br />

locale, et dont le sort ne peut être réglé que lors de la phase de mise en relation. Par<br />

exemple, dans la phrase « La présence de Florence Arthaud au milieu d’un plateau de<br />

spécialistes montre que cette transat a été la course la plus disputée de ces dix dernières<br />

59


années », c’est lors de l’étape de mise en relation des SNR, au moment d’établir le lien<br />

sujet entre présence et montre que ce dernier mot sera étiqueté verbe. Le cas des formes<br />

du, de la, des, de l’, de, ainsi que des formes que, qu’ est analogue.<br />

Le processus de mise en relation effectué lors de la seconde phase d’analyse consiste à<br />

placer des relations de dépendance <strong>syntaxique</strong> entre les SNR identifiés lors de la phase<br />

de tagging. L’algorithme d’analyse est contraint de la façon suivante : la phrase est<br />

analysée en une seule passe, de gauche à droite. Au cours de ce processus, le système<br />

gère un certain nombre de mémoires. Il stocke les SNR, au fur et mesure de leur<br />

traitement, dans des mémoires correspondant aux relations dans lesquelles elles peuvent<br />

être prises, étant donné leur catégorie et leur place dans la phrase. Il y a deux types de<br />

règles, celles qui placent le SNR courant dans une mémoire et celles qui mettent en<br />

relation le SNR courant avec le SNR d’une mémoire. Ces mémoires s’effacent à certains<br />

moments de l’analyse, dès qu’une relation est posée. Si on reprend l’exemple « L’usine<br />

d’Eloyes dans les Vosges représente un investissement de 3,7 milliards de yens », le<br />

processus d’analyse de la phrase ci-dessus. Au moment où le système est positionné sur<br />

le premier SNR nominal {l’usine}, il le range dans la mémoire des sujets, ce qui signifie<br />

que ce SNR est en attente d’un verbe dont il pourrait être le sujet. Il le range aussi dans<br />

la mémoire des noms en attente de complément. Quand le système est positionné sur le<br />

deuxième SNR nominal {d’Eloyes}, une première règle le range dans la mémoire des<br />

noms en attente de complément, puis une seconde règle le met en relation avec le<br />

premier SNR {l’usine}, qui était en tête de la file d’attente dans cette même mémoire.<br />

Quand le système est positionné sur le SNR nominal {dans les Vosges}, il le place dans<br />

la mémoire des SNR en attente de complément, puis le met en relation avec le SNR<br />

{d’Eloyes}. Le système ne semble pas traiter les ambiguïtés de rattachement, puisque ce<br />

troisième SNR nominal pourrait tout aussi bien être mis en relation avec le premier SNR<br />

{l’usine}. Lorsque le système est positionné sur le SNR verbal {représente}, il place une<br />

relation sujet entre ce SNR et le SNR {l’usine} en attente dans la mémoire sujet. Puis il<br />

efface de la mémoire des noms en attente de compléments les SNR {d’Eloyes} et {dans<br />

les Vosges}.<br />

Le choix d’une analyse en une seule passe, gauche droite, détonne un peu dans l’univers<br />

de l’analyse <strong>syntaxique</strong> robuste, où l’on ne se prive pas en général de multiplier les<br />

passes et de diversifier les sens d’analyse de la phrase. Chez J. Vergne, ce choix répond<br />

au souci affiché d’une certaine plausibilité cognitive du processus d’analyse. D’un point<br />

de vue « théorique », J. Vergne voit dans le processus de réception d’une phrase par un<br />

humain une phase de traitement <strong>syntaxique</strong> qui consiste à passer de l’ordre linéaire de la<br />

phrase à sa représentation dépendancielle (Vergne, 1999, section 2.3.2). Cette contrainte<br />

d’une analyse gauche-droite en une seule passe est forte. Elle complique la tâche en<br />

imposant de gérer au fil de l’eau 13 mémoires (mémoire des sujets en attente d’un SNR<br />

verbe, mémoire des SNR verbes transitifs en attentes d’un SNR objet, mémoire des que<br />

pronoms relatifs en attente d’un SNR verbal transitif, etc.).<br />

Sur le fond, la caractéristique essentielle du système d’analyse <strong>syntaxique</strong> développé par<br />

J. Vergne est de relever d’une approche procédurale : il ne s’agit pas d’expliciter dans<br />

une grammaire formelle les structures <strong>syntaxique</strong>s possibles et acceptables, mais<br />

60


d’implémenter via une architecture informatique et des algorithmes les processus<br />

d’identification des relations de dépendance <strong>syntaxique</strong> entre SNR dans une phrase.<br />

2.3.8. L’analyse <strong>syntaxique</strong> robuste selon J. P. Chanod<br />

Dans les années 1980, Jean-Pierre Chanod, alors chercheur au Centre Scientifique<br />

d’IBM France, reprend le flambeau brandi par K. Jensen (section 2.3.5) et poursuit la<br />

réflexion sur la robustesse en analyse <strong>syntaxique</strong>. <strong>Un</strong> bilan de cette réflexion apparaît<br />

dans un article, publié en 2000, intitulé « Robust parsing and beyond » (Chanod, 2000).<br />

Selon J.-P. Chanod, l’effet le plus spectaculaire du besoin d’approches robustes en TAL<br />

a été l’arrivée en force des méthodes statistiques dans toutes les régions du TAL. Mais la<br />

robustesse n’est pas une question d’opposition entre des méthodes à base de règles d’un<br />

côté et des méthodes statistiques de l’autre :<br />

Still robustness is not about statistical vs. rule-based methods. It is not<br />

about virtual core languages, be they defined by principles or by frequency<br />

counts. It is not even about the quantity of unrestricted text that can be<br />

parsed by a given system. Robustness is about exploring all constructions<br />

humans actually produce, be they grammatical, conformant to formal<br />

models, frequent or not. Linguistic phenomena, regardless of their oddity<br />

or frequency, account for meaning of whatever segment of text they<br />

appear in. (…) In this view, robustness is a matter of breadth and depth of<br />

analysis. Altogether.»<br />

(Chanod, 2000, pp. 132–133)<br />

J.-P. Chanod multiplie les exemples dans lesquels des principes linguistiques<br />

généralement reconnus comme essentiels, en particulier concernant les phénomènes<br />

d’accord, sont mis à mal par la réalité des productions langagières attestées dans des<br />

textes réels. Voici quelques-uns de ces exemples, qui parlent d’eux-mêmes :<br />

Mon adorable chatte<br />

Mon chèvre<br />

<strong>Un</strong> cinq tonnes<br />

Des tee shirts avec Coca-Cola écrit dessus<br />

J’ai perdu mon Madame Bovary<br />

Le France s’appelle aujourd’hui le Norway<br />

Les premier et dernier chapitres<br />

La salle était pleine d’étudiants. <strong>Un</strong>e bonne moitié sont partis avant la fin.<br />

On est contentes.<br />

Ces exemples sont typiques de cas où les contraintes d’accord ne sont pas respectées. Or,<br />

c’est le principe de l’unification de traits lexicaux qui est à l’origine du paradigme très<br />

productif des grammaires d’unification, théories dans lesquelles l’unification constitue le<br />

61


moyen élégant de traiter les phénomènes d’accord et de sous-catégorisation.<br />

L’abondance dans les textes réels de contextes dans lesquels les principes de base de la<br />

grammaticalité sont violés condamne à l’échec toute entreprise de réalisation d’un<br />

<strong>analyseur</strong> qui s’appuierait de façon stricte sur de tels principes. <strong>Un</strong> tel constat ne remet<br />

pas en cause les principes eux-mêmes, mais doit conduire à une réflexion sur<br />

l’articulation entre principes grammaticaux et règles de reconnaissance au sein d’un<br />

<strong>analyseur</strong>. <strong>Un</strong> <strong>analyseur</strong> <strong>syntaxique</strong> robuste doit être capable de reconnaître les cas où les<br />

principes s’appliquent, mais il doit aussi reconnaître les cas déviants et proposer une<br />

analyse. Dans cet esprit, on ne peut assigner à l’<strong>analyseur</strong> la fonction de distinguer les<br />

phrases grammaticales des phrases agrammaticales. <strong>Un</strong>e telle spécification n’aurait de<br />

sens que dans un cadre de recherche, par exemple sur l’apprentissage des langues, où<br />

l’on s’intéresserait précisément à la capacité humaine de produire des jugements de<br />

grammaticalité. La fonction d’un <strong>analyseur</strong> <strong>syntaxique</strong> robuste est de reconnaître, parfois<br />

« à tâtons », la structure grammaticale d’une séquence en entrée. Il exploite les principes<br />

grammaticaux généraux, non pour accepter les phrases grammaticales et rejeter les<br />

phrases agrammaticales, mais comme contraintes de base qu’il privilégie pour trouver<br />

rapidement une analyse plausible. L’<strong>analyseur</strong> doit disposer de solutions de repli pour<br />

les cas où il reconnaît que l’application de ces principes l’empêche de parvenir à une<br />

solution acceptable. C’est le principe du relâchement, fondamental en analyse <strong>syntaxique</strong><br />

robuste. Par exemple, pour analyser le groupe « mon adorable chatte », on peut<br />

introduire une règle qui, dans certains contextes, identifiera la relation entre un<br />

déterminant et un nom quels que soient leurs genres respectifs. Cette règle n’est pas<br />

pénalisante, même si potentiellement elle permet l’analyse de groupes non<br />

grammaticaux comme « mon chatte ». Le fait qu’un <strong>analyseur</strong> puisse produire une<br />

analyse pour des groupes agrammaticaux n’a pas le même caractère fondamentalement<br />

disqualifiant que dans l’approche classique, où les grammaires formelles doivent être<br />

utilisées tant en analyse qu’en génération. Les <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes sont des<br />

outils <strong>opérationnel</strong>s de reconnaissance de structures <strong>syntaxique</strong>s. Le principe de la<br />

réversibilité ne tient pas.<br />

Le principe de base que J.-P. Chanod met en avant pour caractériser d’un point de vue<br />

<strong>opérationnel</strong> les <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes est celui d’incrémentalité. Il a travaillé<br />

sur ce principe depuis son arrivée au Centre de Recherche de Xerox à Meylan, en<br />

particulier dans le cadre de ses travaux menés avec Salah Aït-Mokhtar sur l’<strong>analyseur</strong><br />

IFSP (pour Incremental Finite-State Parser) (Aït-Mokhtar et Chanod, 1997a, 1997b).<br />

Dans un article publié en 2002 dans la revue Natural Language Engineering, écrit avec<br />

Salah Aït-Mokhtar et Claude Roux, Jean-Pierre Chanod décrit avec précision en quoi le<br />

principe de l’incrémentalité est un concept clé pour envisager la conception de systèmes<br />

d’analyse <strong>syntaxique</strong> qui soient à la fois robustes, profonds, à large couverture et fiables.<br />

Deux propriétés essentielles distinguent l’approche incrémentale des approches<br />

classiques en analyse <strong>syntaxique</strong> automatique : l’autonomie des règles (self-containment)<br />

et la décomposition descriptive (descriptive decomposition).<br />

L’autonomie des règles. Chaque règle incrémentale est auto-suffisante, toute application<br />

de règle est définitive. Les conditions contextuelles dans lesquelles la règle s’applique<br />

sont stipulées dans la règle elle-même. Ces conditions sont évaluées sur les<br />

62


connaissances disponibles au moment où le système teste cette règle, en particulier sur<br />

les structures partielles déjà construites à ce stade de l’analyse incrémentale. Si les<br />

conditions ne sont pas vérifiées, la règle ne s’applique pas, et la structure en cours de<br />

construction est passée telle quelle à l’étape suivante du calcul. Si les conditions sont<br />

vérifiées, la règle s’applique et la structure en cours de construction est enrichie. Le<br />

système ne revient pas sur l’application de cette règle plus tard dans le processus<br />

incrémental. Il se peut que la relation de dépendance posée par cette règle soit<br />

ultérieurement détruite, si une règle testée à un stade plus avancé détecte une erreur.<br />

Mais en aucun cas, le système ne rembobine l’analyse jusqu’au moment où la première<br />

règle s’est appliquée. Cette règle n’est pas fautive, elle a simplement pris la meilleure<br />

décision possible étant donné les connaissances disponibles au moment où elle a été<br />

testée et appliquée. La situation est différente dans les systèmes classiques, où le<br />

contrôle que permet l’incrémentalité est absent. Ces règles produisent des hypothèses<br />

locales qui doivent se combiner de façon cohérente pour conduire à une analyse globale<br />

de la phrase. Le postulat implicite est que les propriétés sous-jacentes du langage,<br />

qu’elles soient spécifiées ou non dans la grammaire, vont en quelque sorte guider le<br />

processus d’analyse vers l’identification spontanée d’interprétations correctes de la<br />

phrase. Ce mode opératoire non contrôlé conduit à des effets de bord indésirables bien<br />

connus : explosion combinatoire, ambiguïtés factices, échecs d’analyse.<br />

La décomposition descriptive. Pour assurer une couverture la plus large possible, le<br />

système doit être capable de traiter la très grande variété des constructions linguistiques<br />

que l’on peut trouver dans des textes réels. Ceci exige une granularité fine dans la<br />

description linguistique, et impose d’être capable de contrôler des centaines de<br />

configurations différentes de façon opératoire. L’incrémentalité permet de décomposer la<br />

description linguistique d’un phénomène linguistique donné en un grand nombre de<br />

descriptions partielles autonomes. Plus précisément, dans un <strong>analyseur</strong> incrémental, on<br />

décompose la tâche de découverte des configurations répondant à ce phénomène. Par<br />

exemple, pour reconnaître les configurations à contrôle de l’infinitif, on aura d’abord<br />

reconnu la relation de complément entre un verbe et un verbe à l’infinitif, puis lors d’une<br />

étape ultérieure, on aura reconnu une relation de complément entre ce même verbe et un<br />

chunk prépositionnel, et enfin encore plus tard dans le processus, une règle spécifique<br />

reconnaîtra la structure de contrôle globale de façon simple, sans avoir à reconnaître les<br />

différents éléments du puzzle dont chacun a pu être difficile à reconstituer, et qui ont été<br />

pris en charge par des modules spécifiques dans l’enchaînement incrémental.<br />

Les chercheurs de Centre de Recherche de Xerox ont mis au point un système générique<br />

pour construire des <strong>analyseur</strong>s <strong>syntaxique</strong>s robustes basés sur le concept<br />

d’incrémentalité, c’est-à-dire des systèmes basés sur l’enchaînement en cascade de<br />

couches de règles, écrites par un « grammairien » 25 : le système XIP. Ce système permet<br />

de réaliser des <strong>analyseur</strong>s prenant en entrée des textes bruts ou des sorties d’autres<br />

<strong>analyseur</strong>s, de type tokéniseur, étiqueteur morpho<strong>syntaxique</strong> ou chunker. Le formalisme<br />

des règles a été conçu pour permettre l’incrémentalité et la profondeur des analyses. Le<br />

25 Le joli terme de grammarian est utilisé par (Aït-Mokhtar et al., 2002, p. 131)<br />

63


système repose sur une représentation unifiée : une séquence d’arbres en constituants.<br />

Les nœuds des arbres sont étiquetés par des catégories morpho<strong>syntaxique</strong>s ou des noms<br />

de constituants, et sont associés à des ensembles de traits attribut/valeur. Les règles<br />

s’appuient sur une représentation bipartite mais cohérente de l’entrée : des arbres en<br />

constituants et des relations de dépendance. <strong>Un</strong>e règle de dépendance a la syntaxe<br />

suivante :<br />

1- un schéma d’appariement d’arbre qui spécifie les propriétés structurales d’une<br />

portion de la séquence d’arbres en constituants en entrée.<br />

2- une expression booléenne qui spécifie des conditions sur les relations de dépendance<br />

et sur la disposition linéaire des tokens ou chunks.<br />

3- un terme de dépendance qui indique quelle est la relation de dépendance à ajouter<br />

quand les conditions sont vérifiées. Les arguments de la relation de dépendance sont<br />

des variables qui sont exprimées dans la description du schéma d’appariement et<br />

dans les conditions.<br />

Avec un tel formalisme, il est possible de décrire des règles très riches avec un degré de<br />

finesse très précis. Voici, sous une forme non formalisée, quelques règles que les auteurs<br />

donnent dans leur article de 2002.<br />

Pour identifier les relations de complément d’objet direct, par exemple dans la phrase<br />

John enjoys wine.<br />

1- Schéma d’appariement d’arbre : la tête d’un chunk verbal a le trait ‘+transitif’ ; ce<br />

chunk verbal est dans une proposition ; dans cette proposition, il est suivi d’un<br />

chunk nominal qui n’a pas le trait ‘+temporel’.<br />

2- Conditions : (pas de conditions).<br />

3- Terme de dépendance : placer une relation de complément d’objet direct entre la tête<br />

du chunk verbal et la tête du chunk nominal.<br />

Pour identifier le partage de fonction dans des structures coordonnées, par exemple dans<br />

la phrase John peels and then eats an apple.<br />

1- Schéma d’appariement d’arbre : pas de schéma.<br />

2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) et un nom<br />

(#2) (entre eats et apple) ; il y a une relation de coordination entre ce verbe (#1) et<br />

un autre verbe (#3) qui le précède (entre peels et eats) ; cet autre verbe (#3) n’a pas<br />

de complément d’objet.<br />

3- Terme de dépendance : placer une relation de complément d’objet entre le premier<br />

verbe (#3) et le nom (#2) (entre peels et apple).<br />

Pour identifier les structures de contrôle de l’infinitif, par exemple dans la phrase Mary<br />

orders Fred to close the window.<br />

1- Schéma d’appariement d’arbre : pas de schéma<br />

64


2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) qui a le<br />

trait ‘+contrôle infinitif sujet’ et un verbe à l’infinitif (#2) (entre orders et close) ; il<br />

y a une relation de complément d’objet entre ce verbe (#1) et un chunk nominal (#3)<br />

(entre orders et Fred).<br />

3- Terme de dépendance : placer une relation de sujet entre le verbe infinitif (#2) et la<br />

tête du chunk nominal (#3) (entre close et Fred).<br />

Les exemples donnés ci-dessus donnent une idée du type de règles que le grammairien<br />

doit écrire pour construire le système. Ces règles sont établies en fonction d’un savoir<br />

grammatical que possède le grammairien sur les structures qu’il souhaite voir reconnues<br />

par le système. Ce savoir grammatical ne se manifeste pas uniquement dans ces règles. Il<br />

est aussi dans l’architecture globale du traitement. Au grammairien de choisir quels<br />

ensembles de règles vont s’appliquer à chaque couche. Dans une approche par règles,<br />

c’est-à-dire où les règles d’analyse sont écrites indépendamment de l’algorithme, il est<br />

important que cet algorithme soit connu du grammairien. Dans le cas de XIP, même si<br />

cela n’est pas stipulé dans l’article, on peut supposer que les règles s’appliquent dans<br />

l’ordre dans lequel elles sont données dans la grammaire, et que chaque règle est testée<br />

en parcourant la séquence en entrée de gauche à droite. L’ordre d’enchaînement des<br />

couches de traitement et celui des règles au sein d’une couche sont fondamentaux, mais<br />

c’est au grammairien de les optimiser en conciliant la connaissance grammaticale et les<br />

contraintes d’implémentation.<br />

Since the application of a rule of a given stage depends on the background<br />

information produced by the previous stages, the correct choice of<br />

increments is important and is made on the basis of the identification of<br />

various linguistic phenomena and the (possibly multiple) configurations of<br />

each phenomenon. The incremental order is determined in such a way that<br />

basic and simple phenomena are always described before more complex<br />

ones. For a given phenomenon, general and default configurations are<br />

modelled before more specific cases and exceptions.<br />

(Aït-Mokhtar et al., 2002, p. 136)<br />

2.3.9. Bilan : une lignée<br />

A l’issue de cette description de différents <strong>analyseur</strong>s développés ces 50 dernières<br />

années, on pourrait s’interroger sur l’éventuelle existence et unité d’un courant de<br />

recherche en analyse <strong>syntaxique</strong> robuste. En fait, la revue des travaux effectuée dans<br />

cette section ne répond pas aux normes du classique «état de l’art » que l’on retrouve<br />

dans les disciplines scientifiques, dans lequel on expose comment les résultats obtenus<br />

contribuent à l’avancée des connaissances dans un domaine scientifique. Les travaux de<br />

présentés ici sont le plus souvent menés par des individus ou des groupes restreints,<br />

relativement isolés, selon une démarche ingénierique. Celle-ci laisse un large espace de<br />

liberté dans les choix de conception et fait la part belle aux innovations personnelles. On<br />

est moins que dans l’accumulation des connaissances que dans la réitération d’efforts<br />

visant à la résolution du même problème, celui de l’analyse <strong>syntaxique</strong> automatique,<br />

65


dans des contextes différents (différences de langues, de contraintes technologiques, de<br />

principes de base, d’applications cibles). On peut malgré tout tenter de dégager des<br />

récurrences et des points de convergence dans les choix des concepteurs, qui, une fois<br />

rassemblés, tracent les contours de ce que Gilbert Simondon, dans sa philosophie des<br />

techniques, appelle une lignée (Simondon, 1971) (cf. Chap. 3, section 3.3.2).<br />

- Application. Presque tous les travaux visent une application spécifique : la<br />

traduction automatique pour Garvin, le résumé d’articles scientifiques pour le projet<br />

TDAP, la recherche documentaire pour Debili, la correction grammaticale et la<br />

vérification de style pour le projet PLNLP.<br />

- Cascade. La majorité des travaux affichent une architecture en cascade, qui organise<br />

les traitements en plusieurs passes, sans contrainte sur le sens de parcours de la<br />

phrase (gauche-droite, droite-gauche). L’ordonnancement des traitements répond à<br />

des principes, plus ou moins explicités, de bons sens : traiter d’abord les relations à<br />

plus courte distance et les plus sûres, compléter de façon incrémentale les<br />

analyses… <strong>Un</strong>e exception notable est constituée par le choix de J. Vergne qui fait du<br />

traitement gauche-droite en seule passe un principe de base dans sa conception de<br />

l’analyse <strong>syntaxique</strong>.<br />

- Procéduralité. Aucun des chercheurs ne présente la déclarativité et la séparation<br />

nette des règles et des algorithmes comme des principes fondamentaux. Leurs<br />

systèmes sont plutôt de style procédural. C’est particulièrement le cas pour<br />

P. Garvin, qui juge non tenable le principe de la séparation dès que les systèmes se<br />

complexifient. La grammaire de base du projet PLNLP, qui comporte 300 règles, est<br />

complétée par une procédure d’ajustement. Dans le cas de l’<strong>analyseur</strong> XIP, le choix<br />

d’un formalisme de haut niveau pour l’écriture de règles répond non pas à des<br />

considérations d’ordre théoriques, mais au souci d’impliquer des grammairiens non<br />

spécialistes de programmation dans le développement d’<strong>analyseur</strong>s.<br />

- Absence de théorie. Aucun chercheur ne se réclame, de façon forte, d’une théorie<br />

linguistique. Même dans la présentation rétrospective, par Joshi et Hopely, de<br />

l’<strong>analyseur</strong> développé dans l’équipe dirigée par le linguiste Z. S. Harris, la référence<br />

à la théorie est absente. Néanmoins, S. Abney affirme une pertinence<br />

psycho-linguistique à ses chunks, et J. Vergne recourt à une contrainte de<br />

plausibilité cognitive pour justifier son choix d’un traitement gauche-droite en une<br />

passe.<br />

66


Chapitre 3<br />

Description de l’<strong>analyseur</strong> <strong>SYNTEX</strong><br />

3.1. Principes de base<br />

3.1.1. Analyseur <strong>syntaxique</strong> <strong>opérationnel</strong><br />

L’<strong>analyseur</strong> <strong>SYNTEX</strong> a été développé à l’origine (Bourigault et Fabre, 2000) pour<br />

prendre la suite du logiciel LEXTER (Bourigault, 1994), un <strong>analyseur</strong> <strong>syntaxique</strong> robuste<br />

dédié au repérage des syntagmes nominaux terminologiques dans les corpus spécialisés<br />

et utilisé dans des applications de construction de terminologies ou d’ontologies<br />

spécialisées. Les diverses expérimentations réalisées avec LEXTER avaient mis en<br />

évidence la nécessité d’étendre la couverture du logiciel à l’extraction des syntagmes<br />

verbaux (chap. 1). L’objectif du projet <strong>SYNTEX</strong> était la construction d’un <strong>analyseur</strong><br />

<strong>syntaxique</strong> <strong>opérationnel</strong>, précis et efficace, qui produise des analyses aussi correctes et<br />

complètes que possible, sur des textes de genres variés, avec des temps de traitement<br />

raisonnables pour être compatibles avec la nécessité d’absorber des volumes de plus en<br />

plus importants ; un <strong>analyseur</strong> qui soit utilisable dans une large gamme d’applications,<br />

que ce soit du côté de la recherche académique, en linguistique, sciences humaines,<br />

intelligence artificielle, ou de celui des applications industrielles, pour la construction<br />

d’ontologies, le traitement de l’information, la recherche d’information, etc. J’ai choisi<br />

de qualifier d’<strong>opérationnel</strong>, un tel <strong>analyseur</strong>, en référence à l’expression « operational<br />

syntax » utilisé par J. Bar-Hillel son article de 1951, qui constitue le premier état de l’art<br />

sur le domaine de la Traduction Automatique (Bar-Hillel, 1951) :<br />

A considerable body of descriptive data about the language of the world<br />

has been amassed in recent years, but so far no operational syntax of any<br />

natural language exists with a sizeable degree of completeness, and the<br />

necessity of providing such a syntax has apparently not been recognized<br />

by linguists. To give an analogy: Just as even the most extensive<br />

knowledge of all imaginable properties of all chemical substances will not<br />

materially assist a student of chemistry in developing a method of<br />

analyzing a given mixture of unknown chemical substances, so even the<br />

67


most elaborate description of the properties of all morphological units of a<br />

given language will not enable a student of linguistics to find, in a<br />

reasonable time, a method of analyzing a given sentence-specimen of this<br />

language. Chemists have had to write, in addition to their general<br />

textbooks, special books instructing the student on how to proceed in a<br />

fixed sequential order (order which sometimes depends on the outcome of<br />

the preceding step) in his attempted analysis of a given mixture. Likewise<br />

special books will have to be written containing sequential instructions for<br />

linguistic analysis, i.e. an operational syntax.<br />

(Bar-Hillel, 1951, p. 232)<br />

Ma conviction au départ de ce projet, forgée lors de l’expérience LEXTER, était qu’il était<br />

possible d’avancer vers cet objectif en restant hors du paradigme formel, d’une part, et<br />

sans attendre que soient disponibles des ressources lexicales à très large couverture pour<br />

le français, d’autre part. Sur le plan de la description linguistique, je me suis appuyé sur<br />

une bonne connaissance de la grammaire traditionnelle et des travaux de syntaxe<br />

descriptive, et j’ai adopté une démarche de développement empirique basée sur des tests<br />

systématiques sur corpus. Sur le plan des ressources, j’ai choisi d’abord de profiter de la<br />

disponibilité d’étiqueteurs morpho<strong>syntaxique</strong>s très performants, et j’ai opté pour une<br />

stratégie minimaliste et opportuniste : reprendre et développer l’apprentissage endogène,<br />

et construire les ressources nécessaires au fur et à mesure que les besoins apparaissent,<br />

autant que possible de façon automatique à partir de grands corpus.<br />

3.1.2. <strong>Un</strong> problème de reconnaissance de formes<br />

Dans le paradigme formel, le problème de l’analyse <strong>syntaxique</strong> automatique se formule<br />

selon le thème de la compilation. La fonction de l’<strong>analyseur</strong> est de décider si la séquence<br />

en entrée est bien formée du point de vue de la grammaire de l’<strong>analyseur</strong>, et d’en donner<br />

une description conforme à cette grammaire. L’analyse est dirigée par la connaissance<br />

des structures <strong>syntaxique</strong>s licites de la langue, formulée de façon générative. A l’instar<br />

de bon nombre de chercheurs dont j’ai décrit les travaux dans le chapitre précédent, je<br />

n’adopte pas ce point de vue. Je formule le problème de l’analyse <strong>syntaxique</strong> comme un<br />

problème de reconnaissance de formes. La séquence en entrée est supposée avoir une<br />

forme, <strong>syntaxique</strong>, et c’est cette forme que l’<strong>analyseur</strong> doit approcher au mieux.<br />

L’<strong>analyseur</strong> n’a pas pour fonction de déterminer si une phrase est grammaticalement<br />

correcte ou non, il doit fournir une description de la forme <strong>syntaxique</strong> pour toute<br />

séquence du corpus qui lui est donnée. Quelques exemples de séquences extraites de sont<br />

donnés en 1-4 26 .<br />

26 Dans ce chapitre, les exemples attestés sont suivis du code du corpus d’origine. [LMO] : Le Monde, décembre<br />

1999 ; [HAN] : un extrait du corpus Hansard ; [STX] : le roman Vol de nuit d’Antoine de Saint-Exupéry.<br />

68


(1) Dans certaines gammes, trop de cigares mal roulés, aux capes imparfaites,<br />

présentent des arômes ternes et insipides, sans parler de la contrefaçon, qui<br />

touche de nombreux secteurs de la distribution. [LMO]<br />

(2) <strong>Un</strong>e mesure impatiemment attendue par les opérateurs concurrents de<br />

France-Télécom. [LMO]<br />

(3) Si c'est un bon projet de loi, il me semble qu'il devrait mériter une vigoureuse<br />

défense de la contribution qu'il apportera à l'amélioration de la vie<br />

canadienne. [HAN]<br />

(4) Rivière sortit pour tromper l'attente, et la nuit lui apparut vide comme un<br />

théâtre sans acteur. [STX]<br />

Les séquences à analyser ne ressemblent pas toujours aux phrases des théoriciens de la<br />

syntaxe. C’est pourquoi j’emploie le terme de séquence, et non ceux de phrase ou<br />

d’énoncé. Dans la communauté des linguistes, il existe des courants forts qui remettent<br />

en cause le statut même de la phrase. Ceux-ci se développent d’une part chez les<br />

linguistes de l’oral et d’autre part chez ceux qui travaillent sur les discours. Claire<br />

Blanche-Benveniste (2002), par exemple, affirme que « La notion vague de phrase<br />

usurpe des propriétés qui reviennent de fait aux constructions verbales, comme celles de<br />

modes, temps, diathèse ou fonctions (…). Dans la plupart des cas, la phrase n’est pas une<br />

bonne unité de calcul pour l’analyse <strong>syntaxique</strong> (…) » (Blanche-Benveniste, 2002, p. 7).<br />

Pour elle, il faudrait distinguer trois domaines de dépendance <strong>syntaxique</strong> : celui des<br />

dépendances par rapport à une catégorie grammaticale (la syntaxe au sens strict), celui<br />

des dépendances qui se font en dehors de toute référence à une catégorie de grammaire<br />

(la « macro-syntaxe »), et celui des unités énonciatives (op. cit., p. 20). Pour Alain<br />

Berrendonner, qui se place dans la perspective de l’analyse des discours, la notion de<br />

phrase n’est pas non plus un instrument opératoire : « La phrase est un héritage de la<br />

tradition typographique et grammaticale, une notion originellement conçue pour<br />

raisonner et normer une pratique utilitaire : la mise en écrit du discours » (Berrondonner,<br />

2002, p. 27). Il propose de remplacer cette notion par deux types de données<br />

empiriquement fondées : la clause et la période. Les clauses sont des « îlots de<br />

dépendance grammaticale » (op. cit., p. 27). Les périodes sont des secteurs de discours<br />

délimités par des marques prosodiques ad hoc. La syntaxe de la clause est bien connue,<br />

c’est la syntaxe au sens strict. Celle des périodes est d’un tout autre ordre. Il faut, pour la<br />

caractériser, introduire la notion de « mémoire discursive », c’est-à-dire « une<br />

représentation des savoirs publiquement partagés par les interlocuteurs » (op. cit.,<br />

p. 30) : les unités minimales de la période sont les clauses (plus précisément des<br />

énonciations de clauses), et chaque énonciation opère des transformations de la mémoire<br />

discursive. K. Gerdes et S. Kahane (2006) reprennent la la distinction entre micro- et<br />

macrosyntaxe pour mettre en place leur modèle topologique du verbe en français.<br />

Pour décrire les formes <strong>syntaxique</strong>s, j’ai choisi le mode de représentation en dépendance.<br />

Le principe de la représentation <strong>syntaxique</strong> d’une phrase par un arbre de dépendance est<br />

que, dans une phrase, la présence de chaque mot est légitimée par la présence d’un autre<br />

mot ; on représente cet état de fait par un lien <strong>syntaxique</strong> entre le second mot (le<br />

69


gouverneur) et le premier (le dépendant). L’arbre constitué des mots et des liens<br />

<strong>syntaxique</strong>s constitue ce que Lucien Tesnière appelle un stemma (Tesnière, 1959). Au<br />

moment de passer de LEXTER, <strong>analyseur</strong> centré sur le groupe nominal, à <strong>SYNTEX</strong>, censé<br />

avoir une couverture beaucoup plus large, j’ai abandonné la constituance pour la<br />

dépendance. Le choix de la dépendance s’est immédiatement et très naturellement<br />

imposé, car il permet une formulation simple et opératoire du problème de l’analyse<br />

<strong>syntaxique</strong>, vue comme un problème de reconnaissance de formes. On peut décomposer<br />

le problème de la reconnaissance de la structure <strong>syntaxique</strong> d’une phrase en<br />

sous-problèmes locaux de reconnaissance de liens <strong>syntaxique</strong>s. Dans (Bourigault et<br />

Fabre, 2000), en reprenant les termes de la syntaxe posito-argumentale de J.-C. Milner<br />

(Milner, 1989), nous formulions le problème de la reconnaissance <strong>syntaxique</strong> de cette<br />

façon : pour chaque mot de la séquence, identifier sa position dans la structure<br />

<strong>syntaxique</strong> à partir de sa place dans l’énoncé. Je le reformule ici de façon plus précise :<br />

pour chaque mot de la séquence, trouver son gouverneur. La procédure d’analyse qui<br />

s’impose alors avec cette formulation de problème est ascendante. Les formes<br />

<strong>syntaxique</strong>s se révèlent au fur et à mesure que l’<strong>analyseur</strong> reconnaît les liens <strong>syntaxique</strong>s<br />

entre mots. Pour décrire la forme <strong>syntaxique</strong> des séquences, je reprends la terminologie<br />

de Berrendonner, et je définis, dans <strong>SYNTEX</strong>, une clause comme la projection d’un arbre<br />

de dépendance <strong>syntaxique</strong> dont le gouverneur ne dépend d’aucun autre mot dans la<br />

séquence. Dans une séquence, l’<strong>analyseur</strong> peut reconnaître plusieurs clauses ; celles-ci<br />

sont alors simplement juxtaposées, aucune relation n’est placée entre elles par<br />

l’<strong>analyseur</strong>. Les clauses, leur délimitation et leur forme, émergent de l’analyse et sont<br />

révélées à l’issue du processus. Par exemple, la forme de la séquence 1 est la<br />

juxtaposition de 3 clauses :<br />

- la première clause (Dans certaines gammes) est l’îlot rectionnel dominé par la<br />

préposition dans en tête de séquence. Soit SPNom son étiquette.<br />

- la deuxième clause (trop de cigares mal roulés, aux capes imparfaites, présentent<br />

des arômes ternes et insipides) est l’îlot rectionnel dominé par la forme verbale finie<br />

présentent. Soit S son étiquette.<br />

- la troisième clause (sans parler de la contrefaçon, qui touche de nombreux secteurs<br />

de la distribution) est l’îlot rectionnel dominé par la préposition sans, elle-même<br />

gouvernant la forme infinitive parler. Soit SPVinf son étiquette.<br />

La forme globale de la séquence 1 est donc : [SPNom] , [S] , [SPVinf], la forme de<br />

chacune des trois clauses étant donnée par un arbre de dépendance. La préposition dans,<br />

le verbe présentent et la préposition sans n’ont été rattachés à aucun gouverneur par<br />

l’<strong>analyseur</strong>. Les formes des séquences 1-4 sont données en 1’-4’ (les gouverneurs non<br />

dépendants sont soulignés).<br />

(1’) [SPNom] , [S] , [SPVinf] : [SPNom Dans certaines gammes ] , [S trop de<br />

cigares mal roulés, aux capes imparfaites, présentent des arômes ternes et<br />

insipides ] , [SPVinf sans parler de la contrefaçon, qui touche de nombreux<br />

secteurs de la distribution ] .<br />

70


(2’) [SNom] : [SNom <strong>Un</strong>e mesure impatiemment attendue par les opérateurs<br />

concurrents de France-Télécom ]<br />

(3’) [SSub] , [S] : [SSub Si c'est un bon projet de loi ] , [S il me semble qu'il devrait<br />

mériter une vigoureuse défense de la contribution qu'il apportera à<br />

l'amélioration de la vie canadienne ]<br />

(4’) [S] , CC [S] : [S Rivière sortit pour tromper l'attente ] , [cc et ] [S la nuit lui<br />

apparut vide comme un théâtre sans acteur ] .<br />

Dans une séquence donnée, il y a autant de clauses que de mots non gouvernés. Ces mots<br />

sont parfois isolés, quand ils n’ont eux-mêmes aucun dépendant. Le non-attachement<br />

d’un mot à un gouverneur peut être le résultat d’un choix d’implémentation, comme<br />

celui de ne pas chercher de gouverneur aux prépositions ou adverbes situés en position<br />

initiale de séquence (l’adverbe en revanche dans l’exemple 5, la préposition sur dans<br />

l’exemple 5, la préposition en dans l’exemple 6), aux conjonctions de subordination<br />

autres que que (la conjonction alors que dans l’exemple 6). Le non-attachement d’un<br />

mot peut aussi être la manifestation d’une erreur de l’<strong>analyseur</strong>. Dans l’exemple 7,<br />

l’<strong>analyseur</strong> n’a pas reconnu la bonne catégorie pour la forme que, qu’il n’a pas réussi à<br />

attacher, de même qu’il n’a pu attacher la préposition dans, ce qui produit par erreur la<br />

clause dans le giron de la Russie. De même, dans l’exemple 8, la clause des mesures<br />

préventives est identifiée à tort à cause de la non reconnaissance du segment si<br />

nécessaire, dans lequel si est étiqueté Adverbe.<br />

(5) [Adv] , [SPNom] , [S] : [Adv En_revanche ] [,] [SPNom sur la libéralisation des<br />

services ] [,] [S les pays industrialisés ont peu de divergences ]<br />

(6) [SPNom] , [S] [SSub] : [SPNom En Thaïlande ] [,] [S le coût mensuel d' une<br />

trithérapie est de 675 dollars ] [SCSub alors qu'un employé du secteur tertiaire<br />

gagne le plus souvent 120 dollars par mois ]<br />

(7) [S] [Sub] [SPNom] : [S Ils ne peuvent trouver leur bonheur ] [Sub que ] [SPNom<br />

dans le giron de la Russie ]<br />

(8) [S] [SAdj] [SPNom] : [S C'est la raison pour laquelle Grenoble a été choisie<br />

pour étudier ce phénomène propre aussi à certaines vallées alpines et prendre<br />

] [,] [SAdj si nécessaire ] [,] [SPNom des mesures préventives ]<br />

3.1.3. Fonctionnement simplifié<br />

<strong>SYNTEX</strong> est un <strong>analyseur</strong> procédural à cascade. Le terme à cascade signifie qu’il traite<br />

chaque séquence en plusieurs passes successives. L’entrée d’une passe est la sortie de la<br />

passe précédente. La séquence donnée en entrée à l’<strong>analyseur</strong> est étiquetée : elle est<br />

découpée en mots (token), à chaque mot est associée une catégorie grammaticale (nom,<br />

verbe, adjectif…). J’utilise le TREETAGGER 27 . A chaque passe, l’<strong>analyseur</strong> ajoute des<br />

27 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/<br />

71


liens <strong>syntaxique</strong>s, en s’appuyant sur les liens placés lors des passes antérieures. Le terme<br />

procédural signifie que les liens <strong>syntaxique</strong>s sont placés par des heuristiques qui<br />

décrivent l’algorithme de parcours de la chaîne des mots étiquetés partiellement<br />

analysée entre un mot donné et un gouverneur ou dépendant potentiel. L’<strong>analyseur</strong><br />

<strong>SYNTEX</strong> est très proche, dans sa philosophie, de l’<strong>analyseur</strong> FULCRUM de P. S. Garvin<br />

(Garvin, 1967), avec sa méthode par passes et ses mots pivots (chap. 2, section 2.3.2).<br />

L’<strong>analyseur</strong> est aussi modulaire : chaque type de lien <strong>syntaxique</strong> (sujet, objet…) est pris<br />

en charge par un module dédié. J’illustre de façon simplifiée le fonctionnement de<br />

l’<strong>analyseur</strong> en déroulant pas à pas le traitement de la séquence 1. En préalable à l’analyse<br />

<strong>syntaxique</strong>, l’étiqueteur morphologique a découpé la séquence en mots et a attribué une<br />

étiquette morpho<strong>syntaxique</strong> à chacun des mots (N : nom, V : verbe, D : déterminant, P :<br />

préposition, A : adjectif) (2). Il a reconnu la préposition complexe en direction du.<br />

(1) Marie lance la pelote de laine rouge en direction du chat de Jean.<br />

(2) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

D N P N V D N P N A P N P N<br />

Lors d’une première passe, l’<strong>analyseur</strong> traite les relations dites « locales ». Il reconnaît<br />

par exemple des liens <strong>syntaxique</strong>s entre un déterminant et son gouverneur, entre une<br />

préposition et son dépendant, entre un auxiliaire et son participe passé (3).<br />

(3) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

Lors d’une deuxième passe, l’<strong>analyseur</strong> traite les relations dites « non ambiguës ». Il<br />

reconnaît dans la séquence 1 le lien Sujet entre le verbe lance et le nom fille et le lien<br />

Objet entre le verbe lance et le nom pelote (4). Les flèches en pointillés sous la séquence<br />

marquent les étapes du parcours entre les extrémités des liens <strong>syntaxique</strong>s. Les barres<br />

verticales sous les mots marquent les fins de parcours. Le module de recherche des sujets<br />

se positionne sur le verbe conjugué lance et se déplace vers la gauche à la recherche d’un<br />

dépendant pour ce gouverneur. Il rencontre d’abord le nom Marie qui est déjà gouverné<br />

(par la préposition de), puis le nom fille, situé immédiatement à gauche de la préposition.<br />

Le module retient ce nom, puisqu’il est libre, et stoppe son parcours puisque le<br />

déterminant gouverné par ce nom est le premier mot de la séquence. Le module de<br />

recherche des objets se positionne sur le verbe transitif lance et se déplace vers la droite<br />

à la recherche d’un dépendant pour ce gouverneur. Il rencontre d’abord le déterminant la<br />

et « remonte » à son gouverneur pelote. Puisque ce nom est libre, il le retient comme<br />

cible de la relation, et stoppe sa recherche.<br />

(4) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

72


Lors d’une troisième passe, l’<strong>analyseur</strong> traite les relations dites « non ambiguës ». Il<br />

recherche les gouverneurs potentiels des adjectifs et des prépositions. Pour des raisons<br />

de lisibilité, je décompose la description en commentant le traitement des 3 prépositions<br />

de (5a), puis de l’adjectif rouge (5b) et enfin de la préposition en direction du (5c). Pour<br />

la première préposition de, le module de recherche des gouverneurs des prépositions<br />

reconnaît sans ambiguïté le nom fille comme gouverneur. Pour la deuxième préposition<br />

de, le module retient d’abord le nom pelote situé immédiatement à sa gauche, puis<br />

remonte directement au verbe lance, gouverneur de ce nom et situé à gauche, qu’il<br />

retient comme deuxième gouverneur candidat, et il stoppe la recherche sur ce verbe<br />

conjugué. Il a donc retenu 2 gouverneurs candidats pour cette préposition. Pour la<br />

troisième préposition de, le module retient d’abord le nom chat situé immédiatement à sa<br />

gauche, puis remonte directement à gauche de la préposition qui gouverne ce nom, pour<br />

se saisir de l’adjectif rouge, puis du nom laine, avant de remonter à la deuxième<br />

préposition de, gouverneur de ce nom, dont il récupère tous les gouverneurs candidats. Il<br />

a donc retenu 4 gouverneurs candidats pour cette préposition.<br />

(5a) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

Pour trouver le gouverneur de l’adjectif rouge (5b), le module de recherche des<br />

gouverneurs nominaux des adjectifs part de cet adjectif, se déplace à gauche et<br />

sélectionne le nom laine comme candidat, puis, situé immédiatement à gauche de la<br />

préposition gouvernant ce nom, le nom pelote. La recherche s’arrête car ce second nom<br />

est gouverné par un verbe qui ne se construit pas avec un attribut. Le module a donc<br />

retenu 2 gouverneurs candidats pour cet adjectif.<br />

(5b) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

De façon analogue (5c), le module de recherche des gouverneurs des prépositions<br />

identifie comme gouverneurs candidats pour la préposition en direction du les mots<br />

rouge, laine, pelote et lance. A la fin du traitement des relations ambiguës, l’analyse a<br />

produit le treillis (5d). La procédure de désambiguïsation qui intervient à l’issue de ce<br />

traitement produit le résultat 5e. Le résultat final complet de l’analyse est l’arbre de<br />

dépendance 5f.<br />

(5c) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

73


(5d) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

(5e) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

(5f) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .<br />

Dans l’activité de conception et de développement de l’<strong>analyseur</strong>, les problèmes à<br />

résoudre relèvent de deux grands types : au niveau macroscopique, ils concernent le<br />

choix de l’architecture du système : dans quel ordre enchaîner la reconnaissances des<br />

liens <strong>syntaxique</strong>s (3.1.4) ; au niveau microscopique, ils concernent la mise au point des<br />

algorithmes de parcours pour la reconnaissance des liens <strong>syntaxique</strong>s (3.1.5).<br />

3.1.4. Architecture<br />

<strong>SYNTEX</strong> effectue une analyse ascendante. Il identifie progressivement les liens de<br />

dépendance <strong>syntaxique</strong> élémentaires pour reconnaître in fine la forme <strong>syntaxique</strong> globale<br />

de la séquence en entrée. Des questions se posent alors concernant la stratégie à adopter<br />

pour traiter l’ensemble des mots de la phrase : dans quel ordre entreprendre la<br />

reconnaissance des liens <strong>syntaxique</strong>s ? De gauche à droite ? Relation par relation ?<br />

Combien de passes ? Quels types de liens reconnaître à chaque passe ? Quand on vise un<br />

<strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>, il n’y a pas lieu de s’imposer des contraintes de type<br />

cognitif sur l’architecture du système et rien n’exige a priori d’adopter un traitement<br />

incrémental, de gauche à droite, sans retour en arrière. Les questions posées sont propres<br />

à la problématique de développement d’un <strong>analyseur</strong> <strong>opérationnel</strong>, et les enjeux relèvent<br />

crucialement de l’ingénierie linguistique.<br />

La difficulté de fond vient de l’antinomie entre la contrainte de séquentialité des<br />

traitements informatiques et l’intrication des liens <strong>syntaxique</strong>s dans un énoncé. Celle-ci<br />

est liée à la propriété de concrétion de la langue (Milner, 1989, p. 113), qui fait qu’une<br />

difficulté <strong>syntaxique</strong> ne vient jamais seule. Dans un énoncé, les configurations<br />

<strong>syntaxique</strong>s problématiques se mêlent et s’enchevêtrent. Par exemple, du point de vue du<br />

traitement automatique, on sait que la coordination et le rattachement prépositionnel<br />

constituent chacun un problème sérieux. Mais les cas ne sont pas rares où l’<strong>analyseur</strong><br />

doit résoudre les deux problèmes dans la même zone de la séquence. C’est le cas dans<br />

l’exemple 6, où les ambiguïtés de rattachement de la deuxième préposition à (devant<br />

agriculture) et de la préposition aux se mêlent avec celle de la coordination.<br />

(6) La commission européenne s'oppose à une limitation des discussions à<br />

l'agriculture et aux services. [LMO]<br />

74


De façon générale, l’antinomie entre séquentialité informatique et concrétion <strong>syntaxique</strong><br />

débouche sur une double circularité : (1) pour reconnaître un lien <strong>syntaxique</strong> de tel type<br />

(Sujet, Objet, etc.) pour un mot de l’énoncé, il faudrait avoir déjà reconnu un lien d’un<br />

autre type pour un autre mot, et réciproquement ; (2) pour reconnaître un lien <strong>syntaxique</strong><br />

pour un mot à telle place dans l’énoncé, il faudrait avoir déjà reconnu un lien à gauche,<br />

ou à droite, et inversement. Quelques exemples (construits) permettent illustrer cette<br />

circularité. Dans l’exemple 7, c’est la reconnaissance du lien <strong>syntaxique</strong> entre l’adjectif<br />

roses, dernier mot de l’énoncé, et le nom bonbons qui permet la reconnaissance sans<br />

ambiguïté du nom bonbons comme gouverneur de la préposition à. Le problème de la<br />

circularité est porté à son comble avec la coordination. Dans l’exemple 8, il serait<br />

préférable d’avoir reconnu le liens Objet entre aime et chat d’une part et le lien Sujet<br />

entre dort et chien d’autre part pour identifier correctement le statut du coordonnant.<br />

Dans l’exemple 9, la situation est plus compliquée. Pour reconnaître le lien Sujet entre<br />

dorment et chats, il faudrait avoir identifié le fait que le coordonnant et relie hommes et<br />

oiseaux, objets de regardent. Et réciproquement…<br />

(7) Il donne des bonbons à la fraise roses.<br />

(8) Jean aime le chat et le chien dort.<br />

(9) Les chats qui regardent les hommes et les oiseaux dorment.<br />

Deux ordres de séquentialité interagissent dans le traitement informatique, correspondant<br />

à la double circularité évoquée ci-dessus : l’ordre dans lequel on prend les mots dans la<br />

phrase (de gauche à droite, de droite à gauche), l’ordre dans lequel on traite les relations<br />

(identification des sujets avant ou après les objets, rattachement des prépositions avant<br />

ou après les adjectifs, etc.). La difficulté est réelle, et grande peut être la tentation de<br />

chercher à mettre en place des solutions d’un niveau de complexité qui serait à la hauteur<br />

de la difficulté du problème : par exemple, décider de générer tous les possibles, en<br />

repoussant au terme de l’analyse le choix de la bonne description dans le fouillis du<br />

treillis. Pour aboutir à un <strong>analyseur</strong> <strong>opérationnel</strong>, il faut savoir maîtriser la complexité, et<br />

accepter le risque d’erreur. Il faut trouver un ordonnancement optimal tel que les<br />

quelques pertes entraînées par des décisions précoces soient largement compensées par<br />

les gains ultérieurs permis par la pose anticipée de liens <strong>syntaxique</strong>s.<br />

Au départ du projet, j’ai choisi l’architecture et les principes suivants :<br />

- <strong>Un</strong>e passe par relation, dans cet ordre : coordination, objet, sujet, adjectif épithète,<br />

prépositions.<br />

- Aucun module ne remet en cause les relations ou étiquettes placées par les modules<br />

antérieurs.<br />

- Chaque module résout ses ambiguïtés avant de passer la main au module suivant.<br />

Cette stratégie initiale de base, cloisonnée, a été rapidement <strong>opérationnel</strong>le et m’a permis<br />

d’enclencher le cycle de développement par essai/erreur des heuristiques des différents<br />

modules de connaissance de liens <strong>syntaxique</strong>s et des procédures de désambiguïsation,<br />

endogènes et exogènes. C’est en développant et évaluant ces modules que j’ai pu<br />

identifier les limites de l’architecture initiale, et imaginer des stratégies adéquates<br />

75


sensiblement plus complexes, pour aboutir à l’architecture présentée dans la section<br />

suivante de ce chapitre (3.2).<br />

3.1.5. Algorithmes de reconnaissance<br />

Le second type de problème, après celui de l’architecture, que pose le développement de<br />

l’<strong>analyseur</strong> est celui de la mise au point des modules de reconnaissance de liens<br />

<strong>syntaxique</strong>s. Dans chaque module est décrit un algorithme qui spécifie les parcours<br />

possibles, dans la séquence étiquetée et partiellement analysée, entre un mot de départ,<br />

susceptible d’être la cible ou la source d’un lien de dépendance et son gouverneur ou un<br />

de ses dépendants. Cet algorithme doit permettre de couvrir le maximum de<br />

configurations de surface susceptibles de se réaliser entre un dépendant et son<br />

gouverneur. L’élaboration de ces modules exige la mise au jour de contraintes<br />

<strong>syntaxique</strong>s locales sur lesquelles s’appuyer pour déterminer les procédures de<br />

reconnaissance des liens <strong>syntaxique</strong>s. Certaines de ces contraintes sont générales, en<br />

particulier la contrainte de projectivité (de façon générale, les liens <strong>syntaxique</strong>s ne se<br />

croisent pas) et la contrainte d’unicité du gouverneur (de façon générale, un mot n’a<br />

qu’un seul gouverneur). Mais à chaque relation <strong>syntaxique</strong> correspond des<br />

configurations particulières qui imposent des contraintes spécifiques. Par exemple,<br />

concernant le module qui recherche les sujets, quelles étiquettes morpho<strong>syntaxique</strong>s ou<br />

quelles configurations <strong>syntaxique</strong>s, décrites en termes soit de succession d’étiquettes,<br />

soit de liens <strong>syntaxique</strong>s, est-il légitime de sauter pour atteindre un sujet en partant d’un<br />

verbe conjugué ? Quelles sont celles au contraire qui constituent des barrières à ne pas<br />

franchir ?<br />

Pour identifier ces contraintes, et en déduire les algorithmes d’analyse, la voie la plus<br />

efficace est celle de la confrontation systématique aux corpus par essai/erreur, de l’aller<br />

et retour incessant entre l’implémentation et l’observation. C’est en implémentant et<br />

testant les algorithmes à grande échelle que l’on améliore la précision et la couverture<br />

des modules de reconnaissance. Cela est d’autant plus vrai que face à des énoncés réels,<br />

on est confronté à des configurations syntactico-discursives sur lesquelles les<br />

grammaires ou les théories <strong>syntaxique</strong>s sont peu loquaces. Par exemple, le traitement des<br />

coordonnants et des virgules (apposition, incise, coordination, énumération), qui<br />

foisonnent dans les textes réels, exigent le développement de procédures d’analyse<br />

complexes, qui empruntent peu aux descriptions linguistiques classiques, et qui exigent<br />

en revanche une analyse en corpus détaillée. Les théories <strong>syntaxique</strong>s sont de peu de<br />

secours. Les œuvres des grands noms de la dépendance, comme Tesnière (1959) et<br />

Mel’čuk (1988), sont passionnantes et stimulantes pour le grammairien qui sommeille<br />

dans tout concepteur d’<strong>analyseur</strong>. Mais elles fournissent peu de clés pour la mise au<br />

point d’un système automatique de reconnaissance de formes dépendancielles. Tel n’est<br />

pas leur propos. Les problèmes pratiques liés à la reconnaissance automatique de la<br />

structure <strong>syntaxique</strong> d’une phrase et les problèmes théoriques liés à la description<br />

<strong>syntaxique</strong> sont de deux ordres différents.<br />

76


Néanmoins, même si le développement de l’<strong>analyseur</strong> n’emprunte rien directement aux<br />

grammaires ou aux travaux de descriptions <strong>syntaxique</strong>s, il est impossible de mener à<br />

bien cette tâche sans une bonne connaissance de ces travaux. D’abord, et c’est le<br />

minimum, parce que le concepteur doit être capable de d’identifier lui-même l’analyse<br />

attendue face à toute configuration avant de chercher à modéliser des procédures de<br />

reconnaissance. Ensuite, il doit reconnaître des phénomènes <strong>syntaxique</strong>s identiques<br />

derrière la multiplicité des configurations <strong>syntaxique</strong>s de surface qu’il observe quand il<br />

dépouille un corpus en examinant les cas d’application des règles qu’il élabore. Il doit<br />

donc être expert en grammaire. Enfin, le recours à des théories et descriptions<br />

<strong>syntaxique</strong>s est utile pour motiver tel choix de représentation pour certaines relations de<br />

dépendance qui peuvent poser problème : quel est le gouverneur, quel est le dépendant,<br />

et dans quel sens s’établit la relation de dépendance, dans le cas, par exemple, des<br />

complexes verbaux, des structures comparatives, de la coordination.<br />

3.2. Description des modules<br />

3.2.1. Enchaînement des modules de reconnaissance<br />

L’organisation de <strong>SYNTEX</strong> est modulaire (section 3.1.4). Il y a un module par type de<br />

relation traitée (coordination, sujet, objet…). <strong>Un</strong> module est constitué d’un algorithme<br />

décrivant les parcours possibles entre un mot de départ, passé en argument, un mot<br />

d’arrivée auquel il est <strong>syntaxique</strong>ment relié via R. Le mot de départ est soit la source du<br />

lien <strong>syntaxique</strong> (le gouverneur), et dans ce cas l’orientation de la recherche est celle de la<br />

relation <strong>syntaxique</strong> (« orientation directe »), soit la cible (le dépendant), et dans ce cas<br />

l’orientation de la recherche est inverse de celle de la relation <strong>syntaxique</strong> (« orientation<br />

inverse »). Comme je l’ai évoqué dans la section 3.1.4 à propos de l’architecture de<br />

l’<strong>analyseur</strong>, le choix de l’ordonnancement des modules est délicat. A ce stade du<br />

développement de <strong>SYNTEX</strong>, j’ai convergé vers une organisation stable qui identifie, du<br />

point de vue du traitement automatique, trois grandes catégories de relations,<br />

correspondant à trois catégories de modules qui s’enchaînent dans cet ordre :<br />

- Les relations locales (section 3.2.3). Il s’agit, par exemple, des relations entre un<br />

déterminant et le nom qui le gouverne, entre une préposition et son dépendant, entre<br />

un auxiliaire et un participe passé. Les liens <strong>syntaxique</strong>s correspondant connectent<br />

des mots qui sont très proches, et les procédures de reconnaissance sont simples<br />

- Les relations non ambiguës (sections 3.2.5 et 3.2.6). Il s’agit des relations Objet,<br />

Attribut et Sujet. Les modules associés sont à orientation directe : chaque module<br />

part du gouverneur (verbe) à la recherche du dépendant. Le problème de la<br />

reconnaissance se formule pour chacune des relations de la façon suivante :<br />

sélectionner le premier mot non gouverné (de telle ou telle catégorie, situé à droite<br />

ou à gauche, selon la relation). Ces modules ne génèrent aucune ambiguïté.<br />

77


- Les relations ambiguës (sections 3.2.7 à 3.2.12). Il s’agit de la relation entre un<br />

pronom relatif et son antécédent, la relation entre une préposition et son gouverneur<br />

et la relation entre un adjectif et le nom dont il est épithète. Les modules associés<br />

sont à orientation inverse : chaque module part du dépendant (pronom relatif,<br />

préposition, adjectif) à la recherche du gouverneur. Contrairement au cas précédent,<br />

la recherche ne doit pas s’arrêter au premier gouverneur trouvé. Plusieurs<br />

gouverneurs candidats peuvent être sélectionnés, qui sont tous <strong>syntaxique</strong>ment<br />

également plausibles : ils ne peuvent être départagés sur de simples critères de<br />

configuration <strong>syntaxique</strong>. Ces relations imposent donc une étape de<br />

désambiguïsation.<br />

La relation de coordination a un statut à part ; elle est traitée immédiatement après les<br />

relations locales (section 3.2.4). <strong>Un</strong> module global intervient en fin de traitement<br />

(section 3.2.13) pour modofoer certains liens <strong>syntaxique</strong>s posés par les modules<br />

antérieurs, ajouter des liens <strong>syntaxique</strong>s « profonds » et construire la forme <strong>syntaxique</strong><br />

globale de la séquence. Avant de décrire en détail les différents modules, je présente,<br />

dans la section suivante, les primitives d’implémentation utilisées dans les algorithmes<br />

de parcours.<br />

3.2.2. Formalisation du parcours<br />

Dans le développement de l’<strong>analyseur</strong> <strong>SYNTEX</strong>, l’essentiel du travail porte sur la mise au<br />

point des algorithmes décrivant les parcours possibles, dans la chaîne étiquetée et<br />

partiellement annotée, entre les deux extrémités d’un lien <strong>syntaxique</strong> : entre un<br />

dépendant et son gouverneur pour les modules à orientation inverse, entre un gouverneur<br />

et un de ses dépendants pour les modules à orientation directe. J’ai défini un certain<br />

nombre de fonctions primitives de calcul des pas de déplacement dans les parcours. Ces<br />

primitives exploitent la propriété de projectivité ; sauf cas particuliers, les arbres de<br />

dépendance construits par <strong>SYNTEX</strong> sont projectifs : « en plaçant les nœuds sur une ligne<br />

droite et tous les arcs dans le même demi-plan, on peut assurer que 1) deux arcs ne se<br />

coupent jamais et que 2) aucun arc ne couvre la racine de l’arbre. (…) La projectivité est<br />

équivalente au fait que la projection de tout nœud x de l’arbre (c’est-à-dire l’ensemble<br />

des nœuds dominés par x, x compris) forme un segment continu de la phrase. » (Kahane,<br />

2001, p. 26). Les primitives de déplacement exploitent cette propriété en calculant les<br />

pas de déplacement de telle sorte qu’un lien posé entre un point d’arrêt et le point de<br />

départ du déplacement ne croise aucun lien déjà placé.<br />

Avant de décrire ces fonctions, j’illustre l’idée avec un exemple figuré. Supposons<br />

(exemple 1) qu’un module à orientation directe cherche un dépendant du mot f à sa<br />

gauche, et qu’aient été placés les liens entre les mots a et c et entre les mots c et e (par<br />

exemple, f est un verbe, le module cherche son sujet, certains liens prépositionnels ou<br />

adjectivaux ont été placés). Au moment d’entamer son parcours à gauche, le module ne<br />

peut s’arrêter sur le mot e car celui-ci a déjà un gouverneur (principe de l’unicité du<br />

gouverneur) (exemple 2). Il ne peut s’arrêter sur le mot d car un lien <strong>syntaxique</strong> entre les<br />

mots f et d viendrait couper un lien déjà placé (principe de la projectivité) (exemple 3).<br />

78


Le module ne peut s’arrêter sur le mot c ou sur le mot d pour des raisons analogues. Le<br />

premier pas du parcours doit conduire au mot a (exemple 4), qui sera ainsi le premier<br />

mot testé comme dépendant de f.<br />

(1) a b c d e f<br />

!<br />

(2) a b c d e f<br />

!<br />

(3) a b c d e f<br />

(4) a b c d e f<br />

?<br />

Les fonctions primitives permettent d’implémenter le calcul des pas de parcours. Avant<br />

de les décrire, quelques notations :<br />

Soit un mot, soit i son numéro, c’est-à-dire son rang dans l’énoncé segmenté :<br />

Gov(i) est l’ensemble constitué du couple (R,L). R est le nom d’une relation <strong>syntaxique</strong>.<br />

L est une liste de numéros de mots. Quand la relation <strong>syntaxique</strong> R pointant sur i a<br />

été désambiguïsée, la liste L ne comporte qu’un seul élément, qui est le gouverneur<br />

de i via la relation R. Quand la relation <strong>syntaxique</strong> R pointant sur i n’a pas été<br />

désambiguïsée, la liste L contient les numéros des gouverneurs candidats de i via la<br />

relation R.<br />

Gov(i)={(R,{j1, …, jn}), où n est le nombre de gouverneurs candidats de i, via la<br />

relation R}<br />

Dep(i) est l’ensemble des couples (Rj,j), tels que le mot j est le dépendant de i via la<br />

relation Rj. <strong>Un</strong> mot peut avoir plusieurs dépendants. Les couples sont ordonnés par<br />

valeur croissante de j. Le couple (Rj,j) n’intègre l’ensemble Dep(i) que quand la<br />

relation Rj a été désambiguïsée, c’est-à-dire si Gov(j)={( Rj,i)}.<br />

Dep(i)={(Rj,j), pour j=j1, …, jn, où n est le nombre de dépendants de i}<br />

Je donne ci-dessous quelques exemples illustratifs (exemples 5 et 6, tableaux 1, 2 et 3).<br />

SUJ est la relation sujet ; OBJ est la relation complément d’objet ; DET est la relation entre<br />

un nom et son déterminant ; PREP est la relation entre une préposition et son<br />

gouverneur ; CPREP est la relation entre une préposition et son dépendant ; ADJ est la<br />

relation entre un adjectif et son gouverneur nominal.<br />

79


(5) Le 1 chat 2 de 3 Marie 4 regarde 5 la 6 souris 7 grise 8 .<br />

i Mot Gov(i) Dep(i)<br />

1 Le {(DET, {2})} ∅<br />

2 Chat {(SUJ, {5})} {(DET, 1), (PREP, 3)}<br />

3 De {(PREP, {2})} {(CPREP, {3})}<br />

4 Marie {(CPREP, {3})} ∅<br />

5 Regarde ∅ {(SUJ, 2), (OBJ, 7)}<br />

6 La {(DET, {7})} ∅<br />

7 Souris {(OBJ, {5})} {(DET, 6), (ADJ, 8)}<br />

8 Grise {(ADJ, {7})} ∅<br />

Tableau 1. Fonctions Gov et Dep pour l’exemple 5<br />

80


(6) Marie 1 regarde 2 le 3 chat 4 gris 5 sur 6 le 7 paillasson 8 .<br />

i mot Gov(i) Dep(i)<br />

1 Marie {(SUJ, {2})} ∅<br />

2 regarde ∅ {(SUJ, 1), (OBJ, 4)}<br />

3 le {(DET, {4})} ∅<br />

4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5)}<br />

5 gris {(ADJ, {4})} ∅<br />

6 sur {(PREP, {5,4,2})} {(CPREP, {8})}<br />

7 le {(DET, {8})} ∅<br />

8 paillasson {(CPREP, {6})} {(DET, 7)}<br />

Tableau 2. Fonctions Gov et Dep pour l’exemple 5, avant désambiguïsation de la<br />

relation PREP pointant sur 4<br />

i mot Gov(i) Dep(i)<br />

1 Marie {(SUJ, {2})} ∅<br />

2 regarde ∅ {(SUJ, 1), (OBJ, 4)}<br />

3 le {(DET, {4})} ∅<br />

4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5), (PREP, 6)}<br />

5 gris {(ADJ, {4})} ∅<br />

6 sur {(PREP, {4})} {(CPREP, {8})}<br />

7 le {(DET, {8})} ∅<br />

8 paillasson {(CPREP, {6})} {(DET, 7)}<br />

Tableau 3. Fonctions Gov et Dep pour l’exemple 5, après désambiguïsation de la<br />

relation PREP pointant sur 4<br />

On dispose de deux fonctions de base, qui donnent pour un mot donné dans une<br />

séquence partiellement analysée les frontières droite et gauche de sa projection : frDmax<br />

et frGmax. La fonction frDmax prend comme argument le numéro d’un mot et retourne<br />

la frontière droite de sa projection. La fonction frGmax prend comme argument le<br />

numéro d’un mot et retourne la frontière gauche de sa projection. Ce sont deux fonctions<br />

récursives. Le principe, pour la fonction frDmax, est le suivant : dans la liste des<br />

dépendants du mot, sélectionner le dépendant le plus à droite ; si ce mot n’a pas de<br />

dépendant, il est la frontière droite ; s’il a un ou plusieurs dépendants, chercher sa<br />

frontière droite, qui sera celle du mot initial, et ainsi de suite (tableau 4). Par exemple,<br />

soit le mot regarde dans l’exemple (1). Son dépendant le plus à droite est le mot souris ;<br />

le dépendant le plus à droite de souris est grise, qui n’a pas de dépendant. La frontière<br />

droite de souris est donc le mot grise, qui est aussi la frontière droite du mot regarde.<br />

81


Fonction frDmax(i)<br />

si Dep(i) = ∅ , retourner i<br />

sinon Dep(i) = {(Rj,j), pour j=j1, …, jn}<br />

si jn > i , retourner frDmax(jn)<br />

sinon , retourner i<br />

Fonction frGmax(i)<br />

si Dep(i) = ∅ , retourner i<br />

sinon Dep(i) = {(Rj,j), pour j=j1, …, jn}<br />

si j1 < i , retourner frGmax(j1)<br />

sinon , retourner i<br />

Tableau 4. Fonction frDmax et frGmax<br />

On peut maintenant décrire les fonctions de base de parcours de la chaîne annotée. Dans<br />

l’algorithme décrivant le parcours entre le point de départ (gouverneur ou dépendant)<br />

d’une relation <strong>syntaxique</strong> et le point d’arrivée (dépendant ou gouverneur), la fonction de<br />

base permet de passer d’un élément testé au prochain à tester. Chaque fonction de base<br />

donne ainsi le pas élémentaire du parcours. Il y a 4 fonctions de base, selon le sens de<br />

déplacement, de gauche à droite (gd) ou de droite à gauche (dg), et selon l’orientation de<br />

la recherche par rapport à celle de la relation <strong>syntaxique</strong>, du gouverneur au dépendant<br />

(GD) ou du dépendant au gouverneur (DG) :<br />

- fonction gdGD : de gauche à droite quand on part du gouverneur et que l’on cherche<br />

un dépendant<br />

- fonction dgGD : de droite à gauche quand on part du gouverneur et que l’on cherche<br />

un dépendant<br />

- fonction gdDG : de gauche à droite quand on part du dépendant et que l’on cherche<br />

un gouverneur<br />

- fonction dgDG : de droite à gauche quand on part du dépendant et que l’on cherche<br />

un gouverneur<br />

Je décris plus en détail la dernière fonction, qui est la plus utilisée. C’est celle qui est<br />

utilisée par le module ADJ qui cherche à gauche d’un adjectif des gouverneurs candidats<br />

nominaux. C’est celle aussi qui est utilisée par le module PREP qui cherche à gauche<br />

d’une préposition des gouverneurs candidats verbaux, nominaux ou adjectivaux. La<br />

fonction dgDG a 2 arguments : i, le numéro du mot courant dans le parcours, et i0 le<br />

numéro du mot initial dont on cherche des gouverneurs candidats. La fonction retourne<br />

le numéro du prochain mot à analyser. Si cette valeur est 0, la recherche de gouverneurs<br />

candidats s’arrête (tableau 5). Je précise qu’il s’agit d’une description simplifiée, les<br />

choses se compliquant sensiblement avec la prise en compte des relations de<br />

coordination et d’antécédence relative et des structures comparatives.<br />

82


Fonction dgDG(i,i0)<br />

1. si frDmax(i) > i0 , retourner 0<br />

2. sinon<br />

3. si Gov(i) = ∅ , retourner frGmax(i)-1<br />

4. sinon Gov(i) = {(R,L)}<br />

5. si L={j}<br />

6. si j>i , retourner 0<br />

7. sinon retourner j<br />

8. sinon L={j1, …, jn}<br />

9. tester j1, …, jn comme candidats pour i0<br />

10. retourner dgDG(j1)<br />

Tableau 5. Fonction dgDG<br />

J’illustre les différents pas de l’algorithme avec les exemples 7 à 11 28 . Dans l’exemple 5,<br />

le module PREP cherche les gouverneurs potentiels de la préposition à. L’action du pas<br />

n°1 arrête le parcours au nom bonbons, car le choix d’un gouverneur à gauche de ce nom<br />

provoquerait un croisement avec le lien <strong>syntaxique</strong> entre le mot bonbons, situé à gauche<br />

de la préposition, et le mot fraise, situé à sa droite. Dans l’exemple 6, le module ADJ<br />

cherche les gouverneurs potentiels du participe passé installée. Après que le nom tension<br />

a été testé et retenu comme candidat, l’action du pas n°3 prolonge le parcours au nom<br />

ligne, situé immédiatement à gauche de la frontière Gauche du mot tension. La recherche<br />

s’arrête car la frontière Gauche du mot ligne est le premier mot de la phrase. Dans<br />

l’exemple 7, le module ADJ cherche les gouverneurs potentiels de l’adjectif gris.<br />

L’action du pas n°6 arrête le parcours au nom chat, car le choix d’un gouverneur à<br />

gauche de ce nom provoquerait un croisement avec le lien <strong>syntaxique</strong> placé entre chat et<br />

dort. Dans l’exemple 8, le module PREP cherche les gouverneurs potentiels de la<br />

préposition aux. Après que l’adjectif roses a été testé et retenu comme candidat, l’action<br />

du pas n°7 prolonge le parcours au nom bonbon, qui est le gouverneur de l’adjectif (le<br />

nom fraise est « sauté », car un lien entre aux et fraise viendrait croiser le lien déjà posé<br />

entre roses et bonbons). Le parcours se prolonge au mot donne situé immédiatement à<br />

gauche de la frontière Gauche du mot bonbons (pas n°3), et elle s’arrête car ce mot est<br />

un verbe. Dans l’exemple 9, le module PREP cherche les gouverneurs potentiels de la<br />

préposition à. Après que l’adjectif rose a été testé et retenu comme candidat, l’action du<br />

pas n°9 entraîne le test des noms fraise et bonbon, gouverneurs candidats de l’adjectif,<br />

comme gouverneurs candidats pour la préposition, et l’action du pas n°10 prolonge le<br />

parcours au verbe donne, situé immédiatement à gauche de la frontière Gauche du<br />

premier candidat (bonbon). Le module ajoute ce verbe à la liste des candidats, et arrête<br />

sa recherche.<br />

28 Je rappelle que, dans les exemples, les flèches situées au-dessus de la séquence représentent les liens<br />

<strong>syntaxique</strong>s déjà placés, les flèches en traits pointillés au-dessous de la séquence représentent les pas du<br />

parcours. Les barres verticales marquent l’arrêt du parcours.<br />

83


(7) Il donne des bonbons à la fraise roses<br />

(8) La ligne très haute tension installée …<br />

(9) Le chat gris dort.<br />

(10) Il donne des bonbons à la fraise roses aux enfants<br />

(11) Il donne un bonbon à la fraise rose à l’enfant<br />

3.2.3. Les relations locales<br />

?<br />

Au cours de la première phase du traitement, l’<strong>analyseur</strong> s’occupe des relations<br />

<strong>syntaxique</strong>s locales, en posant par exemple les liens <strong>syntaxique</strong>s entre les déterminants et<br />

les noms qui les gouvernent, entre les prépositions et les mots qu’elles gouvernent, entre<br />

les auxiliaires et les participes passés. Cette phase s’apparente au chunking des<br />

<strong>analyseur</strong>s de surface (Abney, 1990a) (Vergne, 1999). Ces liens <strong>syntaxique</strong>s connectent<br />

dans la très grande majorité des mots qui sont très proches. Les procédures de<br />

reconnaissance sont donc simples. C’est pourquoi j’énumère ici les types de liens posés,<br />

en précisant les catégories des gouverneurs et dépendants impliqués, sans entrer dans les<br />

détails d’implémentation. Le traitement s’effectue en plusieurs passes sur la phrase.<br />

Entités nommées<br />

Les dates (22 janvier 2007, juin 2002) sont reconnues avant l’étiquetage et concaténées<br />

en mots, étiquetés NomDate. Les patronymes sont reconnus lors de cette première étape<br />

d’analyse, à partir d’une liste de prénoms et de règles d’exploration autour des<br />

occurrences de prénoms. Quand un patronyme est reconnu, le nom de famille gouverne<br />

le ou les (initiales de) prénoms (1a-b).<br />

84


(1a) Victor Hugo (1b) John F. Kennedy<br />

Déterminants<br />

Le module DET place un lien entre un déterminant et son gouverneur, qui est toujours un<br />

nom (2a-c). <strong>Un</strong> certain nombre de déterminants complexes sont reconnus au cours d’une<br />

phase de concaténation qui s’insère entre l’étiquetage et l’analyse <strong>syntaxique</strong> : tous les,<br />

plus de, beaucoup de, la plupart des, l’un des, etc. L’ambiguïté bien connue liée à ces<br />

unités n’est pour le moment pas traitée dans <strong>SYNTEX</strong>, ce qui conduit parfois à des<br />

segmentations malheureuses : il ne veut plus_de vin.<br />

(2a) Le chat (2b) Beaucoup_de chats (2c) 5 chats<br />

Le module DET part du déterminant et parcourt la séquence étiquetée vers la droite à la<br />

recherche d’un nom. Pendant le voyage, il peut effectuer des réétiquetages « à la volée ».<br />

Par exemple, il arrive assez fréquemment que le TREETAGGER reconnaisse, après un<br />

déterminant, deux adjectifs consécutifs, non suivis d’un nom. Ce type d’ambiguïté,<br />

succession des deux mots pouvant être Nom ou Adjectif, est courant. Dans ces contextes,<br />

le module DET réétiquette le premier en nom, systématiquement, ce qui constitue dans la<br />

très grand majorité des cas le bon choix, comme dans l’exemple 2d où génératrice est<br />

réétiqueté en nom, mais produit parfois une erreur comme dans l’exemple 2e'.<br />

(2d) Par suite du récent accident à laD génératriceA nucléaireA de<br />

Tchernobyl,[HAN]<br />

(2d’) Par suite du récent accident à laD génératriceN nucléaireA de<br />

Tchernobyl,[HAN]<br />

(2e) Les médias régionaux rapportent lesD bonnesA nouvellesA comme celle là.<br />

[HAN]<br />

(2e') Les médias régionaux rapportent lesD bonnesN nouvellesA comme celle là.<br />

[HAN]<br />

Prépositions<br />

Le module CPREP place un lien entre une préposition et son dépendant, qui peut être un<br />

nom, un pronom ou un verbe à l’infinitif (3a-c). <strong>Un</strong> certain nombre de prépositions<br />

complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage :<br />

afin de, en faveur de, au cours de, au sujet de, etc. L’ambiguïté liée à ces unités n’est<br />

pour le moment pas traitée dans <strong>SYNTEX</strong>. Ce module effectue du réétiquetage à la volée<br />

comme le module DET.<br />

(3a) avec le chat (3b) avec lui (3c) afin_de partir<br />

85


Formes de+le<br />

Les formes de+le (du, de la, des, de l’) posent un redoutable problème d’étiquetage,<br />

puisqu’elles peuvent être selon les contextes Déterminant ou Préposition. J’ai choisi de<br />

ne pas tenir compte des choix du TREETAGGER et toutes ces formes sont étiquetées<br />

PrepDet (PD) en entrée de <strong>SYNTEX</strong>. La désambiguïsation de ces formes est répartie en<br />

plusieurs points de la chaîne d’analyse. Les modules DET et CPREP effectuent une partie<br />

du travail, dans les contextes suivants : immédiatement après un nom ou un adjectif, une<br />

forme de+le est systématiquement considérée comme une préposition ; immédiatement<br />

après un verbe une forme de+le est systématiquement considérée comme un<br />

déterminant, sauf si le verbe est un verbe pronominal ou s’il appartient à une liste qui<br />

regroupe des verbes intransitifs se construisant avec un complément en de<br />

(démissionner, dépendre, etc.) 29 , auquel cas elle est étiquetée Préposition. Les principaux<br />

cas d’ambiguïtés qui subsistent sont ceux dans lesquels une forme de+le est précédée<br />

d’une virgule ou d’un coordonnant. Nous verrons à la section 3.2.4 comment se passe la<br />

désambiguïsation dans ces cas.<br />

Complexes verbaux<br />

<strong>Un</strong> ensemble de modules s’occupe du complexe verbal 30 . Il s’agit de reconnaître les liens<br />

<strong>syntaxique</strong>s au sein de séquences constituées de verbes, de modaux (pouvoir, devoir) et<br />

d’auxiliaires (être, avoir), à des formes conjuguées ou au participe passé, ainsi que<br />

d’adverbes, de pronoms réfléchis et de pronoms clitiques. Je n’entre pas dans le détail de<br />

l’implémentation. Les exemples 4a-h donnent une idée des types de liens reconnus et de<br />

la façon dont ils sont représentés.<br />

(4a) Il a mangé. (4b) Il est venu. (4c) Il a été vu<br />

(4d) Il peut manger. (4e) Il a pu manger. (4f) Il peut avoir mangé.<br />

(4g) Il peut s’ être trompé. (4h) Il peut l’avoir mangé. (4i) Il ne peut pas venir.<br />

Adverbes<br />

29 Cette liste a été constituée, à partir des tables du Lexique-Grammaire, par Cécile Frérot (Frérot et al., 2002)<br />

30 Ces modules ont été réalisés par Marie-Paule Jacques, que je remercie ici chaleureusement.<br />

86


Le module ADV place un lien entre un adverbe et son gouverneur, qui peut être un verbe,<br />

un adjectif, un autre adverbe ou un nom (exemples 5a-d). <strong>Un</strong> certain nombre d’adverbes<br />

complexes sont reconnus au cours de la phase de concaténation qui suit l’étiquetage : le<br />

plus, en effet, par exemple, en revanche, en particulier, par ailleurs, etc. L’ambiguïté<br />

liée à ces unités n’est pour le moment pas traitée dans <strong>SYNTEX</strong>. Les heuristiques de<br />

reconnaissance sont locales et ne couvrent que les cas où un gouverneur est trouvé à<br />

proximité de l’adverbe. A l’issue de ce traitement, environ 70% des adverbes ont été liés.<br />

Les adverbes orphelins vont le rester jusqu’à la fin de l’analyse. Il manque ici une<br />

analyse linguistique systématique et détaillée pour élaborer une typologie des cas de<br />

figure dans lesquels un adverbe n’a pu être attaché. Mais beaucoup de ceux-ci se<br />

trouvent en début ou fin de phrase, souvent précédés ou suivis d’une virgule, ou bien<br />

entre virgules à l’intérieur de la séquence. Dans de tels contextes, les adverbes relèvent<br />

le plus souvent de l’organisation discursive, et peuvent difficilement être liés à un mot<br />

particulier de la séquence (cf. section 3.1.2). Le fait que des adverbes flottent ainsi dans<br />

les séquences ne perturbe pas outre mesure les traitements ultérieurs puisque les<br />

heuristiques de parcours les sautent allègrement.<br />

(5a) Il court vite. (5b) très rapide (5c) très vite (5d) non prolifération<br />

Conjonctions de subordination<br />

La relation de dépendance entre une conjonction de coordination et le verbe de la<br />

proposition subordonnée n’est pas à proprement parler une relation locale. Les liens de<br />

ce type sont reconnus lors de cette étape car sans être locaux ils sont faciles à identifier.<br />

Le module CSUB place un lien entre une conjonction de subordination, autre que que, et<br />

son dépendant, qui est un verbe conjugué (6). <strong>Un</strong> certain nombre de conjonctions<br />

complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage :<br />

pour que, bien que, à ce que, alors que, etc. L’ambiguïté liée à ces unités n’est pour le<br />

moment pas traitée dans <strong>SYNTEX</strong>. La procédure de reconnaissance est simple et peu<br />

faillible, et n’est mise en défaut qu’en cas d’erreurs d’étiquetage : parcourir la séquence<br />

à droite jusqu’à rencontrer un verbe conjugué.<br />

(6) Quand Jean est venu<br />

Formes Que<br />

<strong>Un</strong>e forme que peut être adverbe, pronom relatif, conjonction de subordination. Le<br />

traitement des formes que est réparti aux deux extrémités de la chaîne d’analyse. Lors de<br />

cette première étape de reconnaissance de liens <strong>syntaxique</strong>s locaux, un module de<br />

87


traitement 31 prend en charge toutes les formes que, quelle que soit la catégorie<br />

morpho<strong>syntaxique</strong> attribuée par l’étiqueteur. Ce module repère des constructions locales<br />

pour résoudre un certain nombre d’ambiguïtés catégorielles et poser sous certaines<br />

conditions des liens <strong>syntaxique</strong>s impliquant une forme que. En plus des étiquettes des<br />

mots entourant la forme que et des liens <strong>syntaxique</strong>s placés par des modules antérieurs<br />

(entre verbe et adverbe essentiellement), les informations mobilisées sont des listes<br />

lexicales : noms prenant un complément en que, adverbes susceptibles d’entrer dans une<br />

construction corrélative, adverbes de négation, verbes prenant un objet direct en que. Les<br />

exemples 7a-k résument les différentes configurations traitées. A l’issue de ce premier<br />

traitement, selon les corpus, de 85 à 95% des formes que étiquetées Adverbe sont liées.<br />

Cette fourchette est de l’ordre de 50 à 60% pour les formes étiquetées Conjonction, qui<br />

sont dans leur très grande majorité liées à des gouverneurs verbaux et dépendants<br />

verbaux. Les conjonctions que encore libres à l’issue de cette étape seront reconsidérées<br />

en fin d’analyse (section 3.2.13).<br />

(7a) Il ne mange que du pain. (7b) Il veut que Jean vienne.<br />

(7c) <strong>Un</strong> autre que Jean (7d) <strong>Un</strong> homme autre que Jean<br />

(7e) <strong>Un</strong> homme tel que Jean (7f) La loi telle qu’ elle a été votée<br />

(7g) davantage que Jean (7h) ainsi que Jean le veut<br />

(7i) plus rapide que Jean (7j) plus rapide qu’ il n’ paraît<br />

(7k) si triste que Jean pleure<br />

31 Ce module a été réalisé par Marie-Paule Jacques, que je remercie de nouveau.<br />

88


3.2.4. Coordination<br />

La représentation de la coordination fait l’objet de débats chez les théoriciens de la<br />

dépendance. Tesnière relie deux mots coordonnés par un « trait de jonction », constitué<br />

de deux tronçons au milieu desquels apparaît le « jonctif » (la conjonction de<br />

coordination) ; le jonctif ne porte aucun lien de dépendance (Tesnière, 1959,<br />

pp. 326-327). Mel’čuk considère que, d’un point de vue <strong>syntaxique</strong>, la coordination n’est<br />

pas symétrique et que l’élément coordonné gauche gouverne la conjonction, qui<br />

elle-même gouverne l’élément droit (Mel’čuk, 1988, pp. 26-33). Il intègre dans son<br />

formalisme la notion de « groupement » pour représenter les relations de dépendance qui<br />

impliquent les éléments d’une chaîne coordonnée dans leur ensemble. Pour Hudson<br />

(2000), la conjonction de coordination fait partie de la structure de coordination mais ne<br />

porte aucune relation de dépendance.<br />

tombent<br />

Alfred et Bernard (Tesnière, 1959)<br />

sa gaieté et son accent étonnant (Mel’čuk, 1988)<br />

[ sa gaieté et son accent ] étonnants (Mel’čuk, 1988)<br />

Jo (reads and writes) books (Hudson, 2000)<br />

Ces questions de représentation sont essentielles dans le contexte du développement<br />

d’un appareil théorique ou descriptif pour la syntaxe des langues. Les choix de<br />

représentation trouvent leur justification dans la cohérence globale du cadre théorique<br />

dans lequel ils sont inscrits par les différents auteurs. D’un point de vue<br />

épistémologique, le projet de développement d’un <strong>analyseur</strong> <strong>syntaxique</strong> n’est pas de<br />

même nature. Il s’agit de mettre au point des algorithmes de reconnaissance de chaînes<br />

de coordination dans des séquences attestées. Le problème est celui de la reconnaissance<br />

automatique et non pas celui de la représentation. Le choix d’une représentation est alors<br />

une affaire de convention, d’autant plus si ces représentations sont formellement<br />

mutuellement traduisibles les unes vers les autres. Si l’<strong>analyseur</strong> trouve les différents<br />

éléments d’une coordination, il peut « rendre » les résultats de sa recherche sous<br />

différentes formes, correspondant à différentes conventions de représentation. J’ai choisi<br />

comme convention de considérer le coordonnant comme le gouverneur de tous les<br />

89


éléments coordonnés, et comme la cible ou source des liens <strong>syntaxique</strong>s extérieurs<br />

(exemple 1). Je peux justifier ce choix en termes de commodités d’implémentation, mais<br />

non sur des bases théoriques.<br />

(1) X , Y et Z<br />

(1a) Alfred et Bernard tombent.<br />

(1b) sa gaieté et son accent étonnants<br />

(1c) Jo reads and writes books<br />

La reconnaissance automatique des liens de coordination est un problème difficile. La<br />

relation de coordination interfère avec toutes les relations <strong>syntaxique</strong>s : des éléments<br />

coordonnés sont susceptibles d’être source ou cible de tous les types de liens<br />

<strong>syntaxique</strong>s. L’enchevêtrement des liens fait que c’est avec la coordination que le<br />

problème de la circularité se pose avec le plus de gravité : à quel(s) moment(s)<br />

reconnaître les liens de coordination ? J’ai choisi au départ du projet de traiter la<br />

coordination dès le premier stade de l’analyse, juste après la reconnaissance des liens<br />

<strong>syntaxique</strong>s locaux. L’idée étant alors de mettre beaucoup d’efforts sur ce module pour<br />

rendre plus simple la reconnaissance, au niveau des couches supérieures de l’analyse,<br />

des autres types de liens <strong>syntaxique</strong>s. Dans les versions successives de l’architecture, je<br />

ne suis pas revenu sur ce choix. La coordination est traitée en premier. Mais il est clair<br />

que les progrès du traitement de la coordination passeront par l’instauration d’un mode<br />

réparti, certaines configurations pouvant être reconnues tôt dans le processus d’analyse,<br />

alors que d’autres le sont plus aisément avec plus de liens <strong>syntaxique</strong>s préalablement<br />

reconnus.<br />

Le traitement de la coordination inclut celui des virgules coordinatrices. De façon<br />

générale, le traitement de la virgule est lui aussi très difficile. La virgule n’a jamais<br />

passionné les linguistes, au contraire de la coordination, et les grammaires ou les théories<br />

<strong>syntaxique</strong>s sont peu loquaces à son sujet. Pourtant, quand il s’agit de réaliser un<br />

<strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>, la virgule est un problème transversal, comme la<br />

coordination, qui se pose pour toutes les relations <strong>syntaxique</strong>s : quelle que soit la relation<br />

<strong>syntaxique</strong> pour laquelle on cherche à mettre au point des algorithmes de<br />

reconnaissance, il faut tenir compte, dans la description du parcours entre un dépendant<br />

90


et son gouverneur potentiel, de l’irruption possible de virgules, dont il est le plus souvent<br />

difficile de savoir si elles marquent une coordination ou une incise, et, dans le second<br />

cas, si l’on est à l’intérieur ou à l’extérieur de l’incise. La coordination et la virgule sont<br />

des problèmes massifs, comme l’illustrent les données du tableau 6, qui indique que,<br />

selon les corpus, entre 22 et 36% des séquences contiennent au moins un coordonnant, et<br />

entre 44 et 76% des séquences contiennent au moins une virgule.<br />

% #séquences LMO HAN STX<br />

0 coordonnant 64 72 78<br />

1+ coordonnant 36 28 22<br />

0 virgule 34 56 51<br />

1 virgule 20 28 16<br />

2 virgules 18 11 15<br />

3+ virgules 28 5 18<br />

Tableau 6. % des séquences avec coordonnants et avec virgules<br />

Toute virgule dans le contexte droit de laquelle se trouve un élément coordonné est<br />

traitée comme un coordonnant. De façon à pouvoir traiter les virgules coordinatrices lors<br />

de la même passe sur la séquence que les coordonnants, on analyse la séquence de la<br />

droite vers la gauche. Par exemple dans la séquence « bleu, blanc et rouge », le<br />

coordonnant et est d’abord traité, les adjectifs blanc et rouge sont coordonnés, puis,<br />

comme la virgule est suivie d’un mot coordonné (l’adjectif blanc), elle est traitée comme<br />

un coordonnant, et les adjectifs bleu et blanc sont coordonnés.<br />

Le principe du traitement de la coordination est le suivant : quand un coordonnant est<br />

reconnu, le module recherche dans son contexte droit le mot initial, celui susceptible<br />

d’être le dernier mot de la chaîne coordonnée (par exemple l’adjectif rouge pour le<br />

coordonnant et dans la séquence « bleu, blanc et rouge »). Le traitement de la<br />

coordination est isocatégoriel, c’est-à-dire que les configurations de coordination<br />

potentiellement reconnues par l’<strong>analyseur</strong>, dans son état actuel, sont celles où les<br />

éléments coordonnés ont tous la même catégorie morpho<strong>syntaxique</strong>. L’<strong>analyseur</strong> échoue<br />

quand, par exemple, des noms propres et des syntagmes définis sont coordonnés, ou<br />

quand des adjectifs ou des adverbes sont coordonnés avec des syntagmes<br />

prépositionnels. Cette contrainte d’isocatégoricité pourra être relâchée quand le<br />

traitement de la coordination interviendra plus tard dans le processus d’analyse. Même<br />

avec cette hypothèse simplificatrice, valide dans une très grande majorité de cas, la tâche<br />

de reconnaissance est rude.<br />

<strong>Un</strong>e fois le mot initial reconnu, le module de coordination lance une recherche dans le<br />

contexte gauche du coordonnant d’un mot de la même catégorie que le mot initial. Les<br />

catégories concernées sont (par ordre approximatif de difficulté croissante) : adjectif,<br />

participe passé, verbe, conjonction de subordination que, pronom relatif, préposition<br />

autre que de, préposition de, nom. Toute la difficulté est dans l’élaboration des<br />

algorithmes de parcours de la séquence à gauche du coordonnant. Puisque, d’une part,<br />

peu de liens ont été placés à ce stade de l’analyse, sur lesquels l’algorithme pourrait<br />

91


s’appuyer, et que, d’autre part, les liens de coordination peuvent s’établir à longue<br />

distance, il faut apporter beaucoup de soin dans la mise au point des algorithmes.<br />

Comme il est impossible d'anticiper toutes les configurations possibles, il faut procéder<br />

par essais/erreurs via de multiples tests sur corpus. L’outil lui-même sert de dispositif de<br />

découverte.<br />

Adjectif et participes passés<br />

La coordination des adjectifs et participes passés ne pose pas de difficultés majeures.<br />

Dans l’exemple 2 32 , le module Coordination détecte d’abord le coordonnant et, et le mot<br />

initial belle, puis il reconnaît l’adjectif coordonné épaisse. Ensuite, il détecte la virgule,<br />

suivie de l’adjectif coordonné épaisse, et reconnaît le troisième adjectif coordonné<br />

fripée. Dans l’exemple 3, le module Coordination détecte le coordonnant et, et le mot<br />

initial spécialisé, puis il remonte sans embûche jusqu’au participe passé créé. Dans les<br />

exemple 4 et 4’, après avoir reconnu la coordination entre les participes passé quitté et<br />

créé, le module Coordination déplace la cible de la relation partant de l’auxiliaire ont du<br />

participe quitté au coordonnant et.<br />

Verbe<br />

(2) Et les vieilles mains tremblaient, et Rivière détournait les yeux de cette peau<br />

fripée, épaisse et belle. [STX]<br />

(3) Il est « chasseur de têtes » à la Banque centrale de recrutement, un cabinet<br />

créé en septembre 1997 et spécialisé dans les métiers de l'informatique.<br />

[LMO]<br />

(4) des dizaines de militants ont quitté les organisations traditionnelles et créé<br />

leurs propres structures. [LMO]<br />

(4’) des dizaines de militants ont quitté les organisations traditionnelles et créé<br />

leurs propres structures. [LMO]<br />

La coordination des verbes ne pose pas non plus de difficultés majeures. On coordonne<br />

des verbes à des formes finies (exemples 5 et 6), ou des verbes à l’infinitif (exemple 7).<br />

(5) Ce massacre provoqua l'indignation internationale et modifia l'attitude de la<br />

communauté internationale face à la RFY. [LMO]<br />

(6) Ils sont ensuite allés vérifier sur le terrain et ont complété un travail similaire<br />

effectué cet hiver par la mission de vérification de l' OSCE ( KVM ). [LMO]<br />

32 Pour ne pas surcharger le manuscrit de flêches de dépendance, j’adopte une seconde convention pour<br />

marquer les relations de dépendance dans les séquences : le gouverneur est en gras et souligné, le ou les<br />

dépendant(s) sont en gras.<br />

92


(7) Ils pourront communiquer avec le journaliste pour lui demander des<br />

précisions ou lui suggérer une question lors d'une interview. [LMO]<br />

Pronom relatif<br />

Le module Coordination coordonne des pronoms relatifs, qui peuvent être le cas échéant<br />

gouvernés par une préposition (exemples 8 à 10).<br />

(8) Comme Touré, qui a quitté la Guinée en 1992 « pour des raisons politiques »<br />

et qui dit ne pas pouvoir rentrer dans son pays sans risque pour sa vie. [LMO]<br />

(9) Le président Siaka Stevens était célèbre pour la canne creuse sur laquelle il<br />

s'appuyait et surtout dans laquelle il plaçait les diamants devant parvenir en<br />

Europe sans attirer la curiosité des douaniers. [LMO]<br />

(10) Ils tardent à distribuer les nouvelles molécules attendues par les patients sur<br />

lesquels tous les traitements ont échoué et qui vont mourir ». [LMO]<br />

Conjonction de subordination que<br />

<strong>Un</strong>e conjonction de subordination que peut être coordonnée avec une autre conjonction<br />

que (exemple 11) ou avec toute autre conjonction (exemple 12).<br />

(11) Ils apprenaient là, mystérieusement, que, peut-être, on suspendrait les vols de<br />

nuit, et que le courrier d'Europe lui-même ne décollerait plus qu' au jour.<br />

[STX]<br />

(12) Rivière connut cette irritation, que l'on éprouve quand le rapide stoppe sur la<br />

voie, et que les minutes ne délivrent plus leur lot de plaines. [STX]<br />

Préposition autre que de<br />

Pour les prépositions, la contrainte d’isocatégoricité est propagée au dépendant des<br />

prépositions : si la préposition initiale gouverne un nom ou un pronom (resp. un verbe à<br />

l’infinitif), le module de coordination cherche dans le contexte gauche une préposition<br />

gouvernant un nom ou un pronom (resp. un verbe à l’infinitif) (exemples 13 et 14). Le<br />

module de recherche à gauche prend la première préposition qui satisfait cette<br />

contrainte. Les prépositions ne sont pas nécessairement identiques.<br />

(13) Confrontés aux lenteurs de la justice ou à l'attitude jugée partiale d'un<br />

magistrat. [LMO]<br />

(14) C'était là le moyen le plus intelligent d'obliger les nationalistes partisans de la<br />

clandestinité à faire leurs preuves et à dépasser les discours incantatoires et<br />

négatifs. [LMO]<br />

Préposition de<br />

La coordination des prépositions de et celle des noms posent de très sérieux problèmes.<br />

Quand la préposition de gouverne un verbe à l’infinitif, le traitement est simple,<br />

analogue à celui des autres prépositions (exemple 15). Les choses se compliquent quand<br />

93


la préposition de gouverne un nom. La préposition de coordonnée à gauche n’est pas<br />

systématiquement la première préposition de rencontrée. Lors du parcours de recherche,<br />

le module de coordination peut retenir plusieurs prépositions de candidates. Il y a donc<br />

ambiguïté, comme dans les exemples 16 à 18 33 .<br />

(15) Ici on a choisi de ne pas dénoncer les crimes de guerre et de soigner les gens.<br />

[LMO]<br />

(16) Que ce soit au titre du Programme de développement de l'emploi ou du<br />

nouveau Programme de développement des collectivités. [HAN]<br />

(17) Elle demande au gouvernement d'aider les travailleurs de l'industrie du bois<br />

d'oeuvre et du bardeau en vertu de la Loi de soutien de l' emploi. [HAN]<br />

(18) Le président du syndicat des employés de l'Emploi et de l'Immigration a<br />

déclaré : [HAN]<br />

Les configurations d’ambiguïtés sont très variables, et les indices permettant de choisir<br />

sont peu nombreux. Décider de ne pas choisir en invoquant le recours nécessaire à « la<br />

sémantique » ou à des « connaissances du monde » n’est pas dans la philosophie du<br />

projet <strong>SYNTEX</strong>. J’ai cherché à mettre au point une méthode de désambiguïsation, qui<br />

fasse le mieux possible avec les informations disponibles, mieux en tout cas qu’une<br />

solution par défaut qui choisirait systématiquement la première préposition de rencontrée<br />

à gauche. La méthode de désambiguïsation s’appuie sur un principe d’harmonie<br />

morphologique. L’idée est de coordonner des prépositions de dont les noms dépendants<br />

sont « semblables », en terme de nombre et de présence ou non d’un déterminant.<br />

Chaque préposition de est caractérisée par deux paramètres, calculés à partir du nom<br />

qu’elle gouverne : la présence ou non d’un déterminant gouverné par le nom (1 ou 0), le<br />

nombre du nom (S pour singulier, P pour pluriel, ? pour genre indéterminé). La<br />

concaténation de ces deux valeurs constitue le profil de la préposition. Il y a 6 profils<br />

possibles : [0S], [0P], [0?], [1S], [1P], [1?]. La procédure de désambiguïsation choisit la<br />

préposition candidate qui a un profil identique ou proche de la préposition initiale.<br />

Je n’entre pas dans les détails de la procédure, qui est assez complexe car la<br />

combinatoire augmente vite avec le nombre de candidats. Je l’illustre sur quelques<br />

exemples simples, dans lesquels seulement deux prépositions candidates sont en<br />

concurrence. Dans les exemples 19 à 22, les profils des prépositions sont donnés entre<br />

crochets à droite du nom dépendant. Dans les exemples 19 à 21, c’est la première<br />

préposition qui est choisie car elle a le même profil que la préposition droite : dans<br />

l’exemple 19, les noms orientation et surveillance n’ont pas de déterminant et sont au<br />

singulier ([0S]); dans l’exemple 20, les noms hommes et projets n’ont pas de déterminant<br />

et sont au pluriel ([0P]) ; dans l’exemple 21, les noms qualité et production ont un<br />

déterminant et sont au singulier ([1S]). Dans l’exemple 22, c’est la seconde préposition<br />

qui est choisie : les noms anomalies et malformations n’ont pas de déterminant et sont au<br />

pluriel ([0P]).<br />

33 Les prépositions candidates sont en italiques.<br />

94


Noms<br />

(19) La réunion du conseil [1S] d' orientation [0S] et de surveillance [0S]<br />

(20) Ses capacités de meneur [0S] d' hommes [0P] et de projets [0P]<br />

(21) Les systèmes de contrôle [0S] de la qualité [1S] et de la production [1S]<br />

(22) Responsable d' anomalies [0P] de la face [1S] et de malformations [0P]<br />

Le traitement des noms coordonnés est analogue à celui de la préposition de. Plusieurs<br />

candidats nominaux sont sélectionnés dans un premier temps. La désambiguïsation<br />

s’effectue avec les mêmes indices que précédemment. Quelques exemples sont donnés<br />

en 23-27. Dans les cas où les profils de deux candidats sont identiques à celui du nom<br />

initial, le choix par défaut se porte sur le plus proche du coordonnant, ce qui conduit à<br />

des décisions malheureuses parfois, comme dans les exemples 26 et 27.<br />

(23) Dans la vente [1S] de produits [0P] et services [0P]. [LMO]<br />

(24) Président [0S] de l' Association [1S] des maires [1P] de France [0 ?] et<br />

sénateur [0S] du Pas-de-Calais. [LMO]<br />

(25) Cabinets [0P] de conseil [0S] et sociétés [0P] de services informatiques.<br />

[LMO]<br />

(26) Présidents [0P] de tribunaux [0P] et procureurs [0P]. [LMO]<br />

(27) Changement [0S] fréquent de partenaire [0S] et prostitution [0S] sont, dans<br />

ce groupe, de gros facteurs de risque. [LMO]<br />

Certains liens de coordination entre noms posés par le module de coordination pourront<br />

être remis en cause plus tard, lors de la recherche d’autres liens <strong>syntaxique</strong>s. <strong>Un</strong>e<br />

configuration typique est celle où deux noms ont été coordonnés, puis reconnus comme<br />

objets directs d’un verbe, alors que le second nom est sujet dans une seconde clause<br />

(exemple 28). Je reviendrai sur ces cas de figures dans la section 3.2.6, consacrée à la<br />

relation Sujet.<br />

(28) C'est cet acharnement qui engendre la révolte des contribuables et ce genre<br />

de disparités soulève les sentiments populaires [HAN]<br />

Formes de+le<br />

La complexité culmine avec les formes ambiguës de+le. Quand une telle forme est<br />

située à droite d’un coordonnant, elle n’est pas désambiguïsée à l’issue de la phase<br />

d’étiquetage. Le principe du traitement de ces formes est le suivant : le module de<br />

coordination traite d’abord la forme de+le comme une préposition et cherche à<br />

gauche une éventuelle préposition de coordonnée ; s’il réussit, il réétiquette la forme<br />

de+le en Préposition et pose le lien de coordination entre les deux prépositions ; sinon, il<br />

la traite ensuite comme un déterminant et cherche un éventuel nom coordonné ; s’il<br />

réussit, il réétiquette la forme de+le en Déterminant et pose le lien de coordination entre<br />

les deux noms ; s’il échoue dans ces deux tentatives, il laisse l’ambiguïté catégorielle et<br />

ne pose pas de lien de coordination.<br />

95


Dans l’exemple 29, la première forme de a été étiquetée en Préposition (P) car elle suit<br />

immédiatement le nom sens et la forme des est ambiguë, préposition ou déterminant<br />

(PD). La forme des est désambiguïsée en préposition car le module de coordination a pu<br />

la coordonner avec la préposition de (exemple 29’).Dans les exemple 30 et 30’, la forme<br />

du est désambiguïsée en Déterminant car la coordination qu’a reconnue le module<br />

Coordination est celle qui implique les noms financement et dette. Dans les exemples 31<br />

et 31’, la première forme des a été désambiguïsée, au moment du traitement des relations<br />

locales, en Déterminant car elle est située juste après un verbe transitif. La seconde<br />

forme des est désambiguïsée en Déterminant car la coordination qu’a reconnue le<br />

module Coordination est celle qui implique les noms opinions et critères.<br />

(29) Il faut faire appel au sens deP la logique et desPD responsabilités. [HAN]<br />

(29’) Il faut faire appel au sens deP la logique et desP responsabilités. [HAN]<br />

(30) D'ailleurs, ce n'est pas une dette à long terme mais duPD financement à court<br />

terme pour effectuer la transaction. [HAN]<br />

(30’) D'ailleurs, ce n'est pas une dette à long terme mais duD financement à court<br />

terme pour effectuer la transaction. [HAN]<br />

(31) Il présente desD critères subjectifs et non desPD opinions subjectives. [HAN]<br />

(31’) Il présente desD critères subjectifs et non desD opinions subjectives. [HAN]<br />

La situation peut être plus complexe, par exemple dans les cas où la recherche du<br />

coordonné à gauche aboutit à une nouvelle forme de+le non désambiguïsée, précédée<br />

d’une virgule. Il faut alors retarder la désambiguïsation, et poursuivre par le traitement<br />

de la virgule, considérée alors comme coordinatrice, jusqu’à ce que la désambiguïsation<br />

soit possible. On a alors une désambiguïsation en chaîne. Dans l’exemple 32, ce n’est<br />

qu’au moment du traitement de la dernière virgule (la première dans l’ordre séquentiel<br />

de la séquence), grâce à la non ambiguïté de la forme des après le verbe a, que le module<br />

coordination a pu boucler l’affaire, en désambiguïsant les formes des en Déterminant et<br />

en coordonnant les noms (exemples 32’ à 32’’’). Dans l’exemple 33, c’est la détection de<br />

la préposition du après le nom cadre qui déclenche la résolution en chaîne du problème<br />

(exemple 33’).<br />

(32) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt<br />

et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />

(32’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt<br />

et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />

(32’’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt<br />

et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />

(32’’’) Il y a desD dégrèvements, desD échappatoires fiscales, desD reports d'impôt<br />

et desD stimulants fiscaux accordés aux entreprises privées. [HAN]<br />

96


(33) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duPD<br />

développement de programmes, dePD la réforme de la fiscalité ou dePD la<br />

réduction du déficit. [HAN]<br />

(33’) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duP<br />

développement de programmes, deP la réforme de la fiscalité ou deP la<br />

réduction du déficit. [HAN]<br />

3.2.5. Objet et attribut<br />

Après la relation de coordination, je présente les relations dites « non ambiguës ». La<br />

présente section est consacrée aux relations Objet et Attribut. La relation Sujet est traitée<br />

dans la section suivante, car les problèmes qu’elle pose sont très différents de ceux que<br />

je vais aborder dans cette section. Pour les relations Objet et Attribut, les conventions de<br />

représentation en dépendance sont les suivantes : la relation Attribut a pour source le<br />

verbe et pour cible l’attribut (adjectif, nom, pronom personnel, pronom relatif ou verbe à<br />

l’infinitif) ; quand le verbe est à une forme composée, c’est le participe qui est la source<br />

du lien, sauf quand l’attribut est un clitique (exemples 1) ; la relation Objet a pour source<br />

le verbe et pour cible le complément d’objet (nom, pronom personnel, pronom relatif,<br />

verbe à l’infinitif, conjonction que) ; quand le verbe est à une forme composée, c’est le<br />

participe qui est la source du lien, sauf quand l’objet est un clitique (exemples 2). Ces<br />

conventions valent pour les configurations à attribut de l’objet (exemples 3). Pour les<br />

configurations à double objet, on distingue la relation OBJ1 entre le verbe et l’objet<br />

nominal et OBJ entre le verbe et l’infinitif (exemples 4). Dans les cas de coordination<br />

d’attributs ou d’objets, c’est le coordonnant qui est la cible de la relation de dépendance.<br />

(1) Il est heureux Il l’est Il a été heureux Il l’a été l’homme qu’il a été<br />

(2) Il mange une pomme Il souhaite manger Il l’a mangé la pomme qu’il a mangée<br />

OBJ ATT OBJ ATT<br />

OBJ ATT<br />

(3) Il la croit malade Il l’ a nommé ministre l’homme qu’il a nommé ministre<br />

OBJ1<br />

OBJ OBJ1 OBJ OBJ1 OBJ<br />

(4) Je vois Jean partir. Je l’ ai vu partir. L’homme que j’ai vu partir<br />

97


La reconnaissance de la relation Attribut ne pose pas de problèmes difficiles.<br />

L’<strong>analyseur</strong> exploite une liste de verbes susceptibles de se construire avec un attribut du<br />

sujet (être, devenir, paraître…), une liste de verbes susceptibles de se construire avec un<br />

attribut de l’objet (considérer, croire, déclarer, juger…). Les configurations à attribut de<br />

l’objet sont très souvent ambiguës (je juge les enfants malades). Dans son état actuel,<br />

l’<strong>analyseur</strong> ne cherche à reconnaître des attributs de l’objet que dans les contextes non<br />

ambigus suivants : (i) le verbe attributif est au passif (exemple 5) ; (ii) le complément<br />

d’objet du verbe est le pronom relatif que (exemple 6) ; (iii) le complément d’objet du<br />

verbe est un pronom clitique (exemple 7) ; (iv) le complément d’objet du verbe est placé<br />

après l’attribut (exemple 8).<br />

(5) La pétition a été certifiée correcte par le greffier des pétitions. (ATTO) [HAN]<br />

(6) Ils exercent un droit qu'ils estiment tout à fait légitime. (ATTO) [HAN]<br />

(7) L'un des objectifs de la réforme des pensions de la fonction publique est de<br />

les rendre conformes aux exigences de la LNPP. (ATTO) [HAN]<br />

(8) Il n'appartient pas aux tribunaux d'ajouter les détails qui rendent<br />

constitutionnelles les lacunes législatives. (ATTO)[HAN]<br />

La mission assignée au module Objet se formule simplement ainsi : sélectionner le<br />

premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à droite du verbe. Mais<br />

le traitement de la relation Objet est plus difficile que celui de la relation Attribut. Les<br />

objets appartiennent à diverses catégories morpho<strong>syntaxique</strong>s : pronom clitique, pronom<br />

relatif que, nom, verbe à l’infinitif 34 . Certains verbes se construisent avec deux objets, un<br />

objet nominal et un objet verbal (emmener, envoyer, faire, laisser…, apercevoir,<br />

contempler, écouter, entendre, entrevoir, observer…). La difficulté du traitement est<br />

principalement due au fait que, comme l’étiquetage des formes que en Pronom relatif<br />

n’est pas fiable, j’assigne au module la mission supplémentaire de corriger autant que<br />

possible ces erreurs d’étiquetage.<br />

Le lien Objet entre un pronom relatif que et le verbe de la subordonnée relative n’est pas<br />

placé par le module Objet, mais par le module Sujet, qui sera décrit dans la section<br />

suivante. Cela peut paraître paradoxal puisque le principe de l’approche modulaire veut<br />

qu’une relation <strong>syntaxique</strong> soit traitée par un seul module et que chaque module ne traite<br />

qu’une seule relation <strong>syntaxique</strong>. Ce principe, qui s’impose pour des raisons de facilité<br />

de maintenance, peut être écorné quand une contrainte d’efficacité s’impose. En<br />

l’occurrence, au moment où le module Sujet a trouvé le sujet d’un verbe, il lui est facile<br />

de remonter de quelques pas sur la gauche pour relever la présence éventuelle d’un<br />

pronom relatif, et placer à ce moment-là, en plus d’un lien entre le verbe et le sujet, un<br />

lien entre le verbe et le pronom relatif. Ce lien est un lien Objet si le relatif est que.<br />

34 Les liens Objet entre un verbe et une forme que étiquetée Conjonction de subordination ne sont pas traités<br />

ici. <strong>Un</strong>e partie des liens de ce type est placée au moment du traitement des relations locales (cf. 3.2.3). <strong>Un</strong>e<br />

autre partie en fin d’analyse (cf. 3.2.13).<br />

98


La recherche d’un complément d’objet est systématique. Elle est déclenchée pour tout<br />

verbe, conjugué ou infinitif, quelles que soient ses propriétés lexicales, i.e. qu’il soit<br />

transitif ou non, pour des raisons qui apparaîtront évidentes plus loin dans cette section.<br />

Le module dispose de l’information de la présence d’un pronom relatif objet, car la<br />

recherche des sujets précède celles des objets. Dans un premier temps, le module teste la<br />

présence d’un pronom clitique, et celle d’un verbe infinitif en construction directe dans<br />

le contexte droit du verbe. Il est donc potentiellement face à 6 cas de figure, selon qu’il y<br />

a un pronom relatif objet ou non, un clitique ou non et un verbe infinitif ou non (en<br />

éliminant le cas où aucun objet de ce type n’a été reconnu, et le cas où les 3 ont été<br />

reconnus, si rarissime qu’il n’est pas traité) :<br />

1) Pas de pronom relatif, un clitique, pas de verbe à l’infinitif. Le module place un lien<br />

Objet entre le verbe et le clitique.<br />

2) Pas de pronom relatif, pas de clitique, un verbe à l’infinitif. Le module place un lien<br />

Objet entre le verbe et le verbe à l’infinitif.<br />

3) Pas de pronom relatif, un clitique, un verbe à l’infinitif. Le module vérifie que le<br />

verbe initial appartient à la liste des verbes à double objet, et place les deux liens<br />

Objet (exemple 9).<br />

OBJ1 OBJ<br />

(9 ) Les mécaniciens sournois l' avaient laissé flétrir pendant vingt minutes. [STX]<br />

4) <strong>Un</strong> pronom relatif, un clitique, pas de verbe à l’infinitif. Le pronom relatif que est<br />

réétiqueté Conjonction de subordination, le lien entre que et le verbe est inversé, et<br />

un lien Objet est placé entre le verbe et le clitique (exemples 10 et 10’).<br />

(10) C' est avec fierté, sérieux et intégrité que Rel je les représenterai. [HAN]<br />

99<br />

OBJ<br />

OBJ<br />

(10’) C' est avec fierté, sérieux et intégrité queSub je les représenterai. [HAN]<br />

5) <strong>Un</strong> pronom relatif, pas de clitique, un verbe à l’infinitif. Si le verbe initial appartient<br />

à la liste des verbes à double objet, le module requalifie en OBJ1 le lien entre le<br />

verbe et le pronom relatif et place un lien Objet entre le verbe et le verbe à l’infinitif<br />

(exemple 11). Sinon, il laisse le lien Objet entre le pronom relatif et le verbe, et<br />

ajoute un second lien Objet à partir du verbe vers le verbe à l’infinitif. Ce lien sera<br />

déplacé éventuellement en fin d’analyse, au moment où l’<strong>analyseur</strong> traite le cas des<br />

subordonnées relatives dont le verbe principal gouverne, directement ou via une<br />

préposition, un verbe à l’infinitif (section 3.2.13). Dans le cas de l’exemple 12,


l’origine du lien qui pointe vers le pronom relatif que sera déplacé sur le verbe<br />

déposer.<br />

OBJ1 OBJ<br />

(11) C’est l'histoire des compagnons qu' il a vu sortir vivants du « couloir ». [LMO]<br />

OBJ OBJ<br />

(12) J'ai ici des pétitions que je compte déposer ce matin. [LMO]<br />

Le 6 ème cas de figure est celui où il y a un pronom relatif, et ni clitique, ni verbe à<br />

l’infinitif. Le module teste la présence d’un nom (ou d’un pronom) en construction<br />

directe à droite du verbe. S’il y a un pronom relatif et un nom, le module réétiquette le<br />

pronom relatif que en Conjonction de subordination, et modifie en conséquence la<br />

relation entre la forme que et le verbe de la relative (exemples 13 et 13’), et il ne reste<br />

qu’un nom.<br />

OBJ<br />

(13) C'est grâce à elle qu’ Rel il a séquencé, entre autres, le virus de la grippe.[LMO]<br />

OBJ<br />

(13’) C'est grâce à elle qu’ Sub il a séquencé, entre autres, le virus de la grippe.[LMO]<br />

S’il y a un nom, et pas de pronom relatif, ce n’est qu’à ce stade du traitement que le<br />

module se préoccupe de la propriété de transitivité du verbe. Le module exploite une<br />

liste de verbes censés ne pas se construire avec un complément d’objet nominal. Cette<br />

liste a été construite automatiquement à partir d’un vaste corpus annoté par <strong>SYNTEX</strong>,<br />

selon une technique qui sera décrite dans la section 3.2.8 consacrée aux ressources<br />

lexicales. Si le verbe est transitif, le module pose un lien Objet entre le verbe et le nom.<br />

Si le verbe est intransitif, et qu’il est à l’infinitif, le module teste s’il n’est pas objet d’un<br />

verbe à double objet, auquel cas le module place une relation OBJ1 entre ce dernier verbe<br />

et le nom (exemple 14).<br />

OBJ<br />

OBJ1<br />

(14) Moscou laisse toujours planer le doute sur ses intentions de vote. [LMO]<br />

S’il y a un pronom relatif que objet, et pas de nom, et si le verbe est transitif, le module<br />

laisse le lien Objet entre le verbe et le nom. Si le verbe est intransitif, la procédure<br />

décrite précédemment à propos des noms objets de verbes intransitifs ne s’applique pas<br />

immédiatement. Le lien entre ce verbe et le pronom relatif est provisoirement maintenu.<br />

100


Le traitement de ces configurations est pris en charge par un module spécifique, qui est<br />

décrit dans la section 3.2.13. C’est ce dernier module qui reconnaîtra dans l’exemple 15<br />

que le gouverneur du pronom relatif est entretenir et non pas suffit, et qui, dans<br />

l’exemple 16, testera de la même façon le verbe rendre comme gouverneur du pronom<br />

relatif (sans succès puisque ce verbe aura alors déjà un objet). De tels traitements ne sont<br />

envisageables que quand d’avantage de liens ont été posés dans la séquence, et donc il<br />

serait prématuré d’interdire un lien entre un pronom relatif que et un verbe intransitif à<br />

ce stade de l’analyse.<br />

OBJ<br />

(15) <strong>Un</strong> jardin tout planté, qu' il suffit ensuite d'entretenir, n'est pas intéressant. [LMO]<br />

OBJ<br />

(16) C'est pour combler le déficit qu' on songe à rendre obligatoire l'alcool carburant. [LMO]<br />

Quelle que soit la configuration, quand le module s’apprête à placer un lien entre un<br />

verbe à double objet et un nom à sa droite, il teste la présence d’un verbe à l’infinitif<br />

sans gouverneur dans le contexte droit de ce nom. En cas de succès, il pose un lien OBJ1<br />

entre le verbe et le nom, et un lien OBJ entre le verbe et le verbe à l’infinitif<br />

(exemple 17).<br />

OBJ1<br />

OBJ<br />

(17) Il voit une marée humaine onduler dans la fumée des cigares. [LMO]<br />

Pour finir, quand le module a posé un lien Objet entre un verbe et un nom, il garde cette<br />

information en mémoire, sous la forme d’un triplet (verbe, OBJ, nom), pour une<br />

exploitation ultérieure dans le processus de désambiguïsation des rattachements des<br />

pronoms relatifs (section 3.2.7) et des prépositions de (section 3.2.9).<br />

3.2.6. Sujet<br />

Pour la relation Sujet, les conventions de représentation sont les suivantes : la relation<br />

Sujet a pour source le verbe et pour cible le sujet (nom, pronom personnel, pronom<br />

relatif ou verbe à l’infinitif) ; quand le verbe est à une forme composée, c’est l’auxiliaire<br />

qui est la source du lien (exemples 1). Dans les cas de coordination de sujets, c’est le<br />

coordonnant qui est la cible de la relation de dépendance. Dans les cas de coordination<br />

de verbes, c’est le coordonnant qui est la source de la relation de dépendance.<br />

101


(1) Jean mange. Il a mangé. Fumer est interdit.<br />

OBJ SUJ OBJ SUJ<br />

(1’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean<br />

Il faut noter que ces conventions, jointes à celles portant sur la relation Objet, conduisent<br />

à des croisements de liens dans les relatives à sujet inversé (exemples 1’). Les arbres de<br />

dépendance construits par <strong>SYNTEX</strong> ne sont donc pas tous projectifs. C’est inévitable à<br />

partir du moment où je n’utilise pas de moyen de regrouper en une seule unité plusieurs<br />

mots qui se comportent comme un seul mot du point de vue de certains phénomènes<br />

<strong>syntaxique</strong>s. Les stemmas de Tesnière (1959) comportent des « nucléus », et on a vu que<br />

Mel’čuk (1988) utilisait des « regroupements » pour représenter certains cas de<br />

coordination (section 3.2.4). Sylvain Kahane (2000) propose, dans sa grammaire de<br />

dépendance lexicalisée à bulles, de représenter formellement ces objets grâce à la notion<br />

de « bulle » (exemples 1’’).<br />

OBJ SUJ OBJ SUJ<br />

(1’’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean<br />

Dans <strong>SYNTEX</strong>, Les fonctions de parcours génériques empêchent toute prise de décision<br />

qui conduirait à un croisement de lien. Ce n’est que dans des cas particuliers, tels que<br />

celui-ci, que des règles spécifiques peuvent poser des liens se croisant.<br />

La mission assignée au module Sujet se formule simplement ainsi : sélectionner le<br />

premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à gauche du verbe dans<br />

un premier temps, puis à droite du verbe en cas d’échec. Ce principe n’est valide que si<br />

l’architecture de l’<strong>analyseur</strong> est telle qu’elle assure que les autres contextes où un nom<br />

peut être gouverné ont été traités :<br />

- au moment du traitement des relations locales en début d’analyse (section 3.2.3), les<br />

noms gouvernés par une préposition ont été liés.<br />

- pour la reconnaissance des liens Sujet et Objet, la séquence est analysée de gauche à<br />

droite ; dès qu’un verbe conjugué est rencontré, le module Sujet est lancé, puis le<br />

module Objet, dès qu’un verbe à l’infinitif est rencontré, le module Objet est lancé.<br />

Ainsi les compléments d’objets ou les sujets inversés dans les subordonnées<br />

relatives intercalées entre un verbe et son sujet ont été attachés avant la recherche du<br />

sujet du verbe, comme cela sera illustré dans les exemples 2-4.<br />

La relation Sujet pose des problèmes d’un tout autre ordre que la relation Objet. Dans le<br />

cas de cette dernière, la difficulté ne tenait pas tant à la découverte des compléments<br />

d’objet qu’à la gestion des configurations dans lesquelles plusieurs types d’objets<br />

pouvaient avoir été trouvés. Avec la relation Sujet, l’élaboration des algorithmes de<br />

reconnaissance est rendue complexe du fait de la variété des configurations que l’on peut<br />

rencontrer entre un verbe et son sujet, en particulier à cause de l’interposition possible de<br />

102


subordonnées relatives et de séquences incises entre virgules. La mise au point du<br />

module Sujet exige patience et minutie, et s’appuie, plus encore que celle des autres<br />

modules, sur des allers et retours incessants entre l’implémentation et les tests sur<br />

corpus. Le module de recherche des sujets utilise de façon intensive la fonction frGmax<br />

pour parcourir le plus rapidement et le plus sûrement possible la séquence.<br />

Je ne détaille pas ici l’algorithme de reconnaissance des sujets. Je commente un certain<br />

nombre d’exemples pour en faire comprendre les caractéristiques essentielles. Dans les<br />

exemples qui suivent, les pas du parcours sont indiqués par des indices numériques sur<br />

les mots 35 . Dans l’exemple 2, le module cherche un sujet pour le verbe vont. Il entame<br />

son parcours à gauche du verbe. Le premier pas de son parcours est le nom vacances.<br />

Celui-ci est gouverné par la préposition pour, il ne peut être choisi comme sujet. Le<br />

parcours se poursuit à la préposition pour (pas n°2), puis au nom embarcation situé à<br />

gauche de la préposition (pas n°3). Ce nom est gouverné par le verbe recherchent, et ne<br />

peut lui non plus être choisi comme sujet. Le parcours se poursuit au verbe recherchent<br />

(pas n°4), puis à la frontière maximale droite de ce mot, qui est le pronom relatif qui. Ce<br />

pronom ayant déjà un gouverneur, le module se déplace immédiatement à sa gauche, où<br />

il trouve le pronom sans gouverneur ceux, qu’il retient comme sujet du verbe vont.<br />

(2) Ceux 6 qui 5 recherchent 4 une embarcation 3 pour 2 leurs prochaines vacances 1<br />

vont pouvoir déambuler au milieu des stands de la porte de Versailles à la<br />

recherche du bateau de leur rêve. [LMO]<br />

L’exemple 3a illustre le cas, fréquent, d’un sujet inversé dans une relative. Le module<br />

Sujet reconnaît le nom Bercy comme sujet du verbe de la relative (trouve). Au moment<br />

de sa recherche du sujet du verbe découle, il ne sélectionne donc pas ce nom, et<br />

reconnaît comme sujet, au-delà de la relative intercalée, le nom situation (exemple 3b).<br />

Dans l’exemple 4, les transitions au pas n° 3 (d’une préposition à un adjectif<br />

immédiatement à gauche) et au pas n°4 (d’un adjectif à un nom immédiatement à<br />

gauche) illustrent le fait que l’algorithme de parcours est conçu de façon à « remonter »<br />

les groupes nominaux potentiels, alors que les liens de dépendance au sein de ces<br />

groupes n’ont pas encore été posés (comme le lien entre la préposition de et son<br />

gouverneur). De façon générale, le postulat qu’il existe certainement un sujet autorise<br />

des prises de risques, raisonnables, dans le parcours, et justifie que l’on peut chercher à<br />

reconnaître les liens Sujet, pourtant susceptibles d’être à longue distance, assez tôt dans<br />

le processus de reconnaissance <strong>syntaxique</strong> de l’énoncé.<br />

(3a) L'étrange situation dans2 laquelle1 se trouve Bercy3 découle largement de la<br />

décision prise par le chef du gouvernement. [LMO]<br />

(3b) L'étrange situation5 dans4 laquelle3 se trouve2 Bercy1 découle largement de<br />

la décision prise par le chef du gouvernement. [LMO]<br />

35 Ces indices ne représentent plus les numéros des mots dans la séquence, comme dans la section 3.2.2.<br />

103


(4) Laisser9 s'installer l'idée8 que7 l'IVG peut6 constituer5 un palliatif4<br />

acceptable3 de2 la contraception1 équivaut à une démission, à un retour en<br />

arrière. [LMO]<br />

Des incises sont fréquemment intercalées entre un verbe et son sujet. Dans l’exemple 5,<br />

le module se déplace de la virgule située à gauche du premier verbe coordonné prend<br />

(pas n°1) à la première virgule qu’il rencontre à gauche (pas n°2), puis il continue son<br />

parcours jusqu’au nom membre (pas n°3 à 5). La situation peut être, en apparence, plus<br />

compliquée quand incises et relatives sont intercalées. Dans l’exemple 6a, le module<br />

reconnaît d’abord le lien sujet entre le coordonnant et et le pronom relatif qui, en sautant<br />

l’incise peu après Trafalgar. Cela lui permet ensuite d’identifier le nom navire comme<br />

sujet du verbe était (exemple 6b), grâce au saut entre le coordonnant et et sa frontière<br />

gauche maximale qui (pas n°8). L’algorithme de recherche des sujets est conçu sur la<br />

base de l’hypothèse que les virgules dans les séquences sont correctement équilibrées.<br />

C’est une contrainte forte qui vaut pour tous les modules de <strong>SYNTEX</strong>. Quand, dans une<br />

séquence, cette norme n’est pas respectée, l’analyse échoue le plus souvent. C’est le cas<br />

dans les exemples 7a et 7b, où l’absence de virgule fermante après l’adjectif rural<br />

empêche la reconnaissance du sujet du verbe doivent, pour lequel le module Sujet<br />

échoue sur la préposition comme (exemple 7a), et du sujet du verbe précise, pour lequel<br />

le module Sujet échoue sur le nom aspects (exemple 7b), qui ne s’accorde pas avec le<br />

verbe.<br />

(5) La célèbre membre5 de4 la meute3 ,2 la députée de Hamilton Est ,1 prend la<br />

parole et salit tout ce qu'elle peut. [HAN]<br />

(6a) En fait le navire, qui3 ,2 peu après Trafalgar ,1 avait été pris par les Anglais au<br />

large de la côte portugaise et avait servi longtemps dans la Royal Navy, était<br />

en si mauvais état que les explosifs, au lieu de percer des trous dans la coque<br />

comme il avait été prévu, la détruisirent complètement. [LMO]<br />

(6b) En fait le navire9 qui8 , peu après Trafalgar , avait été pris par les Anglais au<br />

large de la côte portugaise et7 avait6 servi5 longtemps4 dans3 la Royal2 Navy1<br />

était en si mauvais état que les explosifs, au lieu de percer des trous dans la<br />

coque comme il avait été prévu, la détruisirent complètement. [LMO]<br />

(7a) Les aspects non-commerciaux de l'agriculture, comme4 la protection de<br />

l'environnement, la sécurité alimentaire et3 le développement2 rural1 doivent<br />

être pris en compte, précise le texte. [LMO]<br />

(7b) Les aspects6 non-commerciaux5 de4 l'agriculture3 ,2 comme la protection de<br />

l'environnement, la sécurité alimentaire et le développement rural doivent<br />

être pris en compte ,1 précise le texte. [LMO]<br />

Différents types de configurations d’inversion de sujet sont reconnues, en plus des<br />

relatives, par exemple quand un syntagme prépositionnel est positionné en tête de<br />

séquence (Sous le pont Mirabeau coule la Seine). Le syntagme prépositionnel n’est pas<br />

nécessairement séparé du verbe par une virgule. Dans l’exemple 8, quand le module<br />

Sujet traite le verbe est, il arrive (pas n°4) à la préposition à en tête de séquence, sans<br />

104


avoir trouvé de sujet. Il relance alors une recherche à droite du verbe et trouve le nom<br />

notion. Dans l’exemple 9, c’est au pas n°12 que le module fait demi-tour pour aller<br />

chercher le sujet menace à droite du verbe ajoute.<br />

(8) À4 Charlottetown3 ,2 en 1864 ,1 est née la notion5 d'un peuple dont les divers<br />

éléments sont à la fois unis et fiers de leurs différences<br />

(9) Aux12 soucis12 que11 lui causait10 sa majorité9 au8 conseil7 général6 d'5 Ille et4<br />

Vilaine3 ,2 qu'il préside depuis 1982 ,1 s'ajoute aujourd'hui une menace13<br />

directe sur sa gauche. [LMO]<br />

Le module Sujet peut être amené à défaire des liens posés par le module Coordination et<br />

d’autres modules. Dans l’exemple 10a, le module Coordination a coordonné les noms<br />

histoire et régions et le module Objet a placé un lien entre le verbe a et le coordonnant<br />

et. Quand il cherche le sujet du verbe ont (exemple 10b), le module Sujet part du nom<br />

régions, situé immédiatement à gauche du verbe. Ce nom est gouverné par le<br />

coordonnant et. Le module Sujet garde en mémoire l’information selon laquelle un nom<br />

situé à gauche est gouverné par un coordonnant, et il poursuit son parcours du<br />

coordonnant et au verbe a, dont ce coordonnant est objet. De façon générale, quand le<br />

module Sujet atteint dans son parcours un verbe conjugué, il s’attend à ce que celui-ci<br />

soit le verbe d’une proposition relative ou complétive, auquel cas il continue sa<br />

recherche à partir du pronom relatif ou de la conjonction. Quand ce n’est pas le cas, s’il a<br />

en mémoire le fait qu’il a trouvé au cours de son parcours un nom coordonné à gauche<br />

du verbe dont il cherche le sujet, il utilise cette information pour défaire les liens 36 . Dans<br />

l’exemple 10c, le module décoordonne les noms histoire et régions, déplace la cible du<br />

lien Objet du coordonnant vers le nom histoire, et enfin ajoute un lien Sujet entre le<br />

verbe ont et le nom régions. La situation est analogue dans l’exemple 11, où le module<br />

Sujet décoordonne les noms lots et fiches pour placer un lien Sujet entre seront et fiches,<br />

et dans l’exemple 12, où le module Sujet décoordonne les noms faim et chef pour placer<br />

un lien Sujet entre pouvait et chef.<br />

(10a) Le Canada a une histoire relativement courte et certaines régions ont<br />

une histoire encore plus courte que d' autres. [HAN]<br />

(10b) Le Canada4 a3 une histoire relativement courte et2 certaines régions1 ont une<br />

histoire encore plus courte que d'autres. [HAN]<br />

(10c) Le Canada a une histoire relativement courte et certaines régions ont<br />

une histoire encore plus courte que d' autres. [HAN]<br />

(11) Les différents manuels et encyclopédies vendus dans les librairies apportent<br />

leur lot de renseignements pratiques et les petites fiches décrivant les plantes<br />

36 Tout ceci évoquera à ceux qui les connaissent le fonctionnement des ATN.<br />

105


qui les accompagnent seront d'un grand secours pour ceux qui débutent.<br />

[LMO]<br />

(11’) Les différents manuels et encyclopédies vendus dans les librairies apportent<br />

leur lot de renseignements pratiques et les petites fiches décrivant les plantes<br />

qui les accompagnent seront d'un grand secours pour ceux qui débutent.<br />

[LMO]<br />

(12) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang<br />

au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de<br />

presse à El Paso, faire état que de la découverte de restes « qui pourraient être<br />

humains ». [LMO]<br />

(12’) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang<br />

au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de<br />

presse à El Paso, faire état que de la découverte de restes « qui pourraient être<br />

humains ». [LMO]<br />

Les formes de+le à droite d’une virgule ne sont pas désambiguïsées au moment du<br />

traitement des relations locales (cf. 3.2.2). Elles peuvent l’être dans certains cas quand<br />

une coordination est reconnue (cf. 3.2.3). Elles peuvent être désambiguïsées aussi par le<br />

module Sujet. Dans l’exemple 13, le module Sujet, après avoir identifié le nom millions<br />

comme seul sujet possible pour le verbe croupissaient, réétiquette la forme des devant ce<br />

nom en Déterminant (PD, pour Préposition ou Déterminant, et D pour Déterminant).Il<br />

désambiguïse selon le même principe la forme de dans l’exemple 14. Il désambiguïse en<br />

chaîne les formes des dans l’exemple 15.<br />

(13) Sans grands secours, desPD D millions de personnes déplacées croupissaient<br />

encore dans les centres de regroupement ou campaient dans des villes en<br />

ruines. [LMO]<br />

(14) Avec le boom économique des années 1975-1983, dePD D vraies maisons où<br />

vivent aujourd'hui la majorité des habitants s'élevèrent. [LMO]<br />

(15) A mesure que la vidéo se déroule, desPD D textes et desPD D illustrations<br />

d'accompagnement apparaissent automatiquement sur une autre partie de<br />

l'écran. [LMO]<br />

Pour finir, quand le module a posé un lien Sujet entre un verbe et un nom, il stocke cette<br />

information en mémoire, sous la forme d’un triplet (verbe, SUJ, nom). Les triplets acquis<br />

à l’issue du traitement de l’intégralité du corpus par les modules Sujet et Objet seront<br />

exploités dans le processus de désambiguïsation endogène des rattachements des<br />

prépositions de (section 3.2.9) et des relatifs (section 3.2.10).<br />

3.2.7. Les relations ambiguës : apprentissage endogène<br />

Après les relations Objet, Attribut et Sujet, je présente les relations dites « ambiguës ». Il<br />

s’agit des relations suivantes : la relation entre un pronom relatif et son antécédent<br />

106


(relation REL), la relation entre une préposition et son gouverneur (relation PREP) et la<br />

relation entre un adjectif et le nom dont il est épithète (relation ADJ). Ces relations sont<br />

ambiguës en ce sens qu’au moment de la recherche des liens <strong>syntaxique</strong>s plusieurs cibles<br />

de rattachement peuvent être identifiées, qui sont toutes <strong>syntaxique</strong>ment également<br />

plausibles : on ne peut les départager sur de simples critères de configuration <strong>syntaxique</strong>.<br />

Ces relations imposent un mode de traitement particulier comprenant une phase de<br />

désambiguïsation, qui n’existe pas avec les relations Objet, Attribut et Sujet. Pour<br />

chacune de ces relations, le traitement s’effectue en deux étapes :<br />

- au cours d’une première passe, le module chercherCandidat recherche des candidats<br />

gouverneurs sur la base de critères configurationnels ;<br />

- dans le cas où plusieurs candidats ont été identifiés, le module choisirCandidat<br />

procède à la désambiguïsation en sélectionnant un candidat sur la base d’indices<br />

lexico-<strong>syntaxique</strong>s affectés à chacun des candidats.<br />

Les indices sont de deux types : endogène et exogène. Le principe de l’apprentissage<br />

endogène, que j’avais introduit dans LEXTER (section 1.2), a été repris et étendu dans<br />

<strong>SYNTEX</strong>. Comme nous l’avons dans la section 2.3.4 du chapitre 2, ce principe a été<br />

utilisé par F. Debili dans son <strong>analyseur</strong> (Debili, 1982). Il est aussi à la base des travaux<br />

de R. Basili, M.T. Pazienza et M. Vindigni sur l’analyse <strong>syntaxique</strong> de l’italien (Basili et<br />

al., 1999). L’intérêt est de capter automatiquement des spécificités du corpus, en terme<br />

de forces d’association entre unités lexicales, pour les utiliser, en circuit fermé, à des fins<br />

de désambiguïsation. Les indices endogènes sont calculés à partir d’informations<br />

collectées par l’<strong>analyseur</strong> lui-même au cours du traitement du corpus. Ces informations<br />

sont obtenues à partir de triplets stockés en mémoire par les différents modules au fur et<br />

à mesure de l’analyse. Ces triplets ont la forme (w,R,w’), ils sont extraits de contextes<br />

non ambigus dans lesquels l’<strong>analyseur</strong> a placé un lien <strong>syntaxique</strong> R entre le gouverneur<br />

w et le dépendant w’. Par exemple, dans l’exemple 1, le module Sujet stocke en mémoire<br />

le triplet (voter,SUJ,néo-démocrate) ; le module chercherCandidat associé à la relation<br />

PREP de recherche des gouverneurs des prépositions stocke en mémoire le triplet<br />

(voter,CONTRE,TRPG), car il a trouvé le verbe voter comme seul candidat pour la<br />

préposition contre 37 .<br />

(1) Les néo-démocrates avaient également voté contre la TRPG. [HAN]<br />

Le premier triplet peut permettre de choisir le bon rattachement de la préposition de dans<br />

un contexte comme « le vote de défiance des néo-démocrates », si on utilise en plus un<br />

lexique morphologique dans lequel le nom vote est associé au verbe voter<br />

(section 3.2.10). Bien entendu, l’information désambiguïsante est susceptible<br />

d’apparaître dans le corpus après le contexte ambigu. Il s’ensuit que les modules qui<br />

exploitent des informations de type endogène doivent intervenir une fois que l’ensemble<br />

du corpus a été traité, éventuellement en plusieurs passes, par les modules qui acquièrent<br />

37 Dans le cas de la relation PREP, le triplet est construit à partir de 2 liens <strong>syntaxique</strong>s, celui entre le<br />

gouverneur de la préposition et la préposition et celui entre la préposition et son dépendant : le premier élément<br />

du triplet est le gouverneur de la préposition, le deuxième est la préposition elle-même, le troisième est le<br />

dépendant de la préposition.<br />

107


ces informations. L’apprentissage endogène implique donc, dans son principe même, le<br />

traitement du corpus en au moins deux passes. Les modules Sujet et Objet, et les trois<br />

modules chercherCandidat, correspondant aux trois relations ambiguës introduites plus<br />

haut, ont traité l’ensemble des séquences du corpus, avant la phase de désambiguïsation :<br />

ces modules n’ont acquis que les triplets reconnus dans des contextes non ambigus,<br />

c’est-à-dire ceux dans lequel un seul candidat a été identifié. Les modules de<br />

désambiguïsation disposent d’un ensemble de données endogènes constituées de triplets<br />

(w,R,w’), et de leur fréquence F(w,R,w’).<br />

Pour la résolution des ambiguïtés de rattachement prépositionnel, le module<br />

choisirCandidatPrep calcule à partir de ces données des probabilités de<br />

sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec<br />

telle préposition). Le mode de calcul de ces probabilités est simple. Lors du traitement de<br />

l’ensemble du corpus, le module chercherCandidatPrep a acquis non seulement les<br />

triplets (w,p,w’), où w est le gouverneur de la préposition p, et w’ le dépendant (nom ou<br />

verbe à l’infinitif), mais il a compté aussi pour chaque mot w le nombre d’occurrences<br />

dans le corpus où ce mot n’est candidat gouverneur d’aucune préposition. A l’issue du<br />

traitement de l’ensemble du corpus, le module choisirCandidatPrep dispose des données<br />

de fréquence suivantes :<br />

– F(w,0) : nombre d’occurrences non ambiguës où le mot w ne gouverne aucune<br />

préposition,<br />

– F(w,p,w’) : nombre d’occurrences non ambiguës où le mot w gouverne la<br />

préposition p, qui elle-même gouverne le mot w’,<br />

La probabilité est calculée comme une fréquence relative pondérée 38 . Soit T, l’ensemble<br />

des triplets (w,p,w’). Pour un couple (w,p), on définit Ew,p comme l’ensemble des mots<br />

w’ tels que la fréquence F(w,p,w’) est supérieure à 0. Je définis la productivité du couple<br />

(w,p), Prod(w,p), comme le cardinal de l’ensemble Ew,p, c’est-à-dire comme le nombre<br />

de mots différents que gouverne la préposition p quand elle-même est gouvernée par le<br />

mot w. J’utilise ce coefficient pour pondérer la fréquence totale du couple (w,p). A<br />

fréquence égale, plus le couple (w,p) a été repéré avec des contextes w’ différents, plus<br />

grande est estimée la propension du mot w à gouverner la préposition p. L’expérience<br />

montre en effet que, dans des corpus thématiques, la très haute fréquence de certains<br />

syntagmes très répétitifs incluant le triplet (w,p,w’) vient biaiser la probabilité<br />

d’association lexicale entre w et p. La pondération proposée ci-dessus vise à limiter une<br />

telle surestimation et à accorder un poids non seulement à la fréquence de l’association,<br />

mais aussi à sa diversité. Par exemple, si le verbe manger apparaît 5 fois avec la<br />

préposition avec, uniquement dans {manger,avec,Jean}, et 5 fois aussi avec la<br />

préposition à, dans {manger,à,restaurant|maison|self|cantine|table}, la probabilité<br />

pondérée de {manger,avec} sera de 0.28 et celle de {manger,avec} sera de 0.72.<br />

La formule de calcul de la probabilité pondérée est donnée dans le tableau 7 : F(w,p) est<br />

la fréquence totale du couple (w,p), F(w) est la fréquence totale du mot w, et λ est un<br />

38 Je n’ai pas testé d’autres méthodes de filtrage, comme celle de la distribution polynomiale (Manning, 1993).<br />

108


coefficient de normalisation, choisi de telle sorte que la somme des probabilités<br />

associées à un mot donné soit égale à 1.<br />

T = { (w,p,w’) / F(w,p,w’) > 0 }, ensemble de triplets<br />

F(w,p,w’) : nombre d’occurrences où le mot w gouverne la préposition p,<br />

elle-même gouvernant le mot w’<br />

F(w,0) : nombre de cas où w ne gouverne aucune préposition<br />

Ew,p = { w’ / F(w,p,w’) > 0 }, le contexte du couple (w,p)<br />

Prod(w,p) = Card(Ew,p), la productivité du couple (w,p)<br />

F(w,p) = ∑w’Є Ew,p F(w,p,w’), le nombre d’occurrences de w quand il gouverne p<br />

F(w)=F(w,0)+ ∑ p F(w,p), le nombre total d’occurrences de w<br />

P(w,0) = F(w,0)/F(w), la probabilité d’occurrence de w sans préposition<br />

P(w,p)=F(w,p) /F(w)*log(1 + Prod(w,p))/ λ, la probabilité d’occurrence de w avec<br />

la préposition p<br />

Tableau 7. Méthode de calcul des probabilités de sous-catégorisation<br />

Pour être tout à fait précis, il faut préciser que le couple (w,p) est distingué selon que la<br />

préposition p gouverne un nom (P(w,pNom)) ou un verbe à l’infinitif (P(w,pVinf)). A titre<br />

d’illustration, je donne un extrait du lexique acquis sur un corpus de 400 000 mots<br />

constitué de comptes rendus d’hospitalisation dans le domaine de la réanimation<br />

chirurgicale (corpus REA, (Bourigault et al., 2004)).<br />

P w p<br />

0,44 accord avec<br />

0,24 accouchement par<br />

0,41 allergie à<br />

0,20 amylasémie à<br />

0,46 analgésie par<br />

0,20 anémie à<br />

0,73 antibioprophylaxie par<br />

0,35 antibiothérapie par<br />

0,23 anticoagulation par<br />

0,61 argument pour<br />

0,31 argument en faveur de<br />

0,30 arme à<br />

Tableau 8. Quelques probabilités de sous-catégorisation acquise ssur un corpus médical<br />

3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation<br />

Après de longues années d’une adhésion obstinée et exclusive à l’apprentissage<br />

endogène, et avec l’arrivée de Cécile Frérot dans le projet, j’ai travaillé à l’élaboration de<br />

109


essources générales, susceptibles d’être exploitées pour tout corpus. Dans le cadre de sa<br />

thèse, Cécile Frérot a expérimenté l’utilisation d’un lexique de sous-catégorisation<br />

construit à partir des tables du Lexique Grammaire (Frérot et al., 2003 ; Frérot, 2005).<br />

Devant les limites d’une telle approche, j’ai développé une méthode d’acquisition<br />

automatique d’un lexique de probabilités de sous-catégorisation à partir d’un corpus de<br />

très grande taille (Bourigault et Frérot, 2005).<br />

Les méthodes d’acquisition de propriétés de sous-catégorisation exploitent<br />

classiquement des corpus étiquetés de grande taille (Ushioda et al., 1993 ;<br />

Manning, 1993 ; Basili, Vindigni, 1998). Le Web est aussi considéré comme source<br />

potentielle d’acquisition (Gala Pavia, 2003 ; Volk, 2001). J’utilise comme base<br />

d’apprentissage un corpus de 200 millions de mots, constitué des articles du journal Le<br />

Monde, des années 1991 à 2000 (corpus LM10 39 ). Sa taille et sa diversité thématique en<br />

font un corpus référentiellement et linguistiquement peu marqué, à partir duquel il est<br />

raisonnable de chercher à acquérir des données de sous-catégorisation qui soient<br />

relativement génériques. La procédure d’acquisition est directement adaptée de la<br />

méthode d’apprentissage endogène présentée dans la section précédente. La méthode de<br />

calcul des probabilités de sous-catégorisation s’appuie sur un ensemble de triplets<br />

(w,p,w’) extraits d’une analyse <strong>syntaxique</strong> de l’ensemble du corpus LM10 effectuée par<br />

<strong>SYNTEX</strong> 40 . La procédure d’acquisition se déroule en deux étapes, au cours desquelles la<br />

même méthode de calcul de probabilités est lancée successivement sur deux ensembles<br />

différents de triplets : une étape d’amorçage et une étape de consolidation.<br />

- Au cours de l’étape d’amorçage, les probabilités sous-catégorisation sont calculées<br />

exactement comme décrit précédemment, et donc à partir de triplets (w,p,w’) acquis<br />

dans des contextes non ambigus ;<br />

- Au cours de l’étape de consolidation, le module choisirCandidatPrep exploite le<br />

lexique construit lors de l’étape d’amorçage, et traite à son tour l’ensemble du<br />

corpus LM10, analysé par le module chercherCandidatPrep. Il revient sur les cas<br />

ambigus et choisit le gouverneur candidat dont la probabilité de construction avec la<br />

préposition, fournie dans le premier lexique, est la plus élevée. A partir de ces<br />

nouvelles annotations, un nouvel ensemble de triplets est constitué, qui inclut le<br />

précédent et auquel s’ajoutent les triplets (w,p,w’) issus des cas ambigus résolus. De<br />

nouvelles données de fréquence F(w,p,w’) et F(w,0) sont alors constituées, à partir<br />

desquelles un second ensemble de probabilités de sous-catégorisation est calculé,<br />

selon la même méthode. C’est le lexique construit à l’issue de cette étape de<br />

consolidation qui est utilisé dans <strong>SYNTEX</strong>.<br />

39 Ce corpus a été préparé, à partir de fichiers obtenus auprès de l’agence Elra, à l’aide de programmes, mis au<br />

point par Benoît Habert (LIMSI), qui ont effectué les tâches de nettoyage, de balisage et de signalisation<br />

nécessaires pour transformer les fichiers initiaux en un corpus effectivement « traitable » par des outils de<br />

Traitement Automatique des Langues. Nous remercions Benoît Habert et le LIMSI de nous avoir permis de<br />

bénéficier de ces programmes.<br />

40 Environ 24 heures de traitement sur un biprocesseur Xeon 3.06GHz (4 Go de RAM)<br />

110


Le nombre total d’occurrences de triplets (w,p,w’) à partir desquels les probabilités sont<br />

calculées est de l’ordre de 6,7 millions à l’issue de l’étape d’amorçage, et de 12 millions<br />

à l’issue de l’étape de consolidation. Le nombre total d’occurrences de mots ne régissant<br />

pas de préposition est d’environ 87 millions à l’issue de l’étape d’amorçage, et de 95<br />

millions à l’issue de l’étape de consolidation. Les probabilités ne sont calculées que pour<br />

les couples (w,p) tels que la fréquence totale du mot w est supérieure à 20. <strong>Un</strong> couple<br />

n’est retenu dans le lexique de désambiguïsation que si la probabilité dépasse le seuil de<br />

0.01. Le lexique final compte 6 693 verbes différents (chacun pouvant être présent avec<br />

plusieurs prépositions), 11 528 noms et 698 adjectifs. Je présente les résultats d’une<br />

évaluation comparative des ressources endogènes et exogènes pour la désambiguïsation<br />

prépositionnelle dans la section 3.2.10.<br />

3.2.9. Antécédence relative<br />

Je présente successivement les modules « à ambiguïté » : le module de rattachement des<br />

pronoms relatifs à leur antécédent (3.2.9), le module de rattachement des prépositions à<br />

leur gouverneur (3.2.10) et le module de rattachement des adjectifs épithètes à leur nom<br />

(3.2.11). Pour chacun de ces modules, je précise d’abord les conventions de<br />

représentation, puis l’algorithme de recherche des candidats gouverneurs et enfin les<br />

indices exploités pour la désambiguïsation.<br />

Représentation<br />

Comme la coordination, la relation de l’antécédence relative pose des problèmes de<br />

représentation. Ceux-ci ont pour origine la « nature double » du pronom relatif, pour<br />

reprendre les termes de Tesnière. Selon ce dernier, le pronom relatif est à la fois un<br />

« translatif », en tant qu’il confère à la subordonnée la valeur d’adjectif, et un<br />

« anaphorique », en connexion anaphorique avec son antécédent, subordonné au verbe<br />

de la proposition relative (Tesnière, 1959, pp. 560-561). Pour la représentation en<br />

stemma, Tesnière propose de disloquer en deux le pronom relatif qui : la forme qu- est le<br />

« transférème » et la forme –i est l’« anaphorème ». Le stemma correspondant à la<br />

séquence « l’homme qui écrit » est celui-ci :<br />

l’homme<br />

A<br />

qu- qu- écrit<br />

écrit<br />

-i<br />

-i<br />

(Tesnière, 1959, p. 561)<br />

La représentation de Mel’čuk est peu différente. Selon lui, le pronom relatif ne dépend<br />

<strong>syntaxique</strong>ment que du verbe de la subordonnée. Certes, le pronom relatif dépend aussi<br />

de son antécédent, mais simplement morphologiquement, et il y a par ailleurs un lien<br />

111


anaphorique entre le pronom et son antécédent, mais ceci est non pertinent du point de<br />

vue <strong>syntaxique</strong>. Du point de vue <strong>syntaxique</strong>, la subordonnée relative dépend de<br />

l’antécédent, via son verbe. On reprenant l’exemple de Tesnière, on peut reconstituer la<br />

représentation qu’en ferait Mel’čuk, et classiquement les praticiens de la dépendance,<br />

ainsi (les traits en pointillés représente un lien anaphorique) :<br />

L’homme qui écrit À partir de (Mel’čuk, 1988, p. 26)<br />

Dans <strong>SYNTEX</strong>, je ne dispose pas d’une catégorie spéciale pour les liens anaphorique, je<br />

traite la relation d’antécédence relative comme une relation <strong>syntaxique</strong>. J’ai choisi de<br />

représenter cette relation par un lien <strong>syntaxique</strong> dont la source est l’antécédent et la cible<br />

le pronom relatif. Je ne marque pas le lien entre le verbe de la subordonnée et<br />

l’antécédent ; ce lien est calculé par une fonction spécifique à chaque fois que cela est<br />

nécessaire dans les traitements. Dans la représentation <strong>SYNTEX</strong>, les pronoms relatifs ont<br />

potentiellement deux gouverneurs 41 . Le pronom relatif est la cible des relations de<br />

dépendance Sujet et Objet qui partent du verbe de la subordonnée (exemple 1a). Si le<br />

pronom relatif est gouverné par une préposition, celle-ci est gouvernée par le verbe de la<br />

relative. Avec une telle représentation, des croisements sont possibles (exemples 1b).<br />

REL SUJ REL<br />

OBJ<br />

(1a) l’homme qui mange l’homme que je vois<br />

(1b) l’homme qu’ a vu Jean l’homme avec lequel Jean mange<br />

Recherche des antécédents<br />

Pour la relation d’antécédence relative, la recherche des candidats est relativement<br />

simple. Le module chercherCandidat teste tous les noms qu’il trouve à gauche du<br />

pronom relatif, dans un contexte restreint, et il utilise deux contraintes pour les filtrer. La<br />

première contrainte est une contrainte d’accord, pour les pronoms relatifs en –quel, pour<br />

le pronom relatif sujet qui, et pour le pronom relatif que quand le verbe est à une forme<br />

composée. Dans l’exemple 2, le nom ministre est refusé comme candidat antécédent<br />

pour le pronom relatif laquelle, de même que le nom libération pour le pronom qui dans<br />

l’exemple 3, et que les noms collaboration, fonction et conseil dans l’exemple 4. La<br />

seconde contrainte est une contrainte de forme : le module rejette les noms au singulier<br />

sans déterminant, gouvernés par une préposition (loi dans l’exemple 5 et financement<br />

dans l’exemple 6).<br />

41 S. Kahane (1997) propose lui –aussi d’associer deux nœuds aux mots –wh.<br />

112


(2) L'opinion du ministre selon laquelle ces organismes sont incapables de<br />

subvenir à leurs besoins ont provoqué du mécontentement dans de<br />

nombreuses localités. [HAN]<br />

(2’) Le premier ministre confère un redoutable pouvoir d'empêchement aux<br />

organisations clandestines, sur les décisions desquelles la très grande<br />

majorité des Corses n'ont pas prise. [LMO]<br />

(3) Il permettra d'accélérer la libération des prisonniers qui, pour quelque raison<br />

que ce soit, seraient admissibles à la libération conditionnelle de jour. [HAN]<br />

(4) Ces lignes directrices avaient été préparées en collaboration avec les<br />

syndicats de la Fonction publique représentés au Conseil national mixte, qui<br />

les ont approuvées. [HAN]<br />

(5) Nous avons enfin adopté le projet de loi qui élargissait la Commission<br />

d'appel de l'immigration. [HAN]<br />

(6) C'est une formule de financement fort originale dont nous sommes très fiers<br />

parce qu'elle est fonction des résultats. [HAN]<br />

Désambiguïsation<br />

Pour choisir parmi plusieurs antécédents candidats, le module choisirCandidatRel utilise<br />

un seul indice, de type endogène, et uniquement dans le cas des pronoms relatifs qui ou<br />

que. Pour les autres pronoms, il applique la règle par défaut (cf. infra). Soit c le candidat,<br />

soit v le verbe de la relative. Si le pronom relatif est qui, l’indice affecté au candidat c est<br />

F(v, SUJ, c), c’est-à-dire le nombre de fois où l’antécédent c a été trouvé comme sujet du<br />

verbe v. Si le pronom relatif est que, l’indice affecté au candidat c est F(v, OBJ, c). Dans<br />

l’exemple 6 42 , c’est le nom problème qui a été choisi comme antécédent, plutôt que le<br />

nom interprétation, car le module Sujet a eu l’occasion d’établir ailleurs dans le corpus<br />

un lien entre le verbe demeurer et le nom problème. Dans l’exemple 7, c’est le nom<br />

fonctions qui a été choisi comme antécédent, plutôt que le nom anti-terrorisme, car le<br />

module Objet a eu l’occasion d’établir ailleurs dans le corpus un lien entre le verbe<br />

occuper et le nom fonction. Dans l’exemple 8, le nom rôle est choisi pour des raisons<br />

analogues.<br />

(6) Il n'est pas possible ici de traiter du problème + de l'interprétation des<br />

séquences, qui demeure le prochain défi à relever. [LMO]<br />

(7) Cette règle pourrait, en revanche, contraindre Jean-Louis Bruguière à quitter<br />

ses fonctions + de juge d'instruction spécialisé dans l'anti-terrorisme, qu'il<br />

occupe depuis plus de dix ans. [LMO]<br />

42 Dans les exemples suivants, le candidat choisi par le module de désambiguïsation est marqué par un ‘+’ en<br />

exposant.<br />

113


(8) <strong>Un</strong> policier algérien décide de passer du côté du FLN alors que son collègue<br />

français, témoin des exactions de l'armée, ne trouve plus sa place dans le<br />

rôle + de maintien de l'ordre qui lui est confié. [LMO]<br />

La règle par défaut, qui s’applique pour les pronoms relatifs autres que qui et que ou<br />

quand aucun indice n’a été trouvé pour aucun candidat, est la suivante : si le pronom<br />

relatif est dans une incise (précédé d’une virgule), choisir le candidat le plus éloigné du<br />

pronom relatif(exemples 9 et 10) ; sinon, choisir le candidat le plus proche (exemples 11<br />

et 12).<br />

(9) La Chambre a entendu les explications + du ministre, qu’on retrouve à la<br />

page 1147 du Hansard du 6 novembre. [HAN]<br />

(10) Le ministre pourra assurément trouver une ou deux personnes + parmi ces<br />

groupes, qui seraient favorables à certains des aspects de la mesure. [HAN]<br />

(11) Les sénateurs seront nommés à partir d'une liste proposée par le<br />

gouvernement de la province + où il y a des postes à combler. [HAN]<br />

(12) Le ministre de la Justice a entrepris une étude de cette question + au cours de<br />

laquelle il consultera les parties intéressées et les groupes professionnels.<br />

[HAN]<br />

3.2.10. Attachement des prépositions<br />

Représentation<br />

Pour la relation PREP, les conventions de représentation sont les suivantes : la relation<br />

PREP a pour source le gouverneur de la préposition, qui peut être un verbe, un nom ou un<br />

adjectif, et pour cible la préposition. Si le gouverneur est un verbe à une forme<br />

composée, c’est l’auxiliaire qui est la source du lien. Dans le cas de prépositions<br />

coordonnées, c’est le coordonnant qui est la cible de la relation. Il n’y pas de distinction<br />

de représentation entre complément et adjoint, ou entre complément « essentiel » et<br />

complément « circonstanciel » (exemple 1). Le problème essentiel en analyse <strong>syntaxique</strong><br />

automatique est de trouver le bon gouverneur d’une préposition. En corpus, la distinction<br />

argument/circonstant est difficile à établir dans nombre de cas, même pour un<br />

grammairien. Dans le cadre du développement de <strong>SYNTEX</strong>, C. Fabre et C. Frérot (2002)<br />

ont proposé une mesure simple pour distinguer automatiquement, au sein des groupes<br />

prépositionnels rattachés au verbe, les arguments et les circonstants. Cette mesure,<br />

endogène, utilise deux coefficients de productivité : la productivité du gouverneur verbal<br />

vis à vis de la préposition et celle du dépendant vis à vis de la préposition. Les résultats<br />

montrent que cette mesure permet de repérer les arguments avec une précision de 88%,<br />

et les circonstants avec une précision de 72%,<br />

<strong>SYNTEX</strong> n’effectue pas la distinction argument/circonstant, mais il tente de distinguer les<br />

compléments dits « de phrase », ceux qui ne dépendent <strong>syntaxique</strong>ment d’aucun mot de<br />

la phrase, et qu’il convient de laisser « flotter » dans la séquence (exemple 2).<br />

114


(1) Jean donne un bonbon à Marie. Jean regarde un film à la télévision.<br />

(2) Après le travail, Jean rentre chez lui.<br />

Recherche des gouverneurs candidats<br />

PREP PREP<br />

Quand on évoque les prépositions en analyse <strong>syntaxique</strong> automatique, on parle le plus<br />

souvent du problème de l’ambiguïté de rattachement, c’est-à-dire de celui du choix du<br />

bon gouverneur parmi plusieurs candidats (en général deux). On s’étend rarement sur le<br />

problème de la reconnaissance des gouverneurs candidats. Or, quand il s’agit de<br />

développer un <strong>analyseur</strong> <strong>opérationnel</strong>, mettre au point des procédures qui cherchent à<br />

gauche d’une préposition l’ensemble des mots susceptibles de la gouverner est un<br />

problème en soi. Le module chercherCandidatPrep s’appuie sur les liens <strong>syntaxique</strong>s<br />

déjà placés pour parcourir la séquence de droite à gauche. Il dispose d’un certain nombre<br />

de critères d’arrêt, décrivant les configurations dans lesquelles il doit stopper sa<br />

recherche. Il n’est pas question ici de décrire en détail l’algorithme. Je donne quelques<br />

indications en fonction de la catégorie des mots rencontrés par le module pendant le<br />

parcours : nom, adjectif, préposition, verbe, virgule.<br />

Nom. Si le module rencontre un nom, il le prend comme candidat, puis il se déplace au<br />

recteur de ce nom, sauf si celui-ci est placé à droite, comme c’est le cas en particulier s’il<br />

est antécédent d’un pronom relatif ou sujet. Dans l’exemple 3, la recherche des<br />

gouverneurs candidats pour la préposition sur s’arrête au nom loi qui est lié<br />

<strong>syntaxique</strong>ment au pronom relatif laquelle situé à droite de la préposition. Dans<br />

l’exemple 4, la recherche pour la préposition de s’arrête au nom filles qui est lié<br />

<strong>syntaxique</strong>ment au pronom relatif qui situé à droite de la préposition. Dans l’exemple 5,<br />

la recherche pour la préposition à s’arrête au nom conflits qui est sujet du verbe se<br />

poursuivent situé à droite de la préposition.<br />

(3) Ce procédé représente de probables atteintes à la loi sur les partis, laquelle fixe<br />

en particulier le financement politique. [HAN]<br />

115<br />

REL<br />

(4) Engels s'est plié une fois à l' exercice, sur l' instance des filles de Marx qui le<br />

considéraient comme leur oncle. [LMO]<br />

(5) Elle intervient alors que des conflits liés à l'application des 35 heures se poursuivent<br />

dans plusieurs secteurs. [LMO]<br />

Adjectif. Si le module rencontre un adjectif, il conserve cet adjectif comme candidat<br />

uniquement si celui-ci est placé immédiatement à gauche de la préposition. La recherche<br />

des gouverneurs candidats pour les prépositions et pour les adjectifs s’effectue au cours<br />

d’une seule et même passe sur la séquence, de gauche à droite. A un adjectif situé à<br />

gauche d’une préposition, le module chercherCandidatAdj peut avoir affecté un ou<br />

REL<br />

SUJ


plusieurs gouverneurs nominaux dont l’adjectif est potentiellement épithète<br />

(section 3.2.11). Chacun de ces noms est récupéré comme candidat de la préposition, et<br />

la recherche continue à partir du plus à gauche de ces noms. Dans l’exemple 6, le<br />

module chercherCandidatPrep retient, pour la préposition en, l’adjectif judiciaire<br />

comme candidat, ainsi que ses gouverneurs potentiels dossiers et commissions,<br />

préalablement identifiés par le module chercherCandidatAdj. Il retient ensuite le nom<br />

ingérence situé immédiatement à gauche du gouverneur des du nom commissions. Dans<br />

l’exemple 7, il retient, pour la préposition du, l’adjectif Mondiale, et tous ses<br />

gouverneurs nominaux candidats.<br />

(6) L’ingérence des commissions dans des dossiers judiciaires en cours. [LMO]<br />

(7) L’ouverture de la réunion de l’Organisation Mondiale du Commerce. [LMO]<br />

Préposition. Si le module rencontre une préposition, il récupère tous les gouverneurs<br />

candidats qu’il a lui-même identifiés pour cette préposition, quelque instants auparavant.<br />

Dans l’exemple 8, le module chercherCandidatPrep retient, pour la seconde préposition<br />

à, le participe passé limitée, puis le nom négociation, puis les deux gouverneurs<br />

candidats échec et préfère qu’il avait retenus pour la première préposition à.<br />

(8) OMC : la France préfère un échec à une négociation limitée à l'agriculture. [LMO]<br />

Verbe. Si le module rencontre un verbe, il le retient comme candidat et arrête sa<br />

recherche. Les cas où cet arrêt est prématuré, par exemple quand il s’agit de trouver un<br />

gouverneur verbal au-delà d’une relative, sont extrêmement rares. Ils sont pour le<br />

moment mal traités par l’<strong>analyseur</strong>.<br />

Virgule. <strong>Un</strong> cas problématique est celui où une virgule, non coordinatrice, précède<br />

immédiatement une préposition. A ce stade du traitement, il est difficile de déterminer<br />

s’il faut aller chercher les gouverneurs candidats juste après cette virgule, au cas où la<br />

préposition serait tête d’un syntagme prépositionnel en position incise, ou bien s’il faut<br />

« sauter » une section incise jusqu’à une éventuelle virgule « ouvrante » pour retrouver<br />

le gouverneur de la préposition. On peut être en présence d’un « complément de phrase »<br />

qu’il serait malvenu de lier <strong>syntaxique</strong>ment à quoi que ce soit. C’est pourquoi le<br />

rattachement des prépositions précédées d’une virgule est reporté à un stade ultérieur de<br />

l’analyse, quand tous les liens ont été posés (section 3.2.8).<br />

Dans beaucoup d’études sur l’ambiguïté de rattachement prépositionnel, en particulier<br />

dans les travaux fondateurs de Hindle et Rooth (1993), les configurations sur lesquelles<br />

116<br />

ADJ<br />

ADJ


sont testés les algorithmes de désambiguïsation ne sont constituées que de deux<br />

candidats, un verbe et un nom. Dans les corpus, les configurations d’ambiguïtés,<br />

exprimées en termes de suite des catégories des candidats repérés par le module<br />

chercherCandidatPrep, sont en fait très diverses. Dans l’expérience que nous avons<br />

menée avec Cécile Frérot, et présentée dans (Bourigault et Frérot, 2005), nous avons<br />

montré que, sur les 4 corpus de test, la configuration ‘V N’, où seuls un verbe et un nom<br />

sont en compétition ne représente que 50 % des cas dans le corpus littéraire, 35 % dans<br />

le corpus journalistique et 15 % dans le corpus juridique et le corpus technique.<br />

Indices et stratégie de désambiguïsation<br />

Le module choisirCandidatPrep exploite essentiellement trois indices : deux indices<br />

endogènes (F et ProbaEndo) et un indice exogène (ProbaExo). Soit, p la préposition, w le<br />

dépendant de la préposition, C la catégorie de ce dépendant. Soit {ci, i=1, …, n}, les<br />

gouverneurs candidats.<br />

- L’indice Fi pour le candidat ci est égal à la fréquence du triplet (ci,p,w) dans le<br />

corpus. C’est un indice endogène. Si la préposition est de, le module calcule un<br />

autre indice endogène du même type, en exploitant le lexique de correspondance<br />

verbo-nominale VERBACTION, développé par Nabil Hathout 43 . Pour chaque<br />

gouverneur candidat qui est un nom, si ce nom ci est associé à un verbe vi dans<br />

VERBACTION, l’indice Fvi pour le candidat ci est égal à somme des fréquences des<br />

triplets (vi,SUJ,w) et (vi,OBJ,w).<br />

- L’indice ProbaEndoi pour le candidat ci est égal à la probabilité endogène du couple<br />

(ci,pC) dans le corpus.<br />

- L’indice ProbaExoi pour le candidat ci est égal à la probabilité exogène du couple<br />

(ci,pC).<br />

L’algorithme de choix, dans sa version simplifiée, est le suivant : choisir le candidat dont<br />

l’indice F est le plus élevé ; ou bien choisir le candidat dont l’indice ProbaEndo ou<br />

ProbaExo est le plus élevée ; ou, par défaut, laisser l’ambiguïté, qui sera prise en charge<br />

par le module de désambiguïsation globale (section 3.2.12).<br />

Quelques exemples de désambiguïsation réussie. Dans l’exemple 9, le nom rappel est<br />

choisi comme gouverneur de la préposition au, sur la base de l’indice F, car le triplet<br />

(rappel,à,règlement) a été extrait 3 fois dans le corpus, dans des contextes non ambigus<br />

comme celui de l’exemple 9’. Dans l’exemple 10, le participe passé venus est choisi<br />

comme gouverneur de la préposition à, sur la base de l’indice F, car le triplet<br />

(venir,à,Seattle) a été extrait 2 fois dans le corpus, dans des contextes non ambigus<br />

comme celui de l’exemple 10’. Dans l’exemple 11, le nom délivrance est choisi comme<br />

gouverneur de la préposition de, sur la base de l’indice Fv, car le couple (délivrer,<br />

délivrance) est présent dans le lexique VERBACTION et le triplet (délivrer,OBJ,pilule) a<br />

été extrait 5 fois dans le corpus. Dans l’exemple 12, le nom modifications est choisi<br />

43 http://w3.univ-tlse2.fr/erss/ressources/verbaction/<br />

117


comme gouverneur de la préposition au, sur la base de l’indice ProbaEndo, car la<br />

probabilité endogène du couple (modification, àNom) est de 0.10, supérieure aux<br />

probabilités endogène et exogène du couple (étudier, àNom). Dans l’exemple 13, le verbe<br />

attirer est choisi comme gouverneur de la préposition sur, sur la base de l’indice<br />

ProbaExo, car la probabilité exogène du couple (attirer, surNom) est de 0.14, alors que les<br />

probabilités associées aux autres gouverneurs candidats sont nulles.<br />

(9) Monsieur le Président, j'aimerais aussi participer quelques minutes au<br />

rappel + au règlement qui a été soulevé par mon collègue. [HAN]<br />

(9’) Ce rappel + au Règlement est complexe et touche à la politique des musées<br />

au Canada. [HAN]<br />

(10) Glen Mpufane fait partie des manifestants venus + du monde entier à<br />

Seattle pour protester contre la liberté du commerce. [MON]<br />

(10’) BILL CLINTON est venu + à Seattle exposer les positions américaines. [MON]<br />

(11) Il s’agit de la décision d'autoriser la délivrance + de la « pilule du<br />

lendemain » aux adolescentes dans les établissements scolaires. [MON]<br />

(12) Je suis membre du comité chargé d'étudier les modifications + au régime<br />

d'assurance chômage. [HAN]<br />

(13) Elles visent à attirer+ l'attention des Canadiens sur une initiative politique<br />

très importante pour notre pays. [HAN]<br />

Evaluation<br />

Dans (Bourigault et Frérot, 2005), nous présentons une évaluation détaillée de<br />

différentes stratégies de désambiguïsation. Nous testons 4 stratégies : une stratégie de<br />

base, qui n’exploite que la règle par défaut d’attachement au candidat le plus éloigné,<br />

une stratégie endogène, qui est analogue à la stratégie décrite ci-dessus mais qui<br />

n’exploite que les indices endogènes, une stratégie exogène, qui est analogue à la<br />

stratégie décrite ci-dessus mais qui n’exploite que les indices exogènes, et enfin une<br />

stratégie dite « mixte », qui est la stratégie décrite ci-dessus. Nous avons testé ces 4<br />

stratégies sur un grand nombre de cas d’ambiguïté de rattachement, annotés à la main sur<br />

4 corpus de genre différents :<br />

- BAL. Le roman Splendeurs et misères des courtisanes, d’Honoré de Balzac<br />

(199 789 mots) : 672 cas annotés.<br />

- LMO. <strong>Un</strong> extrait du journal Le Monde (673 187 mots) : 1 238 cas annotés.<br />

- TRA. Le Code du travail de la législation française (509 124 mots) : 1 150 cas<br />

annotés.<br />

- REA. <strong>Un</strong> corpus de comptes-rendus d’hospitalisation dans le domaine de la<br />

réanimation chirurgicale (377 967 mots) : 646 cas annotés.<br />

118


BAL LMO TRA REA<br />

base 83.0 70.3 65.5 59.9<br />

endogène 83.5 (-2.9) 80.1 (-33.0) 82.3 (-48.7) 78.0 (-45.1)<br />

exogène 86.9 (-22.9) 86.6 (-54.9) 86.3 (-60.3) 66.3 (-16.0)<br />

mixte 86.6 (-21.2) 85.9 (-52.5) 87.3 (-63.2) 78.3 (-45.9)<br />

Tableau 9. Taux de précision des différentes stratégies de désambiguïsation sur les 4<br />

corpus de test (avec le taux de réduction de l’erreur par rapport à la stratégie de base).<br />

Le tableau 9 donne les taux de précision des différentes stratégies de désambiguïsation<br />

sur les 4 corpus de test, ainsi que, pour un corpus donné, le taux de réduction de l’erreur<br />

par rapport à la stratégie de base. Les principales conclusions que l’on peut tirer de ces<br />

résultats sont les suivantes :<br />

- L’apport des ressources exogènes génériques est indéniable. Le taux de réduction de<br />

l’erreur, qui est de 22.9 % pour le corpus littéraire (BAL), sur lequel la stratégie de<br />

base est déjà très performante, s’élève à 54.9 % pour le corpus journalistique (LMO)<br />

et à 60.3 % pour le corpus juridique (TRA).<br />

- Il n’y a que sur le corpus médical (REA) que l’apprentissage endogène s’avère être<br />

indispensable. La réduction du taux d’erreur est de 45.1 % avec la stratégie<br />

endogène, alors qu’elle n’est que de 16 % avec la stratégie exogène. Plus que par le<br />

domaine couvert, ceci s’explique par le style très particulier utilisé par les médecins<br />

pour rédiger les comptes rendus d’hospitalisation, avec un usage abondant de<br />

phrases nominales et d’une phraséologie très spécifique.<br />

- Le résultat le plus remarquable, et le moins attendu, est la très grande homogénéité<br />

des taux de précision obtenus avec les stratégies exploitant le lexique générique<br />

(stratégies exogène ou mixte) sur les corpus littéraire, journalistique et juridique.<br />

Ces taux ont des écart de moins de 2 % (respectivement 86.6 %, 85.9 % et 87.3 %<br />

pour ces trois corpus avec la stratégie mixte). L’exploitation de ressources exogènes<br />

conduit à un resserrement et à un rapprochement par le haut des performances.<br />

On peut rapprocher ces résultats de ceux, récapitulés dans (Pantel et Lin, 2000), obtenus<br />

sur 3 000 cas ambigus extraits de la partie Wall Street Journal du Penn TreeBank par<br />

différentes méthodes : 81,6% avec une méthode supervisée utilisant un modèle<br />

d’entropie maximale (Ratnaparkhi et al., 1994), 88,1% avec une méthode supervisée<br />

utilisant un dictionnaire sémantique (Stetina, Nagao, 1997) et 84.3% avec une méthode<br />

non supervisée utilisant des mots distributionnellement proches (Pantel et Lin, op.cit.).<br />

Mais puisque les langues, le type de corpus de test et les conventions d’annotations sont<br />

différentes, il est délicat de comparer ces chiffres avec ceux que nous présentons dans le<br />

tableau 3.<br />

Les ressources de sous-catégorisation <strong>syntaxique</strong> construites à partir du corpus LM10<br />

sont exploitées par l’<strong>analyseur</strong> sans avoir été validées manuellement, et les résultats<br />

montrent qu’elles sont performantes pour cette tâche. Il convient de préciser que, sur le<br />

plan linguistique, ces propriétés de sous-catégorisation ne sont pas comparables aux<br />

descriptions que l’on peut trouver dans des lexiques construits à la main, comme le<br />

119


Lexique Grammaire ou le lexique Dicovalence 44 , dans les dictionnaires de langue ou<br />

dans les études de psycholinguistique. C’est vrai particulièrement pour les verbes. La<br />

probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de<br />

toutes les occurrences (lemmatisées) de ce verbe, sans distinction des différentes<br />

acceptions du verbe, alors que l’on sait qu’un même verbe peut avoir des cadres de souscatégorisation<br />

différents selon ses différents sens. Dans le contexte du développement<br />

d’un <strong>analyseur</strong> <strong>syntaxique</strong> « tout terrain », l’approximation à laquelle conduit ce lissage<br />

des sens est un mal nécessaire.<br />

3.2.11. Attachement des adjectifs<br />

Représentation<br />

La relation épithète, notée ADJ, a pour source un nom et pour cible un adjectif<br />

qualificatif, un participe passé ou un participe présent. L’adjectif peut être antéposé.<br />

Dans le cas d’une coordination de noms gouverneurs, la relation a pour source le<br />

coordonnant. Dans le cas d’une coordination de dépendants, la relation a pour cible le<br />

coordonnant.<br />

Recherche des gouverneurs candidats<br />

Après avoir testé la possibilité d’un gouverneur à droite, dans le cas d’un adjectif<br />

qualificatif, le module chercherCandidatAdj remonte la séquence à gauche à la<br />

recherche de noms gouverneurs candidats. S’il rencontre un nom, il teste l’accord, retient<br />

ce nom s’il n’y pas d’incompatibilité, et dans tous les cas poursuit au gouverneur de ce<br />

nom. Dans le cas de noms coordonnés, s’il y a accord avec le premier de ces noms (le<br />

plus à droite), le module retient uniquement celui-ci, et remonte au gouverneur du<br />

coordonnant (exemples 1 et 2). S’il n’y a pas accord avec le premier nom, il peut retenir<br />

dans certains cas le coordonnant comme gouverneur candidat (exemples 3 et 4). La<br />

recherche s’arrête si le gouverneur d’un nom retenu comme gouverneur candidat est<br />

situé à droite de l’adjectif. Dans l’exemple 5, la recherche de gouverneurs candidats pour<br />

l’adjectif stratégique s’arrête au nom plan, antécédent du pronom relatif lequel situé à<br />

droite de l’adjectif, et ne se poursuit donc pas au nom mouture.<br />

(1) Il se traduit dans l' agencement des tables, l' accueil prévenant et la cuisine<br />

désormais très personnelle de l' ancien chef du restaurant Le Quai d' Orsay.<br />

[LMO]<br />

(2) Les artistes et les musiciens contemporains. [LMO]<br />

44 http://bach.arts.kuleuven.be/dicovalence/<br />

120


(3) Exeunt les représentants de l' Etat et les mutuelles , considérés comme<br />

« juge et partie ». [LMO]<br />

(4) Il s’agit de connaître la nature et la structure exactes des terrains<br />

sédimentaires sur lesquels la ville de Grenoble est construite. [LMO]<br />

(5) La première mouture du plan stratégique , dans lequel le statut<br />

de l' AFP est identifié comme un frein à son développement. [LMO]<br />

Indices et stratégie de désambiguïsation<br />

Le module choisirCandidatAdj n’utilise qu’un indice, de type endogène. Soit a l’adjectif<br />

et {ci, i=1, …, n} les gouverneurs candidats. L’indice Fi pour le candidat ci est égal à la<br />

fréquence du triplet (ci,ADJ,a). Le module choisit le candidat qui a l’indice le plus élevé,<br />

ou, par défaut, il laisse l’ambiguïté, qui sera prise en charge par le module de<br />

désambiguïsation globale (section 3.2.12). Dans l’exemple 6, le module choisit le<br />

gouverneur information, car le triplet (information,ADJ,judiciaire) a été extrait de<br />

nombreuses fois dans le corpus dans des contextes non ambigus. Dans le cas où le<br />

dépendant est un participe passé, le module choisirCandidatAdj utilise un second indice<br />

endogène, qui est égal à la fréquence du triplet (a,OBJ, ci). Dans l’exemple 7, le module<br />

choisit pour le participe passé déposée le nom plainte, car le triplet (déposer,obj,plainte)<br />

a une fréquence non nulle.<br />

(6) Cela permet aussitôt l'ouverture d'une nouvelle information + judiciaire.<br />

[LMO]<br />

(7) Le tribunal des prud'hommes devait juger une plainte+ pour discrimination<br />

déposée par six militants de la CGT. [LMO]<br />

3.2.12. Procédure de désambiguïsation globale<br />

La tâche de désambiguïsation des liens PREP et ADJ est réalisée par un module<br />

spécifique qui intervient sur le treillis des liens placés par ces modules<br />

chercherCandidatPrep et chercherCandidatAdj. La stratégie de désambiguïsation<br />

exploite la contrainte de projectivité : au sein d’une séquence, deux liens <strong>syntaxique</strong>s ne<br />

peuvent se croiser, sauf exceptions répertoriées. Dans le treillis de liens <strong>syntaxique</strong>s, il y<br />

a deux types de liens : les liens surs, pour lesquels les source et cible sont des mots<br />

uniques, et les liens possibles qui pointent sur le même dépendant et qui sont<br />

incompatibles entre eux. La stratégie de désambiguïsation est simple, elle comporte trois<br />

étapes.<br />

1- Elagage préliminaire. Le module calcule d’abord les croisements entre liens<br />

<strong>syntaxique</strong>s. Dès qu’il repère un croisement entre un lien sûr et un lien possible, il<br />

élimine le lien possible, ce qui élimine un gouverneur de la liste des candidats<br />

121


gouverneurs du mot sur lequel pointait le lien possible. Dans l’exemple 1, le lien<br />

entre donne et à et le lien entre bonbon et à sont des liens possibles, incompatibles<br />

entre eux. Le lien entre bonbon et rose est un lien sûr. Il y a croisement entre ce lien<br />

et le premier des deux liens pointant sur à, qui est alors éliminé. Le rattachement de<br />

la préposition à est désambiguïsé.<br />

(1) Il donne des bonbons à la fraise roses.<br />

(1’) Il donne des bonbons à la fraise roses.<br />

2- Prise en compte des indices positifs. Le module parcourt la séquence de gauche à<br />

droite. Si le mot courant est ambigu, c’est-à-dire qu’il a plusieurs gouverneurs<br />

candidats, il lance le module de désambiguïsation correspondant<br />

(choisirCandidatPrep ou choisirCandidatAdj, selon la catégorie du mot). Je rappelle<br />

que ces modules de désambiguïsation ne prennent aucune décision lorsque aucun<br />

indice positif ne permet de choisir un gouverneur candidat. Si aucun candidat n’est<br />

sélectionné, le module passe au mot suivant. Si un candidat est sélectionné, il place<br />

le lien de dépendance entre ce gouverneur et le mot courant, en éliminant tous les<br />

liens possibles qui pointaient vers ce dernier. Puis il élimine le cas échéant les liens<br />

possibles qui croisent ce nouveau lien sûr. La désambiguïsation d’un lien peut ainsi<br />

réduire l’ambiguïté d’autres mots de la séquence 45 . Par exemple, dans l’exemple 3,<br />

aucun indice ne permet de lever l’ambiguïté sur le gouverneur de la préposition de<br />

(affiche ou volonté). Puis aucun indice ne permet de lever l’ambiguïté sur le<br />

gouverneur de l’adjectif franche (volonté ou discussion). En revanche, parmi les<br />

gouverneurs candidats de la préposition avec, le nom discussion possède un indice<br />

positif : la probabilité exogène que ce nom se construise avec la préposition avec est<br />

de 0.11 (ProbaExo(discussion,avec)=0.11). Le lien <strong>syntaxique</strong> entre discussion et<br />

avec est retenu comme sûr, ce qui conduit à l’élimination des autres liens pointant<br />

sur avec, ainsi que celle du lien possible entre volonté et franche. Le rattachement<br />

de l’adjectif est alors désambiguïsé (exemple 3’).<br />

3- Décisions par défaut. Le module parcourt une seconde fois la séquence de gauche à<br />

droite. Si le mot courant est ambigu, il applique la règle de rattachement par défaut :<br />

si le mot est une préposition, il choisit le dernier candidat, c’est-à-dire le plus<br />

éloigné de la préposition, dans le cas où la préposition n’est pas de, il choisit le<br />

premier si la préposition est de ; si le mot est un adjectif, il choisit le premier<br />

45 Il est possible d’imaginer des procédures de désambiguïsation globale différentes de celle présentée dans<br />

cette section : par exemple, plutôt que de résoudre en parcourant les mots de gauche à droite, il serait possible<br />

de le faire en parcourant les liens possibles par indice de confiance décroissant. Les gains seraient, je pense,<br />

relativement marginaux.<br />

122


candidat. Après chaque application d’une règle par défaut, le module élimine le cas<br />

échéant des liens possibles croisants.<br />

(3) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.<br />

(3’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.<br />

(3’’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.<br />

3.2.13. Analyse profonde<br />

<strong>Un</strong> certain de nombre de liens <strong>syntaxique</strong>s (ne) peuvent être placés (qu’) en fin<br />

d’analyse, quand la plupart des liens <strong>syntaxique</strong>s qui structurent la séquence ont été<br />

posés par les différents modules décrits jusqu’ici. Ces liens correspondent pour certain à<br />

une analyse dite « profonde ». La combinaison de techniques d’analyse superficielle et<br />

profonde est une problématique d’actualité. Blache (2005) dresse un bilan sur les<br />

différentes approches testées pour combiner ces analyses. Il identifie 4 types<br />

d’approches : (1) L’approche pré-traitement, où l’entrée a été préformatée avec des<br />

outils de désambiguïsation morpho<strong>syntaxique</strong> et de reconnaissances d’entités nommées ;<br />

(2) l’approche pré-analyse, où l’entrée est le résultat d’une analyse superficielle ; (3)<br />

l’approche contrôle, dans laquelle un <strong>analyseur</strong> profond est guidé par un <strong>analyseur</strong><br />

superficiel ; (4) l’approche granularité variable, dans laquelle la finesse d’un même<br />

<strong>analyseur</strong> peut être réglée en fonction des objectifs (op. cit., pp. 96-98). Blache et al.<br />

(2002) proposent un <strong>analyseur</strong> du dernier type, basé sur les contraintes, dans lequel les<br />

seuils et les types de contraintes sont les variables de réglage. Dans <strong>SYNTEX</strong>, certaines<br />

des analyses que l’on qualifie de profondes sont réalisées en fin de traitement par ce<br />

module final. Les principales analyses effectuées par ce module concernent le repérage<br />

de dépendances non bornées et celui des sujets logiques de l’infinitif.<br />

Dépendances non bornées avec relatif<br />

Le phénomène de dépendance non bornée est « le fait que deux éléments liés l’un à<br />

l’autre se trouvent à une distance structurelle (en termes de dépendances <strong>syntaxique</strong>s)<br />

potentiellement illimitée » (Kahane, 2002, p. 51). Le module traite certains cas de<br />

dépendance non bornée mettant en jeu des relatives (du type « l’homme avec lequel je<br />

souhaite manger » ou « l’homme auquel je cherche à parler »), dans lesquels le pronom<br />

relatif est gouverné par une préposition, et le verbe de la relative gouverne directement<br />

123


ou indirectement un infinitif. Dans ce cas, la source du lien de dépendance pointant sur<br />

la préposition, est déplacée du verbe de la relative au verbe infinitif (exemples 1 et 1’, 2<br />

et 2’). Dans l’état actuel de l’<strong>analyseur</strong>, l’ambiguïté de rattachement n’est pas traitée, le<br />

verbe infinitif est systématiquement choisi, alors que le verbe de la relative peut être le<br />

bon gouverneur (exemples 3 et 3’). Le module traite aussi certains cas d’extraction<br />

(exemples 4 et 4’).<br />

(1) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord . [LMO]<br />

(1’) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord. [LMO]<br />

(2) <strong>Un</strong> projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO]<br />

(2’) <strong>Un</strong> projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO]<br />

(3) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO]<br />

(3’) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO]<br />

(4) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO]<br />

(4’) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO]<br />

124


Dans le cas de dépendances non bornées impliquant le pronom relatif que, le traitement<br />

est plus complexe, pour tenir compte d’une possible erreur d’étiquetage de cette forme,<br />

et la corriger le cas échéant. Si le verbe à l’infinitif est transitif et n’a pas d’objet, la<br />

source du lien objet qui pointe sur que est déplacée du verbe principal au verbe à<br />

l’infinitif (exemples 5 et 5’). Si le verbe à l’infinitif a déjà un objet, le module constate<br />

une incompatibilité. Il réétiquette le mot que en conjonction de subordination et<br />

transforme le lien objet entre le verbe conjugué et que en un lien de subordination entre<br />

que et le verbe (exemples 6 et 6’).<br />

(5) Le bouclier que ProRel Washington tient à déployer a des effets déstabilisants.<br />

[LMO]<br />

(5’) Le bouclier que ProRel Washington tient à déployer a des effets déstabilisants.<br />

[LMO]<br />

(6) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste<br />

que ProRel nous continuerons à exercer notre activité. [LMO]<br />

(6’) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste<br />

que CSub nous continuerons à exercer notre activité. [LMO]<br />

Sujet logique des infinitifs<br />

Le module traite le cas des sujets des infinitifs. Il ajoute une relation Sujet logique qui<br />

part de l’infinitif vers un des dépendants du verbe gouverneur. Le module utilise des<br />

listes de verbes. Dans les exemples 7 à 9, le sujet de l’infinitif est le sujet du verbe à<br />

contrôle. Dans les exemples 10 et 11, le sujet de l’infinitif est le complément d’objet du<br />

verbe à contrôle. Dans les exemples 12 et 13, le sujet de l’infinitif est un complément<br />

indirect du verbe à contrôle.<br />

(7) Rares sont les hommes politiques et les intellectuels qui osent s'opposer à la<br />

croisade sanglante menée par Vladimir Poutine dans le Caucase du Nord.<br />

(8) Tous les économistes s'accordent à dire qu'elle se situe à la marge.<br />

(9) Sensibles aux barrières symboliques, les opérateurs risqueraient alors de<br />

fuir en masse.<br />

(10) Nous avons décidé d'occuper le terrain militaire pour forcer l'Etat Français à<br />

engager le règlement politique de la question corse.<br />

125


(11) Cela ne devrait pas empêcher les partisans de la démocratie de mettre ses<br />

bonnes intentions à l'épreuve.<br />

(12) Elle reproche à France-Télécom d'abuser de sa position dominante dans les<br />

communications locales.<br />

(13) Ce texte interdit notamment aux enfants de voyager sur des strapontins.<br />

Analyse globale<br />

Enfin, le module construit la forme <strong>syntaxique</strong> finale de la séquence, en termes de<br />

succession de clauses. Chaque clause est la projection d’un mot non gouverné.<br />

L’algorithme de construction de cette forme est simple. Le résultat de cette construction<br />

est la forme globale de la séquence, telle qu’elle est obtenue à l’issue d’une phase<br />

d’analyse exclusivement ascendante au cours de laquelle l’<strong>analyseur</strong> a cherché à lier<br />

autant que possible chacun des mots de la séquence à un gouverneur <strong>syntaxique</strong>. A partir<br />

de cette forme globale, on peut envisager une phase d’analyse descendante,au cours de<br />

laquelle l’<strong>analyseur</strong> a une vision globale des clauses construites lors de la première<br />

phase, vision globale qui peut lui permettre de compléter l’analyse <strong>syntaxique</strong>. Dans<br />

l’état actuel du développement de <strong>SYNTEX</strong>, cette étape d’analyse descendante reste<br />

marginale. Le seul traitement effectué est le rattachement de certaines prépositions<br />

précédées d’une virgule (exemples 4 et 5). Les recherches pour reconnaître, avec cette<br />

nouvelle perspective, de nouveaux liens, ou pour corriger des liens existants, se<br />

poursuivent…<br />

(3) Il refuse de créer avec lui , hors de tout cadre légal , une hypothétique entité<br />

constitutionnelle basque . [MON]<br />

(4) Comme le fut en son temps , dans les mêmes conditions , le Tornado , le nouvel<br />

avion de combat européen est très inspiré par la « culture » militaro-industrielle<br />

britannique . [MON]<br />

(5) Le FBI estime que, pendant la même période, plus de cent personnes pourraient<br />

avoir été enterrées dans des fosses communes. [LMO]<br />

3.2.14. Evaluation<br />

126<br />

SUJ<br />

OBJ<br />

COMP<br />

Je présente les résultats obtenus dans le cadre de la campagne nationale EASY 46<br />

d’évaluation des <strong>analyseur</strong>s <strong>syntaxique</strong>s du français. Cette campagne était une des 8<br />

46 http://www.limsi.fr/Recherche/CORVAL/easy/


campagnes d’évaluation des technologies de la langue du projet EVALDA 47 , piloté par<br />

l’agence ELDA et financé par le Ministère français en charge de la Recherche dans le<br />

cadre du programme Technolangue (décembre 2002 - avril 2006). Les organisateurs de<br />

la campagne EASY ont été l’agence ELDA et le laboratoire LIMSI du CNRS. Dans cette<br />

campagne, les 15 <strong>analyseur</strong>s ont participé à la compétition, provenant de 13 participants<br />

différents : <strong>ERSS</strong>, FT R&D, INRIA, LATL, LIC2M, LIRMM, LORIA, LPL, STIM,<br />

SYNAPSE, SYSTAL, TAGMATICA, VALORIA et XRCE. Les corpus annotés ont été<br />

fournis par 5 partenaires : l’ATILF, le LLF, le DELIC, le STIM et ELDA. La tâche des<br />

fournisseurs de corpus a consisté en la collecte du corpus de différents genres de textes<br />

et en leur annotation (tableau 10). Les différents corpus sont les suivants : Web, des<br />

pages WEB du site ELDA ; Le Monde, des articles du journal Le Monde ; Parlement,<br />

des transcriptions de débats parlementaires (Sénat français et Parlement Européen) ;<br />

Littérature, des textes littéraires, issus de la base Frantext de l’ATILF ; Mail, des<br />

emails ; Médical, des textes médicaux (pathologies et traitements) ; Oral, des<br />

transcriptions de parole ; Questions, des questions, issues de la campagne EQUER.<br />

Le protocole d’évaluation EASY supposait que tous les participants adoptent la même<br />

segmentation en mots et en énoncés. En concertation avec les participants, les<br />

organisateurs ont défini un formalisme et des conventions d’annotation censés permettre<br />

d’exprimer l’essentiel d’une annotation <strong>syntaxique</strong> quelle que soit sont type (de surface<br />

ou profonde, complète ou partielle), ceci sans privilégier une approche particulière. Le<br />

formalisme d’annotation EASY permet d’annoter des constituants continus et<br />

non-récursif, ainsi que des relations <strong>syntaxique</strong>s. Les relations peuvent associer<br />

indifféremment des mots ou des constituants. Dans EASY, il y a 6 types de constituants :<br />

nominal, adjectival, prépositionnel, adverbial, verbal et prépositionnel-verbal. Il y a 14<br />

types de relations fonctionnelles : sujet-verbe, auxilliaire-verbe, complément d’objet<br />

direct, complément-verbe, modifieur de nom, modifieur de verbe, modifieur d’adjectif,<br />

modifieur d’adverbe, modifieur de préposition, complémenteur, attribut du sujet/objet,<br />

coordination, apposition, juxtaposition. Pour plus de détails, voir (Vilnat et al., 2004)<br />

(Paroubek & Robba, 2006) (Paroubek et al., 2007).<br />

Nous n’avons participé qu’à l’évaluation sur les relations, puisque <strong>SYNTEX</strong> ne fabrique<br />

pas de constituants. Par ailleurs, j’avais décidé d’emblée de ne pas fournir de résultats<br />

sur les corpus Oral et Mail, pour marquer le fait que <strong>SYNTEX</strong> n’avait pas été conçu pour<br />

traiter des corpus de n’importe quel type, mais qu’il avait été mis au point pour, et été<br />

testé sur, des corpus qui respectent les normes <strong>syntaxique</strong>s de l’écrit standard.<br />

L’essentiel du travail a consisté, d’une part, à réaliser les programmes de conversion en<br />

amont de l’<strong>analyseur</strong>, pour prendre en entrée le découpage en mots fourni par les<br />

organisateurs, et en aval de l’<strong>analyseur</strong>, pour rendre les résultats dans le format XML<br />

demandé, et, d’autre part, à compléter l’<strong>analyseur</strong> pour qu’il traite correctement des<br />

47 http://www.elda.org/<br />

127


elations (locales) sur lesquelles j’avais alors peu avancé. L’ensemble de ces tâches a été<br />

mené à bien, de main de maître, par Marie-Paule Jacques 48 .<br />

Je présente dans les tableaux 12a-h les résultats, pour les relations, de tous les <strong>analyseur</strong>s<br />

sur tous les corpus, en termes de précision, rappel et f-mesure. Le tableau 11 rassemble<br />

ces résultats pour <strong>SYNTEX</strong>, sur les 6 corpus qu’il a traités. On constate que <strong>SYNTEX</strong> est<br />

classé premier partout, sauf en rappel sur les corpus Littéraire (3 ème ), Le Monde (3 ème ) et<br />

Parlement (2 ème ). Le résultat le plus remarquable est l’écart entre <strong>SYNTEX</strong> et ses suivants<br />

en terme de précision : en moyenne 10 points de précision en plus.<br />

Corpus Fournisseur Enoncés Mots Enoncés Mots<br />

annotés annotés<br />

Web ELDA 836 16 786 77 2 104<br />

Le Monde LLF 2 950 86 273 380 10 081<br />

Parlement ELDA 2 818 81 310 276 7 551<br />

Littérature ATILF 8 062 229 894 892 24 358<br />

Mail ELDA 7 976 149 328 852 9 243<br />

Médical STIM 2 270 48 858 554 11 799<br />

Oral DELIC 522 8 106 505 8 117<br />

Questions ELDA 3 528 51 546 203 4 116<br />

Tableau 10. Les corpus de la campagne EASY<br />

Corpus Précision Rappel F mesure<br />

r S-n°2 r S-n°1 r S-n°2<br />

Web 0.80 1 + 0.11 0.60 1 0 0.69 1 + 0.12<br />

Médical 0.79 1 + 0.14 0.63 1 0 0.70 1 + 0.07<br />

Littéraire 0.80 1 + 0.12 0.55 3 - 0.07 0.65 1 + 0.03<br />

Le Monde 0.76 1 + 0.10 0.58 3 - 0.02 0.66 1 + 0.04<br />

Parlement 0.75 1 + 0.11 0.57 2 - 0.02 0.64 1 + 0.05<br />

Questions 0.77 1 + 0.09 0.63 1 0 0.70 1 + 0.05<br />

Mail<br />

Oral<br />

Tableau 11. Résultats de <strong>SYNTEX</strong> dans la compagne EASY (pour les relations), sur 6<br />

corpus. Précision, rappel et f-mesure, avec le rang de classement (r) et l’écart avec<br />

l’<strong>analyseur</strong> classé deuxième pour la précision et la f-mesure (S-n°2), et l’écart avec<br />

l’<strong>analyseur</strong> classé premier pour le rappel (S-n°1).<br />

48 Elle était alors jeune doctorante au sein de l’<strong>ERSS</strong>. Je la remercie ici chaleureusement, et je suis heureux de<br />

partager avec elle la joie de voir d’avoir obtenu de si bons résultats.<br />

128


p r f<br />

P1 0.59 0.51 (3) 0.55 (3)<br />

P2 0.42 0.16 0.23<br />

P3 - - -<br />

P4 0.55 0.33 0.42<br />

P5 0.55 0.44 0.49<br />

P6 0.46 0.41 0.43<br />

P7 0.61 0.39 0.47<br />

Sy 0.80 (1) 0.60 (1) 0.69 (1)<br />

P9 0.69 (2) 0.30 0.42<br />

P10 0.60 0.55 (2) 0.57 (2)<br />

P11 0.67 (3) 0.06 0.11<br />

P12 0.41 0.29 0.34<br />

P13 0.27 0.24 0.26<br />

P14 - - -<br />

P15 0.34 0.32 0.33<br />

Tableau 12a. Résultats EASY<br />

(relations) sur le corpus Web<br />

p r f<br />

P1 0.61 0.54 0.58<br />

P2 0.08 0.04 0.05<br />

P3 0.58 0.62 (1) 0.60 (3)<br />

P4 0.53 0.36 0.43<br />

P5 0.51 0.41 0.46<br />

P6 - - -<br />

P7 0.68 (2) 0.43 0.52<br />

Sy 0.80 (1) 0.55 (3) 0.65 (1)<br />

P9 0.02 0.01 0.02<br />

P10 0.64 (3) 0.61 (2) 0.62 (2)<br />

P11 0.64 0.09 0.16<br />

P12 0.39 0.27 0.32<br />

P13 0.43 0.38 0.40<br />

P14 - - -<br />

P15 0.38 0.31 0.34<br />

Tableau 12c. Résultats EASY<br />

(relations) sur le corpus Littéraire<br />

129<br />

p r f<br />

P1 0.60 0.53 0.56<br />

P2 0.07 0.04 0.05<br />

P3 0.64 (3) 0.63 (2) 0.63 (2)<br />

P4 0.28 0.20 0.23<br />

P5 0.56 0.49 0.52<br />

P6 - - -<br />

P7 0.65 (2) 0.44 0.53<br />

Sy 0.79 (1) 0.63 (1) 0.70 (1)<br />

P 9 0.04 0.02 0.03<br />

P10 0.61 0.59 (3) 0.60 (3)<br />

P11 0.62 0.10 0.17<br />

P12 0.43 0.33 0.38<br />

P13 0.36 0.33 0.34<br />

P14 - - -<br />

P15 0.33 0.28 0.30<br />

Tableau 12b. Résultats EASY<br />

(relations) sur le corpus Médical<br />

p r f<br />

P1 0.57 0.52 0.54<br />

P2 0.32 0.12 0.17<br />

P3 0.63 (3) 0.60 (1) 0.62 (2)<br />

P4 0.58 0.32 0.41<br />

P5 0.56 0.46 0.51<br />

P6 0.42 0.34 0.38<br />

P7 0.66 (2) 0.43 0.52<br />

Sy 0.76 (1) 0.58 (3) 0.66 (1)<br />

P9 - - -<br />

P10 0.61 0.59 (2) 0.60 (3)<br />

P11 0.60 0.07 0.13<br />

P12 0.41 0.29 0.34<br />

P13 0.36 0.32 0.34<br />

P14 - - -<br />

P15 0.34 0.29 0.31<br />

Tableau 12d. Résultats EASY<br />

(relations) sur le corpus Le Monde


p r f<br />

P1 0.58 0.52 0.55<br />

P2 0.29 0.11 0.16<br />

P3 0.59 0.59 (1) 0.59 (2)<br />

P4 0.55 0.32 0.40<br />

P5 0.53 0.43 0.47<br />

P6 0.41 0.34 0.37<br />

P7 0.64 (2) 0.41 0.50<br />

Sy 0.75 (1) 0.57 (2) 0.64 (1)<br />

P9 - - -<br />

P10 0.58 0.56 (3) 0.57 (3)<br />

P11 0.60 (3) 0.08 0.14<br />

P12 0.37 0.24 0.29<br />

P13 0.34 0.31 0.32<br />

P14 - - -<br />

P15 0.34 0.29 0.31<br />

Tableau 12e. Résultats EASY<br />

(relations) sur le corpus Parlement<br />

p r f<br />

P1 0.57 0.48 (3) 0.52 (3)<br />

P2 0.13 0.05 0.08<br />

P3 0.60 (3) 0.55 (1) 0.57 (1)<br />

P4 0.55 0.04 0.07<br />

P5 0.50 0.40 0.44<br />

P6 - - -<br />

P7 0.64 (2) 0.36 0.46<br />

Sy - - -<br />

P9 0.04 0.02 0.03<br />

P10 0.57 0.52 (2) 0.55 (2)<br />

P11 0.66 (1) 0.01 0.02<br />

P12 0.39 0.24 0.30<br />

P13 0.45 0.36 0.40<br />

P14 - - -<br />

P15 0.41 0.29 0.34<br />

Tableau 12g. Résultats EASY<br />

(relations) sur le corpus Mail<br />

130<br />

p r f<br />

P1 0.68 (2) 0.62 (2) 0.65 (2)<br />

P2 0.16 0.06 0.09<br />

P3 0.66 0.61 (3) 0.64 (3)<br />

P4 0.67 (3) 0.56 0.61<br />

P5 0.45 0.38 0.41<br />

P6 - - -<br />

P7 0.67 0.43 0.52<br />

Sy 0.77 (1) 0.63 (1) 0.70 (1)<br />

P9 0.11 0.05 0.07<br />

P10 0.64 0.61 0.62<br />

P11 0.61 0.09 0.16<br />

P12 0.48 0.35 0.40<br />

P13 0.35 0.31 0.33<br />

P14 - - -<br />

P15 0.36 0.29 0.32<br />

Tableau 12f. Résultats EASY<br />

(relations) sur le corpus Questions<br />

p r f<br />

P1 0.61 (3) 0.49 (1) 0.54 (1)<br />

P2 0.33 0.09 0.14<br />

P3 0.56 0.48 (3) 0.51 (2)<br />

P4 0.56 0.39 0.46<br />

P5 0.51 0.36 0.43<br />

P6 - - -<br />

P7 0.63 (2) 0.33 0.43<br />

Sy - - -<br />

P9 0.26 0.09 0.13<br />

P10 0.52 0.48 (2) 0.50 (3)<br />

P11 0.65 (1) 0.10 0.18<br />

P12 0.34 0.21 0.26<br />

P13 - - -<br />

P14 - - -<br />

P15 - - -<br />

Tableau 12h. Résultats EASY<br />

(relations) sur le corpus Oral


3.3. Discussion<br />

Pour conclure ce mémoire, je consacre cette dernière section à une discussion<br />

épistémologique sur le statut de l’<strong>analyseur</strong> <strong>SYNTEX</strong> et sur la valeur des connaissances<br />

générées par le projet de recherche décrit dans ce mémoire. Dans une première partie<br />

(section 3.3.1), je situe les recherches présentées dans ce mémoire par rapport au<br />

paradigme des grammaires formelles, qui domine largement le domaine de l’analyse<br />

<strong>syntaxique</strong> au sein du TAL depuis les travaux de N. Chomsky. Je reprends<br />

l’argumentation épistémologique de Jean-Marie Marandin (1993), à propos de<br />

l’inadéquation des grammaires formelles pour l’analyse d’énoncés réels. Je discute<br />

ensuite les oppositions entre approche procédurale et approche déclarative, et entre<br />

analyse et génération. J’insiste sur le rôle central de la grammaire traditionnelle, tant<br />

pour le projet de la Grammaire Générative Transformationnelle, que pour celui du<br />

développement d’un <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>. Je conclus cette section sur la<br />

nécessité de choisir un cadre épistémologique au sein duquel il soit possible de penser le<br />

statut et la valeur de connaissances des objets techniques réalisés par l’ingénierie<br />

linguistique. Dans la deuxième partie de cette section (3.3.2), je me situe dans le cadre<br />

épistémologique de la philosophie de la technique de Gilbert Simondon. Je montre<br />

comment les concepts d’adaptation et d’auto-corrélation élaborés par Simondon<br />

permettent de décrire de façon particulièrement éclairante le processus de<br />

développement de l’<strong>analyseur</strong> <strong>SYNTEX</strong> en tant qu’objet technique. La dernière partie de<br />

cette section (3.3.3) pose la question du savoir sur la langue produit par le projet<br />

<strong>SYNTEX</strong>, et y répond, partiellement, en proposant d’utiliser l’<strong>analyseur</strong> comme un<br />

instrument d’observation en corpus des structures <strong>syntaxique</strong>s de la langue.<br />

3.3.1. Situation par rapport au paradigme formel<br />

La critique de J.-M. Marandin (1993)<br />

Dans un article de la revue Traitement Automatique des Langues publié en 1993,<br />

Jean-Marie Marandin expose une critique épistémologie du principe de l’utilisation des<br />

grammaires formelles en analyse <strong>syntaxique</strong> automatique (Marandin, 1993). Le point de<br />

départ de sa réflexion est la question suivante : « Quel statut (…) prend, ou peut prendre,<br />

un <strong>analyseur</strong> dans un programme de recherche consacrée au langage » (op. cit., p. 5).<br />

Marandin examine le statut de l’<strong>analyseur</strong> <strong>syntaxique</strong> dans trois programmes de<br />

recherche : le Traitement du Langage Naturel, la syntaxe et la compréhension. Je me<br />

concentre ici sur ce que dit Marandin du premier programme, le plus proche de mon<br />

propre projet. Marandin nomme ce projet « 3A », pour Analyse Automatique Autonome,<br />

et il le définit ainsi : « concevoir, étant donné une grammaire, l’algorithme ou<br />

l’heuristique qui permet de décrire des énoncés dans les termes de cette grammaire ;<br />

implémenter la procédure ». Marandin affirme que, bien que les tenants de ce<br />

131


programme s’en défendent ou bien l’ignorent, ce programme est entièrement déterminé<br />

par la problématique de la Grammaire Générative transformationnelle (GGT) dans sa<br />

version standard, puisque, de fait, l’<strong>analyseur</strong> 3A occupe la place du dispositif de<br />

performance telle qu’elle est définie dans ce cadre théorique. Or, explique Marandin, « il<br />

est faux de considérer que l’appareil de performance, tel que le propose la GGT, en<br />

particulier Chomsky dans Aspects, soit réductible à une pure application des règles<br />

<strong>syntaxique</strong>s » (op. cit., p. 12), et il poursuit en citant N. Chomsky : « la grammaticalité<br />

est seulement l’un des nombreux facteurs qui, par leur interaction, déterminent<br />

l’acceptabilité [des énoncés] » (Chomsky, 1971, p. 23). Ainsi, selon Marandin, les<br />

difficultés rencontrées par 3A dans la mise en œuvre effective de son programme<br />

viennent d’une inadéquation de fond entre le dispositif abstrait des grammaires<br />

formelles, emprunté au cadre théorique de la GGT dans lequel il est exploité pour<br />

générer des phrases grammaticales, et la fonction assignée à l’<strong>analyseur</strong> par le<br />

programme 3A, à savoir de produire automatiquement des descriptions <strong>syntaxique</strong>s<br />

d’énoncés appréhendés dans des échanges langagiers. <strong>Un</strong> énoncé n’est que partiellement<br />

organisé par la grammaire conçue comme un système de règles de bonne formation (voir<br />

section 3.1.2). L’énoncé est hétérogène, en tant que résultat intriqué de l’interaction de<br />

plusieurs principes organisationnels, et cela se marque dans la forme même des énoncés :<br />

« le système des circonstanciels, par exemple, échappe en grande partie au contrôle de la<br />

syntaxe ; il en est de même pour les différents système d’anaphore et certains aspects de<br />

la sous-catégorisation verbale quand on ne se laisse pas leurrer par le dogme de la<br />

projection (ou ses équivalents) » (Marandin, 1993, p. 14).<br />

Procéduralité vs. déclarativité<br />

On a vu dans le chapitre 2 que l’arrivée sur le devant de la scène des grammaires<br />

d’unification pour l’analyse <strong>syntaxique</strong>, est concomitant du discrédit dans lequel tombe<br />

le paradigme des ATN, au moment où l’Intelligence Artificielle promeut la déclarativité<br />

au rang de principe incontournable. Le principe de la séparation des règles de grammaire<br />

et des algorithmes, cher à Yngve dès les années 1950, est un principe essentiel du<br />

paradigme formel. S’écarter de ce paradigme impose-t-il de renoncer au principe de la<br />

séparation ? La question est ouverte. Parmi les travaux en analyse <strong>syntaxique</strong> robuste<br />

présentés dans le chapitre 2, la plupart s’inscrivent dans une philosophie procédurale.<br />

P. S. Garvin, dès 1967, remet en cause le principe d’une tripartition des <strong>analyseur</strong><br />

<strong>syntaxique</strong>s (dictionnaire électronique, base de règles grammaticales, algorithme<br />

d’analyse) avec l’argument que dès que la grammaire atteint une taille réaliste, il n’est<br />

plus possible de maintenir le principe d’une indépendance entre les règles et les<br />

algorithmes, qui rend possible la modification ou l’ajout des règles sans qu’il soit<br />

nécessaire de modifier l’algorithme. Son <strong>analyseur</strong> <strong>syntaxique</strong> pour le russe est un<br />

système bipartite, constitué d’un dictionnaire et d’un algorithme. Il en est de même de<br />

<strong>SYNTEX</strong>. Les connaissances grammaticales sont incluses, « encapsulées », dans les<br />

algorithmes. Le grammairien concepteur doit maîtriser intégralement, à la fois le<br />

développement des algorithmes locaux de reconnaissance <strong>syntaxique</strong>, et la mise au point<br />

de l’architecture globale de l’<strong>analyseur</strong>.<br />

Analyse vs. génération<br />

132


<strong>Un</strong> autre dogme du paradigme formel est celui de la réversibilité. L’un des intérêts<br />

affichés des grammaires formelles est qu’elles sont censées pouvoir fonctionner en<br />

analyse et en génération. Tous les travaux en analyse <strong>syntaxique</strong> robuste se consacrent<br />

exclusivement à la tâche d’analyse, et c’est peut-être l’une des raisons de leur succès.<br />

Peut-être faut-il assumer le fait qu’en Traitement Automatique des Langues les tâches<br />

d’analyse et de génération sont radicalement différentes, et donc qu’elles exigent des<br />

choix méthodologiques potentiellement différents ? S. Kahane explique que « le choix<br />

d’un ensemble de fonctions <strong>syntaxique</strong>s est directement lié à la façon dont seront écrites<br />

les règles de pronominalisation, linéarisation, redistribution ou coordination » (Kahane,<br />

2001, p. 25). Les règles évoquées sont des règles de génération. Par exemple, il faut<br />

deux relations différentes, complément oblique et complément locatif, pour distinguer la<br />

relation entre compte et sur dans Marie compte sur Pierre de la relation entre pose et sur<br />

dans Marie pose le livre sur la table, de façon à gérer correctement les différences de<br />

pronominalisation en y. En analyse, ces contraintes sur le degré de finesse de la<br />

description <strong>syntaxique</strong> ne s’appliquent pas nécessairement. C’est sans doute sur le<br />

lexique que l’impact du choix entre analyse et génération est le plus fort. En génération,<br />

il est crucial de coder dans le lexique toutes les informations lexicales nécessaire pour<br />

placer les mots, et leur affecter des cas ; la connaissance est concentrée dans le lexique.<br />

En analyse, beaucoup d’information est apportée par la séquence en entrée, et ce<br />

d’autant plus qu’elle a été préalablement étiquetée. C’est pour cette raison que, dans le<br />

projet <strong>SYNTEX</strong>, j’ai pu adopter, concernant le lexique, une approche minimaliste:<br />

(i) Partir de rien. J’ai fait le choix initial de la table rase. Contrairement aux approches<br />

qui choisissent, pour réaliser un <strong>analyseur</strong> <strong>syntaxique</strong>, de développer au préalable un<br />

lexique <strong>syntaxique</strong> très riche recensant les propriétés <strong>syntaxique</strong>s des mots de la<br />

langue, j’ai commencé sans aucune information de ce type. Cette approche est<br />

possible à partir du moment où l’on a choisi de s’appuyer sur les résultats d’un<br />

étiqueteur (on bénéficie indirectement des ressources lexicales éventuellement<br />

exploitées par celui-ci).<br />

(ii) Identifier les besoins en ressources lexicales au fur et à mesure du développement de<br />

l’<strong>analyseur</strong>. Dans un certain nombre de cas, ces ressources sont des listes fermées<br />

d’unités lexicales, que l’on peut construire à partir de la consultation de bonnes<br />

grammaires. Pour la constitution de listes non fermées d’unités lexicales, les<br />

informations sont acquises de façon automatique à partir de corpus, à l’aide de et<br />

pour l’<strong>analyseur</strong>, sans validation manuelle.<br />

La place de la grammaire<br />

La grammaire, en tant que tradition séculaire de description des structures <strong>syntaxique</strong>s<br />

des langues, joue un rôle fondamental dans le projet de développement d’un <strong>analyseur</strong><br />

<strong>syntaxique</strong> <strong>opérationnel</strong>. Sur ce point, la position que j’adopte est analogue à celle de la<br />

Grammaire Générative Transformationnelle : la grammaire comme base d’appui. Dans<br />

son Introduction à une science du Langage, J.-C. Milner (1989) montre qu’une science<br />

linguistique n’est possible que parce que la grammaire existe et qu’elle fournit les<br />

descriptions minimales dont a besoin cette science pour fonctionner comme une science<br />

133


empirique. C’est un postulat qui est à la base de la grammaire générative. Dès le début<br />

d’Aspects, Chomsky revendique le recours à la grammaire traditionnelle comme un point<br />

de passage indispensable pour élaborer la théorie de la grammaire générative : « [Le<br />

linguiste] aura grand avantage à commencer par étudier le type d’information structurale<br />

que présentent les grammaires traditionnelles et le type de processus linguistiques<br />

qu’elles ont mis au jour, sans encore les formaliser » (Chomsky, 1971, p. 15). Mais c’est<br />

Milner qui, dans ses efforts pour reconstituer le cadre épistémologique de la grammaire<br />

générative, explicite le statut de la grammaire dans l’édifice théorique. A une science du<br />

langage qui se veut empirique, la grammaire fournit ses observables, à savoir les<br />

exemples. Dans la grammaire, l’exemple n’est pas un énoncé attesté, c’est le<br />

représentant d’une classe d’équivalence, qui rassemble toutes les données de langue<br />

(phrases) qui partagent un ensemble de propriétés. L’exemple, et donc l’observable,<br />

n’existe que parce qu’il est possible d’attribuer des propriétés à des données de langue.<br />

Or, ce qui garantit qu’il soit simplement possible, de manière générale, d’attribuer des<br />

propriétés à des données de langue, c’est l’existence de fait de ce qu’on appelle les<br />

grammaires (Milner, 1989, p. 53). La grammaire fournit au linguiste une analyse<br />

grammaticale minimale, qui segmente les unités, leur attribue un type (nom, verbe…) et<br />

identifie des relations. Cette analyse minimale initiale aura à être reprise, critiquée, voire<br />

modifiée, mais elle est nécessaire et elle ne peut être entièrement produite par la théorie<br />

linguistique elle-même.<br />

Selon mon point de vue, le développement d’une théorie formelle et celui d’un <strong>analyseur</strong><br />

<strong>opérationnel</strong> ne sont pas des chemins consécutifs, mais parallèles, qui prennent comme<br />

point de départ les concepts de la tradition grammaticale. De même que l’existence des<br />

grammaires rend possible la construction d’une science linguistique, de même elle rend<br />

possible l’élaboration d’<strong>analyseur</strong>s <strong>syntaxique</strong>s. Comme pour la théorie, les concepts et<br />

descriptions de la grammaire ne sont qu’un point de départ, duquel on s’éloigne vite dès<br />

que l’entreprise avance. Dans le contexte du développement d’un <strong>analyseur</strong>, cette prise<br />

de distance s’impose parce que les descriptions <strong>syntaxique</strong>s que propose la grammaire<br />

sont celles d’exemples et non d’énoncés réels. Les exemples sont construits par le<br />

grammairien de façon à être le plus simples possible pour isoler au mieux les règles que<br />

ces exemples sont censés illustrer : « Quant aux règles qui fonctionnent avec des<br />

exemples inventés, elles s’attacheront à inventer des phrases où l’on pourra sans trop de<br />

difficulté neutraliser tout ce qui dans la phrase ne relève pas de la règle considérée »<br />

(Milner, 1989, p. 113). La matière à traiter par l’<strong>analyseur</strong> n’est pas constituée<br />

d’exemples, mais de séquences réelles, qui possèdent le caractère empirique des données<br />

de langue que Milner nomme la concrétion. Tout énoncé résulte de l’application de<br />

plusieurs règles <strong>syntaxique</strong>s. Le grammairien est capable de fabriquer ces artefacts<br />

presque purs que sont les exemples, il est aussi capable d’exercer son talent d’analyste<br />

pour identifier la description <strong>syntaxique</strong> d’un énoncé attesté, aussi complexe soit-il. Si le<br />

grammairien sait en plus programmer, alors il peut mettre au point un système de<br />

reconnaissance de ces formes <strong>syntaxique</strong>s.<br />

Science et ingénierie linguistiques<br />

134


<strong>Un</strong> argument régulièrement avancé par les promoteurs des grammaires formelles est<br />

celui de la possibilité d’un partage des tâches entre linguistes et informaticiens. Avec<br />

l’approche formelle et déclarative, chaque communauté de spécialistes peut se<br />

concentrer sur son domaine de compétence : aux linguistes la tâche de développer les<br />

grammaires, aux informaticiens celle de s’occuper des algorithmes et de toute la<br />

mécanique informatique. Il existe une autre voie, celle de l’ingénierie linguistique<br />

(Natural Language Engineering). Cette voie se caractérise d’abord par des objectifs<br />

appliqués, mais aussi par des profils de compétence particuliers, qui associent chez des<br />

individus, d’un côté, un goût prononcé pour la chose linguistique, une bonne<br />

connaissance de la grammaire et une bonne culture <strong>syntaxique</strong>, ainsi que l’absence<br />

d’aversion pour le dépouillement de corpus, et, de l’autre côté, de solides compétences<br />

en programmation. Ces linguistes informaticiens ne seront pas considérés comme des<br />

informaticiens par les informaticiens, à juste titre, ni comme des linguistes par les<br />

linguistes, ce qui est sans doute plus regrettable. Ce sont des ingénieurs linguistes. <strong>Un</strong><br />

ingénieur linguiste, ou une équipe d’ingénieurs linguistes, peut mener à bien un projet de<br />

recherche visant la réalisation d’un <strong>analyseur</strong> <strong>syntaxique</strong> <strong>opérationnel</strong>.<br />

Le partage des tâches est selon moi dépassé, mais la route est longue avant que les<br />

clivages s’estompent. A la conclusion de sa critique du programme de recherche de<br />

l’Analyse Automatique Autonome, J.-M. Marandin affiche un certain scepticisme sur la<br />

possibilité d’un programme de recherche en ingénierie linguistique : « L’<strong>analyseur</strong> prend<br />

le statut d’une machine industrielle dans le TAL ; il est soumis aux impératifs de la<br />

technologie, ce ne sont pas toujours ceux d’un programme de recherche » (Marandin,<br />

1993, p. 31). Nous avons vu aussi, à la fin de la section 2.2.3, comment J. Léon et<br />

M. Cori regrettaient que le tournant déclaratif, en encourageant un partage des tâches<br />

entre la description des données linguistiques, d’un côté, et l’écriture de modèles et<br />

algorithmes, de l’autre, ait contribué à faire réapparaître une ligne de fracture entre la<br />

linguistique et l’informatique, et provoqué une régression dans le chemin vers la<br />

constitution du TAL comme discipline scientifique, en laissant le champ libre aux<br />

ingénieurs :<br />

Seuls peuvent se réclamer sans équivoque du domaine les ingénieurs qui<br />

réalisent des applications industrielles et qui, donc, ont simultanément<br />

besoin des algorithmes et de la description des données. Alors même qu’en<br />

adoptant des modèles déclaratifs le TAL cherche à s’imposer des critères<br />

de rigueur, il tend du même coup à rendre impossible sa constitution<br />

comme discipline scientifique.<br />

(Cori et Léon, 2002, p. 50)<br />

Cette réticence à accorder un crédit scientifique à un programme de recherche en<br />

ingénierie linguistique vient d’une conception schématique et partielle des rapports entre<br />

sciences et techniques. Cette conception est exposée pour la linguistique de façon très<br />

nette par Jean-Claude Milner dans son ouvrage de 1989. Même si l’épistémologie<br />

invoquée par Milner n’est sans doute pas appropriée à l’objet qu’elle vise, on peut sans<br />

doute estimer qu’elle est acceptée aisément au sein de la communauté du TAL. Milner<br />

s’interroge sur la manière dont la question de la science est pertinente pour la<br />

135


linguistique. Il reprend l’hypothèse du programme de recherche initial de la grammaire<br />

générative : si la linguistique est une science, elle est une science empirique ; elle l’est au<br />

même sens que le sont les sciences de la nature et elle relève donc de la même<br />

épistémologie. Or Milner rappelle que, depuis A. Koyré, on caractérise la science par la<br />

combinaison de deux traits :<br />

(I) La mathématisation de l’empirique (…) ; (II) La constitution d’une<br />

relation avec une technique, telle que la technique se définisse comme<br />

l’application pratique de la science (d’où le thème de la science appliquée)<br />

et que la science se définisse comme la théorie de la technique (d’où le<br />

thème de la science fondamentale).<br />

(Milner, 1989, p. 23)<br />

Pour accéder au statut de science empirique, la linguistique doit fonctionner comme la<br />

théorie d’une ou de plusieurs techniques qui en seraient la version appliquée, autrement<br />

dit il faut qu’il existe une « linguistique industrielle ». Pour Milner, on pourra parler de<br />

linguistique industrielle quand on disposera de techniques informatiques capables de<br />

« transformer » les objets que vise la science linguistique, c’est-à-dire non pas tant les<br />

langues elles-mêmes que les réalisations de langue : textes, messages, slogans, discours,<br />

etc. Milner évoque des outils informatiques capables de traitements de textes <strong>syntaxique</strong>s<br />

dignes de ce nom, c’est-à-dire au moins capables de réaliser des opération <strong>syntaxique</strong>s<br />

telles que la transposition du style direct au style indirect, ou la conversion actif/passif,<br />

ou la correction grammaticale, avec, pour commencer, la vérification de l’accord<br />

(op. cit., note 11, pp. 34-35). Mais il ne suffira pas que tels outils existent, il faudra aussi<br />

que ces systèmes aient été construits à partir des lois des langues découvertes et<br />

organisées en théorie par les linguistes, lois qui régissent ces matières réalisées que sont<br />

les productions textuelles. Or Milner constate qu’on est loin de cette situation. La raison<br />

essentielle pour lui est que la relation de la science moderne à la technique n’est ni<br />

simple, ni directe : il y a loin de la proposition théorique à la procédure technique. Il<br />

prend l’exemple de la physique. Le théoricien ne sera satisfait que quand la technique du<br />

moteur à explosion pourra être présentée comme déductible de la théorie d’Einstein, et<br />

donc comme une application de la physique d’Einstein. Or les ingénieurs n’en ont cure.<br />

Ils construisent de leur côté pour leurs propres besoins une physique pour l’ingénieur, en<br />

détachant de la science physique quelques parties plus ou moins étendues et détaillées.<br />

Toujours selon Milner, ce qui est vrai pour la physique est encore plus vrai pour la<br />

linguistique, où l’indifférence réciproque entre linguistes et techniciens de la langue est<br />

plus accentuée qu’ailleurs. Ainsi il s’est construit une « linguistique pour ingénieur »,<br />

qui « n’a guère dépassé en profondeur et en étendue les manuels de grammaire du cours<br />

préparatoire » (op. cit., p 34). L’avènement d’une linguistique industrielle n’est pas pour<br />

demain, où l’on verrait les ingénieurs venir puiser dans des théories linguistiques les<br />

connaissances à appliquer pour construire de belles réalisations industrielles.<br />

Au reste, l’on entrevoit déjà ce que promet l’avenir, en ce qui concerne les<br />

doctrines du langage et de la langue : d’un côté, l’appel aux technologies<br />

obtuses ; de l’autre, la résurgence des bavardages romanesques. En tout<br />

état de cause, le fil de la science est bien prêt d’être rompu.<br />

136


(Milner, 1989, p. 19)<br />

Il ne conviendrait pas que, poussé par l’exaspération que suscite<br />

légitimement l’intervention répétée des charlatans, le linguiste entonne<br />

sans prudence le cantique des applications.<br />

(Milner, 1989, p. 32)<br />

L’épistémologie adoptée par Milner privilégie l’idée d’une relation orientée entre<br />

sciences et techniques, dans laquelle les techniques sont fécondées par les sciences, en<br />

tant qu’elles n’en sont que des applications, qui, le cas échéant, viennent les valider. <strong>Un</strong><br />

tel cadre épistémologique laisse donc peu de place à une réflexion sur le statut des<br />

techniques, leur valeur de connaissances intrinsèque et leur identité propre. Dans le<br />

domaine du TAL, et bien au-delà, on reste souvent prisonnier de la vison traditionnelle<br />

d’une dichotomie entre la science fondamentale, noble, et la science appliquée, plus<br />

vulgaire, et de la technique comme simple application de la science. Dans cette vision<br />

classique, il n’y a pas de place pour un programme de recherche en ingénierie<br />

linguistique, au prétexte qu’il ne peut y avoir production de connaissances quand on<br />

cherche à réaliser des objets techniques utiles. Dans le domaine du TAL, cette<br />

conception sert de justification à l’implication limitée des acteurs de la recherche<br />

universitaire dans le monde industriel du TAL et de ses applications, où ils auraient<br />

pourtant beaucoup à faire et beaucoup à apprendre. Si l’on veut sortir de la situation<br />

d’ignorance ou de méfiance entre linguistes et ingénieurs, et renouveler au-delà des<br />

vœux pieux un dialogue entre science et ingénierie linguistiques, il faut dans un premier<br />

temps trouver un cadre épistémologique dans lequel les ingénieurs linguistes puissent<br />

conceptualiser leur activité de production et donner un statut aux objets qu’ils<br />

produisent. B. Habert (2006), dans son article qui présente « le linguiste à l’instrument »,<br />

suggère de se référer au cadre épistémologique de Gilbert Simondon (Simondon, 1958,<br />

1971).<br />

3.3.2. <strong>SYNTEX</strong>, un « objet technique »<br />

Georges Simondon et la philosophie de l’objet technique<br />

G. Simondon a développé une philosophie de la technique. Ancien élève de l’Ecole<br />

Normale Supérieure de la rue d’Ulm et agrégé de philosophie en 1948, Simondon a été<br />

nommé au lycée Descartes de Tours, où, de 1948 à 1955, il a enseigné non seulement la<br />

philosophie, mais aussi la physique dans la classe de philosophie. En 1963, il a été<br />

nommé professeur à la Sorbonne, puis à l’<strong>Un</strong>iversité Paris V, où il a dirigé<br />

l’enseignement de psychologie générale et a fondé le laboratoire de psychologie générale<br />

et technologie. C’est dans son premier ouvrage, publié en 1958 (Simondon, 1958), dont<br />

le titre est « Du mode d’existence des objets techniques », qu’il développe sa philosophie<br />

de la technique. Son objectif est de réduire les conflits entre les valeurs de la culture<br />

classique et celles qui sont liées aux sciences et aux techniques :<br />

Cette étude est animée par l’intention de susciter une prise de conscience<br />

du sens des objets techniques. La culture s’est constituée en système de<br />

137


défense contre les techniques ; or cette défense se présente comme une<br />

défense de l’homme, supposant que les objets techniques ne présentent pas<br />

de réalité humaine. Nous voudrions montrer que la culture ignore dans la<br />

réalité technique une réalité humaine, et que, pour jouer son rôle complet,<br />

la culture doit incorporer les êtres techniques sous forme de connaissance<br />

et de sens des valeurs.<br />

(Simondon, 1958, p. 9)<br />

La philosophie de la technique de Simondon est une philosophie de l’invention. Les<br />

réalisations techniques apparaissent par invention. Les concepts qu’il met en place pour<br />

décrire les objets techniques et l’activité d’invention sont élaborés à partir de l’analyse<br />

historique, psychologique, technique d’un très grand nombre de réalisations techniques,<br />

empruntées à tous les domaines de l’activité humaine. La perspective historique est<br />

fondamentale, en ce sens que, pour Simondon, la genèse de l’objet technique fait partie<br />

de son être : « L’unité de l’objet technique, son individualité, sa spécificité sont les<br />

caractères de consistance et de convergence de sa genèse » (Simondon, 1971, p. 20).<br />

Simondon parle de genèse concrétisante. L’étude d’un objet technique doit être<br />

appréhendée en tant qu’il appartient à une lignée et marque à un moment donné une<br />

étape dans l’évolution de cette lignée. C’est pourquoi j’ai retracé, dans le chapitre 1 de<br />

ce mémoire, en quoi l’<strong>analyseur</strong> <strong>SYNTEX</strong> était un descendant de l’outil LEXTER, et j’ai<br />

cherché ensuite à inscrire mon travail de recherche dans une lignée de travaux en<br />

Traitement Automatique des Langues dont l’unité et la convergence se concrétisent par<br />

l’objectif commun de réaliser des <strong>analyseur</strong>s <strong>opérationnel</strong>s (chap. 2). Dans ce deuxième<br />

chapitre, la perspective adoptée n’a pas été celle, classique dans les disciplines<br />

scientifiques, d’un « état de l’art » dans lequel on montre comment les résultats présentés<br />

constituent une contribution à l’avancée des connaissances dans un domaine scientifique.<br />

Même si on peut identifier des choix méthodologiques proches dans ces divers travaux,<br />

on est moins dans une évolution cumulative des connaissances que dans la réitération<br />

d’efforts, accomplis par des chercheurs inventeurs le plus souvent isolés, pour résoudre<br />

le même problème, mais dans des contextes différents (différences de langues, de<br />

contraintes technologiques, de principes de base, d’applications cibles). L’émergence<br />

d’inventions techniques analogues à des dates et des lieux différents n’est d’ailleurs pas<br />

un cas rare dans le développement des techniques.<br />

Les concepts clés de la philosophie de Simondon sont ceux d’adaptation et<br />

d’auto-corrélation. La caractéristique de l’objet technique est d’être un mixte<br />

d’adaptation et d’auto-corrélation :<br />

L’objet technique est d’une part un médiateur entre organisme et milieu,<br />

d’autre part une réalité intérieurement organisée et cohérente ; comme<br />

médiateur, il doit s’adapter à des termes extrêmes qu’il relie, et c’est un<br />

des aspects de son progrès d’améliorer son couplage aux réalités entre<br />

lesquelles il jette un pont ; mais cette augmentation de complexité et de<br />

distance entre les termes extrêmes doit être compensée par un surcroît<br />

d’organisation et de cohérence entre les différentes parties de l’objet<br />

138


technique ; le progrès se fait par oscillation entre les progrès de la<br />

médiation et ceux de l’auto-corrélation.<br />

(Simondon, 1971, p. 101-102)<br />

Ces concepts ont été élaborés à partir d’études approfondies de multiples inventions,<br />

menées par Simondon, que celui-ci a l’habitude de fournir en détail dans ses exposés<br />

pour appuyer ces propositions théoriques. Je reproduis ici l’illustration donnée par<br />

Simondon à propos de la roue :<br />

<strong>Un</strong>e étude plus exhaustive de la roue véhiculaire ne pourrait être faite sans<br />

tenir compte des étapes de l’adaptation aux termes extrêmes, le plan de<br />

roulement (appartenant au milieu) et le véhicule (portant l’organisme et<br />

conduit par lui) ; la roue s’adapte au plan de roulement en se différenciant<br />

(roue de chemin de fer, roue d’automobile, roue avant et roue arrière de<br />

tracteur) très particulièrement au niveau du contact avec le plan de<br />

roulement (pneumatiques pour la neige, tout-terrain…) ; elle s’adapte au<br />

véhicule par la suspension, les amortisseurs, les boggies. Ces progrès<br />

relationnels amènent à une nécessité d’auto-corrélation plus serrée, en<br />

particulier pour les virages (différentiel, système de la barre de couplage<br />

des roues directrices avec fusées entraînées par des leviers dont les<br />

prolongements géométriques se coupent au milieu du pont arrière) ; dans<br />

le cas des chemins de fer, l’auto-corrélation dans les virages est obtenue<br />

par inclinaison de la voie, conicité des roues et prescription d’une vitesse<br />

définie pour chaque courbe.<br />

(Simondon, 1971, p. 102)<br />

L’analogie entre la roue et un <strong>analyseur</strong> <strong>syntaxique</strong> ne va a priori pas de soi. La<br />

différence des déterminants devant ces deux objets est le signe qu’il est trop tôt pour<br />

parler de l’<strong>analyseur</strong> <strong>syntaxique</strong> comme d’un objet technique reconnu. Néanmoins, les<br />

concepts d’adaptation et d’auto-corrélation sont pour moi des clés essentielles pour<br />

parler du développement de l’<strong>analyseur</strong> <strong>SYNTEX</strong> et pour théoriser l’activité de recherche<br />

en ingénierie linguistique dont il est un résultat. Dans la suite de cette section, j’applique<br />

d’abord les concepts d’adaptation et d’auto-corrélation aux systèmes de traitement de<br />

l’information qui intègrent un <strong>analyseur</strong> <strong>syntaxique</strong> comme composant. Je considère<br />

ensuite l’<strong>analyseur</strong> <strong>syntaxique</strong> en tant qu’objet technique et j’utilise ces mêmes concepts<br />

pour décrire les dimensions selon lesquelles se sont développées les évolutions de<br />

l’<strong>analyseur</strong> <strong>syntaxique</strong>.<br />

Adaptation et auto-corrélation de systèmes intégrateurs<br />

L’<strong>analyseur</strong> <strong>syntaxique</strong> n’est quasiment jamais en contact direct avec l’organisme,<br />

c’est-à-dire avec un utilisateur final. Pour une première mise en scène, dans le domaine<br />

de l’ingénierie linguistique, des concepts d’adaptation et d’auto-corrélation, et avec eux<br />

ceux d’organisme et de milieu, entre lesquels l’objet technique vient établir une liaison,<br />

je propose d’observer d’abord des systèmes au sein desquels l’<strong>analyseur</strong> <strong>syntaxique</strong> est<br />

un composant. Je prends les trois exemples suivants :<br />

139


- une plateforme d’acquisition de terminologie. L’<strong>analyseur</strong> <strong>syntaxique</strong> est utilisé<br />

pour fournir les analyses <strong>syntaxique</strong>s des séquences du corpus d’étude, à partir<br />

desquelles un programme d’extraction construit un réseau de candidats termes<br />

complexes (syntagmes verbaux, nominaux, adjectivaux). L’utilisateur est un<br />

terminologue ou un spécialiste qui construit une ressource terminologique pour un<br />

domaine donné.<br />

- une chaîne d’analyse distributionnelle. Les analyses <strong>syntaxique</strong>s fournies par<br />

l’<strong>analyseur</strong> sont exploitées par un programme de calcul distributionnel qui extrait les<br />

contextes <strong>syntaxique</strong>s associés aux mots du corpus d’étude et qui rapproche les mots<br />

qui ont des profils <strong>syntaxique</strong>s proches. L’utilisateur est un linguiste spécialiste de<br />

sémantique lexicale, ou un chercheur en sciences humaines, intéressé par l’évolution<br />

des mots et concepts dans une communauté donnée.<br />

- un moteur de recherche sur site Web. L’<strong>analyseur</strong> <strong>syntaxique</strong> est utilisé pour<br />

extraire des mots clés liés aux mots de la requête posée par l’utilisateur qui seront<br />

proposés comme suggestions de reformulation. L’utilisateur final est le responsable<br />

du site, qui souhaite intégrer à son site des facilités de navigation, soit pour satisfaire<br />

l’internaute qui visite le site, en l’aidant à trouver le plus vite possible l’information<br />

qu’il recherche, soit pour le maintenir le plus longtemps possible sur le site.<br />

Dans toutes ces applications, le système doit s’adapter aux termes extrêmes qu’il relie, à<br />

savoir un fond textuel (milieu) et un utilisateur (organisme). Les adaptations concernent<br />

d’abord les frontières externes, avec le milieu d’un côté et avec l’organisme de l’autre.<br />

Le système doit comporter en début de chaîne, côté milieu, des programmes de captage,<br />

de conversion, de balisage, de nettoyage de sources textuelles, qui permettent la prise en<br />

compte de fichiers aux formats divers et leur conversion dans le format adéquat exigé<br />

par l’<strong>analyseur</strong> <strong>syntaxique</strong>. Puisque l’<strong>analyseur</strong> <strong>SYNTEX</strong> attend le corpus à traiter au<br />

format texte avec un balisage minimal (séparation en unités textuelles), il faut<br />

débarrasser le texte du balisage initial quand il existe, pour éventuellement le récupérer<br />

et le reprojeter le cas échéant une fois l’analyse effectuée. Dans certains cas, la phase de<br />

pré-traitement peut comporter une étape de découpage du corpus en séquences, dans les<br />

contextes où un simple découpage sur ponctuations fortes apparaît inadéquat. Le système<br />

intégrateur doit être équipé en fin de chaîne, du côté de l’organisme, d’interfaces<br />

adaptées aux besoins de l’utilisateur. Dans les première et troisième applications, il faut<br />

intégrer, en aval de l’<strong>analyseur</strong>, un extracteur, c’est-à-dire un module capable de passer<br />

de la représentation <strong>syntaxique</strong> en dépendance des phrases à des syntagmes structurés 49 .<br />

Ces adaptations sont obligatoires pour permettre la communication entre composants.<br />

D’autres adaptations ne sont pas obligatoires, mais sont ajoutées de façon opportuniste<br />

pour renforcer le potentiel du système. Par exemple, en amont de l’<strong>analyseur</strong>, des<br />

procédures de prétraitement <strong>syntaxique</strong>s peuvent être intercalées avant l’analyse<br />

<strong>syntaxique</strong> pour le traitement d’entités nommées spécifiques au domaine traité<br />

(reconnaissance de noms de société, de gênes, de composés chimiques, etc.). En aval,<br />

49 J’ai réalisé un tel extracteur pour l’<strong>analyseur</strong> <strong>SYNTEX</strong>. Bien que cela représente une quantité de travail non<br />

négligeable et un certain intérêt, j’ai choisi de ne pas présenter ce travail dans le présent document.<br />

140


des extensions peuvent être apportées aux interfaces utilisateurs dans le cas où<br />

l’<strong>analyseur</strong> intégré apporte plus d’informations que le strict nécessaire requis<br />

initialement par les spécifications de l’application. Par exemple, si l’<strong>analyseur</strong> est<br />

capable de repérer des relations de variations morpho<strong>syntaxique</strong>s entre candidats termes,<br />

ou peut produire des liens de proximités distributionnelles entre candidats termes, les<br />

interfaces doivent intégrer la possibilité de visualiser ces liens supplémentaires.<br />

Inversement, il existe des applications dans lesquelles il convient plutôt de réduire les<br />

capacités de l’<strong>analyseur</strong>, pour ne se saisir que des résultats pertinents pour l’application<br />

(uniquement des syntagmes nominaux, par exemple).<br />

Toutes ces interventions portent sur l’amélioration de la caractéristique d’adaptation des<br />

systèmes de traitement de l’information qui intègrent un <strong>analyseur</strong> <strong>syntaxique</strong>. Au-delà<br />

de ces adaptations plus ou moins ad hoc, les concepteurs de tels systèmes sont amenés à<br />

réfléchir à une meilleure auto-corrélation de ces systèmes. C’est particulièrement<br />

nécessaire quand il s’agit de quitter le cadre des solutions artisanales et d’adopter des<br />

solutions ingénieriques destinées à favoriser la maintenance, la réutilisabilité et la<br />

généricité de ces systèmes. On peut faire référence à l’initiative GATE pour les<br />

applications d’extraction d’information (Cunningham et al., 1996, Cunningham et al.,<br />

2002), ainsi qu’aux propositions de F. Cerbah sur une architecture à base de services<br />

Web pour la mise en œuvre d’applications d’acquisition terminologique (Cerbah et<br />

Daille, 2006). Ces efforts n’ont pas un impact immédiat fort visible du côté de<br />

l’utilisateur final, mais ils permettent des progrès à moyen terme sur le développement<br />

des systèmes qui aboutiront à une meilleure adaptation aux besoins des utilisateurs.<br />

Adaptation de l’<strong>analyseur</strong> <strong>syntaxique</strong><br />

Après avoir présenté l’adaptation et l’auto-corrélation de systèmes qui intègrent comme<br />

composant un <strong>analyseur</strong> <strong>syntaxique</strong>, je m’intéresse à l’<strong>analyseur</strong> lui-même en tant<br />

qu’objet technique. L’<strong>analyseur</strong> est bien un objet technique au sens où l’entend<br />

Simondon car les progrès dans son développement peuvent être décrits de façon<br />

parfaitement adéquate en exploitant les deux dimensions de l’adaptation et de<br />

l’auto-corrélation. Les termes extrêmes entre lesquelles l’<strong>analyseur</strong> doit réaliser<br />

l’adaptation sont d’un côté des séquences issues de corpus à analyser, et de l’autre les<br />

descriptions grammaticales idéales de ces séquences. Pour une séquence donnée en<br />

entrée, l’analyse produite doit être la plus proche possible de l’analyse correcte.<br />

Améliorer l’adaptation de l’<strong>analyseur</strong>, c’est réduire les différences entre analyses<br />

produites et analyses correctes. Il s’agit non pas d’améliorations locales qui viseraient à<br />

traiter correctement des exemples que telle théorie <strong>syntaxique</strong> considérerait comme<br />

difficiles, mais d’une amélioration globale, dont la mesure doit être effectuée, en terme<br />

de rappel et de précision, sur de larges échantillons de corpus de test annotés à la main.<br />

Améliorer l’<strong>analyseur</strong> consiste d’abord à améliorer sa couverture, à savoir le type de<br />

relations <strong>syntaxique</strong>s qu’il est capable de reconnaître, et pour chacune de ces relations<br />

améliorer le rappel et la précision, c’est-à-dire reconnaître sans erreur le maximum de<br />

liens <strong>syntaxique</strong>s dans les énoncés. Ces progrès passent essentiellement par une<br />

augmentation de la résistance de l’<strong>analyseur</strong>. On parle souvent de robustesse à propos<br />

141


d’analyse <strong>syntaxique</strong> et l’on entend généralement la capacité d’un <strong>analyseur</strong> à traiter des<br />

énoncés comportant des malformations grammaticales. Par résistance, j’entends sa<br />

capacité à reconnaître les liens <strong>syntaxique</strong>s dans des configurations complexes, que la<br />

caractéristique de concrétion de la langue rend fréquentes dans les corpus. Les séquences<br />

réelles sont souvent longues, par rapport aux exemples de la grammaire, et donc les liens<br />

<strong>syntaxique</strong>s sont nombreux et intriqués dans des configurations complexes. Par exemple,<br />

améliorer l’adaptation de l’<strong>analyseur</strong> sur la relation Sujet, c’est complexifier et enrichir<br />

les algorithmes de reconnaissance pour trouver les liens Sujet même s’il y a intercalation<br />

de chaînes coordonnées, d’incises, de subordonnées relatives entre le verbe et son sujet.<br />

La démarche adoptée pour améliorer l’adaptation de l’<strong>analyseur</strong> est une démarche<br />

pragmatique, par essais et erreurs, qui enchaîne de façon systématique programmation et<br />

tests sur corpus. C’est une démarche d’ingénierie linguistique. Comme je l’ai dit dans la<br />

section précédente, il n’y a pas de partage des tâches, entre d’un côté ce qui relèverait de<br />

l’informatique et de l’autre de la linguistique. Le concepteur doit avoir des compétences<br />

de grammairien, d’un niveau nettement supérieur à celui du cours moyen ou du collège.<br />

Il doit être capable de déterminer lui-même pour tout énoncé sa description <strong>syntaxique</strong>.<br />

De plus, même si la démarche de développement est empirique, elle n’est pas<br />

exclusivement guidée par l’observation du corpus. Le recours au corpus est fondamental<br />

pour mettre au jour et faire plus rapidement l’inventaire des multiples configurations de<br />

surface au sein desquelles il faut reconnaître les liens <strong>syntaxique</strong>s. Mais le concepteur<br />

doit être capable de prévoir des règles pour des configurations qui ne sont pas attestées<br />

dans le corpus d’apprentissage. C’est la connaissance qu’il a de la grammaire de la<br />

langue qui lui permet de dépasser les configurations qu’il observe en corpus, et<br />

d’abstraire à partir d’elles des règles de reconnaissance dont la couverture dépassera les<br />

simples cas observés. En revanche, ce sont ses réflexes d’ingénieurs qui vont lui<br />

permettre de faire des choix, de prioriser les développements et d’accepter des pertes, en<br />

laissant tomber des cas trop spécifiques au corpus, trop rares, voire anecdotiques, ou<br />

d’une complexité telle que la résolution entraînerait la mise en place, coûteuse en temps,<br />

d’un arsenal sophistiqué pour une amélioration de l’adaptation à peine sensible. Le<br />

recours aux tests sur corpus est indispensable pour se donner les moyens d’élaborer une<br />

stratégie de développement qui optimise le ratio temps passé sur progrès réalisés.<br />

Les progrès de l’adaptation sont le résultat d’une démarche méthodique, systématique de<br />

test sur des corpus variés. C’est d’abord de la sueur : le concepteur « a la tête dans le<br />

guidon », l’œil rivé sur les compteurs de rappel et de précision, toute l’énergie mobilisée<br />

pour faire bouger les aiguilles. C’est un travail quotidien de développement et<br />

d’enrichissement de règles et d’heuristiques, dont le concepteur peut difficilement<br />

s’enorgueillir dans de magistrales publications scientifiques. Les progrès d’adaptation et<br />

ceux de l’auto-corrélation se manifestent de façon radicalement différente :<br />

De manière assez générale, les progrès relationnels sont des<br />

perfectionnements progressifs, continus, se faisant par essais et erreurs au<br />

cours de l’usage ; ils résultent de l’expérience et s’additionnent : ils<br />

conservent l’allure temporelle de la relation entre organisme et milieu.<br />

(…) Par contre, les progrès de l’auto-corrélation demandent une résolution<br />

142


de problème, une invention qui pose un système synergétique de<br />

compatibilité. Cette invention peut être amenée par le besoin des progrès<br />

relationnels, mais elle ré-engendre la logique interne du système, qui est<br />

auto-normatif, et confère à ses sous-ensembles des propriétés provenant du<br />

fonctionnement et le rendant possible.<br />

(Simondon, 1971, p. 102)<br />

Auto-corrélation de l’<strong>analyseur</strong> <strong>syntaxique</strong><br />

Les progrès d’auto-corrélation concernent l’architecture globale du système, c’est-à-dire<br />

d’une part la stratégie d’enchaînement des modules, et d’autre part les fonctions et<br />

procédures génériques partagées par l’ensemble des modules. Ils exigent du recul, et ne<br />

peuvent se produire qu’à partir d’une réflexion distanciée sur les limites patentes de<br />

l’<strong>analyseur</strong>, à la fois en termes de performances et de facilité de maintenance et de<br />

développement, et de la formulation de l’ensemble des difficultés sous la forme d’un ou<br />

plusieurs problèmes à résoudre. Alors peut jaillir la trouvaille géniale, l’idée, l’invention,<br />

qui conduit à un bond qualitatif que n’auraient pu générer les progrès de l’adaptation.<br />

Au départ du projet, j’ai volontairement choisi une architecture initiale simple : la<br />

séquence est traitée en plusieurs passes ; chaque passe est dédiée à la reconnaissance<br />

d’un type de relation et d’un seul ; chaque module résout immédiatement ses ambiguïtés<br />

de rattachement et transmet une séquence sans ambiguïtés au module de la passe<br />

suivante ; aucun module ne remet en cause les catégories morphologiques ou les liens<br />

<strong>syntaxique</strong>s posés par les modules antérieurs. Ce choix d’une architecture simple a été<br />

une condition nécessaire pour avancer dans la réalisation de l’<strong>analyseur</strong>, en particulier<br />

dans la programmation des algorithmes de recherche de gouverneurs candidats et des<br />

procédures de désambiguïsation et des ressources lexicales nécessaires et suffisantes. Il<br />

y a eu une longue phase de développement continu visant à améliorer l’adaptation de<br />

l’<strong>analyseur</strong>, sans que l’architecture soit modifiée. Les contraintes simplificatrices ont été<br />

poussées jusque dans leurs derniers retranchements.<br />

A plusieurs stades du cycle de développement de l’<strong>analyseur</strong>, j’ai procédé à des<br />

restructurations de l’architecture pour améliorer l’auto-corrélation de l’<strong>analyseur</strong>. Ces<br />

opérations se sont imposées sous la pression de différents facteurs : (i) le constat d’un<br />

certaine stagnation dans l’amélioration des performances, et l’identification de<br />

configurations de surface difficiles à traiter avec une architecture séquentielle<br />

cloisonnée ; (ii) la mise en chantier d’un <strong>SYNTEX</strong> anglais, à l’occasion de laquelle j’ai<br />

cherché au maximum à identifier des traitements génériques et à réaliser des fonctions<br />

partagées ; (iii) la rédaction du présent mémoire, qui m’a obligé à prendre du recul et<br />

m’a incité à m’interroger sur une meilleure cohérence interne et un meilleur équilibre de<br />

l’<strong>analyseur</strong> ; (iv) enfin, et surtout, la volonté de ne pas laisser <strong>SYNTEX</strong> devenir une<br />

« usine à gaz » qui ne pourrait être entretenue que par son concepteur historique.<br />

Les « révolutions » importantes dans l’évolution de l’auto-corrélation de l’<strong>analyseur</strong> ont<br />

été l’intégration du retour en arrière et la globalisation de la désambiguïsation. Le<br />

principe de l’interdiction du retour en arrière qui, après avoir longtemps été utile pour<br />

développer en profondeur les différents modules, s’est avéré être à l’origine d’une<br />

143


stagnation dans l’amélioration des performances. J’ai alors choisi d’intégrer dans<br />

l’<strong>analyseur</strong> la possibilité du retour en arrière. Bien entendu, le premier effet de cette<br />

décision n’a pas été une amélioration subite des performances de l’<strong>analyseur</strong>, mais,<br />

comme le formule Simondon, un ré-engendrement de la logique interne du système. Dès<br />

lors que cette possibilité est incluse, la philosophie de développement des modules est<br />

modifiée de façon profonde : il devient possible d’implémenter la pose de liens<br />

provisoires, qui pourront être supprimés lors des étapes ultérieures du traitement si des<br />

informations plus complètes sur la forme <strong>syntaxique</strong> de la séquence l’imposent. Ce<br />

changement donne une meilleure prise pour affronter le problème de la circularité, lié à<br />

l’incompatibilité entre l’intrication des liens <strong>syntaxique</strong>s et la séquentialité des<br />

traitements (section 3.1.4). Mais il impose de reprendre un à un les différents modules<br />

pour les repenser vis-à-vis de cette nouvelle norme et assurer une nouvelle logique<br />

interne du système. Cela revient à identifier les configurations dans lesquelles des liens<br />

déjà posés peuvent être supprimés et inversement celles où des liens peuvent être placés<br />

de façon éventuellement provisoire.<br />

La globalisation de la désambiguïsation participe du même effort vers une meilleure<br />

prise en compte du problème de la circularité. La modification consiste d’abord à<br />

développer une procédure de désambiguïsation sur le treillis des liens placés par les<br />

modules à ambiguïté. Mais elle impose aussi un ré-engendrement de la logique interne<br />

du système, en particulier au niveau de la formalisation du parcours, puisqu’il faut<br />

intégrer le fait qu’à une étape d’un parcours on peut passer sur un mot qui est cible de<br />

plusieurs liens de dépendance.<br />

3.3.3. Savoirs<br />

Quel savoir sur la langue le projet <strong>SYNTEX</strong> produit-t-il ? C’est sur cette interrogation que<br />

je conclus ce mémoire. Elle ne s’impose pas en droit. Pour reprendre la question de<br />

Marandin, « quel est le statut que prend, ou peut prendre, un <strong>analyseur</strong> dans un<br />

programme de recherche consacré au langage » (Marandin, 1993, p. 5, cf. section 3.3.1),<br />

je rappelle que mon programme de recherche initial n’était pas explicitement consacré<br />

au langage. Mon objectif (cf. section 3.1.1) était de construire un <strong>analyseur</strong> <strong>syntaxique</strong><br />

<strong>opérationnel</strong>, précis et efficace, qui produise des analyses aussi correctes et complètes<br />

que possible, sur des textes de genres variés, qui soit utilisable dans une large gamme<br />

d’applications, que ce soit du côté de la recherche académique ou de celui des<br />

applications industrielles. Ce n’était pas un objectif de connaissance, mais un objectif<br />

d’utilité. Par rapport à cet objectif, un premier et rapide bilan peut être tiré après<br />

quelques années. D’abord, les résultats de <strong>SYNTEX</strong> sont exploités par plusieurs dizaines<br />

de chercheurs, auxquels j’ai fourni des résultats sur les corpus qu’ils m’ont envoyés.<br />

Cette tâche est consommatrice de temps, parfois fastidieuse, mais elle fait partie du<br />

contrat initial. Les retours, quand retours il y a, sont souvent très utiles (Bourigault et al.,<br />

144


2004). Pour alléger le travail, une interface Web est mise en place à l’<strong>ERSS</strong> 50 pour<br />

permettre aux utilisateurs de déposer leur corpus et de le récupérer un peu plus tard,<br />

analysé. Par ailleurs, une version de <strong>SYNTEX</strong> pour la recherche est diffusée aux<br />

laboratoires qui souhaitent être autonomes.<br />

Ensuite, très tôt dans le projet, une convention de collaboration a été négociée entre le<br />

CNRS, l’<strong>Un</strong>iversité Toulouse Le Mirail et la société Synomia 51 , pour que celle-ci<br />

exploite commercialement l’<strong>analyseur</strong> dans le domaine de la recherche d’informations<br />

sur Internet. Depuis 2003, la société Synomia commercialise des solutions de recherche<br />

d’informations sur site Internet. La collaboration avec cette entreprise a été extrêmement<br />

stimulante. Outre le retour permanent et systématique sur les erreurs, bugs et limites de<br />

l’<strong>analyseur</strong>, elle m’a permis de mener avec les ingénieurs linguistes de l’entreprise une<br />

réflexion particulièrement féconde sur les utilisations potentielles d’un <strong>analyseur</strong><br />

<strong>syntaxique</strong> 52 . Bien entendu, tout n’a pas été toujours facile, que ce soit dans mes<br />

relations avec la société, puisque nos contraintes et objectifs concernant la diffusion des<br />

résultats n’ont pas toujours été immédiatement compatibles, ou au sein de ma<br />

communauté de recherche, où l’on regarde souvent avec beaucoup de suspicion toute<br />

collaboration avec le « privé ». Il reste que, sans cette collaboration, <strong>SYNTEX</strong> n’aurait pas<br />

atteint le niveau de performance qu’il a aujourd’hui.<br />

Même si la visée utilitaire a été primordiale au départ du projet, ce n’est pas elle qui a été<br />

proprement le moteur de la recherche. Comme le dit Simondon, les conditions<br />

extrinsèques de l’ambiance dans lesquelles naît une invention et se développe un objet<br />

technique, c’est-à-dire les facteurs économiques, culturels, psychologiques…, peuvent<br />

participer à la formulation d’une demande d’invention, mais elles ne peuvent produire à<br />

elles seules une telle invention : « c’est de la formulation, puis de la résolution du<br />

problème que dépendent de façon décisive l’invention et l’existence de la réalité<br />

technique. » (Simondon, 1971, p. 45). Le problème vers la résolution duquel ma<br />

recherche a été dirigée est celui de l’analyse <strong>syntaxique</strong> <strong>opérationnel</strong>le, abordé non<br />

comme un problème de compilation, mais comme un problème de reconnaissance de<br />

forme. Je l’ai formulé ainsi : pour chaque mot de la séquence, identifier son gouverneur<br />

<strong>syntaxique</strong> (section 3.1.2). La difficulté essentielle est la circularité : l’intrication globale<br />

des liens <strong>syntaxique</strong>s dans une séquence fait que chaque position ne peut être reconnue<br />

qu’en interdépendance avec les autres. Or le traitement informatique est séquentiel. Le<br />

problème de fond est donc un problème d’architecture : selon quel enchaînement<br />

séquentiel passer progressivement des places de mots, qui peuvent être perçues par<br />

l’<strong>analyseur</strong>, à leurs positions, qui doivent être reconnues par lui. L’<strong>analyseur</strong> <strong>SYNTEX</strong><br />

constitue une solution technique à ce problème. Pour penser comment l’existence de cet<br />

objet technique pourrait contribuer à une avancée du savoir sur les langues, il faut se<br />

50 Je remercie Franck Sajous, qui a réalisé cette interface, pour l’ensemble de sa contribution pour faire de<br />

<strong>SYNTEX</strong> un outil utilisable.<br />

51 www.synomia.com<br />

52 Je remercie très chaleureusement Gaëlle Récourcé, de la société Synomia, pour les innombrables discussions<br />

enrichissantes que nous avons eues pendant toute la période de développement de <strong>SYNTEX</strong>.<br />

145


éférer à ce que dit Simondon des rapports entre invention technique et savoir<br />

scientifique :<br />

Les besoins pratiques ont contraint l’Homme à améliorer les techniques<br />

sans attendre le développement de toutes les sciences ; (…) cette avance<br />

est surtout caractérisée par le progrès des adaptations et la relative<br />

précarités des auto-corrélations ; c’est en partie ce hiatus au cœur des<br />

techniques qui a fait ressentir le besoin de sciences, tandis que les parties<br />

déjà constituées des techniques offraient aux sciences naissantes non<br />

seulement des problèmes théoriques à résoudre (…), mais encore des<br />

moyens d’expérimentation : le besoin d’un complément interne de<br />

l’invention déjà adaptée est en fait un appel au savoir scientifique ; du<br />

progrès rapide réalisé par la constitution de la science répondant à cet<br />

appel, il ne faut pas tirer trop hâtivement la conclusion du primat de la<br />

science en matière d’invention technique ; la science renouvelle très vite<br />

une technique lorsqu’elle a seulement à combler le hiatus central de l’autocorrélation<br />

; si les adaptations ne sont pas constituées avant l’étape<br />

scientifique, le progrès est moins rapide.<br />

(Simondon, 2005, p. 232)<br />

Si l’on fait confiance à Simondon, on peut rêver à des rapports nouveaux entre science<br />

du langage et ingénierie linguistique. Si le projet <strong>SYNTEX</strong> doit produire des<br />

connaissances sur la langue, c’est du côté de l’auto-corrélation du système qu’il faut aller<br />

chercher. Il faut analyser à quelle logique et organisation internes de l’<strong>analyseur</strong> a abouti<br />

le processus de résolution du problème de la reconnaissance <strong>syntaxique</strong> : si une<br />

architecture optimale et des fonctions génériques partagées se dégagent de façon<br />

singulière de l’élaboration d’<strong>analyseur</strong>s <strong>syntaxique</strong>s pour des langues appartenant à des<br />

familles différentes, alors sans doute pourra-t-on affirmer que « ça dit quelque chose »<br />

de fondamental sur la structure <strong>syntaxique</strong> des langues. Se dessinent ce que pourraient<br />

être de nouveaux rapports entre théorie linguistique et développement d’objet<br />

techniques : la science linguistique élabore une théorie <strong>syntaxique</strong>, qui s’appuyant sur les<br />

résultats de la technique, produit en retour un cadre théorique capable de faire progresser<br />

de façon rationnelle le développement de la technique…<br />

Sans attendre la convergence hypothétique entre une science linguistique à construire et<br />

une ingénierie linguistique productrice d’objets techniques, il est possible de mettre en<br />

oeuvre ces derniers dans une activité de connaissance sur la langue, en les utilisant<br />

comme des instruments d’observation (Habert, 2005, chap. VII, 2006). Le double usage<br />

de l’objet technique comme outil et comme instrument est une idée fondamentale de la<br />

philosophie de Simondon :<br />

L’outil est l’objet technique qui permet de prolonger et d’armer le corps<br />

pour accomplir un geste, l’instrument est l’objet technique qui permet de<br />

prolonger et d’adapter le corps pour obtenir une meilleure perception ;<br />

l’instrument est outil de perception. Mais un outil peut servir d’instrument,<br />

c’est-à-dire pour prélever des informations sur la tâche qu’il permet<br />

d’exécuter (ex marteau). Il y a une manière de considérer et d’étudier la<br />

146


technique qui recherche toujours également ce en quoi l’outil est<br />

instrument, c’est-à-dire (…) est le premier moyen de s’instruire de ce qu’il<br />

effectue, de considérer ce qu’il fait comme un monde (une dimension ou<br />

une partie nouvelle du monde) qu’il donne aussi à connaître –<br />

considération qui n’est pas négligeable à l’égard des relations entre la<br />

science et la technique.<br />

(op. cit., p. 58)<br />

<strong>Un</strong>e fois encore, le recours à Simondon est salutaire. <strong>Un</strong> <strong>analyseur</strong> <strong>syntaxique</strong><br />

<strong>opérationnel</strong> peut servir à acquérir des connaissances sur la tâche de description<br />

<strong>syntaxique</strong>, et donc sur la structure <strong>syntaxique</strong> des langues. Pour encourager cette<br />

production de savoir, nous mettons en place à l’<strong>ERSS</strong> un certain nombre d’outils<br />

d’analyse de corpus, associés à un ensemble de corpus diversifiés analysés<br />

<strong>syntaxique</strong>ment, et accessibles via le Web. Ceci pourrait ensemble constituer un<br />

observatoire de la langue française 53 . Différents outils sont envisagés : un concordancier<br />

permettant d’effectuer des requêtes, sur tout ou partie du corpus, portant sur les liens<br />

<strong>syntaxique</strong>s ; des modules d’extraction permettant d’obtenir des listes d’unités lexicales<br />

présentant telles ou telles propriétés <strong>syntaxique</strong>s ; des modules de calcul de corrélation<br />

entre faits <strong>syntaxique</strong>s ; des interfaces d’accès aux résultats d’analyse distributionnelle<br />

contrastée sur deux corpus. Bien entendu, ce type d’outils ne présente d’utilité que pour<br />

des approches en linguistique qui s’intéressent aux usages plus qu’à la norme, et aux<br />

tendances plus qu’aux démarcations binaires. Avec dans le lointain horizon la promesse<br />

de nouveaux rapports en science et ingénierie linguistiques, c’est d’abord dans<br />

l’utilisation de l’<strong>analyseur</strong> en tant qu’instrument que l’on doit attendre la production de<br />

savoirs diversifiés sur la langue. Et pour cela, on peut raisonnablement compter sur le<br />

génie des utilisateurs de <strong>SYNTEX</strong>.<br />

53 Je remercie une nouvelle fois Franck Sajous, qui pilote ce projet.<br />

147


148


Bibliographie<br />

ABEILLE A. & BLACHE P. (1997) Etat de l’art : la syntaxe. In Traitement Automatique<br />

des Langues, 38(2), pp. 69-90<br />

ABNEY S. (1987) The English Noun Phrase in Its Sentential Aspects. Thèse du<br />

Massachusetts Institute of Technology, Cambridge<br />

ABNEY S. (1990a) Rapid incremental parsing with repair. In Proceedings of the 6th New<br />

OED Conference: Electronic Text Research, pp. 1-9, <strong>Un</strong>iversity of Waterloo<br />

ABNEY S. (1990b) Parsing by Chunks. In BERWICK R., ABNEY S. & TENNY D., Eds,<br />

Principle-Based Parsing. Kluwer Academic Publishers<br />

ABNEY S. (1996) Partial parsing via finite-state cascades. In Natural Language<br />

Engineering 2(4), Cambridge <strong>Un</strong>iversity Press. pp. 337-344<br />

ADDA G., LECOMTE J., MARIANI J., PAROUBEK P. & RAJMAN M. (1998), The GRACE<br />

French Part-Of-Speech Tagging Evaluation Task, In proceedings of the 1 st International<br />

Conference on Language Resources and Evaluation (LREC’1998),Granada<br />

ADDA G., MARIANI J., PAROUBEK P. & RAJMAN M. & LECOMTE J. (1999) Métrique et<br />

premiers résultats de l'évaluation GRACE des étiqueteurs morpho<strong>syntaxique</strong>s pour le<br />

français. In Actes de la 6 ème conférence Traitement Automatique du Langage Naturel<br />

(TALN’1999), Cargese<br />

AÏT-MOKHTAR S. & CHANOD J.-P. (1997a) Incremental finite-state parsing. In<br />

Proceedings of the 5 th Conference on Applied Natural Language Processing<br />

(ANLP’1997), pp. 72-79, Washington DC<br />

AÏT-MOKHTAR S. & CHANOD J.-P. (1997b) Subject and object dependency extraction<br />

using finite-state transducers. In Proceedings of the ACL workshop on Automatic<br />

Extraction and Building of Lexical Semantic Resources for NLP applications, pp. 71-77,<br />

Madrid<br />

AÏT-MOKHTAR S., CHANOD J.-P. & ROUX C. (2002) Robustness beyond shallowness:<br />

incremental deep parsing. Natural Language Engineering 8(2/3), pp. 121-144<br />

ALPAC (1966) Language and Machines. Computers in translation and linguistics. A<br />

report by the Automatic Language Processing Advisory Committee (ALPAC), National<br />

Academy of Sciences, National Research Council.<br />

ASSADI H. (1998) Méthodologie et outils informatiques pour l'acquisition de<br />

connaissances à partir de textes, Thèse en informatique de l’<strong>Un</strong>iversité Paris 6<br />

ASSADI H. & BOURIGAULT D. (1995) Classification d'adjectifs extraits d'un corpus pour<br />

l'aide à la modélisation des connaissances. In Actes des 3èmes Journées internationales<br />

d'Analyse des Données Textuelles (JADT’1995), pp. 313-320, Rome<br />

ASSADI H. & BOURIGAULT D. (1996) Acquisition et modélisation des connaissances à<br />

partir de textes : outils informatiques et éléments méthodologiques. In Actes du 10ème<br />

149


congrès Reconnaissance des Formes et Intelligence Artificielle (RFIA’1996),<br />

pp. 505-514, Rennes<br />

AUSSENAC N., KRIVINE J.-P. & SALLENTIN J. (1992) L’acquisition des connaissances<br />

pour les systèmes à base de connaissances. Revue d’Intelligence Artificielle 6(1-2)<br />

BACHIMONT B. (1996) Herméneutique matérielle et artéfacture : des machines qui<br />

pensent aux machines qui donnent à penser. Thèse de l’Ecole Polytechnique<br />

BAR-HILLEL Y. (1951) The present state of research on mechanical translation. In<br />

American Documentation 2, pp. 229-237<br />

BAR-HILLEL Y. (1953) A Quasi-Arithmetic Notation for Syntactic Description,<br />

Language 29, pp. 47-58.<br />

BAR-HILLEL Y. (1960) The Present Status of Automatic Translation of Languages, In<br />

Advances in Computers 1, pp. 91-141<br />

BASILI R., PAZIENZA M.T., VINDIGNI M. (1999) Adaptive Parsing and Lexical Learning,<br />

in Actes de VEXTAL’1999, Venise.<br />

BASILI R., VINDIGNI M. (1998) Adapting a Subcategorization Lexicon to a Domain,<br />

Proceedings of the ECML98 Workshop TANLPS, Chemnitz<br />

BENVENISTE E. (1974) Forme nouvelle de la composition nominale, Problèmes de<br />

linguistique générale, 2, pp. 163-176<br />

BERRENDONNER A. (2002) Les deux syntaxes, in Verbum 1-2, pp. 23-35<br />

BLACHE P. (2005) Combiner analyse superficielle et profonde : bilan et perspectives, in<br />

Actes de la 11 ème conférence sur le Traitement Automatique des Langues Naturelles<br />

(TALN’2005), pp. 93-102, Dourdan<br />

BLACHE P., BALFOURIER J.-M. et VAN RULLEN T. (2002). From Shallow to Deep Parsing<br />

Using Constraint Satisfaction, in Proceedings of 19th International Conference on<br />

Computational Linguistics (COLING’2002), Taipei<br />

BLANCHE-BENVENISTE C. (2002) Phrase et construction verbale, in Verbum 1-2,<br />

pp. 7-22<br />

BOUAUD J., BACHIMONT B., CHARLET J. & ZWEIGENBAUM P. (1995) Methodological<br />

Principles for Structuring an Ontology, In Proceedings of the IJCAI-95 Workshop on<br />

Basic Ontological Issues in Knowledge Sharing, Montreal<br />

BOURIGAULT D. (1991) LEXTER, un Logiciel d’Extraction de TERminologie. In Actes du<br />

colloque sur le Repérage de l’information textuelle, Ministère des Communications du<br />

Gouvernement du Québec et Hydro-Québec, pp. 15-25, Montréal<br />

BOURIGAULT D. (1993) Analyse <strong>syntaxique</strong> locale pour le repérage de termes complexes<br />

dans un texte, Traitement Automatique des Langues 34(2), pp. 105-117<br />

BOURIGAULT D. (1994a) Extraction et structuration automatiques de terminologie pour<br />

l'aide à l'acquisition des connaissances à partir de textes. In Actes du 9ème congrès<br />

Reconnaissance des Formes et Intelligence Artificielle (RFIA&1994). pp. 397-408, Paris<br />

150


BOURIGAULT D. (1994b) Lexter, un logiciel d’extraction de terminologie. Application à<br />

l’acquisition des connaissances à partir de textes, Thèse en Mathématique, Informatique<br />

Appliquées aux Sciences Humaines de l’Ecole des Hautes Etudes en Sciences Sociales,<br />

Paris<br />

BOURIGAULT D., AUSSENAC-GILLES N. & CHARLET J. (2004) Construction de<br />

ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour<br />

trois études de cas, Revue d'Intelligence Artificielle 18(1), pp. 87-110<br />

BOURIGAULT D. & FABRE C. (2000), Approche linguistique pour l’analyse <strong>syntaxique</strong> de<br />

corpus, Cahiers de Grammaire 25, pp. 131-151 <strong>Un</strong>iversité Toulouse le Mirail<br />

BOURIGAULT D. & FREROT C. (2005) Acquisition et évaluation sur corpus de propriétés<br />

de sous-catégorisation <strong>syntaxique</strong>. In Actes de la 12ème conférence sur le Traitement<br />

Automatique des Langues Naturelles (TALN’2005), pp. 373-382, Dourdan<br />

BOURIGAULT D. & JACQUEMIN C. (1999) TERM EXTRACTION + TERM<br />

CLUSTERING: An Integrated Platform for Computer-Aided Terminology. In<br />

Proceedings of the 9th Conf. of the European Chapter of the Association for<br />

Computational Linguistics (EACL’1999), pp. 15-22, Bergen<br />

BOURIGAULT D. & JACQUEMIN C. (2000) Construction de ressources terminologiques, in<br />

J.-M. PIERREL, Ed., Ingénierie des langues, Hermès, pp. 215-233<br />

BOURIGAULT D. & SLODZIAN C. (1999) Pour une terminologie textuelle. In Actes des<br />

troisèmes rencontres Terminologie et Intelligence Artificielle, numéro spécial<br />

Terminologies nouvelles 19, pp. 29-32<br />

KAPLAN R. M. & BRESNAN J. (1982). Lexical-Functional Grammar: A formal system for<br />

grammatical representation. In J. BRESNAN, Ed., The Mental Representation of<br />

Grammatical Relations, chapter 4, p. 173-281. Cambridge, Mass.: MIT Press<br />

BROWN P. E., COCKE J., DELLA PIETRA S. A., DELLA PIETRA V. J., JELINEK F.,<br />

LAFFERTY J. D., MERCER R. L. & ROOSSIN P. S. (1990). A statistical approach to<br />

machine translation, Computational Linguistics 16(2), pp. 79-85<br />

CERBAH F., DAILLE B. (2007) <strong>Un</strong>e architecture à base de services pour mieux spécialiser<br />

les processus d’acquisition de terminologie. In Traitement Automatique des Langues<br />

47(1), www.atala.org/tal/<br />

CHANOD J.-P. (1993) Problèmes de robustesse en analyse <strong>syntaxique</strong>. In Actes de la 2 ème<br />

Conférence Informatique et Langues Naturelles (ILN’1993), pp. 223-244, Nantes<br />

CHANOD J.-P. (2000) Robust parsing and beyond. In VAN VOORD G. & JUNQUA J. C.,<br />

Eds, Robustness in Language Technology, Kluwer Academic Publishers, pp. 132-139<br />

CHOMSKY N. (1965) Aspects de la théorie <strong>syntaxique</strong>, Editions du Seuil [1971]<br />

COLBY K. (1973) Simulations of Belief systems. In SCHANK R. & COLBY K., Eds.,<br />

Computer Models of Thought and Language, Freeman, San Francisco<br />

151


CORI M. & LEON J. (2002) La constitution du TAL, étude théorique des dénominations<br />

et des concepts. In Traitement Automatique des Langues 43(3), pp. 21-55<br />

CUNNINGHAM H., WILKS Y. & GAIZAUSKAS R. (1996) GATE - A General Architecture<br />

for Text Engineering, In Proceedings of 16th Conference on Computational Linguistics<br />

(COLING'96), Copenhagen<br />

CUNNINGHAM H., MAYNARD D., BONTCHEVA K. & TABLAN V. (2002) GATE : A<br />

Framework and Graphical Development Environment for Robust NLP tools and<br />

applications, In Proceedings of 40th Anniversary Meeting of the Association for<br />

Computational Linguistics (ACL’2002), Philadelphia<br />

DAVID J.-M., KRIVINE J.-P. & SIMMONS R. (1993) Second generation expert systems,<br />

Springer-Verlag<br />

DEBILI F. (1982) Analyse syntaxico-sémantique fondée sur une acquisition de relations<br />

lexicales-sémantiques. Thèse en informatique de l’<strong>Un</strong>iversité Paris XI, Orsay<br />

FABRE C. & FREROT C. (2002) Groupes prépositionnels arguments ou circonstants : vers<br />

un repérage automatique en corpus. In Actes de la 9 ème conférence sur le Traitement<br />

Automatique des Langues Naturelles (TALN’2002), pp. 215-224, Nancy<br />

FABRE C., HABERT B. & LABBE D. (1997) La polysémie dans la langue générale et les<br />

discours spécialisés. Sémiotiques 13, pp. 15-31<br />

FELBER H. (1987) Manuel de terminologie, <strong>Un</strong>esco, Paris<br />

FILLMORE C. J. (1968) The case for case. In BACH & HARMS, Eds, <strong>Un</strong>iversal in<br />

linguistic theory. New York: Holt, Rinehart and Winston, pp. 1-90<br />

FOLCH H. & HABERT B. (1998) Proximités de comportement <strong>syntaxique</strong> entre les mots.<br />

In S. MELLET, Ed, In Actes des 4èmes journées internationales d'analyse statistique des<br />

données textuelles (JADT’1998), pp. 297-303<br />

FREROT C. (2005) Construction et évaluation en corpus variés de lexiques <strong>syntaxique</strong>s<br />

pour la résolution des ambiguïtés de rattachement prépositionnel, Thèse en sciences du<br />

langage de l’<strong>Un</strong>iversité Toulouse le Mirail<br />

FREROT C., BOURIGAULT D. & FABRE C. (2003) Marier apprentissage endogène et<br />

ressources exogènes dans un <strong>analyseur</strong> <strong>syntaxique</strong> de corpus. Le cas du rattachement<br />

verbal à distance de la préposition de, in Traitement Automatique des Langues 44(3),<br />

pp. 167-186<br />

GALA PAVIA N. (2003) <strong>Un</strong> modèle d’<strong>analyseur</strong> <strong>syntaxique</strong> robuste basé sur la<br />

modularité et la lexicalisation de ses grammaires, Thèse en informatique de l’<strong>Un</strong>iversité<br />

de Paris XI, Orsay<br />

GAMBIER Y. (1995) Implications épistémologiques et méthodologiques de la<br />

socioterminologie. Actes de langue française et linguistique 7/8, pp. 99-115<br />

152


GARCIA D. (1998) L’analyse automatique des textes pour l’organisation causale des<br />

actions. Réalisation du système informatique COATIS. Thèse en informatique de<br />

l’<strong>Un</strong>iversité Paris-Sorbonne<br />

GARSIDE R. (1987) The CLAWS Word-tagging System. In GARSIDE R., LEECH G. &<br />

SAMPSON G., Eds, The Computational Analysis of English: A Corpus-based Approach.<br />

London: Longman<br />

GARVIN P. L. (1967) The fulcrum syntactic analyzer for Russian. In actes de la<br />

conférence internationale sur le traitement automatique des langues (COLING’1967),<br />

Grenoble<br />

GAZDAR G., KLEIN E., PULLUM G. K. & SAG I. A. (1985) Generalized Phrase Structure<br />

Grammar. Cambridge, MA: Harvard <strong>Un</strong>iversity Press<br />

GAUDIN F. (1996) Terminologie : l’ombre du concept. Meta XLI-4, pp. 605-621<br />

GERDES K., KAHANE S. (2006) L'amas verbal au coeur dune modélisation topologique du<br />

francais, in: Linguisticae Investigationes, vol. 29, p. 75-89<br />

GREFFENSETTE G. (1983) Traitements linguistiques appliquées à la documentation<br />

automatique, Thèse en informatique de l’<strong>Un</strong>iversité Paris XI<br />

GREFFENSETTE G. (1994) Exploration in Automatic Thesaurus Discovery, Kluwer<br />

Academic Publishers<br />

GREFFENSETTE G. (1996) Light Parsing as Finite-State Filtering, In Proceedings of the<br />

ECAI’96 workshop on extended finite state models of language, Budapest<br />

GUILBERT B. (1965) La formation du vocabulaire de l’aviation, Larousse<br />

HABERT B. (1998) Des mots complexes possibles aux mots complexes existants : l'apport<br />

des corpus. Habilitation à diriger des recherches en linguistique, <strong>Un</strong>iversité de Lille III<br />

HABERT B. (2005) Instruments et ressources électroniques pour le français, Ophrys<br />

HABERT B (2006) Portrait de linguiste(s) à l'instrument. In GUILLOT C., HEIDEN S. &<br />

PREVOST S., Eds, À la quête du sens : études littéraires, historiques et linguistiques en<br />

hommage à Christiane Marchello-Nizia, ENS Éditions, Lyon , pp. 124-132<br />

HABERT B., BARBAUD P., DUPUIS F. & JACQUEMIN C. (1995) Simplifier des arbres<br />

d’analyse pour dégager les comportements syntactico-sémantiques des formes d’un<br />

corpus. Cahiers de grammaire 20, <strong>Un</strong>iversité de Toulouse Le Mirail, pp. 1-32<br />

HABERT B. & FOLCH (1998) Compter sur les arbres. In P. FIALA & P. LAFON, Eds.,<br />

Hommage à Maurice Tournier, Éditions de l'École Normale Supérieure de<br />

Fontenay/Saint-Cloud, pp. 55-63<br />

HABERT B. & NAZARENKO A. (1996) La syntaxe comme marche-pied de l’acquisition<br />

des connaissances : bilan critique d’une expérience. In Actes des 6èmes Journées<br />

d’Acquisition des Connaissances, pp. 137-142, Sète<br />

153


HAYES P. J. & WEINSTEIN S. P. (1990) CONSTRUE/TIS: A System for Content-Based<br />

Indexing of a Database of News Stories, In Proceedings of the The Second Conference<br />

on Innovative Applications of Artificial Intelligence, pp. 49-64, Georgetown <strong>Un</strong>iversity<br />

HEIDORN G. E. (1972) Natural Language Inputs to a Simulation Programming System.<br />

Technical Report NPS-55HD72101A, Naval Postgraduate School, Monterey, California<br />

HINDLE D. (1990) Noun Classification from Predicate Argument Structures. In<br />

proceedings of the 28st Annual Meeting of the Association for Computational Linguistics<br />

(ACL’1990), pp. 268-275, Pittsburgh<br />

HINDLE D., ROOTH M. (1993) Structural Ambiguity and Lexical Relations,<br />

Computational Linguistics 19(1), pp. 103-120<br />

HUDSON R. (2000) Discontinuity, Traitement Automatique des Langue 41(1), pp. 15-56<br />

HUTCHINS, J. W. (1986) Machine Translation: Past, Present, Future. Ellis Horwood<br />

Limited, England (http://ourworld.compuserve.com/homepages/WJHutchins/PPF-<br />

TOC.htm)<br />

JACQUEMIN C. (1997) Variation terminologique : reconnaissance et acquisition<br />

automatique de termes et de leurs variantes en corpus. Habilitation à diriger des<br />

recherches en informatique, <strong>Un</strong>iversité de Nantes<br />

JACQUEMIN C. & BOURIGAULT D. (2003) Term Extraction and Automatic Indexing, in<br />

MITKOV R., Ed, The Oxford Handbook of Computational Linguistics, Oxford <strong>Un</strong>iversity<br />

Press, pp. 599-615<br />

JACQUES M.-P. (2005) Que, la valse des étiquettes, in Actes de la 11 ème conférence sur le<br />

Traitement Automatique des Langues Naturelles (TALN’2005), pp. 133-142, Dourdan<br />

JENSEN K. (1988) Why computational grammarians can be sceptical about existing<br />

linguistic theories, In Proceedings of 6th International Conference on Computational<br />

Linguistics (COLING’1988), pp. 448-449, Budapest<br />

JENSEN K., HEIDORN G. E., MILLER L. A. & RAVIN Y. (1983) Parse Fitting and Prose<br />

Fixing: Getting a Hold on Ill-formedness. American Journal of Computational<br />

Linguistics 9(3-4), pp. 147-160<br />

JENSEN K., HEIDORN G. E. & RICHARDSON S. D., Eds (1992) Natural Language<br />

Processing: the PLNLP approach, Kluwer Academic Publishers<br />

JOSHI A. K. (1987) An introduction to tree adjoining grammars. In MANASTER-RAMER<br />

A., Ed, Mathematics of Language, John Benjamins Publishing Co., pp. 87-115<br />

JOSHI A. K. & HOPELY P. (1996) A Parser from Antiquity, Natural Language<br />

Engineering 2(4), pp. 291-294<br />

JOSHI A. K. & HOPELY P. (1999) A Parser from Antiquity, in KORNAI A., Ed, Extended<br />

Finite State Models of Language, Cambridge <strong>Un</strong>iversity Press, pp. 6-15<br />

154


KAHANE S. (1997) Bubble trees and syntactic representations, in BECKER & KRIEGER<br />

(eds), In Proc. 5th Meeting of the Mathematics of Language (MOL5), Saarbrücken:<br />

DFKI, pp. 70-76<br />

KAHANE S. (2000) Extraction dans une grammaire de dépendance lexicalisée à bulles, in<br />

Traitement Automatique des Langues 41(1), pp. 211-243<br />

KAHANE S. (2001) Grammaire de dépendance formelles et théorie Sens-texte, (tutoriel)<br />

in Actes de la 8 ème conférence sur le Traitement Automatique des Langues Naturelles<br />

(TALN’2002), pp. 17-77, Tours<br />

KAHANE S. (2002) Grammaire d'<strong>Un</strong>ification Sens-texte : vers un modèle mathématique<br />

articulé de la langue. Habilitation à Diriger les Recherches, <strong>Un</strong>iversité Paris 7<br />

KAY M. (1973) Automatic translation of natural languages, Daedalus 102(3),<br />

pp. 217-230<br />

KAY M. (2002) Introduction, In MITKOV R., Ed., The Oxford Handbook of<br />

Computational Linguistics, Oxford <strong>Un</strong>iversity Press, pp. xvii-xx<br />

L’HOMME M.-C. (1998) Caractérisation des combinaisons lexicales spécialisées par<br />

rapport aux collocations de langue générale. In Proceedings of the 8th EURALEX<br />

international congress on lexicography (EURALEX’1998), pp. 513-522, Liège<br />

LYTINEN S. & GERSHMAN A. (1986) ATRANS: automatic processing of money transfer<br />

messages. In Proceedings of the Fifth National Conference on Artificial Intelligence,<br />

pp. 1089-1095, Philadelphia<br />

MANNING C. (1993) Automatic Acquisition of Large Subcategorization Dictionary from<br />

Corpora, In Proceedings of the 31st Meeting of the Association for Computational<br />

Linguistics, pp. 235-242, Morristown<br />

MANNING C. D. & SCHÜTZE H. (1999) Foundations of Statistical Natural Language<br />

Processing. The MIT Press, Cambridge, Massachusetts<br />

MARANDIN J.-M. (1993) Analyseurs <strong>syntaxique</strong>s, équivoques et problèmes. In<br />

Traitement Automatique des Langues 34(1), pp. 5-33<br />

MARCUS M. P. (1980) A theory of syntactic recognition for natural language, The MIT<br />

Press, Cambridge, Massachusetts<br />

MARCUS M. P., SANTORINI B. & MARCINKIEWICZ M. A. (1994) Building a Large<br />

Annotated Corpus of English: The Penn Treebank, Computational Linguistics 19(2),<br />

pp. 313-330<br />

MARCUS M., KIM G., MARCINKIEWICZ M., MACINTYRE R., BIES A., FERGUSON M,<br />

KATZ K. & SCHASBERGER B. (1994) The Penn treebank: Annotating predicate argument<br />

structure. In proceedings of the ARPA Human Language Technology Workshop,<br />

pp. 114-119? Plainsboro<br />

155


MATTHEWS G. H. (1962) Analysis by synthesis of natural languages. In Proceedings of<br />

the International Conference on Machine Translation and Applied Language Analysis,<br />

Londres<br />

MEL’CUK I. (1988) Dependency Syntax: Theory and Practice, Albany, N.Y.: The SUNY<br />

Press<br />

MILLER P. & TORRIS T. (1990) Formalismes <strong>syntaxique</strong>s pour le traitement automatique<br />

du langage naturel, Hermès<br />

MILNER J.-C. (1989) Introduction à une science du langage, Seuil<br />

NAGAO M. (1988) Language Engineering: the real bottle neck of Natural Language<br />

Processing. In Proceedings of the 12th International Conference on Computational<br />

Linguistics (COLING’1988), pp. 448-449, Budapest<br />

PANTEL P. & LIN D. (2000) An <strong>Un</strong>supervised Approach to Prepositional Phrase<br />

Attachment using Contextually Similar Words. In Proceedings of the 38th Meeting of<br />

the Association for Computational Linguistics, pp. 101-108, Hong Kong<br />

PAROUBEK P. & ROBBA I. (2006) Data, annotations and measures in Easy - the<br />

evaluation campaign for parsers of french. In ELRA, Ed., Proceedings of the fifth<br />

international conference on Language Resources and Evaluation (LREC’2006),<br />

pp. 315-320, Genoa<br />

PAROUBEK P., VILNAT A., ROBBA I. & AYACHE C. (2007) Les résultats de la campagne<br />

EASY d’évaluation des <strong>analyseur</strong>s <strong>syntaxique</strong>s du français, in actes de la 14 ème<br />

conférence sur le Traitement Automatique des Langues Naturelles (TALN’2007),<br />

Toulouse<br />

PEREIRA C. N. & WARREN D. H. (1980) Definite clause grammars for language analysis<br />

- a survey of the formalism and a comparison with augmented transition networks.<br />

Artificial Intelligence 13, pp. 231-278<br />

POLLARD C. & SAG I. A. (1987) Information-based Syntax and Semantics. Volume I:<br />

Fundamentals. Stanford: CSLI<br />

RATNAPARKHI A., REYNAR J. & ROUKOS S. (1994) A maximum entropy model for<br />

prepositional phrase attachment. In proceedings of the ARPA Human Language<br />

Technology Workshop, pp. 250-55<br />

RASTIER F. (1987) Sémantique interprétative. Presses <strong>Un</strong>iversitaires de France<br />

RASTIER F. (1991) Sémantique et recherches cognitives. Presses <strong>Un</strong>iversitaires de<br />

France<br />

RASTIER F. (1995) Le terme : entre ontologie et linguistique. In Actes des premières<br />

rencontres Terminologie et Intelligence Artificielle, numéro spécial de la Banque des<br />

mots 7, pp. 35-65<br />

RASTIER F., CAVAZZA M. & ABEILLE A. (1994) Sémantique pour l’analyse. Masson<br />

156


SAGER, N. (1970). The Sublanguage Method in String Grammars. In EWTON Jr. R.W. &<br />

ORNSTEIN J., Eds, Studies in Language and Linguistics, pp. 89-98, <strong>Un</strong>iversity of Texas<br />

at El Paso<br />

SEGUELA P., AUSSENAC-GILLES N. (1999) Extraction de relations sémantiques entre<br />

termes et enrichissement de modèles du domaine, In Actes de la conférence Ingénierie<br />

des Connaissances (IC’1999), pp. 79-88, Palaiseau<br />

SCHANK R. C. (1975) Conceptual Information Processing. North-Holland, Amsterdam<br />

SHIEBER (1990) Les grammaires basées sur l’unification, In MILLER P. & TORRIS T.,<br />

Eds, Formalismes <strong>syntaxique</strong>s pour le traitement automatique du langage naturel,<br />

Hermès, pp. 27-85<br />

SIMONDON G. (1958) Du mode d’existence des objets techniques. Aubier, Paris<br />

SIMONDON G. (1971) L’invention dans les techniques. Editions du Seuil [2005], Paris<br />

SLODZIAN M. (1994) La doctrine terminologique, nouvelle théorie du signe au carrefour<br />

de l’universalisme et du logiscisme ? In Actes de Langue française et linguistique,<br />

volume 7/8, pp. 121-136<br />

SLODZIAN M. (1995) Comment revisiter la doctrine terminologique aujourd’hui ? In<br />

Actes des premières rencontres Terminologie et Intelligence Artificielle, numéro spécial<br />

Banque des mots 7, pp. 11-18<br />

STETINA J. & NAGAO M. (1997) Corpus-based PP Attachment Ambiguity Resolution<br />

with a Semantic Dictionary. In J. ZHOU and K. CHURCH, Eds, Proceedings of the 5th<br />

Workshop on Very Large Corpora, pp. 66-80, Beijing & Hong Kong<br />

TAYLOR A., MARCUS M. & SANTORINI B. (2003) The Penn Treebank: an overview. In<br />

ABEILLÉ A., Ed., Treebanks: Building and using parsed corpora, Kluwer academic<br />

publishers, pp. 5-22<br />

TESNIERES L. (1959) Eléments de syntaxe structurale. Klincksieck<br />

USHIODA A., EVANS D., GIBSON T. & WAIBEL A. (1993) The Automatic Acquisition of<br />

Frequencies of Verb Subcategorization Frames from Tagged Corpora. In BOGURAEV B.,<br />

PUSTEJOVSKY J., Eds, Proceedings of the Workshop on Acquisition of Lexical<br />

Knowledge from Text, pp. 95-106, Columbus<br />

VERGNE J. (1995) Les cadres théoriques des TAL <strong>syntaxique</strong>s: quelle adéquation<br />

linguistique et algorithmique ? <strong>Un</strong>e étude et une alternative. In Actes de la conférence<br />

Traitement Automatique du Langage Naturel (TALN’1995), pp. 24-33, Marseille<br />

VERGNE J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de<br />

l'ordinateur. Analyse <strong>syntaxique</strong> automatique non combinatoire, Habilitation à Diriger<br />

les Recherches, <strong>Un</strong>iversité de Caen<br />

VERGNE J. & GIGUET E. (1998) Regards théoriques sur le tagging, in Actes de la 5ème<br />

conférence Traitement Automatique du Langage Naturel (TALN’1998), pp. 22-31, Paris<br />

157


VILNAT A., PAROUBEK P., MONCEAUX L., ROBBA I., GENDNER V., ILLOUZ G. &<br />

JARDINO M. (2004) The ongoing evaluation campaign of syntactic parsing of French :<br />

Easy. In Proceedings of the 4th International Conference on Language Resources and<br />

Evaluation (LREC), p. 2023-2026, Lisboa<br />

VOLK M. (2001) Exploiting the WWW as a Corpus to Resolve PP Attachment. In<br />

Proceedings of Conference on Corpus Linguistics, pp. 601-606, Lancaster<br />

WEAVER, W. (1949) Translation. Repr. in LOCKE W.N. & BOOTH A.D. , Eds. (1955)<br />

Machine translation of languages: fourteen essays, Press of the Massachusetts Institute<br />

of Technology, pp. 15-23<br />

WILKS Y. (2005) Computational Linguistics: History, In Encyclopedia of Language &<br />

Linguistics (2 nd Edition), Elsevier<br />

WILKS Y. & FASS D. (1992) The preference semantics family, In Computers &<br />

mathematics with applications 23(2-5), pp. 205-221<br />

WINOGRAD T. (1972) <strong>Un</strong>derstanding Natural Language, Academic Press<br />

WOODS W. (1970), Transition Network Grammars for Natural Language Analysis,<br />

Communications of the ACM, 13, pp. 59-60<br />

158

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!