Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Université Toulouse-Le Mirail 

Un analyseur syntaxique opérationnel : SYNTEX 

Didier BOURIGAULT 

Laboratoire CLLE-ERSS (UMR 5263) 

CNRS & Université Toulouse-Le Mirail 

Mémoire présenté pour l’obtention d’une 

Habilitation à Diriger les Recherches 

Spécialité : sciences du langage 

Le samedi 9 juin 2007 

M. B. HABERT, Professeur, Université de Paris 10 (rapporteur) 

M. S. KAHANE, Professeur, Université de Paris 10 (rapporteur) 

Mme M.-P. PERY-WOODLEY, Professeure, Université de Toulouse Le Mirail 

(rapporteur) 

M. J.-P. CHANOD, Manager, Xerox Research Centre Europe 

M. J. VERONIS, Professeur, Université d’Aix-en-Provence 

M. B. VICTORRI, Directeur de recherche, Ecole Normale Supérieure 

1

Résumé 

Dans ce mémoire, rédigé pour l’obtention de l’Habilitation à Diriger les Recherches, je 

présente les recherches que j’ai menées ces dix dernières années autour de la réalisation 

logiciel SYNTEX, un analyseur syntaxique automatique du français. Dans la première 

partie du mémoire, je retrace le chemin qui m’a conduit de LEXTER, un analyseur 

syntaxique robuste dédié au repérage des syntagmes nominaux terminologiques dans les 

corpus spécialisés, à SYNTEX, un analyseur à plus large couverture. La deuxième partie 

du mémoire est consacrée à un panorama historique du domaine du Traitement 

Automatique des Langues, dans lequel je montre que les recherches dans ce domaine ont 

toujours été partagées entre les travaux théoriques et les applications à visée industrielle. 

Ce panorama est suivi d'une revue de travaux en analyse syntaxique robuste, qui 

identifie une lignée dans laquelle s'inscrivent mes propres travaux de recherche. Dans la 

troisième partie, je présente d’abord les concepts clés qui ont guidé la conception de 

l'analyseur SYNTEX, en défendant l’idée que l'analyse syntaxique automatique peut être 

vue comme un problème de reconnaissance de formes, représentées par des structures de 

dépendance syntaxique. Je décris ensuite en détail l’architecture et les principes de 

fonctionnement de SYNTEX, qui est un analyseur procédural à cascades. Je montre enfin 

comment, sur le plan épistémologique, SYNTEX peut être caractérisé comme un objet 

technique, au sens de la philosophie des techniques de G. Simondon, en tant que ses 

progrès se développent selon les deux dimensions de l'adaptation et de l'auto corrélation. 

3

Table des matières 

Chapitre 1 De LEXTER à SYNTEX : ruptures, continuités, évolutions ................ 7 

1.1. Recherches en ingénierie linguistique............................................................... 8 

1.2. Analyse syntaxique locale............................................................................... 10 

1.3. La fonction initiale de LEXTER : extraire des étiquettes de concepts .............. 12 

1.4. LEXTER à l’épreuve des usages : revirement théorique................................... 13 

1.5. Un outil d’aide à l’analyse sémantique de textes spécialisés .......................... 16 

1.6. Un outil d’identification de contextes syntaxiques pour l’analyse 

distributionnelle .......................................................................................................... 19 

1.7. Bilan : LEXTER a servi, vive SYNTEX.............................................................. 22 

Chapitre 2 Etat de l’art en analyse syntaxique robuste .................................... 25 

2.1. L’analyse syntaxique automatique au sein du TAL ........................................ 25 

2.2. Panorama historique du Traitement Automatique des Langues...................... 27 

2.2.1. Les débuts de la traduction automatique ................................................. 27 

2.2.2. L’avènement de la « computational linguistics ».................................... 32 

2.2.3. Le « tournant déclaratif » et les grammaires d’unification...................... 35 

2.2.4. Le Natural Language Processing............................................................. 38 

2.3. Travaux en analyse syntaxique robuste........................................................... 42 

2.3.1. La robustesse en analyse syntaxique....................................................... 42 

2.3.2. L’analyseur FULCRUM de P. S. Garvin.................................................... 45 

2.3.3. L’analyseur du projet TDAP................................................................... 46 

2.3.4. L’analyseur de F. Debili.......................................................................... 48 

2.3.5. Le projet PLNLP..................................................................................... 50 

2.3.6. L’analyse par chunks de S. Abney .......................................................... 53 

2.3.7. L’analyseur 98 de J. Vergne.................................................................... 58 

2.3.8. L’analyse syntaxique robuste selon J. P. Chanod.................................... 61 

2.3.9. Bilan : une lignée .................................................................................... 65 

Chapitre 3 Description de l’analyseur SYNTEX.................................................. 67 

3.1. Principes de base............................................................................................. 67 

3.1.1. Analyseur syntaxique opérationnel ......................................................... 67 

3.1.2. Un problème de reconnaissance de formes ............................................. 68 

3.1.3. Fonctionnement simplifié........................................................................ 71 

3.1.4. Architecture............................................................................................. 74 

3.1.5. Algorithmes de reconnaissance............................................................... 76 

5

3.2. Description des modules ................................................................................. 77 

3.2.1. Enchaînement des modules de reconnaissance ....................................... 77 

3.2.2. Formalisation du parcours....................................................................... 78 

3.2.3. Les relations locales ................................................................................ 84 

3.2.4. Coordination............................................................................................ 89 

3.2.5. Objet et attribut ....................................................................................... 97 

3.2.6. Sujet ...................................................................................................... 101 

3.2.7. Les relations ambiguës : apprentissage endogène ................................. 106 

3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation 109 

3.2.9. Antécédence relative ............................................................................. 111 

3.2.10. Attachement des prépositions................................................................ 114 

3.2.11. Attachement des adjectifs ..................................................................... 120 

3.2.12. Procédure de désambiguïsation globale ................................................ 121 

3.2.13. Analyse profonde .................................................................................. 123 

3.2.14. Evaluation ............................................................................................. 126 

3.3. Discussion ..................................................................................................... 131 

3.3.1. Situation par rapport au paradigme formel............................................ 131 

3.3.2. SYNTEX, un « objet technique » ............................................................ 137 

3.3.3. Savoirs................................................................................................... 144 

6

Chapitre 1 

De LEXTER à SYNTEX : ruptures, 

continuités, évolutions 

Dans ce chapitre, je retrace le chemin qui m’a conduit de LEXTER à SYNTEX. La période 

couverte s’étend de juin 1994, date de la soutenance de ma thèse sur LEXTER, à 

l’automne 1999, quand je décide à mon arrivée dans l’Equipe de Recherches en Syntaxe 

et Sémantique de Toulouse, de me lancer, avec C. Fabre, dans la réalisation d’un nouvel 

analyseur syntaxique. Cette période m’a vu changer radicalement de position sur un 

certain nombre de points, techniques, méthodologiques ou théoriques, et maintenir mes 

convictions sur d’autres. Ce sont ces ruptures et ces continuités que je tente de mettre en 

évidence ici. Je reste fidèle à une approche ingénierique des recherches en Traitement 

Automatique des Langues (section 1.1). Sur le plan de la couverture, LEXTER réalise une 

analyse syntaxique locale et partielle, dédiée au repérage de syntagmes nominaux à 

allure dénominative (section 1.2), alors que SYNTEX est un analyseur syntaxique de 

phrase. La principale évolution concerne la conception de l’utilisation de l’analyseur : 

LEXTER est conçu au départ comme un outil d’extraction de « candidats termes », vus 

comme des étiquettes de concepts, pour l’élaboration ou l’enrichissement de thesaurus 

(section 1.3). Les expériences d’utilisation de LEXTER dans des contextes d’usages 

diversifiés me poussent à changer radicalement mes appuis théoriques : j’abandonne les 

postulats de la doctrine terminologique classique pour m’inspirer de la sémantique 

interprétative de F. Rastier (section 1.4). La nécessité de définir un cadre 

méthodologique cohérent pour l’utilisation de LEXTER m’amène à le présenter non plus 

comme un simple pourvoyeur d’étiquettes de concepts, mais comme un outil d’aide à 

l’interprétation de textes et à la modélisation des connaissances (section 1.5). Une 

seconde rupture avec la fonction initiale de LEXTER se produit quand différentes 

expériences montrent l’utilité des analyses syntaxiques de groupes nominaux produites 

par LEXTER comme entrées d’outils d’analyse distributionnelle (section 1.6). Un bilan 

rétrospectif de ce chemin mouvementé éclaire les raisons pour lesquelles je décide fin 

1999 de m’attaquer la réalisation d’un nouvel analyseur syntaxique à la couverture et 

aux fonctions élargies (section 1.7). 

7

1.1. Recherches en ingénierie linguistique 

J’ai effectué ma thèse dans un contexte industriel, à la Direction des Etudes et 

Recherches (DER) d’EDF, au sein du service Informatique et Mathématiques 

Appliquées (septembre 1990-juin 1994) 1 . Le sujet de recherche avait été déterminé suite 

à la question précise et concrète adressée par les responsables du Service Information, 

Prospective et Normalisation de la DER à leur collègues du service Informatique et 

Mathématiques Appliquées : comment enrichir et maintenir à jour le thesaurus 

électronique utilisé par le système d’indexation automatique de la DER. J’ai été 

d’emblée plongé dans le contexte d’une recherche guidée par un problème à résoudre. 

Ingénieur de formation, et après trois années d’études en linguistique théorique et 

formelle à l’Université Paris VII, je n’ai pas été rebuté par ces conditions de travail, que 

j’ai toujours considérées comme stimulantes 2 . Au long de mon parcours de chercheur, de 

la DER d’EDF au CNRS, cette « obligation de résultats », contrainte subie et acceptée au 

départ de ma recherche, est devenue une dimension constitutive assumée de ma 

conception du travail de chercheur en Traitement Automatique des Langues (TAL). 

Dans le paysage de la recherche en TAL, marqué par « la cohabitation paradoxale et 

nécessaire des recherches théoriques et des applications à visée industrielle » (Cori & 

Léon, 2002), je revendique une démarche ingénierique, où la définition du programme 

de recherche est, pour partie, liée à l’identification d’applications cibles ou de problèmes 

concrets, et où la validation des résultats passe par la confrontation des outils réalisés 

avec des contextes d’usages aussi réels que possible. 

Ce parti pris d’une recherche située en ingénierie linguistique est clairement assumé et 

affiché dans ma thèse soutenue en juin 1994. Il est révélé par l’architecture même du 

mémoire, et en particulier par les choix concernant la traditionnelle partie « état de 

l’art ». Le premier chapitre est consacré à la présentation des principes de base du 

logiciel. Il commence par l’énoncé du problème à résoudre, à savoir la constitution et 

l’enrichissement de thesaurus, et par la présentation de la solution visée : la réalisation 

d’un logiciel d’extraction de terminologie, prenant en entrée un corpus étiqueté portant 

sur un domaine spécialisé, et effectuant une analyse syntaxique pour extraire des 

syntagmes nominaux susceptibles de représenter les concepts du domaine. Pour la mise 

en contexte de la recherche, plutôt que d’inscrire mon travail dans un champ particulier 

de la linguistique ou du Traitement Automatique des Langues, je choisis de le situer en 

évoquant la « demande », c’est-à-dire les domaines d’application de la terminologie 

(traduction automatique, informatique documentaire, gestion de la connaissance). En 

restant dans la même veine « génie logiciel », je définis ensuite un cahier des charges 

minimal pour la réalisation du logiciel en imposant deux contraintes : généralité – le 

1 Je dois beaucoup à Gérard Hatabian, alors chef du groupe Statistiques, Optimisation, Aide à la Décision, qui 

m’a fait confiance à ce moment crucial de mon parcours professionnel. 

2 Il faut bien reconnaître qu’à cette époque la Direction des Etudes et Recherches d’EDF constituait un lieu 

extrêmement favorable et confortable pour des recherches à visée applicatives certes, mais avec une pression 

quant aux résultats beaucoup moindre que dans les entreprises industrielles du secteur privé. 

8

logiciel doit être capable de traiter des corpus de domaines quelconques, et robustesse – 

le logiciel doit être capable de traiter des corpus de taille importante dans des temps 

raisonnables. C’est à la fin de ce premier chapitre que se glisse une discussion 

bibliographique sur les techniques de Traitement Automatique des Langues, dans 

laquelle je décris en détail et j’évalue par rapport à mes propres choix de conception 

deux séries de travaux : ceux de F. Debili d’une part, et ceux de S. David et P. Plante 

d’autre part. Le tout en une douzaine de pages. La « vraie » partie état de l’art est placée 

dans le dernier chapitre (chapitre 6). J’y expose un état de l’art très complet et détaillé 

(une soixantaine de pages) sur la problématique de l’acquisition des connaissances à 

partir de textes, domaine d’application que j’ai choisi pour le logiciel. Je présente, 

décortique et critique un bon nombre de travaux en acquisition des connaissances à partir 

de textes, et je propose en conclusion une typologie des outils d’analyse de textes pour 

l’acquisition des connaissances. 

Ce rapide retour en arrière sur l’architecture de mon mémoire de thèse révèle bien ma 

volonté de valoriser ma recherche selon le point de vue de l’utilisation de LEXTER, et 

donc de sa validation, plutôt que sur sa conception, en négligeant de me situer, dans le 

domaine du TAL, par rapport aux travaux sur l’analyse syntaxique automatique 3 . En ce 

qui concerne ma position par rapport aux théories et travaux en linguistique, je fais 

référence dans ma thèse à la Théorie Générale de la Terminologie et à certains linguistes 

reconnus (Benveniste, Guilbert). Je peux dire maintenant que ce positionnement est un 

habillage rapidement cousu au moment de la rédaction de la thèse pour justifier des 

choix de conception et d’implémentation que j’avais effectués sur des bases entièrement 

pragmatiques. 

En 1999, quand j’attaque la conception de l’analyseur syntaxique SYNTEX, je suis bien 

décidé à problématiser enfin la distance entre les théories linguistiques et la conception 

d’un analyseur opérationnel. Au moment où nous commençons à travailler sur ce nouvel 

analyseur, C. Fabre et moi rédigeons, pour un numéro spécial des Cahiers de Grammaire 

sur « Sémantique et corpus », un article qui constitue l’acte de baptême de SYNTEX et 

qui restera pendant plusieurs années sa seule référence bibliographique (Bourigault et 

Fabre, 2000). Dans cet article, j’amorce une réflexion sur les rapports entre certains des 

choix méthodologiques effectués pour le développement d’un analyseur syntaxique 

opérationnel et certaines des positions théoriques défendues par J.-C. Milner dans son 

Introduction à une science du langage (Milner, 1999). Mais une fois la rédaction de 

l’article achevée, je me plonge à nouveau dans les développements informatiques, 

pendant 5 années, période au bout de laquelle est achevée une première version stable de 

l’analyseur. 

3 Cette disproportion entre une étude bibliographique hypertrophiée sur l’acquisition des connaissances à partir 

de textes et une discussion relativement légère sur les techniques de traitement automatique des langues n’a pas 

manqué de surprendre Jean Véronis, qui écrit dans son rapport sur la thèse : « J’ai été surpris tout d’abord par 

la place de cette étude qui constitue en quelque sorte un état de l’art, et il m’a semblé qu’elle aurait mieux eu 

sa place au début du mémoire, de façon à ce que l’exposé s’appuie sur elle. Mais il est vrai qu’elle ne porte 

pas exactement sur le thème général de la thèse, mais sur le seul aspect particulier de l’acquisition des 

connaissances. On peut alors se demander pourquoi une bibliographie si élaborée sur ce thème et pas sur le 

thème central de la thèse. » 

9

La rédaction du présent mémoire est pour moi l’occasion d’une pause, urgente et 

salutaire, dans le développement du logiciel et dans la course aux applications, pour 

reprendre mes interrogations sur théorie linguistique et développement informatique en 

ingénierie linguistique. 

1.2. Analyse syntaxique locale 

LEXTER est un logiciel d’extraction de terminologie. Il prend en entrée un corpus de 

textes, préalablement étiqueté 4 , puis effectue une extraction de candidats termes 

nominaux en deux étapes : (1) découpage, (2) décomposition. Au cours de l’étape de 

découpage, LEXTER isole dans la chaîne étiquetée des groupes nominaux maximaux en 

repérant des patrons morphosyntaxiques de frontières. Il s’agit par exemple des mots de 

catégorie Verbe, Pronom, Conjonction de subordination, etc., ou des séquences de 

catégories morphosyntaxiques, par exemple certaines suites Nom + Préposition ou 

Préposition + Déterminant, qui ne peuvent être constituants de termes. Au cours de 

l’étape de décomposition, LEXTER analyse les groupes nominaux maximaux dégagés lors 

de l’étape de découpage pour les décomposer récursivement de façon binaire en une tête 

et une expansion 5 . Par exemple, le groupe nominal maximal pompe de refoulement 

rapide est décomposé en une tête, le groupe nominal pompe de refoulement et une 

expansion, l’adjectif rapide, et le groupe nominal pompe de refoulement est lui-même 

décomposé en une tête, pompe, et une expansion, refoulement. Pour résoudre les 

ambiguïtés de rattachement adjectival au sein des groupes nominaux maximaux ou 

certaines ambiguïtés de rattachement prépositionnel lors de l’étape de découpage, 

LEXTER met en œuvre le principe de l’apprentissage endogène : il acquiert lui-même, 

par analyse de configurations non ambiguës au sein corpus en cours de traitement, les 

informations lexico-syntaxiques qui lui sont nécessaires pour traiter les configurations 

ambiguës. Par exemple, LEXTER effectue l’analyse donnée ci-dessus du groupe pompe 

de refoulement rapide parce qu’il a repéré dans le corpus des occurrences non ambiguës 

des groupes pompe rapide ou pompe de refoulement, et aucune occurrence non ambiguë 

de refoulement rapide. De même, c’est parce qu’il aura repéré plusieurs contextes non 

ambigus dans lesquels le nom action est construit avec la préposition sur que le logiciel 

ne coupera pas à la séquence sur + le dans la phrase « Le système déclenche une action 

sur le bouton poussoir », et extraira ainsi le groupe nominal maximal action sur le 

bouton poussoir. En revanche, il considérera cette même séquence comme une frontière 

dans la phrase « on raccorde le câble d’alimentation sur le coffre de décharge » au motif 

qu’il n’aura repéré aucune occurrence non ambiguë de alimentation + sur dans le 

corpus. 

4 L’étiqueteur utilisé au départ du projet est AlethIPCat de la société GSI-Erli. 

5 Je reviens à la fin de la section 1.5 sur les motivations de cette décomposition binaire récursive. 

10

Le concept fondateur de LEXTER est celui de frontière. Dès le début de ma réflexion sur 

une méthode d’identification de termes dans des corpus, j’ai eu à ma disposition un 

étiqueteur, et l’observation de corpus de test étiquetés m’a guidé vers l’idée d’une 

extraction de groupes nominaux maximaux par repérage de marqueurs de frontière. 

Pourquoi avoir choisi une méthode « en négatif », par patrons de frontière, plutôt qu’une 

méthode beaucoup plus classique par patrons de termes (Nom Adjectif, Nom Prep Nom, 

etc.) ? Sans doute parce que le premier corpus sur lequel j’ai travaillé avait cette 

particularité de regorger de syntagmes nominaux extraordinairement complexes, avec de 

magnifiques enchâssements (par exemple : amélioration des connaissances actuelles sur 

les propriétés électriques et mécaniques des accéléromètres à fibre otique). Ce corpus de 

200 000 mots était constitué de textes rédigés par les ingénieurs de la DER qui 

décrivaient leurs thèmes et actions de recherche pour l’année à venir. Devant la diversité 

et la complexité des groupes nominaux utilisés pour nommer ces thèmes et actions, il 

m’est apparu plus facile de travailler dans un premier temps sur la caractérisation des 

limites extérieures de ces groupes que sur celle de leur structure interne. Dans une 

perspective de prototypage rapide, la mise au point d’une liste initiale de patrons de 

frontière m’est apparue chose aisée. Une première version satisfaisante du module 

découpage a été prête assez vite. Comme prévu, les structures des séquences isolées à 

l’issue de la phase de découpage étaient très complexes et diversifiées. Pour extraire des 

sous-séquences, qui avaient plus de chances d’être des termes du domaine que les 

séquences maximales, je me suis lancé dans la mise au point des règles de 

décomposition. J’ai adopté une approche énumérative, totalement inductive, basée sur 

l’observation de ces syntagmes nominaux maximaux. En simplifiant, pour chaque motif 

possible de syntagme nominal maximal, décrit en terme de succession de catégories 

morphosyntaxiques (noms, adjectifs, participes passés, prépositions, adverbes, 

déterminants), j’ai construit une règle du module de décomposition, qui indique quels 

sont les constituants à extraire, ainsi que, dans le cas d’une ambiguïté de rattachement 

adjectival, quels sont les groupes dont il faut chercher des occurrences non ambiguës. 

Dans un premier temps, les règles énuméraient les sous-groupes à extraire, sans produire 

d’analyse en Tête et Expansion. J’ai introduit cette analyse dans un second temps, 

d’abord pour faciliter la navigation dans l’interface de consultation des résultats 

(section 1.5). Une des grandes richesses de LEXTER est la connaissance accumulée dans 

les dizaines de règles du module décomposition. 

Pour qualifier le type d’analyse effectuée par LEXTER, j’ai parlé d’« analyse syntaxique 

locale » (Bourigault, 1993). Cette mention concerne l’analyse effectuée par le module de 

découpage, qui s’appuie sur des patrons catégoriels de faible empan (séquences d’une ou 

deux, voire trois, catégories) pour extraire des syntagmes nominaux syntaxiquement 

valides 6 . Dans ma thèse, je justifie le non recours à une analyse syntaxique globale des 

phrases de la façon suivante : (1) mon objectif est limité à l’identification de syntagmes 

6 Alors que le module de décomposition, lui, met en œuvre une analyse syntaxique globale des syntagmes 

nominaux maximaux, en ce sens que chaque règle de décomposition correspond à un motif possible de 

syntagme nominal maximal décrivant l’intégralité du syntagme à analyser. 

comporte en partie gauche le mtof 

11

nominaux complexes dans des corpus de grande taille, (2) l’analyse syntaxique des 

phrases est rarement décisive pour identifier les frontières de syntagmes nominaux, (3) le 

fait d’adopter une méthode robuste autorise une démarche expérimentale par tests 

nombreux sur corpus de grande taille et une mise au point fine des règles d’extraction. 

J’argumente ainsi que la méthode de LEXTER est plus précise qu’une méthode par simple 

repérage de patrons de termes, et plus efficace et robuste qu’une méthode par analyse 

syntaxique globale 7 . J’affirme même : « La synergie entre repérage de termes et analyse 

syntaxique doit s’effectuer dans le sens inverse. D’un point de vue théorique, toute 

approche structurale de l’analyse de la langue qui fonde sur la compositionnalité une 

organisation des traitements en niveaux (syntaxique, sémantique) se doit de considérer 

les termes comme des unités sur le plan syntaxique, puisque ce sont des unités sur le 

plan interprétatif. D’un point de vue pratique, il est nécessaire de fournir à un analyseur 

syntaxique la liste des termes (et des noms composés) qu’il est susceptible de rencontrer 

dans les textes, pour limiter le nombre de cas d’ambiguïtés auxquels il sera confronté. » 

(Bourigault, 1994b, p. 70). J’évoque à ce propos un « principe d’incertitude », qui 

interdirait d’obtenir, avec une égale précision et en exploitant les mêmes informations, à 

la fois la structure syntaxique d’une phrase et le repérage d’unités complexes qui la 

constitueraient. Je n’approfondirai jamais cette idée. A rebours, je réalise quelques 

années plus tard un analyseur syntaxique de phrase dont une des applications en aval est 

l’extraction de termes (section 1.7). 

1.3. La fonction initiale de LEXTER : extraire des étiquettes 

de concepts 

LEXTER est développé initialement pour répondre au problème de la constitution et de 

l’enrichissement de thesaurus. Je le conçois comme un outil dont la fonction est 

d’extraire automatiquement d’un corpus de textes des séquences de mots aptes à intégrer 

directement la nomenclature d’un thesaurus, sans retouche de forme. Par exemple, le 

logiciel doit extraire la séquence nominale paroi d’enceinte, mais doit écarter la 

séquence paroi de cette enceinte, parce que la présence du déterminant démonstratif 

vient la disqualifier pour le titre d’étiquette de concept. Ce parti pris relève de la 

conception naïve de la terminologie qui est la mienne tout au long de mon travail de 

thèse : le terme est une étiquette de concept, il est figé à la fois dans sa fonction 

7 Cette polémique peut paraître quelque peu datée, au regard de la popularité gagnée ces dix dernières années 

par les travaux en analyse syntaxique robuste par bribes. A l’époque, la nécessité de mettre au point un tel 

argumentaire m’est apparue, quelques mois après le début de ma thèse, à l’occasion d’un colloque sur le 

repérage de l’information textuelle organisé à l’Université du Québec à Montréal. Je présentais pour la 

première fois le principe du découpage par marqueurs de frontière, et celui, qui suit logiquement, de 

décomposition des syntagmes nominaux maximaux (Bourigault, 1991). Un membre de l’équipe de l’UQAM, 

qui travaillait alors sur le progiciel Termino, m’a demandé comment je pouvais extraire des syntagmes 

nominaux sans analyse syntaxique de la phrase. Ce point, dont je constate retrospectivement avoir surestimé 

l’importance, m’a conduit à l’époque à mobiliser une partie de mon énergie à justifier le non recours à 

l’analyse syntaxique de phrase. 

12

éférentielle et dans sa forme, car le système conceptuel préexiste à toute production 

textuelle. Le corpus n’est qu’un simple réservoir d’attestations. Cette conception n’est 

pas ébranlée par mes diverses lectures issues de la littérature classique de la 

terminologie. Ni du côté de E. Benveniste (1966) ou de L. Guilbert (1965), dont la 

citation que je donne page 26 de ma thèse conforte parfaitement ma conception initiale 

de l’extraction automatique de termes : « Les unités lexicales complexes ne sont en 

définitive que des segments d’énoncés extraits de leur contexte. » (Guilbert, 1965, 

p. 273). Ni du côté de la Théorie Générale de la Terminologie d’Eugène Wüster, telle 

qu’elle est exposée dans le Manuel de terminologie de H. Felber, auquel j’emprunte 

page 19 de ma thèse cette définition du terme : « un terme est un symbole conventionnel 

représentant une notion définie dans un certain domaine de savoir » (Felber, 1987, p. 1). 

Dans la section de ma thèse consacrée à la caractérisation linguistique du terme, 

j’affirme que la propriété définitoire essentielle du terme est sa propriété 

d’interprétabilité hors contexte (Bourigault, 1994b, p. 21). J’affirme ensuite que si cette 

contrainte d’interprétabilité hors contexte ne permet pas de déduire directement les 

principes d’une implémentation, elle induit sur la forme du terme des contraintes 

morphosyntaxiques qui, elles, peuvent servir de bases descriptives pour 

l’implémentation. C’est ainsi que je justifie le fait que LEXTER extrait des séquences 

contiguës d’unités lexicales, correspondant à des groupes nominaux figés, dont la forme 

les rend aptes à intégrer directement la nomenclature d’une terminologie. Cette traque de 

l’étiquette est poursuivie de façon obsessionnelle pendant toute la conception du logiciel 

LEXTER (1990–1994). Elle me conduit à imposer des contraintes fortes sur le filtrage des 

groupes nominaux à extraire des corpus. En particulier, j’écarte tout groupe qui a pour 

constituant un article autre que l’article défini (comme refroidissement d’une enceinte) 

ou, plus encore, qui a pour constituant un article défini à valeur non générique : une règle 

de découpage considère comme une frontière les séquences de + article défini quand le 

nom qui suit l’article est suivi d’une relative. Par exemple, dans la phrase « le débit de la 

pompe qui alimente le circuit de refroidissement», la séquence débit de la pompe ne sera 

pas retenue car dans ce contexte le déterminant la n’a pas la valeur générique, mais celle 

de spécifiant. 

1.4. LEXTER à l’épreuve des usages : revirement théorique 

Après la soutenance de ma thèse en juin 1994, j’arrête tout travail de développement 

informatique sur le logiciel LEXTER lui-même, et je consacre la période 1994–1999 

d’une part à l’animation de la recherche, au sein de la communauté de l’Ingénierie des 

Connaissances et dans le groupe « Terminologie et Intelligence Artificielle », que j’ai 

créé avec A. Condamines en 1994, et d’autre part à la mise en place et à l’animation 

d’un certain nombre de projets de recherche dans lesquels le logiciel LEXTER est utilisé, 

13

que ce soit au sein de la DER d’EDF 8 ou dans des laboratoires de la recherche 

universitaire. 

Assez vite après le début de la thèse, j’avais changé sensiblement la visée applicative de 

mon travail. Je m’étais détourné du domaine de l’informatique documentaire, et avais 

abandonné le problème spécifique de la constitution de thesaurus, pour inscrire mes 

recherches dans le domaine de l’Intelligence Artificielle, et m’intéresser au problème de 

la conception des systèmes experts 9 . Ce geste fut de grande importance pour la suite de 

ma recherche, car le domaine de l’Intelligence Artificielle a vécu au début des années 

1990 une sorte de révolution culturelle, avec un vaste mouvement d’idées autour de 

l’activité d’acquisition et de modélisation des connaissances pour les systèmes experts, 

au sein duquel la réflexion sur l’utilisation des textes et des outils informatiques 

d’analyse de textes a occupé une place centrale. Au début de leur développement, les 

systèmes experts étaient conçus comme des ensembles uniformes de règles 

d’association, permettant de passer d’un ensemble de prémisses à des conclusions. Ces 

règles étaient établies à partir des explications fournies par les experts sur leur façon de 

résoudre les problèmes. L’acquisition des connaissances était donc appréhendée comme 

un problème d’extraction et de retranscription de connaissances que posséderait un 

expert vers un système expert. Au début des années 1990, un certain nombre de 

chercheurs, pour lesquels cette conception expliquait en partie l’échec des systèmes 

experts de première génération, proposent une nouvelle approche qui voit l’acquisition 

des connaissances comme un problème de construction de modèles (Aussenac et al., 

1992). 

Le domaine de l’acquisition des connaissances pour les systèmes à base de 

connaissances se caractérise par l’identification et l’agencement des 

processus requis pour l’élaboration (conception, évaluation, évolution) 

d’un Système à Base de Connaissances à partir de sources hétérogènes de 

connaissances (documentaires, humaines, expérimentales). 

(op. cit., p. 8) 

Il ne s’agit plus de « mimer » le raisonnement d’un expert dans un système informatique, 

mais de construire un artefact informatique, un « système à base de connaissances », qui 

viendra s’intégrer au dispositif utilisé par les spécialistes dans leur activité experte. Un 

tel changement de conception entraîne un changement radical dans les méthodologies 

d’acquisition des connaissances. En particulier, le recours aux textes n’est plus le même 

qu’avec la vision classique des systèmes experts, pour laquelle seules les retranscriptions 

8 Ce fut une période particulièrement active, au cours de laquelle j’ai eu le bonheur de travailler, toujours à 

EDF, avec Cécile Gros et Henri Boccon-Gibod, bientôt rejoints par Daniela Garcia. L’aide qu’ils m’ont 

apportée a été capitale. 

9 Je dois l’idée de ce changement à Jean-Paul Krivine, chercheur au service Informatique et Mathématiques 

Appliquées de la DER, qui crée et anime à partir d’octobre 1991 le Groupe de Recherche en Acquisition des 

Connaissances (GRACQ). Il perçoit l’intérêt d’un rapprochement des recherches en extraction de terminologie 

avec celles qui portent sur la construction de systèmes experts, et il m’invite à participer aux deuxièmes 

journées d’Acquisition des Connaissances, en avril 1992 à Dourdan. Je lui suis d’autant plus redevable que sa 

suggestion est intervenue au moment où des problèmes de relation entre services au sein de la DER rendaient 

difficile la poursuite du projet de mise à jour du thesaurus EDF. 

14

d’entretiens avec les experts sont dignes d’intérêt. Les quelques travaux entrepris en 

Traitement Automatique des Langues dans cette logique aujourd’hui abandonnée, basés 

sur l’utopie d’une traduction automatique possible des discours des experts en des règles 

de systèmes expert, n’avaient en effet produit que peu de résultats intéressants 

(Bourigault, 1994b, chap. 5). Avec la nouvelle approche des systèmes à base de 

connaissances, il apparaît que les connaissances à modéliser pour réaliser les artefacts 

informatiques vont bien au-delà des connaissances verbalisées par les experts. Ces 

connaissances sont susceptibles d’être exprimées dans de multiples sources textuelles, de 

types très divers selon les applications : documentations techniques, ouvrages de 

référence, rapports de projets, comptes rendus d’activité, etc. Dès lors, puisque les 

termes techniques présents dans ces documents constituent les points d’accès privilégiés 

aux connaissances qui y sont exprimées, et face à la masse des documents à étudier, la 

communauté de l’Ingénierie des Connaissances s’est ouverte aux recherches autour de la 

terminologie et de l’analyse automatique de corpus. 

C’est précisément pour favoriser la réflexion interdisciplinaire entre la linguistique de 

corpus, la terminologie, le Traitement Automatique des Langues et l’Ingénierie des 

Connaissances qu’Anne Condamines, de l’Equipe de Recherche en Syntaxe et 

Sémantique (ERSS) de Toulouse, et moi créons en 1994 le groupe « Terminologie et 

Intelligence Artificielle » (TIA). Ce groupe va être le creuset d’une bouillonnante 

activité de discussion et de réflexion, et constituer un centre d’animation de la recherche 

particulièrement actif pendant toute la seconde moitié des années 1990. Personnellement, 

c’est grâce aux échanges et aux collaborations avec les membres de ce groupe de travail 

que j’ai pu engager une réflexion sérieuse sur les bases théoriques de mon travail, puis 

élaborer le cadre théorique et méthodologique de mes recherches sur l’utilisation d’outils 

de TAL pour la modélisation des connaissances à partir de textes. L’une des actions 

importantes du Groupe TIA aura été de participer à la critique des bases théoriques et 

épistémologiques de la terminologie classique. Celles-ci étaient déjà remises en cause à 

cette époque par les tenants de la socioterminologie (Gambier, 1995, Gaudin, 1995). Elle 

l’étaient aussi par M. Slodzian, qui mettait en évidence que la vision mécaniste du 

couplage entre le terme et la notion s’était imposée dans le cadre intellectuel de 

l’universalisme et de l’empirisme logique, que le monde scientifique avait depuis 

largement remis en cause (Slodzian, 1994). A partir des discussions menées au sein du 

groupe TIA, je tente de contribuer moi aussi à cet effort de renouvellement des bases 

théoriques de la terminologie, en apportant le point de vue d’un concepteur de logiciel 

d’extraction de termes. Je remets en question mes conceptions théoriques initiales, sur 

les bases d’un constat dressé sur le terrain des différents projets utilisant LEXTER : 

l’hypothèse de l’existence et de l’unicité d’un réseau notionnel et d’une terminologie 

pour un domaine donné ne résiste pas à l’évidence de la grande diversité des ressources 

terminologiques qu’il est possible de concevoir. Cette diversité est elle-même liée à la 

diversité des applications utilisatrices de telles ressources, qui se multiplient avec le 

développement des réseaux et de la société de l’information multilingue (thesaurus pour 

les systèmes d'indexation automatique, index structurés pour les documentations 

techniques hypertextuelles, ontologies pour les mémoires d'entreprise, pour les systèmes 

d’aide à la décision ou pour les systèmes d’extraction d’information, etc.). Dans les 

15

projets menés en particulier à EDF, l’expérience me montrait que, pour le terminologue 

face à un candidat terme, la bonne question n’était jamais « Cette unité lexicale 

réfère-t-elle à un concept du domaine ? », mais plutôt « Est-il utile/pertinent d’intégrer 

cet élément dans la ressource terminologique en cours de construction, utile/pertinent 

vis-à-vis de l’application dans laquelle cette ressource sera utilisée ? ». Le cadre 

théorique de la doctrine terminologique classique, qui contraint à poser le problème de la 

construction de terminologie comme une activité de découverte des traces linguistiques 

d’un réseau de concepts préexistants, n’est pas compatible avec la réalité du terrain. Il 

s’écroule. Le terme n’est pas découvrir, le terme est un élément d’une ressource 

terminologique à construire en fonction d’une application cible. 

1.5. Un outil d’aide à l’analyse sémantique de textes 

spécialisés 

A ce moment de ma réflexion, la découverte de la sémantique de F. Rastier fut pour moi 

une révélation. Je trouve exprimées dans les écrits de F. Rastier (1987, 1991, et al., 

1994) des positions qui entrent en résonance avec mes propres constats empiriques. Une 

sémantique textuelle, qui pose les textes comme objets empiriques de la linguistique, et 

interprétative, qui place au centre du dispositif théorique les concepts de contexte et 

d’interprétation, était celle dont j’avais besoin pour m’affranchir du recours infructueux 

aux propositions théoriques de la doctrine terminologique, ainsi qu’à celles des 

sémantiques référentielles ou des sémantiques conceptuelles que je connaissais mieux 

alors. La communication de F. Rastier aux premières journées organisées par le groupe 

TIA en avril 1995 à Villetaneuse, intitulée « Le terme : entre ontologie et linguistique » 

(Rastier, 1995), fut pour moi décisive. L’auteur propose d’en finir avec une conception 

de la terminologie comme discipline qui s’opposerait à la linguistique, ainsi que le 

revendiquent Wüster et ses disciples, et annonce que maintenir une sécession de la 

terminologie causerait un préjudice à l'ensemble des sciences du langage : 

Alors que ses objectifs pratiques relèvent de la linguistique appliquée, les 

préjugés logico-positivistes de sa doctrine doivent être abandonnés, d'une 

part parce qu'ils entravent la réalisation même de ses objectifs, d'autre part 

parce qu'ils donnent du langage une image à la fois simpliste et obsolète, 

sans permettre de comprendre la richesse et la complexité du 

fonctionnement effectif des textes de spécialité. (…) En resserrant ses 

liens avec la linguistique, et notamment la sémantique des textes 

scientifiques et techniques, la terminologie va devenir mieux à-même de 

remplir ses multiples missions, en problématisant la recherche et la 

constitution de ses unités, et en s'adaptant mieux à ses domaines d'action 

privilégiés : documentation et indexation, aide à la traduction. 

(op. cit., p. 61-62). 

16

Il s’agit de considérer la terminologie comme une branche descriptive et normative de la 

linguistique appliquée, relevant de la lexicologie et traitant séparément de domaines 

sémantiques correspondant à diverses disciplines. Il devient alors possible d’utiliser les 

bases et concepts théoriques de la sémantique lexicale, en s’appuyant en particulier sur le 

concept de contexte que théorise la sémantique textuelle dont elle procède, pour adopter 

une vision constructiviste de la terminologie : en terminologie, comme en lexicologie, 

tout lexique est une reconstruction, qui fait abstraction du contexte et du texte : 

Un mot-occurrence ne se définit que dans et par un contexte, et reçoit des 

déterminations du texte. Le placer sous l’autorité d’un type revient à le 

décontextualiser et le dé-textualiser. (…) les types ne préexistent pas aux 

occurrences, mais sont reconstruits à partir d’elles. Ainsi tout type résulte 

d’une décontextualisation (…). Le mot-type est un artefact des linguistes, 

comme le terme est un artefact de la discipline qui l’instaure. 

(op. cit., p. 53). 

Cette position méthodologique rejoint les constats faits sur le terrain. On doit considérer 

que le travail de construction d’une ressource terminologique relève d’une activité 

d’interprétation, guidée par l’objectif de l’application. « L’interprétation est elle-même 

située. Elle prend également place dans une pratique sociale, et obéit aux objectifs 

définis par cette pratique. Ils définissent à leur tour les éléments retenus comme 

pertinents » (Rastier et al., 1994, p. 13). Dès lors que la terminologie est intégrée dans le 

giron de la sémantique textuelle, il devient possible selon F. Rastier de prendre en 

compte la dimension textuelle dans les études en terminologie, et de coupler ainsi le 

point de vue paradigmatique, systématiquement privilégié dans l’étude des vocabulaires 

spécialisés, avec un point de vue syntagmatique qui étudie la constitution des termes, le 

rapport des termes aux non termes, le rapport du terme au contexte et le rapport du terme 

au texte. Dans ce contexte, l’auteur affirme que « les outils statistiques, les 

concordanciers, et les logiciels d’analyse sémantique permettent d’apporter du nouveau, 

pour peu que les stratégies de recherche tiennent compte de la textualité. » (Rastier, 

1995, p. 58-59). 

Dans un article publié en septembre 1995, dans les actes des 4èmes journées 

scientifiques du Réseau Lexicologie, Terminologie, Traduction, j’affiche une position 

sur la terminologie radicalement différente de celle présentée dans ma thèse, où je 

m’étais docilement rangé derrière les tenants de la doctrine et les grands noms de la 

discipline. Influencé par F. Rastier, ainsi que par B. Bachimont qui reprend lui aussi à 

son compte la théorie de F. Rastier dans ses travaux en Ingénierie des Connaissances 

(Bachimont, 1996), je ne présente plus le terme comme le représentant d’un concept, sa 

trace linguistique qu’il s’agirait d’aller retrouver dans les textes, mais comme un élément 

d’une ressource terminologique qu’il s’agit de construire, à partir de l’analyse des textes, 

pour une application identifiée. Ce revirement méthodologique m’amène à proposer une 

nouvelle définition de la notion de candidat terme. Dans ma thèse, j’avais justifié cette 

notion par le fait que, puisque la caractérisation première du terme était sa fonction 

sémantique de représentation de concept, et puisque le logiciel ne s’appuyait que sur des 

contraintes d’ordre morphosyntaxique pour extraire des syntagmes nominaux, ceux-ci ne 

17

pouvaient être que des « candidats » termes. La tâche du terminologue était de distinguer 

les termes des non termes parmi les candidats termes. Mais cette dichotomie terme/non 

terme n’est plus valide dans une approche qui assume le principe d’une dépendance de la 

tâche de sélection vis-à-vis de l’application. Je justifie alors la notion de candidat terme 

comme nécessaire pour rendre compatible la variété des ressources terminologiques que 

l’on peut construire à partir des résultats de LEXTER, avec la contrainte de généricité 

imposée au logiciel, dans lequel je n’intègre aucune règle de filtrage qui dépendrait du 

type d’application. La tâche du terminologue est alors de retenir parmi les candidats 

termes les termes qui sont pertinents vis-à-vis de l’application. 

Ce changement, qui peut apparaître anodin, est la trace d’un premier pas important vers 

la redéfinition de la fonction de LEXTER. J’accomplis le second pas dans le même élan 

inspiré par la théorie de F. Rastier. Dans le cadre de la « terminologie textuelle », 

promue par le groupe TIA (Bourigault et Slodzian, 1999), le terme est un construit : il est 

le produit d’un travail d’interprétation mené par l’analyste. Celui-ci construit son corpus 

d’étude, puis définit sa stratégie de lecture, choisit ses parcours interprétatifs et effectue 

ses choix de modélisation au niveau local (sélection et description des termes) guidé par 

la spécification au niveau global de la ressource visée. Avec une telle conception, 

LEXTER ne doit plus être vu comme un simple pourvoyeur d’étiquettes de concepts, mais 

comme un outil d’aide à l’analyse sémantique de textes spécialisés dédié à la tâche de 

construction de ressources terminologiques. Le réseau terminologique construit en 

connectant chaque candidat terme complexe à sa tête (lien T) et à son expansion (lien E) 

est directement implémenté dans l’interface de consultation des résultats de LEXTER, dite 

« Hypertexte Terminologique LEXTER » (HTL) dans laquelle les liens T et E deviennent 

des liens de navigation 10 . Il est possible pour un mot donné de visualiser d’un coup d’œil 

la liste de ses descendants en Tête et de ses descendants en Expansion, et de se 

transporter rapidement à l’un de ceux-ci. Chaque candidat terme peut être ainsi saisi et 

interprété au sein d’une série paradigmatique de candidats termes partageant la même 

tête ou la même expansion. Cette fonctionnalité s’avère particulièrement intéressante 

dans la perspective de modélisation des connaissances. L’interface HTL permet une 

navigation hypertextuelle au sein du réseau terminologique, ainsi qu’entre le réseau de 

candidats termes et les textes, en donnant accès pour un candidat donné à tous ses 

contextes d’occurrence. Elle invite l’analyste à adopter un mode de lecture non 

séquentiel du corpus, que l’on peut qualifier de paradigmatique. L’action du logiciel peut 

ainsi être vue comme l’enchaînement d’une étape de dé-contextualisation et d’une étape 

de re-contextualisation : les candidats termes sont extraits de leurs contextes 

d’occurrence, puis plongés dans leurs contextes paradigmatiques, reconstitués par 

l’analyse. Cette double opération n’est pas irréversible, puisque l’analyste a toujours 

accès au corpus et aux contextes d’occurrence des candidats termes. Le réseau 

10 Dès le début de mon travail à EDF, alors même que le logiciel était encore dans les limbes, j’avais réfléchi à 

la conception d’une interface hypertextuelle qui valoriserait les résultats extraits par le logiciel dans une station 

de travail pour terminologue, de façon à pouvoir le (faire) tester dans des applications réelles. J’ai eu alors la 

chance de travailler avec Jean-Louis Vuldy, de la DER, qui a développé avec le logiciel Hypercard une 

magnifique interface hypertextuelle. 

18

terminologique navigable construit par LEXTER propose à l’analyste « une image 

réorganisée du texte » 11 . 

1.6. Un outil d’identification de contextes syntaxiques pour 

l’analyse distributionnelle 

Le renouvellement des conceptions théoriques et le développement des applications en 

terminologie ouvrent en France au milieu des années 1990 un nouveau paradigme de 

recherche en TAL sur les outils d’aide à l’analyse sémantique de textes spécialisés 

(Bourigault et Jacquemin, 2000) (Jacquemin et Bourigault, 2003). Les recherches portent 

sur les techniques de TAL pour extraire des textes des informations (termes, relations, 

classes, etc.) utiles pour la construction de ressources lexicales spécialisées. On parle 

alors d’outils d’aide, non pas parce que ces outils sont imparfaits et nécessitent une 

intervention humaine pour corriger les erreurs, mais parce que l’analyse des résultats 

qu’ils fournissent est une tâche d’interprétation qui ne peut être menée à bien que par un 

analyste humain muni d’un objectif. 

Dans ce contexte, l’extraction de candidats termes n’est qu’une des applications du TAL 

utiles à la modélisation des connaissances. Toute méthode permettant de classer, 

structurer, mettre en relation, filtrer une liste de candidats termes extraits est la 

bienvenue. C’est ainsi que l’observation des réseaux terminologiques construits par 

LEXTER me suggère l’idée d’utiliser ce réseau aussi comme input pour des calculs 

statistiques permettant de caractériser les candidats termes en fonction de la cartographie 

du réseau local qui les entoure (Bourigault, 1994a) 12 . L’idée de proposer une 

décomposition syntaxique binaire récursive en Tête et Expansion des syntagmes 

nominaux s’est imposée initialement pour structurer la liste des candidats termes extraits 

et pour permettre une meilleure navigation dans l’interface HTL (le long des liens Tête 

et Expansion 13 ). Ce n’est que dans un second temps qu’il m’est apparu que le réseau 

terminologique pouvait constituer un résultat intermédiaire exploitable pour de nouveaux 

calculs. Les réseaux terminologiques construits à partir de corpus spécialisés de grande 

taille possèdent la caractéristique particulièrement intéressante d’avoir une densité 

absolument non uniforme. Un petit nombre de nœuds attracteurs concentrent l’essentiel 

11 Expression utilisée par (Habert & Nazarenko, 1996) à propos des réseaux distributionnels construits par leur 

outil ZELLIG. 

12 Avec cet article, je reçois le prix « jeune chercheur » lors de la conférence Reconnaissance des Formes et 

Intelligence Artificielle (RFIA 1994), à 37 ans… 

13 En fait, j’ai distingué deux types de décomposition en Tête et Expansion, selon le type du connecteur 

prépositionnel entre la tête et l’expansion. Dans les cas où la tête et l’expansion sont connectées par une 

séquence de+le (du, de la, des), les positions Tête et Expansion sont notées T’ et E’. Dans tous les autres cas, 

elles sont notées T et E. Cette distinction est issue du constat suivant : la préposition de est une préposition 

vide, qui constitue un bon indice de comportement dénominatif quand elle est attestée sans déterminant défini ; 

en revanche, le déterminant le a de façon très largement majoritaire en corpus une valeur anaphorique ou 

cataphorique, qui rend les séquences de+le plus souvent non interprétables hors contexte. 

19

des liens 14 . Surtout, les nœuds présentent des profils de répartition des liens entrants T, 

E, T’, E’ très dissemblables. J’analyse ces profils à partir de la notion de productivité. La 

productivité en T d’un nœud est le nombre de lien T qui pointent vers ce nœud, c’est-àdire 

le nombre de termes qui ont le terme pivot en position T, de même pour la 

productivité en E, en T’ et en E’. Un simple calcul sur les profils de répartition des 

productivités permet d’isoler certains noms du corpus qui ont un comportement marqué : 

par exemple, les noms qui sont proportionnellement beaucoup plus productifs en 

position T’ (tête de syntagme ayant comme connecteur de+le) que dans les autres 

positions désignent très probablement des actions importantes dans le domaine. Dans 

(Bourigault, 1994a), je formule ainsi 4 propositions d’interprétation, qui seront affinées 

dans (Assadi et Bourigault, 1996). Le résultat produit par LEXTER n’est plus uniquement 

un ensemble d’étiquettes de termes. Le réseau terminologique que permet de construire 

l’analyse syntaxique binaire en tête et expansion des candidats termes complexes devient 

une ressource intermédiaire pour des traitements ultérieurs dont les résultats servent eux 

aussi à l’aide à la modélisation des connaissances à partir de textes. 

Ce filon est exploité avec beaucoup d’énergie, avec l’arrivée dans le groupe SOAD 

d’H. Assadi, qui entame une thèse dans le domaine de la modélisation des connaissances 

à partir de textes. Dès les premières expériences de modélisation, menées dans le 

domaine de la planification de réseaux électriques, H. Assadi constate que les adjectifs 

extraits par LEXTER sont bien plus difficiles à valider que les groupes nominaux pour le 

cogniticien. Par exemple, celui-ci n’éprouve pas de difficulté particulière à valider des 

candidats termes tels que réseau, poste, hypothèse de consommation, alors que les 

candidats termes adjectivaux comme national, admissible ou fort lui posent plus de 

problèmes. Mais l’observation de l’ensemble des termes complexes {hydraulicité forte, 

puissance forte, section forte} par opposition à l’ensemble {hydraulicité faible, 

puissance faible, section faible} révèle quasiment immédiatement que les adjectifs faible 

et fort désignent des valeurs possibles d’attributs. Dans une tâche de modélisation des 

connaissances, l’accès à un tel rapprochement est primordial, puisque identifier les 

attributs et leurs domaines de variation est une condition essentielle pour la construction 

de taxinomies formalisables. Nous avons donc l’idée de travailler sur des méthodes 

automatiques de classification d’adjectifs apparaissant dans les mêmes contextes 

syntaxiques, c’est-à-dire modifieurs des mêmes noms ou syntagmes nominaux. La 

méthode que nous testons d’abord, et dont nous publions les premiers résultats lors des 

3èmes Journées d’Analyse de Données Textuelles en décembre 1995 (Assadi et 

Bourigault, 1995), consiste à construire un tableau de présence/absence, dont chaque 

ligne correspond à un adjectif et chaque colonne à un nom, puis à calculer à partir de ce 

tableau une matrice de similarité entre les individus à classer, et enfin à lancer sur cette 

matrice une procédure de classification hiérarchique ascendante. Les classes d’adjectifs 

sont obtenues en coupant à un niveau donné l’arbre représentant la hiérarchie des 

classes. Pour chaque classe d’adjectif, on construit le contexte de la classe, c’est-à-dire 

l’ensemble des noms ou syntagmes nominaux ayant au moins l’un des adjectifs de la 

14 Les réseaux terminolgiques ont les propriétés des graphes de petits mondes, qui ont été bien explorées 

justement depuis cette époque. 

20

classe en expansion. Par exemple, le contexte de la classes d’adjectifs {primaire, 

secondaire} est l’ensemble des termes {circuit, enroulement, intensité nominale, 

réglage, tension nominale}. Ce type de résultats nous apparaît être une amorce fort utile 

pour la modélisation. Sans le savoir à l’époque, nous mettions nos pieds dans les traces 

de Zellig S. Harris 15 . 

Parallèlement à ces recherches, B. Habert « recycle » (selon une de ses expressions 

favorites) les résultats de LEXTER pour entreprendre toute une série d’études ayant 

comme objet le fonctionnement en corpus des dénominations complexes (Habert, 

1998) 16 . Son projet était relativement éloigné du contexte applicatif dans lequel je 

développais LEXTER. Suite à des discussions avec C. Jacquemin sur la variation 

terminologique, il a l’idée de « déconstruire » (selon une autre de ses expressions 

favorites) les arbres d’analyse en Tête et Expansion produits par LEXTER pour en 

restituer les dépendances élémentaires fondamentales sous-jacentes. Dans un article 

publié en 1995 dans les Cahiers de Grammaire (Habert et al., 1995), B. Habert et ses 

collègues, s’inscrivent résolument dans l’horizon théorique de l’approche harrissienne 

d’analyse des sous langages et présentent les premiers résultats d’une exploitation des 

arbres de dépendances élémentaires extraits des arbres d’analyse de LEXTER pour classer 

les mots en fonction de leur contextes syntaxiques. Puis, B. Habert et A. Nazarenko 

développent ZELLIG, une chaîne de recyclage des résultats d’analyseurs syntaxiques 

robustes destinée à une analyse distributionnelle de contextes rendus élémentaires 

(Habert et Nazarenko, 1996). Avec ZELLIG, ils mènent des études sur la délimitation de 

classes sémantiques dans des corpus spécialisés (Habert et al., 1995 ; Bouaud et al., 

1995). La représentation logique des arbres permet à B Habert et H. Folch de développer 

des méthodes efficaces pour analyser les régularités de fonctionnement des mots et 

mettre en évidence les opérateurs et opérandes caractéristiques d’un domaine donné 

(Folch et Habert, 1998) (Habert et Folch, 1998). Ils le font de façon beaucoup plus 

précise et plus systématique que mes propres tentatives d’analyse du réseau 

terminologique évoquées au début de cette section. 

B. Habert a donc procédé à un « détournement » de LEXTER en exploitant ses résultats 

dans une perspective de recherche différente de celle dans laquelle le logiciel a été 

conçu. Ce décalage dans les objectifs a révélé des limites importantes de LEXTER 

vis-à-vis d’une exploitation pour l’analyse distributionnelle : restriction aux syntagmes 

nominaux (pas d’analyse autour du verbe) ; parmi les syntagmes nominaux, restriction 

aux groupes « d’allure dénominative » (exclusion de certains déterminants, de certaines 

modifications adjectivales). Ces limitations sont apparues d’autant plus pénalisantes 

quand B. Habert et C. Fabre ont appliqué la méthode ZELLIG à des corpus plus proches 

15 Cf. cette gentille pique adressée par B. Habert et A Nazarenko, faisant référence aux travaux du type des 

nôtres qui commençaient à se développer au milieu des années 90 : « explicitement, ou, plus souvent, 

implicitement [c’est moi qui souligne], ces recherches s’inscrivent dans la conception "distributionnaliste" de la 

sémantique défendue et mise en œuvre par ZELLIG Harris : le sens des mots se déduit des constructions dans 

lesquelles ils figurent » (Habert & Nazarenko, 1996). 

16 Quand B. Habert me demande des sorties de Lexter, je n’imagine pas à quel point l’utilisation qu’il va en 

faire aura une grande influence sur la suite de mes recherches. 

21

de la langue générale, en comparant les regroupements effectués à partir d’un corpus 

médical de comptes rendus d’hospitalisation (corpus Menelas) et à partir d’un corpus 

politique constitué des interventions radiotélévisées de F. Mitterrand pendant son 

premier septennat (corpus Mitterrand1) : 

Le groupe nominal semble un moins bon observatoire des 

fonctionnements sémantiques pour Mitterrand1 que pour Menelas. (…) 

Dans une phase ultérieure, il s’agira donc d’affranchir ZELLIG de la 

contrainte consistant à intervenir en aval d’analyseurs spécialisés dans 

l’analyse des groupes nominaux. 

(Fabre et al., 1997, p. 29) 

1.7. Bilan : LEXTER a servi, vive SYNTEX 

Ce retour en arrière sur la période 1990–1999 a montré les deux phases distinctes de la 

vie du logiciel LEXTER : une phase de développement (1990–1994), une phase 

d’utilisation (1994–1999). Pendant les 4 premières années de ma recherche, j’ai travaillé 

de façon appliquée et consciencieuse à la réalisation d’un outil d’extraction d’étiquettes 

de concepts pour l’enrichissement de thesaurus. A partir de l’objectif fixé, des 

contraintes de résultats imposées et des ressources à ma disposition, j’ai concentré mes 

efforts sur les développements informatiques dans une démarche très pragmatique, plus 

motivé par l’action que par la spéculation gratuite, et soucieux de mener à bien une 

recherche utile. L’esprit concentré sur cet horizon, j’ai mené une recherche plutôt isolée 

sur le plan scientifique, indépendamment de tout courant, toute école ou toute 

communauté de la recherche universitaire. 

La situation fut toute autre durant la seconde phase du cycle de vie du logiciel 

(1994-1999). J’ai cherché activement, au sein et à l’extérieur d’EDF, à monter des 

projets de recherche et développement utilisant le logiciel LEXTER. La confrontation du 

logiciel à la réalité des usages fut pleine d’enseignements, pas tant sur les techniques 

d’extraction implémentées dans le logiciel, que sur son mode d’utilisation. Dans une 

perspective d’ingénierie linguistique, il ne suffit pas de fabriquer un prototype, il faut 

aussi réfléchir à la façon dont il peut être utilisé. Grâce à la réflexion menée au sein du 

groupe TIA, j’ai pu m’appuyer sur les constats empiriques effectués sur le terrain, pour 

élaborer progressivement un cadre méthodologique pour l’utilisation d’outils de TAL en 

acquisition des connaissances à partir de textes. 

Au-delà de l’utilisation « normale » de LEXTER comme extracteur de candidats termes, 

j’ai eu la chance que certains collègues aient cherché à profiter de la disponibilité des 

résultats de LEXTER pour les exploiter pour leurs besoins propres. J’ai cité H. Assadi, qui 

a réalisé au cours de sa thèse l’outil LEXICLASS (Assadi, 1998), et B. Habert, avec les 

chercheurs qu’il a su mobiliser autour du projet ZELLIG. Les uns et les autres ont utilisé 

les analyses produites par LEXTER comme entrée pour leurs outils d’analyse 

distributionnelle. Je dois mentionner aussi les travaux de D. Garcia qui a cherché à 

22

intégrer les résultats de LEXTER dans son système COATIS de repérage des relations de 

causalité dans les textes (Garcia, 1998), ainsi que ceux de N. Aussenac-Gilles et 

P. Séguela qui ont fait de même avec l’outil CAMELEON d’extraction de relations 

sémantiques à partir de marqueurs lexico-syntaxiques (Séguela et Aussenac-Gilles, 

1999). Grâce à ces utilisations détournées, qui ont poussé LEXTER dans certains de ses 

retranchements, j’ai pu mesurer à quel point la fonction d’extraction de termes étaient 

inscrite « en dur » dans le logiciel lui-même. 

Ce constat m’a convaincu de la nécessité de disposer d’un analyseur syntaxique à plus 

large couverture, plus neutre quant à ses exploitations possibles, pour une utilité sociale 

plus grande. Alors, fallait-il consacrer d’abord tant de temps à un développement poussé 

du logiciel avant de réfléchir sérieusement et concrètement à son utilisation ? Oui. C’est 

parce que LEXTER était dans un état de maturité suffisamment avancé, en terme de 

robustesse, de couverture et d’efficacité, qu’il a pu être testé dans des contextes 

d’utilisation variés, et ce sont les retours d’expérience générés par les différents projets 

d’utilisation de LEXTER qui ont orienté ma recherche pour les années 1999–2005. 

A l’automne 1999, quelques mois après mon arrivée à l’ERSS, C. Fabre et moi nous 

mettons au travail pour réaliser un nouvel analyseur syntaxique. Notre premier souci à 

cette époque est de travailler sur l’extraction de syntagmes verbaux, pour alimenter les 

outils d’analyse distributionnelle, qui ne pouvaient se satisfaire de contextes uniquement 

nominaux. Par ailleurs, les retours d’expérience des projets de modélisation des 

connaissances à partir de textes, ainsi que les travaux de M.-C. L’Homme sur les 

combinaisons lexicales spécialisées (L’Homme, 1998) et ceux de C. Jacquemin sur la 

variation terminologique (Jacquemin, 1997 ; Bourigault et Jacquemin, 1999), m’avaient 

convaincu que, même pour des applications d’extraction de terminologie, il fallait des 

outils capables d’extraire des syntagmes verbaux. 

Sur le plan informatique, nous repartons de zéro, mais nous reprenons de l’expérience 

LEXTER un certain nombre de choix méthodologiques (dont chacun sera rediscuté dans 

la suite de ce mémoire) : 

- Les contraintes de robustesse et d’efficacité s’imposent, puisqu’il s’agit de réaliser 

un analyseur devant traiter des corpus réels de taille importante. 

- L’entrée de l’analyseur est un corpus préalablement étiqueté 17 . 

- L’analyseur n’exploite pas de grammaire formalisée, il est constitué 

d’heuristiques 18 . 

- La méthodologie de développement est expérimentale, basée sur des tests nombreux 

sur corpus. 

17 Nous utilisons alors le logiciel Cordial Analyseur développé par D. Laurent de la société Synapse 

Développement. 

18 Ces heuristiques sont programmées dans le langage Perl. 

23

- Au départ du projet, l’analyseur n’exploite pas de lexique général de souscatégorisation, 

il est doté d’heuristiques d’apprentissage pour acquérir des 

informations de sous-catégorisation à partir du corpus en cours de traitement. 

Par rapport à LEXTER, où l’analyse était directement dédiée à l’extraction de syntagmes 

nominaux, nous choisissons d’externaliser la tâche d’extraction de syntagmes en aval de 

l’analyse syntaxique : l’extraction de syntagmes (verbaux, nominaux, adjectivaux) et la 

construction du réseau terminologique se fait à l’issue de l’analyse syntaxique en 

dépendance de l’ensemble des phrases du corpus. 

Nous décidons de nous attaquer en premier lieu au problème de la résolution des 

ambiguïtés de rattachement prépositionnel. Nous formalisons ce problème de la façon 

suivante : 1) étant donnée une préposition dans une phrase, identifier à gauche de la 

préposition, dans la chaîne étiquetée, les différents mots susceptibles de la régir ; 2) à 

partir d’informations de sous-catégorisation acquises sur le corpus, sélectionner le 

meilleur recteur parmi les candidats. Subrepticement, et de façon très naturelle, nous 

avons adopté le principe d’une analyse en dépendance. Ce passage en douceur d’une 

analyse en constituant à une analyse en dépendance est, sur le plan conceptuel, au-delà 

de l’extension de la couverture de l’analyseur, la principale rupture entre LEXTER et 

SYNTEX. 

24

Chapitre 2 

Etat de l’art en analyse syntaxique 

robuste 

2.1. L’analyse syntaxique automatique au sein du TAL 

Au coeur du domaine du Traitement Automatique des Langues, le champ de recherche 

sur l’analyse syntaxique automatique peut être en première approximation décrit comme 

partagé entre deux pôles : le paradigme des grammaires formelles d’unification, et le 

paradigme des analyseurs syntaxiques robustes. A l’origine du premier paradigme, on 

trouve la publication des travaux fondateurs de N. Chomsky en 1957. Chomsky introduit 

la théorie des langages formels et définit une hiérarchie de classes de grammaires et de 

langages devenues depuis classique, en informatique et en linguistique. Il propose le 

modèle transformationnel comme alternative aux grammaires régulières et aux 

grammaires non contextuelles jugées insuffisantes pour décrire la syntaxe des langues 

naturelles. C’est le début de la tradition formelle, qui va développer une réflexion très 

riche et d’une importance considérable sur la nature des formalismes nécessaires pour 

décrire les langues. Les hypothèses adoptées sont d’abord que la syntaxe des langues est 

descriptible avec des modèles formels de type génératif, et ensuite qu’on peut réaliser 

des analyseurs à partir de ces modèles, en posant le problème de l’analyse syntaxique 

comme un problème de compilation. 

Depuis les débuts des années 1990, le terme de robustesse est régulièrement invoqué 

pour qualifier des travaux en analyse syntaxique automatique qui visent la réalisation de 

systèmes capables fournir, dans des temps raisonnables, une analyse syntaxique 

suffisamment complète et juste pour toute séquence donnée en entrée. C’est dans ce 

nouveau paradigme que se situent mes recherches autour de l’analyseur SYNTEX. Le 

terme « paradigme » en l’occurrence serait plutôt flatteur. Contrairement au courant des 

grammaires formelles, qui est structuré et cohérent, avec des hypothèses fondatrices 

partagées, des théories élaborées, des conférences et des leaders, les travaux en analyse 

syntaxique robuste sont eux beaucoup plus dispersés. Le terme « nouveau » est lui aussi 

usurpé. En effet, comme je le montre dans la section suivante, où je présente un rapide 

panorama historique des recherches en TAL, les recherches de ce domaine ont toujours 

25

été partagées entre deux pôles, théorique et appliqué, dont l’opposition entre paradigme 

formel et paradigme de la robustesse est une instanciation dans le sous-domaine de 

l’analyse syntaxique automatique. 

Les chercheurs francophones ont adopté au début des années 1990 le terme de 

« Traitement Automatique des Langues » pour désigner leur société savante (Association 

pour le Traitement Automatique des Langues), leur revue (Revue Traitement 

Automatique des Langues) et, avec un qualificatif accolé, leur conférence annuelle 

(Traitement Automatique des Langues Naturelles). Cette belle cohérence dans les termes 

n’est qu’apparente et ne reflète pas la multiplicité des désignations qui ont vu le jour 

depuis la fin des années 1980. Dans leur étude très documentée et très utile sur les 

dénominations utilisées depuis l’origine pour nommer ce champ disciplinaire, Cori et 

Léon (2002) notent : 

D’innombrables termes fleurissent pour désigner le domaine au début des 

années 1990 : Industries de la langue, Ingénierie linguistique, Natural 

Language Engineering, Technologies de la langue, etc. Il n’est toutefois 

pas certain que cette inflation de termes et cette frénésie de la 

dénomination parviennent à masquer l’inanité d’une impossible quête, 

celle de définir un champ unifié qui, tout en englobant les applications 

industrielles, soit scientifiquement fondé. 

(Cori et Léon, 2002, p. 43) 

Ces mêmes auteurs expliquent comment le domaine du TAL se constitue et se remodèle 

depuis ses origines dans une tension permanente entre des forces antagonistes, qui 

s’organisent selon deux lignes d’opposition : 

- la première concerne l’objectif des recherches. Elle oppose les travaux théoriques et 

les applications à visée industrielle. D’un côté des chercheurs, de l’autre des 

ingénieurs. 

- une seconde concerne les disciplines impliquées. Elle oppose à l’origine la 

linguistique et l’informatique, plus tard rejointes par les mathématiques, 

l’intelligence artificielle et les statistiques. 

La première ligne de tension s’est dessinée dès les débuts du domaine. Dans son rapport 

de 1951, qui constitue le premier état de l’art sur le domaine de la traduction 

automatique (Bar-Hillel, 1951),Yehoshua Bar-Hillel mentionne déjà que le problème de 

l’utilisation des calculateurs pour la traduction peut être intéressant soit d’un point de 

vue théorique, en favorisant de recherches sur le fonctionnement du langage, soit d’un 

point de vue pratique, en particulier pour résoudre les problèmes de la traduction des 

publications scientifiques étrangères (op. cit., p. 229). Dans son état de l’art sur la 

traduction automatique (TA) publié en 1986, John Hutchins affirme que cette distinction 

de points de vue est le point qui fait le plus débat au sein de la communauté de 

chercheurs en qui se constitue dans les années 1950 et 1960. Il décrit comment, jusqu’au 

milieu des années 1960, le débat entre les « pragmatiques » et les « perfectionnistes » est 

vif. Les premiers pensent qu’il est important de développer aussi vite que possible des 

systèmes opérationnels en arguant que les systèmes de traduction mot à mot donnent des 

26

ésultats finalement prometteurs, et qu’ils constituent une base de départ qui pourra 

évoluer grâce aux améliorations techniques des ordinateurs et à la mise au point de 

nouveaux algorithmes. Les seconds refusent cette précipitation, affichent l’objectif de 

réaliser des systèmes de haute qualité et affirment la nécessité de recherches 

fondamentales préalables en linguistique. 

L’existence d’une tension entre recherches théoriques et applications pratiques est un fait 

constant dans la jeune histoire du TAL. Avant un état de l’art sur l’analyse syntaxique 

robuste (section 2.3), la première partie de ce chapitre (section 2.2) est consacrée à un 

panorama historique des travaux dans le domaine du TAL. Celui-ci montre que les deux 

pôles ont alternativement mobilisé le devant de la scène. A cause de cet opposition, et 

parce que le domaine est encore jeune, il est difficile de dresser un état des lieux 

consensuel et définitif des évolutions du domaine. Le recul manque. Mais il peut y avoir 

consensus sur l’identification de moments charnières et d’évolutions majeures. Pour la 

trame de cette description, je me suis appuyé, entre autres, sur trois sources principales : 

- l’ouvrage de John Hutchins, publié en 1986, « Machine translation : past, present, 

future » (Hutchins, 1986). 

- l’article de Marcel Cori et Jacqueline Léon intitulé « La constitution du TAL, étude 

théorique des dénominations et des concepts », publié dans un numéro de la revue 

TAL sur le thème des problèmes épistémologiques (Cori et Léon, 2002). 

- l’article de Yorrik Wilks « Computational Linguistics » de la seconde édition de 

l’Encyclopedia of languages and linguistics (Wilks, 2006). 

Cette première partie est organisée en 4 sections : 

- Les débuts de la traduction automatique (section 2.2.1) 

- L’avènement de la « computational linguistics » (section 2.2.2) 

- Le « tournant déclaratif » et les grammaires d’unification (section 2.2.3) 

- Le « Natural Language Processing » (section 2.2.4) 

2.2. Panorama historique du Traitement Automatique des 

Langues 

2.2.1. Les débuts de la traduction automatique 

On s’accorde pour identifier comme événement déclencheur des recherches en 

Traitement Automatique des Langues la diffusion en 1949 du mémorandum de Weaver 

(1949), qui lancera les recherches en traduction automatique (désormais TA). Warren 

Weaver est directeur de la division Natural Sciences à la fondation Rockfeller quand il 

rédige, en juillet 1949, le mémorandum dans lequel il expose ses idées sur la possible 

utilisation des calculateurs qui viennent d’être inventés pour traduire des documents 

27

d’une langue vers une autre. Il envoie ce mémorandum à une trentaine de ses 

connaissances. Le mémorandum est diversement reçu, mais il constitue le point de 

départ des recherches dans le domaine nouveau de la traduction automatique. Selon 

Hutchins (1999), l’un des résultats immédiats les plus significatifs du mémorandum est 

la décision du Massachusetts Insitute of Technology (MIT) de recruter comme chercheur 

sur le thème de la Traduction Automatique, en mai 1951, le logicien de l’Université 

Hébraïque de Jérusalem Yehoshua Bar-Hillel. Bar-Hillel publie le premier état de l’art 

sur le domaine de la TA à la fin de l’année 1951 (Bar-Hillel, 1951). 

Le rapport de Bar-Hillel est fondamental. Tout y est dit. Rien dans les évolutions futures 

du domaine ne viendra contredire les propositions de Bar-Hillel, concernant, d’une part, 

l’architecture des traitements et l’importance de l’analyse syntaxique et, d’autre part, les 

rapports entre théories et applications. Bar-Hillel affirme d’emblée qu’à cause des 

ambiguïtés sémantiques la traduction entièrement automatique de haute qualité (fully 

automatic high quality translation, FAHQT) n’est pas accessible, et il s’interroge sur les 

différents modes de collaboration possibles entre la machine et un ou plusieurs 

opérateurs humains, en développant les idées de pré- et post-édition. Par ailleurs, il met 

en évidence la nécessité d’une analyse syntaxique pour l’élimination des ambiguïtés 

grammaticales et le réarrangement de l’ordre des mots. Il propose que ce processus 

d’analyse se réalise selon les étapes suivantes : 

1. Mechanical analysis of each word in the Source Language into the stem 

(lexical unit) and morphological category. (…) 

2. Mechanical identification of small syntactical units within the given 

sentence on the basis of the morphological categories to which its words 

belong and, for most languages, their order. 

3. Transformation of the given sentence into another that is logically 

equivalent to it, and rearrangement of the parts of the transformed sentence 

in accordance with some standard order of the Target Language. 

(Bar-Hillel, 1951, p. 232) 

Cette architecture sera en effet adoptée par tous les systèmes opérationnels de TA de 

première génération. C’est à propos de la deuxième tâche qu’il évoque l’idée essentielle 

d’une syntaxe opérationnelle (operational syntax). Pour Bar-Hillel, une syntaxe 

opérationnelle d’une langue, c’est un système unique constitué d’une séquence 

d’instructions qui opèrent sur la suite des mots d’une phrase munis de leur catégorie 

morphologique et qui identifie les unités syntaxiques selon lesquelles la phrase doit être 

décomposée. Cette décomposition est nécessaire pour préparer la transformation 

structurelle conduisant à la production de la phrase traduite. Dans son rapport, il se 

contente d’affirmer la nécessité d’un tel programme. Mais il soutient que, malgré la 

masse des connaissances qu’ils ont accumulées, tout reste à faire de la part des linguistes 

pour mener à bien ce projet. Selon lui, même la description la plus complète des 

catégories syntaxiques d’une langue donnée, selon les normes et principes 

communément adoptés par les linguistes, n’est pas adéquate pour la réalisation d’un 

programme de reconnaissance effective de la structure syntaxique des phrases de la 

28

langue en question. Bar-Hillel émet le vœu que les linguistes saisissent l’importance et la 

nécessité de produire des descriptions et théories spécifiques pour la réalisation de ce 

nouveau programme. Lui-même proposera une définition opérationnelle des catégories 

syntaxiques, qu’il développera dans le cadre de la grammaire catégorielle 

(Bar-Hillel, 1953). 

A la lumière des évolutions ultérieures des domaines de la TA et du TAL, on peut 

relever deux questions fondamentales évoquées par Bar-Hillel dans ce rapport : 

- Quelles connaissances issues de la linguistique sont utiles pour le projet de la TA ? 

- Le projet de la TA peut-il ou doit-il être le lieu d’une recherche théorique sur le 

langage ou les langues, ou bien seule une approche pragmatique peut-elle conduire à 

des résultats ? 

Ces deux questions sont corrélées. On vient de le voir, la position de Bar-Hillel sur le 

premier point est radicale. Les connaissances accumulées à ce jour ne sont pas adéquates 

pour le projet de la TA. Cette position est généralement celle des pionniers de la TA. Sur 

le second point, il apparaît à la lecture de l’article que, même si Bar-Hillel s’interroge 

sérieusement sur les problèmes pratiques et les solutions techniques de la TA, son regard 

est d’abord celui d’un théoricien qui voit dans les recherches menées autour du problème 

de la TA un enjeu théorique fort, ou au moins la possibilité d’un questionnement 

théorique renouvelé. Il débute son article en présentant le projet de la TA comme 

l’instanciation d’une situation classique où l’introduction d’un nouvel outil vient 

renouveler une recherche théorique en suggérant des solutions techniques inédites à des 

problèmes anciens. La linguistique est concernée. Après avoir fait état de certaines des 

étapes qui ont été franchies vers l’objectif finalisé de la traduction automatique, Bar- 

Hillel relève : 

Interest in mechanical translation (MT) may arise through sheer 

intellectual curiosity concerning a problem whose solution, perhaps even 

attempted solutions, will in all probability provide valuable insights into 

the functioning of linguistic communication. Interest may also arise from 

many practical standpoints. One of these is the urgency of having foreign 

language publications, mainly in the fields of science, finance, and 

diplomacy, translated with high accuracy and reasonable speed. 

(Bar-Hillel, 1951, p. 229) 

Cette distinction de points de vue, pragmatique et théorique, clairement visible dans la 

position de Bar-Hillel, est, selon Hutchins (1986), le point essentiel sur lequel se 

cristallisent les oppositions au sein de la communauté de chercheurs qui se constitue 

dans les premières années de la TA. 

For this period (in the 1950’s and 1960’s), the most important distinctions 

(for MT researchers) were between the ‘engineering’ and the 

‘perfectionist’ approaches, between the empiricist and other 

methodologies, and between the syntax orientation and various lexical and 

word-centred approaches. 

29

(Hutchins, 1986, section 3.10) 

Pour illustrer les recherches menées dans les années 1950 et 1960, j’ai choisi deux 

équipes de chercheurs parmi les pionniers de cette grande époque, représentant chacune 

un des deux courants (Hutchins, 1986, sections 4.2 et 4.3). Comme représentants du 

courant pragmatique, je présente les chercheurs de l’université de Georgetown, parce 

qu’ils ont été les tenants les plus actifs de cette approche et parce que leurs recherches, 

entamées dès 1952, ont conduit au système SYSTRAN, très largement utilisé de nos 

jours 19 . Comme représentant du courant perfectionniste, je présente l’équipe de 

recherche sur la TA au Massachusetts Institute of Technology, parce qu’elle a placé 

d’emblée le transfert syntaxique au centre de son modèle de traduction automatique, et 

parce qu’elle a développé très tôt l’idée de la déclarativité. 

A l’université de Georgetown, les recherches sur la TA ont été lancées par Leon Dostert 

en juin 1952 et développées en collaboration avec IBM. En janvier 1954, une première 

démonstration d’une maquette expérimentale donne des résultats suffisamment 

impressionnants à l’époque pour que la National Science Fundation décide de 

subventionner de façon massive les recherches sur la TA à Georgetown. Une vingtaine 

de chercheurs sont recrutés sur le projet. Une équipe menée par Michael Zarenach 

développe une méthode dite « General Analysis Technique », rebaptisée ensuite 

« Georgetown Automatic Translation » (GAT). Cette méthode est implémentée dans un 

système de traduction Russe-Anglais (SERNA system) par Peter Toma en 1959, système 

qui est installé à EURATOM à Ispra en Italie en 1963, et au Laboratoire National d’Oak 

Ridge en 1964. Pour des raisons mal connues (on évoque des conflits entre linguistes et 

programmeurs), les subventions s’arrêtent et les recherches sur la TA à Georgetown 

s’interrompent. Ces deux systèmes seront utilisés, à la satisfaction des utilisateurs selon 

plusieurs enquêtes réalisées sur le terrain, jusqu’à leur remplacement par SYSTRAN, à 

Ispra en 1970 et à Oak Ridge en 1980. 

Le système GAT était présenté par les auteurs comme constitué de plusieurs « niveaux », 

ou de plusieurs « passes » : (1) consultation du dictionnaire, analyse morphémique et 

résolution des homographes, (2) analyse syntagmatique pour le repérage de 

combinaisons de mots basée sur les relations d’accord, de gouvernance et d’apposition, 

(3) analyse syntaxique pour le repérage des relations sujet/prédicat. Dans les faits, 

l’analyse effectivement réalisée était très rudimentaire (Hutchins, 1986, section 4.2). Elle 

était chargée de lever les ambiguïtés morphologiques par l’examen des catégories des 

mots précédent et suivant. La méthode de développement adoptée par les concepteurs du 

système était entièrement « guidée par les textes », selon un mode par essai/erreur. Les 

programmes étaient testés sur un corpus particulier, étendus ou corrigés en fonction des 

résultats, puis testés sur un autre corpus, et ainsi de suite. Selon (Kay, 1973), cité par 

(Hutchins, 1986), le résultat fut une grammaire « monolithique » de taille et de 

complexité monstrueuse, développée sans conception claire de ce que devait être une 

règle grammaticale et une structure syntaxique, dans laquelle les phases d’analyse de la 

phrase source et de transfert vers la langue cible étaient intriquées, rendant les évolutions 

19 www.systran.fr 

30

et améliorations de plus en plus difficiles à introduire. Ce constat établi par Kay en 

particulier constitua une leçon pour les développements futurs, pour lesquels les notions 

d’architecture et de modularité furent mises en avant. C’est ainsi que, à partir de 1964, 

Peter Toma a continué ses recherches et a développé le système SYSTRAN, dans lequel la 

complexité monolithique du système sera réduite grâce à la modularisation du système : 

In many respects, Systran may be regarded as essentially a greatly 

improved descendant of the Georgetown ‘direct translation’ system. 

Linguistically there is little advance, but computationally the 

improvements are considerable, resulting in the main from the 

‘modularity’ of its programming design. 

(Hutchins, 1986, section 12.1) 

Au Massachusetts Institute of Technology, après le départ de Y. Bar-Hillel à Jérusalem 

en juillet 1953, c’est Victor H. Yngve qui prend la direction du projet de recherche sur la 

traduction automatique au MIT. D’emblée, il se donne comme objectif la traduction 

automatique de haute qualité, et donne une orientation très théorique aux recherches. 

L’effort porte sur des recherches fondamentales en linguistique, en particulier autour des 

grammaires transformationnelles, à partir des travaux de Chomsky, et sur le 

développement d’outils de programmation dédiés au développement en TA. Yngve 

développe COMIT, le premier langage de programmation dédié à la manipulation et au 

filtrage de chaînes de caractères. Selon Yngve, COMIT peut être appris assez rapidement 

par les linguistes et doit leur permettre de formuler leurs idées de façon claire et concise. 

Ceci doit mettre fin à situation dans laquelle les linguistes sont contraints de confier la 

tâche de programmer leurs algorithmes à des informaticiens spécialistes de l’assembleur, 

ce qui est très peu efficace sur le plan des résultats et très frustrant pour les deux parties. 

Yngve insiste sur le principe de la séparation nette entre, d’une part, les règles et 

connaissances linguistiques et, d’autre part, les algorithmes et programmes. Les règles et 

connaissances abstraites sur les structures linguistiques des langues doivent être séparées 

des choix de programmation particuliers adoptés dans un système de traduction 

particulier donné. On l’a vu ce principe n’a pas été adopté dans le système GAT où des 

règles d’analyse et de transfert étaient codées dans le cœur même du lexique. Matthews 

et Rodovin conçoivent, et développent dans le langage COMIT, une méthode d’analyse 

syntaxique qui identifie les constituants syntaxiques d’une phrase en entrée en cherchant 

à découvrir l’enchaînement des règles de grammaires qui ont dû être appliquées pour 

produire cette phrase, dans le sens des règles génératives de Chomsky. Matthews (1962) 

formule de façon plus explicite ce principe d’analyse par synthèse (« analysis by 

synthesis » approach). L’idée est de comparer symbole (classe grammaticale) par 

symbole la séquence à analyser avec toutes les séquences de même nombre de symboles 

susceptibles d’être générées par la grammaire. Les séquences qui correspondent 

fournissent une analyse en constituants possible pour la phrase initiale. Cette méthode 

était reconnue a priori comme inefficace, mais elle était supposée pouvoir être rendue 

plus performante par l’introduction de règles et de stratégies adéquates. 

31

2.2.2. L’avènement de la « computational linguistics » 

Si la seconde moitié des années 1950 est une période de grand espoir de réussite de la 

TA, très vite l’optimisme cède le pas à une certaine désillusion. Celle-ci naît du constat 

que les progrès sont lents et que cette lenteur est due non seulement à des problèmes 

matériels liés à la technologie et aux capacités des machines, mais aussi à la complexité 

des problèmes linguistiques (Hutchins, 1986, section 8.2). En février 1959, après avoir 

visité les laboratoires les plus importants de l’époque et interrogé les pionniers du 

domaine, Bar-Hillel publie un rapport intitulé Report on the state of machine translation 

in the United State and Great Britain, qui connaîtra une large diffusion après sa 

publication dans la revue Advances in Computers (Bar-Hillel, 1960). L’effet de ce 

rapport sur le domaine de la TA est terrible. Bar-Hillel affirme que la recherche en TA 

poursuit un but inatteignable : une traduction automatique de haute qualité, équivalente à 

celle d’un bon traducteur humain. Pour appuyer cette affirmation, Bar-Hillel donne 

l’exemple de la phrase, désormais célèbre, « the box was in the pen ». On peut adapter la 

démonstration en français avec la phrase « Jean est dans le bureau ». Pour traduire 

correctement le mot bureau, il faut savoir qu’un bureau meuble n’est en général pas 

capable de loger un être humain de taille normale. Un système de TA devrait donc 

posséder des connaissances de type encyclopédique, ce qui paraît tout à fait irréaliste. On 

a reproché à Bar-Hillel de n’avoir pas basé ses positions sur une analyse effective des 

systèmes qui, en 1958, au moment où il a réalisé ses investigations, étaient en gestation 

dans les équipes, ainsi que d’avoir utilisé comme seul argument théorique un exemple 

qui ne constitue pas une preuve : « In general, Bar-Hillel’s opinions were not based on a 

careful evaluation of the actual achievements of MT projects but they were already 

formed before the review was undertaken. » (Hutchins, 1986, section 8.3). Néanmoins, il 

reste qu’il régnait à l’époque un certain consensus sur le fait que la traduction 

automatique de haute qualité ne devait plus être l’objectif des recherches en TA, et que 

celles-ci devaient s’orienter vers la traduction assistée par ordinateur. 

C’est le rapport de l’ALPAC qui, en 1966, va consacrer une rupture dans le domaine, en 

condamnant les recherches qui visent la réalisation de systèmes de traduction 

automatique et en préconisant d’encourager des recherches plus théoriques, rendues 

possibles par l’usage des ordinateurs, sur les caractéristiques formelles des langues. En 

avril 1964, l’Académie Nationale des Sciences des Etats-Unis forme le comité ALPAC 

(Automatic Language Processing Advisory Commitee) en lui donnant pour mission 

d’évaluer l’intérêt de continuer à financer les recherches en TA. Le comité entreprend 

des études et enquêtes sur les besoins en traduction des scientifiques (principalement du 

russe vers l’anglais), sur l’état de l’offre en traduction et sur ses coûts, sur la 

disponibilité de traducteurs humains, sur l’évaluation de certains systèmes de traduction 

automatique et sur les coûts de post-édition liés à l’utilisation de ces systèmes. La 

conclusion est sans appel : la traduction automatique n’est pas une bonne solution au 

problème de la traduction scientifique. 

“Machine translation” presumably means going by algorithm from 

machine-readable text to useful target text, without recourse to human 

32

translation or editing. In this context, there has been no machine 

translation of general scientific text, and none is in immediate prospect. 

(ALPAC, 1966, p. 19) 

Si l’ALPAC recommande dans son rapport un arrêt des subventions sur les projets de 

traduction automatique, il constate que le travail réalisé dans l’optique de la traduction 

automatique a eu un effet extrêmement positif sur le développement d’un type 

radicalement nouveau de recherches en linguistique, stimulées par l’usage des 

ordinateurs : « The advent of computational linguistics promises to work a revolution in 

the study of natural languages. » (ALPAC, 1966, p. 29). Les membres du Comité 

proposent d’encourager le développement de ce type de recherches, et consacrent ainsi 

l’avènement d’une nouvelle discipline, la computational linguistics. D’après Martin Kay, 

c’est probablement David G. Hayes, pionnier de la TA et membre du comité ALPAC, 

qui a forgé ce terme, jugeant qu’il pouvait être opportun de baptiser un nouveau champ 

de recherches pour tenter de détourner les subventions dont la TA allait être privée (Kay, 

2002, p. xvii). Le rapport de l’ALPAC propose de dissocier radicalement les recherches 

théoriques sur le langage et les applications industrielles de la traduction automatique, et 

d’utiliser l’ordinateur pour renouveler les recherches sur le langage. Deux types d’usage 

de l’ordinateur sont ainsi évoqués : l’ordinateur en tant qu’il permet au linguiste de 

manipuler des données langagières complexes et volumineuses pour élaborer des 

descriptions linguistiques ; l’ordinateur en tant qu’il oblige à la formalisation des 

théories et permet leur évaluation. 

Such research must make use of computers. The data we must examine in 

order to find out about language is overwhelming both in quantity and in 

complexity. Computers give promise of helping us control the problems 

related to the tremendous volume of data, and to a lesser extent the 

problems of data complexity. But we do not yet have good, easily used, 

commonly known methods for having computers deal with language data. 

Therefore, among the important kinds of research that need to be done and 

should be supported are (1) basic developmental research in computer 

methods for handling language, as tools for the linguistic scientist to use as 

a help to discover and state his generalizations, and as tools to help check 

proposed generalizations against data ; and (2) developmental research in 

methods to allow linguistic scientist to use computers to state in detail the 

complex kinds of theories (for example, grammars and theories of 

meaning) they product, so that the theories can be checked in detail. 

(ALPAC, 1966, p.31) 

C’est le début du règne sans partage de la syntaxe et de l’analyse syntaxique automatique 

dans le domaine de la computational linguistics. Dans ce contexte, le formalisme des 

ATN (Augmented Transition Networks) (Woods, 1970) a une influence considérable 

dans les années 1970-1980 sur les recherches dans le domaine. Un très grand nombre de 

chercheurs les utilisent. Les ATN constituent l’aboutissement de recherches menées dès 

le début des années 1950 par Rhodes au National Bureau of Standards sur le principe de 

l’analyse syntaxique prédictive (predictive syntactic analyser) (Hutchins, 1986, 

33

section 9.13). L’idée de base de Rhodes était que, étant donné dans une phrase un mot 

dont on a identifié la catégorie morphosyntaxique, il est possible de prévoir avec une 

certaine probabilité les catégories des mots qui le suivent. Ce principe est implémenté 

sous la forme d’une analyse mot à mot gauche-droite contrôlée par une procédure last in 

first out. Pour le mot courant, les actions à effectuer sont déterminées en deux temps : 

d’abord vérifier si la classe du mot satisfait une prédiction faite précédemment, en 

partant de la plus probable, puis soit modifier les prédictions existantes, soit ajouter une 

ou plusieurs prédictions. Les prédictions sont de différents types : satisfaction immédiate 

(par exemple par le mot suivant), satisfaction multiple (une même contrainte peut être 

satisfaite plusieurs fois, par exemple l’accord de l’adjectif avec le nom), satisfaction 

obligatoire. A la fin de la phrase, l’analyse est réussie si toutes les prédictions 

obligatoires ont été satisfaites, et si tous les mots ont été inclus dans l’analyse. Ceci 

impose donc des procédures de retour en arrière en cas d’échec. 

Très vite, le principe de ne retenir qu’un seul chemin, le plus probable, est apparu 

comme non adéquat. Les chercheurs de Harvard, qui poursuivent les recherches 

entamées par Rhodes, développent la méthode multiple-path predictive syntactic 

analysis, qui permet la génération de toutes les analyses possibles pour une phrase 

donnée. On peut dater de cette époque le début de l’envahissement du domaine du TAL 

par les forêts d’arbres syntaxiques. Les chercheurs constatent que parmi les analyses très 

nombreuses produites, beaucoup ne correspondent pas à de réelles ambiguïtés et que, 

parfois, la bonne analyse n’y figure pas. L’autre défaut auquel s’attaquent les chercheurs 

est que la même séquence dans la même phrase pouvait être analysée un grand nombre 

de fois (autant de fois qu’il y avait de chemins). Ce problème est plus ou moins réglé par 

des implémentations successives. 

William A. Woods invente les ATN dans le cadre de la réalisation d’une interface en 

langue naturelle à une base de données sur les roches rapportées de la lune 

(Woods, 1970). Deux améliorations essentielles sont apportées aux implémentations de 

l’époque : 

(1) Le système est récursif. Les transitions dans un réseau peuvent être étiquetées par 

les noms d’autres réseaux. Il y a autant de réseaux que de type de constituants qui 

peuvent apparaître dans la structure de surface d’une phrase. Si une transition dans 

un de ces réseaux est étiquetée par le nom d’un autre réseau, cette transition ne sera 

acceptée que s’il existe un chemin acceptable pour ce second réseau. Il s’agit donc 

de réseaux de transition récursifs. 

(2) Un certain nombre d’actions conditionnelles peuvent être associées à des transitions, 

celles-ci étant testées quand l’arc est emprunté. Ces actions peuvent par exemple 

consister à stocker des fragments d’arbres dans des registres, pour ensuite les 

comparer plus tard dans l’analyse à d’autres mots ou arbres de la chaîne courante. 

Ces actions peuvent aussi consister à assembler les contenus de ces registres pour 

construire des représentations syntaxiques profondes, et ainsi, par exemple, produire 

une analyse identique pour l’actif et le passif. 

34

Ces améliorations ont permis au formalisme de Woods de vaincre beaucoup des 

difficultés rencontrées lors de la conception des analyseurs avec des règles de 

transformation. C’est ce qui explique que le formalisme des ATN ait occupé une place 

quasi-hégémonique pendant les années 1970–1980. D’après Hutchins (1986, 

section 9.13), l’enthousiasme des chercheurs pour l’approche prédictive en analyse 

syntaxique s’explique non pas par ses qualités théoriques intrinsèques, puisque les ATN 

n’imposent pas de restrictions formelles, mais par son intérêt pratique et calculatoire. Le 

formalisme des ATN peut être utilisé pour décrire des dépendances syntaxiques assez 

compliquées, de façon relativement intuitive et facile à implémenter. 

Les ATN constituent d’une certaine manière un aboutissement presque 

idéal de (la) tendance à l’intégration des différents niveaux de traitement. 

Les ATN, en effet, peuvent être vus tout à la fois comme un outil 

informatique d’analyse syntaxique, comme un langage de programmation 

défini à partir du langage LISP, ou comme un formalisme permettant de 

décrire des langues naturelles. Ceci est rendu possible par le fait que dans 

le langage LISP les programmes et les données ont la même structure. 

(Cori et Léon, p. 48–49) 

2.2.3. Le « tournant déclaratif » et les grammaires d’unification 

Y. Wilks (2006) voit dans le conflit entre Yngve et Chomsky, au MIT dans les années 

1960, un schisme fondateur dans l’histoire du TAL. En 1960, dans le cadre de la 

réalisation de son système de génération de phrases en anglais, Yngve formule son 

hypothèse sur la profondeur (depth hypothesis) : alors qu’il semble n’y avoir aucune 

limite en anglais à l’accumulation de constituants enchâssés s’ils sont à branchement à 

droite (this is the cat that killed the rat that ate the malt…), il y a une limite supérieure 

pour les branchements à gauche, et cette limite serait liée aux capacités mémorielles des 

locuteurs. Or on sait que pour Chomsky l’incapacité des grammaires à états finis à 

modéliser la possibilité indéfinie des enchâssements disqualifie ces formalismes pour la 

description théorique des langues. Yngve affirme que les procédures de calcul des 

structures syntaxiques doivent prendre en compte des contraintes de stockage qui selon 

lui sont intimement corrélées aux capacités humaines de compréhension, alors que 

Chomsky rejette en bloc ce type de considérations, sous le motif qu’elles relèvent de la 

performance et non de la compétence. Pendant les années qui ont suivi, selon Wilks, à 

cause du peu de goût de Chomsky pour la chose computationnelle et à cause des échecs 

des recherches visant à réaliser des analyseurs syntaxiques transformationnels, 

l’influence des linguistes dans le domaine de la Computational Linguistics est très 

limitée. 

Toujours selon Wilks, le schisme fondateur ne se cicatrise qu’au début des années 1980, 

lorsque Gerald Gazdar devient le premier linguiste d’envergure à embrasser le 

paradigme computationnel, en développant des grammaires sophistiquées, basées 

principalement sur des structures en constituants, spécifiquement destinées à servir de 

base à des analyseurs. Au début des années 1980, le domaine de la Computational 

35

Linguistics vit une véritable révolution culturelle. M. Cori et J. Léon (2002) parlent de 

« tournant déclaratif ». Le tournant déclaratif fait référence à l’émergence pendant les 

années 1980 de formalismes déclaratifs (DCG, PATR II) et de théories syntaxiques 

(GPSG, LFG, TAG, HSPG) développées dans des formalismes déclaratifs. Dans ces 

théories, les descriptions linguistiques et les règles de grammaire sont développées de 

façon indépendante des langages formels dans lesquels elles sont écrites et des 

algorithmes d’analyse syntaxique qui les exploitent. On retrouve là le principe de la 

séparation des données et des programmes défendu par Yngve dès 1960. Ce principe 

rencontre un écho d’autant plus favorable auprès des chercheurs, linguistes en 

particulier, que la philosophie procédurale des ATN, très en vogue à l’époque, laissait 

peu de place à l’intervention de linguistes non programmeurs. La facilité de 

développement avec le formalisme des ATN conduit à des programmes dans lesquels les 

règles de grammaire et les procédures d’analyse sont complètement intriquées. Par 

exemple, l’équivalence entre l’actif et le passif est directement implémentée dans des 

réseaux de transitions, par des tests sur les transitions et les opérations sur les registres, 

pour qu’en fin d’analyse le système produise des structures prédicat/argument identiques 

pour une phrase active et la phrase passive équivalente. Au contraire, dans une 

grammaire formelle, ce principe d’équivalence entre l’actif et le passif sera exprimé de 

façon explicite par une règle de correspondance entre structure de surface et structure 

profonde, sans prescription de procédures permettant de construire l’une à partir de 

l’autre. De façon plus générale, on a reproché aux ATN de produire des programmes 

difficiles à maintenir, du fait de l’intrication des règles de grammaire dans les 

algorithmes, de ne pas fournir des principes généraux d’implémentation, en particulier 

en ce qui concerne les conditions et les actions sur les registres, et même de n’avoir 

jamais conduit à une véritable théorie linguistique 20 . A rebours, les promoteurs des 

nouvelles grammaires formalisées partagent la conviction que le développement 

d’analyseurs syntaxiques doit se baser sur des théories syntaxiques autonomes et 

formellement bien définies. Cette position est bien synthétisée par P. Miller et T. Torris 

dans l’introduction à leur ouvrage Formalismes syntaxiques pour le traitement 

automatique des langues, publié au début des années 1990 : 

L’existence d’une théorie linguistique, indépendante à la fois de son 

implémentation et des analyses particulières qu’elle permet, constitue une 

base nécessaire pour le développement de systèmes de TAL dépassant le 

niveau de l’ad hoc. (…) Le développement d’un système de TAL pose des 

problèmes vastes et complexes qu’une théorie linguistique autonome et 

formellement bien définie permet de mieux distinguer. L’indépendance de 

la théorie par rapport à l’implémentation et à la description des 

phénomènes devrait également faciliter les changements et les corrections 

nécessaires lors du développement d’un système de TAL, ainsi que la 

conservation des acquis au travers des modifications 

(Miller et Torris, 1990, p. 16) 

20 Ce qui ne semble jamais avoir été leur objectif… 

36

Les DCG (Definite Clause Grammars) (Pereira et Warren, 1980) ont sans doute été le 

premier modèle revendiqué clairement comme déclaratif par ses auteurs (Cori et Léon, 

2002, p. 49). Ce formalisme dérive des recherches en traduction automatique menées par 

A. Colmerauer à l’université de Montréal. Colmerauer est responsable du développement 

du premier prototype de système de traduction français-anglais dans l’équipe TAUM 

(Traduction Automatique à l’Université de Montréal). Dans ce prototype, testé pour la 

première fois en 1971, les concepteurs ont cherché à séparer strictement données et 

programmes. Il a été développé à l’aide du formalisme du système-Q (Q pour Québec), 

un langage de manipulation de structures d’arbres et de chaînes d’arbres développé par 

Colmerauer. C’est aussi dans ce langage qu’a été programmée la première version du 

système TAUM-METEO. Les recherches menées avec ce langage ont fortement 

influencé la conception, par Colmerauer et ses collègues, du langage Prolog, qui allait 

lui-même inspirer la communauté des chercheurs en programmation logique, et en 

particulier F. Pereira et D. Warren qui inventent les DCG. Les DCG sont un formalisme 

qui permet de développer de façon déclarative des systèmes de règles indépendantes, 

qu’il est facile d’étendre et de modifier. Et comme leur puissance est équivalente à celle 

des ATN, la déclarativité devient un argument décisif en faveur de leur supériorité (Cori 

et Léon, 2002, p. 50). 

Comme le souligne S. Shieber (1990), il faut distinguer les « formalismes outils » du 

type des DCG ou de PATR, qui ont été développés dès l’origine dans la perspective de 

réaliser des systèmes de TAL et qui donc devaient avoir une expressivité maximale, des 

« formalismes proprement linguistiques », élaborés en tant que théories du savoir 

linguistique, et qui visent au contraire à contraindre l’expressivité de façon à limiter 

l’ensemble des phrases possibles. Ces derniers (GPSG, LFG, TAG, HSPG) proposent 

des théories linguistiques en tant que telles, au sens où l’entendait Chomsky, à savoir des 

modèles qui décrivent l’ensemble des phrases possibles d’une langue, avec leurs 

propriétés structurales et éventuellement leur sémantique sous la forme de relations 

prédicat-argument, et ce indépendamment du modèle formel dans lequel ils sont écrits et 

des procédures concrètes de génération ou d’analyse. Ces théories, désignées sous le 

nom générique de « grammaires d’unification », sont développées dans le cadre de 

collaborations impliquant selon les cas des linguistes, des psycholinguistes, des logiciens 

et des informaticiens. Je cite ici pour mémoire les formalismes les plus connus (Abeillé 

et Blache, 1997) : 

- GPSG (Generalized Phrase Structure Grammar) est issu des recherches du linguiste 

G. Gazdar qui, en 1982, introduit dans son modèle une relation d’unification. Il 

décompose les catégories en traits et exprime des principes de partage de valeurs de 

traits entre syntagmes pour rendre compte de l’accord et de certaines relations 

systématiques de paraphrase (Gazdar et al., 1985). HPSG (Head Driven Phrase 

Structure Grammar) est un successeur de GPSG (Pollard et Sag, 1987). 

- LFG (Lexical Functional Grammar) est développé par R. M. Kaplan et J. Bresnan 

(1982), qui utilisent des arbres classiques pour représenter les formes de surface, et 

des structures de traits pour représenter les structures profondes, avec lesquelles sont 

définies les fonctions grammaticales. 

37

- TAG (Tree Adjoining Grammar) est proposé par A. Joshi (1987), qui déporte la 

grammaire vers le lexique, dans lequel les unités sont décrites sous la forme de 

structures arborescentes élémentaires (arbres lexicalisés) enrichies par des traits, 

combinées par des opérations de substitution ou d’adjonction. 

L’arrivée des formalismes déclaratifs constitue une révolution dans le domaine du TAL 

puisqu’elle donne aux linguistes une place de choix dans le nouveau paysage des 

recherches, en permettant (imposant) une redistribution des rôles entre linguistes et 

informaticiens. Ce nouveau partage des tâches reflète le principe de la séparation des 

données et des programmes dans les systèmes : aux linguistes la tâche de développer les 

grammaires et descriptions linguistiques (formelles), selon le formalisme théorique 

choisi ; aux informaticiens celle de mettre aux points les algorithmes et procédures qui 

mettront en musique ces descriptions. Le retour en force et l’implication nouvelle des 

linguistes dans l’arène du TAL, pour productive qu’elle soit, se réalise selon un mode de 

partage des tâches qui finalement entraîne ceux-ci et avec eux une partie de la 

computational linguistics vers des problématiques théoriques, et les éloigne des 

applications concrètes, ce que regrettent Cori et Léon : 

Cette évolution vers des modèles déclaratifs a les plus grandes 

conséquences sur l’unité du TAL. Les acteurs, en effet, sont incités à se 

replier sur une spécialité donnée : les uns sur la description des données 

linguistiques, d’autres sur l’écriture de modèles, d’autres enfin sur la mise 

au point d’algorithmes. On peut dire que réapparaissent sous la forme de 

lignes de fracture les frontières entre les disciplines dont les apports variés 

ont permis que soit fondé le TAL en tant que domaine. Seuls peuvent se 

réclamer sans équivoque du domaine les ingénieurs qui réalisent des 

applications industrielles et qui, donc, ont simultanément besoin des 

algorithmes et de la description des données. Alors même qu’en adoptant 

des modèles déclaratifs le TAL cherche à s’imposer des critères de 

rigueur, il tend du même coup à rendre impossible sa constitution comme 

discipline scientifique. 

(Cori et Léon, 2002, p. 50) 

2.2.4. Le Natural Language Processing 

Pendant les années 1980, le paysage des recherches en TAL se caractérise donc d’abord 

par le recentrage d’une partie de la communauté vers des problématiques théoriques : du 

côté de la linguistique, autour de l’élaboration de théories et de grammaires formelles, 

destinées au TAL, mais surtout fécondes pour l’analyse du langage ; du côté de 

l’informatique, sur la mise au point d’algorithmes, de structures et modèles de données 

et de langages, utiles pour le TAL mais pouvant avoir aussi une vocation plus générale. 

Pendant cette période, le paysage du TAL est grandement remodelé avec l’implication 

des chercheurs en Intelligence Artificielle (IA), discipline qui se donne parmi ses 

objectifs fondamentaux la description des mécanismes de la compréhension du langage 

naturel. Ces chercheurs investissent le terrain de l’analyse du langage avec des 

38

problématiques et des méthodes qui diffèrent radicalement de celles des pionniers de la 

TA et des tenants des grammaires d’unification. En particulier, alors que la syntaxe a 

toujours été considérée comme devant occuper une place centrale dans les recherches et 

les applications en TAL, tous les chercheurs en IA ne partagent pas le point de vue de la 

nécessité et de l’importance d’un module syntaxique dans les modèles théoriques de la 

compréhension, et encore moins dans les applications de simulation de la compréhension 

du langage naturel. Pour tester l’hypothèse d’une analogie entre le cerveau et 

l’ordinateur, les informaticiens chercheurs en IA focalisent leurs recherches sur la 

réalisation de systèmes « intelligents » qui simulent partiellement les processus de 

compréhension, c’est-à-dire de systèmes informatiques qui exécutent des tâches qui, 

quand elles sont réalisées par des humains, sont réputées solliciter des capacités de 

maîtrise du langage. Les premières réalisations sont des systèmes de simulation intégrés 

dans des applications « jouets ». Puis, au cours des années 1980, les chercheurs de l’IA 

délaissent progressivement la réalisation de systèmes jouets, pour s’attaquer à la mise au 

point de systèmes informatiques, incluant des ressources et des traitements linguistiques, 

utiles dans des contextes réels. Pour illustrer cette évolution, qui allait conduire au 

Natural Language Processing (NLP), je décris deux systèmes pionniers, SHRDLU et 

PARRY, réalisés au début des années 1970, puis deux systèmes industriels, opérationnels 

à la fin des années 1980, CONSTRUE et ATRANS 21 . 

- Le système SHRDLU est réalisé par Terry Winograd pendant sa thèse au MIT 

(Winograd, 1972). C’est un système de dialogue qui permet à un opérateur humain 

de piloter à l’aide d’instructions données en anglais une grue pouvant manipuler et 

déplacer des blocs de taille et de couleur variées. Le système est très sophistiqué. Il 

inclut en particulier l’implémentation d’une grammaire inspirée des travaux de 

Halliday dans un langage procédural, ainsi qu’une méthode pour construire 

automatiquement les conditions de vérité exprimant le contenu sémantique d’un 

énoncé et pour les confronter à l’état du monde, c’est-à-dire la position courante des 

blocs. Il s’agit d’un monde très restreint où toutes les actions possibles sont connues. 

Le système n’est capable de traiter qu’une poignée de phrases, comme c’est la 

norme pour les systèmes de ce type qui vont voir le jour à cette époque. 

- Le système PARRY est réalisé par Kenneth M. Colby à Stanford (Colby, 1973). C’est 

aussi un système de dialogue, qui permet de mener une conversation avec un 

soi-disant malade paranoïaque interné dans un hôpital de vétérans. Le système est 

très robuste. Il n’est doté d’aucune grammaire ou analyseur, mais il est constitué 

d’un ensemble d’environ 6 000 patrons qui lui permettent de réagir aux énoncés de 

ces interlocuteurs, de façon suffisamment réaliste pour que ceux-ci soient 

convaincus la plupart du temps d’avoir affaire à un vrai malade. 

21 Les deux premiers sont ceux que Y. Wilks choisit de décrire dans l’introduction de son article History of 

Computational Linguistics de la seconde version de l’Encyclopedia of language and linguistics (2006), et les 

deux autres sont ceux que Philip J. Hayes décrit en détail dans l’article Natural Language Processing : 

Applications de la première version de cette même encyclopédie (Hayes, 1994). 

39

- Le système CONSTRUE (Hayes et al., 1987) est développé au Carnegie Group Inc 

pour l’agence Reuters. C’est un système qui classe automatiquement un flux de 

dépêches de presse économiques ou financières dans une ou plusieurs catégories 

d’un ensemble de 674 catégories prédéfinies. CONSTRUE utilise des techniques de 

pattern-matching et des règles d’appariement pondérées pour identifier dans les 

dépêches des mots ou séquences de mots qu’il associe avec une certaine pondération 

aux thèmes ou concepts d’une base de connaissance du domaine. Il exploite ensuite 

des règles de classification de type si–alors qui tiennent compte des concepts 

activés, des parties de textes où figurent les mots activateurs, ainsi que des poids 

d’activation, pour affecter la dépêche analysée à une ou plusieurs catégories. Les 

règles et la base de connaissances exploitées par le système sont totalement 

dépendantes du domaine. Le coût de leur construction est estimé à une 

année-homme par P. J. Hayes. 

- Le système ATRANS (Lytinen et Gershman, 1986) est développé par la société 

Cognitive Systems pour la Société Générale de Banque de la Belgique. C’est un 

système d’extraction de faits (fact extraction, on ne dit pas encore information 

extraction) qui traite des télex concernant des opérations de transfert d’argent, et 

extrait de ces dépêches des informations pertinentes (les banques, leur rôle dans 

l’opération de transfert, les montant, dates, etc.). Les résultats sont validés par un 

opérateur humain. Les techniques utilisées dans ATRANS sont basées sur le 

formalisme de la dépendance conceptuelle développé par R. Schank (Schank, 1975), 

fondateur de Cognitive Systems. Etant donné le style très particulier des dépêches et 

la focalisation de l’analyse sur l’extraction d’informations de type prédéfini, le 

système n’inclut pas de module standard d’analyse syntaxique, l’extraction est 

guidée par la « sémantique » du domaine et de la tâche. 

A la fin des années 1980 émerge ainsi, dans le champ du TAL, un nouveau paradigme, 

en anglais le Natural Language Processing (NLP). Dans ce paradigme, les recherches 

sont guidées par les applications, et non par l’objectif d’une meilleure compréhension du 

langage humain. En ce sens, le NLP n’est pas un programme d’investigation 

scientifique, contrairement à la Computational Linguistics qui continue à revendiquer 

l’objectif d’une description théorique des langues. Ce paradigme s’est développé de 

façon d’autant plus foudroyante que le développement de la microinformatique, l’essor 

de la documentation électronique et l’arrivée d’Internet ont fait émerger des besoins 

nouveaux et ont généré une demande sociale forte. Les applications du NLP sont bien 

connues : extraction d’informations, classification de documents, résumés de documents. 

Ces applications s’ajoutent aux applications historiques que sont la traduction 

automatique pour le TAL et la recherche d’informations pour l’informatique 

documentaire. Les recherches sont encouragées non seulement par la demande sociale, 

mais aussi et surtout par les campagnes d’évaluation lancées par l’agence DARPA 

(Defense Advanced Research Projects Agency), du Département de la Défense des Etats- 

Unis, qui ont contribué à façonner le paysage de la recherche en TAL, au moins aux 

Etats-Unis. 

40

Dans la philosophie du NLP, il convient de faire feu de tout bois dans la recherche des 

résultats attendus. Il s’agit de mettre en œuvre de façon optimale les techniques et les 

ressources nécessaires pour atteindre un objectif donné, avec autant que possible le souci 

constant d’ajuster les coûts d’élaboration des systèmes aux gains escomptés lors de leur 

utilisation dans des contextes réels. Comme on le voit dans les exemples illustratifs 

ci-dessus, les systèmes se distinguent les uns des autres selon le type de traitements 

linguistiques qu’ils opérationnalisent et selon le type et le volumes des connaissances 

qu’ils mettent en œuvre. Certaines applications se contentent de méthodes d’extraction 

simples et robustes, alors que d’autres requièrent une phase d’analyse linguistique 

détaillée. Concernant l’analyse syntaxique, même dans les cas où une analyse du contenu 

est nécessaire, la syntaxe n’est pas mise nécessairement de façon primordiale au centre 

du dispositif. Un certain nombre de chercheurs ont travaillé sur l’hypothèse que la 

structure sémantique était première, et (relativement) indépendante de la structure 

syntaxique, dès lors que l’on s’intéressait à la détermination du contenu informatif des 

énoncés. On peut citer le système des dépendances conceptuelles de Schank (1975) et 

celui des préférences sémantiques de Wilks (Wilks et Fass, 1992), tous les deux inspirés 

de la grammaire des cas de Fillmore (1968). Une autre ligne d’opposition concerne les 

connaissances sur le domaine. Certaines applications sont peu exigeantes en 

connaissances sur le domaine, alors que d’autres requièrent la construction de bases de 

connaissances très riches sur le domaine et sur la tâche. Et le principal problème auquel 

se sont heurtées les recherches en IA à la fin des années 1990 est celui du goulet 

d’étranglement que constitue la tâche de modélisation des connaissances à intégrer dans 

les systèmes devant effectuer des tâches complexes dans des domaines où ces 

connaissances ne se formalisent pas de façon immédiate. L’activité d’acquisition des 

connaissances pour les systèmes à base de connaissances est devenue un thème de 

recherche en soi autour duquel se sont articulées des recherches issues de différentes 

disciplines et elle a donné lieu à la réflexion sur des systèmes experts de deuxième 

génération (David et al., 1993). C’est dans cette mouvance que j’ai entrepris mes 

recherches sur LEXTER et sur l’acquisition des connaissances à partir de textes 

(cf. Chapitre 1). 

Le problème du coût de construction manuelle des systèmes de TAL allait trouver des 

solutions avec l’explosion, dans les années 1990, du TAL dit « empirique » ou 

« statistique », qui se caractérise par l’arrivée en force et la généralisation des méthodes 

statistiques ou numériques dans quasiment tous les secteurs d’investigation du TAL. En 

particulier, l’utilisation de méthodes d’apprentissage automatique sur des données 

annotées à la main s’est révélée extrêmement féconde pour passer le goulet 

d’étranglement dans certaines applications, entre autres pour les systèmes d’extraction 

d’information (Maning et Schütze, 1999 ; p. 19). Selon Wilks (2006), l’élan a été donné 

à l’origine par Fred Jelinek à IBM, qui met en place un programme de recherche en 

traduction automatique (Brown et al., 1990), dans lequel les méthodes statistiques qui 

avaient été appliquées avec succès à la reconnaissance de la parole sont testées avec non 

moins de succès en traduction automatique. Il s’agit par exemple de techniques 

d’apprentissage automatique lancées sur le corpus bilingue anglais/français du Hansard. 

On peut faire remonter l’origine de l’apprentissage automatique en TAL aux travaux de 

41

Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur 

morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus 

annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement 

exponentiel des capacités des machines et la multiplication des ressources textuelles 

électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à 

toutes les tâches du TAL. 

Concernant l’analyse syntaxique automatique, toute une série de travaux convergent vers 

la construction automatique de grammaires hors contextes probabilistes à partir de 

l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des 

grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de 

dérivation. Ces probabilités sont calculées à partir de corpus annotés syntaxiquement, 

presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir 

parmi les multiples analyses d’une phrase fournies par l’analyseur quelles sont celles qui 

ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres 

11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse 

syntaxique automatique. 

2.3. Travaux en analyse syntaxique robuste 

2.3.1. La robustesse en analyse syntaxique 

Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce 

chapitre à une revue de travaux en analyse syntaxique robuste. L’analyse syntaxique 

robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive 

dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la 

mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les 

deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL 

depuis 50 ans. Dès les débuts de la TA, on a fabriqué des analyseurs syntaxiques, et si le 

problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était 

acquis que les analyseurs devaient fournir une analyse syntaxique la plus complète, la 

plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept 

de robustesse en analyse syntaxique peut s’expliquer par deux facteurs concomitants : 

l’échec rencontré par les approches théorisantes en syntaxe à produire des analyseurs 

utiles, et la pression de la demande sociale liée au développement des nouvelles 

technologies de l’information. Les années 1980 voient l’arrivée des grammaires 

d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a 

conduit à l’élaboration de théories syntaxiques très fécondes, qui ont contribué à une 

meilleure description des langues. Mais il est apparu que cet objectif théorique était 

difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’analyseurs 

syntaxiques utilisables dans des contextes applicatifs. Les limites des analyseurs 

s’appuyant sur les descriptions formelles développées par ces théories sont connues : 

temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites 

42

en performance ne remettent pas nécessairement en cause les programmes de recherche à 

la base de ces analyseurs. Il faut garder à l’esprit que le paradigme formel et celui de 

l’analyse syntaxique robuste relèvent de positions épistémologiques fondamentalement 

différentes : visée clairement théorisante d’un côté, objectifs prioritairement pratiques de 

l’autre. Une grammaire formelle peut être vue comme une théorie de la langue au sens 

de Chomsky, un analyseur syntaxique opérationnel peut être vu comme un objet 

technique, au sens de Gilbert Simondon dans sa philosophie des techniques, comme je le 

défendrai à la fin du chapitre 3. 

Du côté des applications, la pression de la demande sociale pour des outils de traitement 

de l’information s’est intensifiée avec le développement de la bureautique et 

l’accroissement exponentiel de la documentation électronique. Des outils de TAL 

robuste(s) sont requis comme composants des applications informatiques visant à gérer, 

traduire, classer, fouiller, interroger ces sources électroniques, nécessaires et accessibles 

dans une grande diversité d’activités humaines. Néanmoins, il ne faudrait pas surestimer 

l’importance et la nouveauté d’un tel phénomène. Pour les recherches en TAL, la 

pression de la demande sociale a toujours existé. Le TAL est né de cette pression, quand 

des esprits inventifs ont imaginé que les nouveaux calculateurs pourraient résoudre les 

immenses problèmes de la traduction à la fin des années 1940. Dans les années 1990, et 

dans le domaine de l’analyse syntaxique automatique, c’est donc le décalage entre les 

résultats produits par les approches dominantes en analyse syntaxique automatique et la 

demande en outils utilisables qui a conduit à l’émergence de la notion de robustesse pour 

caractériser les travaux de plus en plus nombreux développés en dehors du paradigme 

des grammaires formelles. 

Pour préciser la notion de robustesse, je reprends la caractérisation proposée par Salah 

Aït-Mokhtar, Jean-Pierre Chanod et Claude Roux dans leur article publié en 2002 dans 

le numéro spécial de la revue Natural Language Engineering sur les méthodes robustes 

en Traitement Automatique des Langues : 

We think of robustness as the ability of a language analyzer to provide 

useful analyses for real-world input texts. By useful analyses, we mean 

analyses that are (at least partially) correct and usable in some automatic 

task or application. That definition implies two requirements: first, a 

robust system should product (at least) one analysis for any real-world 

input. (…) A robust system should also limit the number of concurrent 

analyses it produces or a least give indications on which are the preferred 

ones. 

(Aït-Mokhtar et al., 2002, p. 122–123) 

Cette définition résume l’ironie pour les tenants d’une approche pratique en Traitement 

Automatique des Langues de devoir forger un concept spécifique pour caractériser leurs 

analyseurs en reprenant les termes même de leur cahier des charges. Le concept de 

robustesse s’efface devant celui d’utilité, qui est le concept fondamental. Dès lors qu’on 

ne poursuit pas l’objectif théorique d’une meilleure connaissance des langues, il s’agit de 

faire des analyseurs syntaxiques utiles, c’est-à-dire des analyseurs capables de produire 

dans des temps raisonnables, pour toute séquence fournie en entrée, une analyse la plus 

43

complète et la plus juste possible, qui soit utilisable pour une gamme d’applications 

spécifiées. 

Aït-Mokhtar et al. (2002) identifient trois grands courants nouveaux à partir des années 

1990 visant la robustesse en analyse syntaxique automatique. Le premier courant 

cherche à étendre des systèmes classiques basés sur des modèles théoriques avec des 

procédures, heuristiques et mécanismes visant à récupérer des analyses partielles quand 

le système a échoué à analyser la phrase entière, et à trier ou sélectionner les meilleures 

analyses quand le système en a produit un grand nombre. La deuxième approche est 

celle de l’analyse syntaxique statistique, où les systèmes sont constitués de règles qui ont 

été apprises automatiquement à partir de corpus annotés syntaxiquement. La troisième 

voie est celle de l’analyse syntaxique superficielle, dans laquelle on revoit à la baisse les 

ambitions des analyseurs pour réaliser des systèmes qui reconnaissent des structures 

syntaxiques minimales. 

Au-delà de ces approches contemporaines, il est possible d’identifier et de rassembler 

une famille de travaux, dont les premiers datent des débuts de la TA, qui, en dehors de 

toute visée théorique, se fixent comme objectif de développer des analyseurs 

syntaxiques, à base de règles de reconnaissance opératoires, utiles pour certaines 

applications. Ces travaux sont moins nombreux, et plus isolés, car souvent menés dans le 

cadre d’entreprises personnelles et autonomes. Parce qu’ils ne s’inscrivent pas dans une 

approche ou une école de pensée académique identifiée et structurée, avec ses leaders et 

ses conférences, ils sont peu visibles, et quand ils sont aperçus, ils peuvent être taxés de 

n’être que du « bricolage » ou de relever de l’« ingénierie ». En sélectionnant les travaux 

présentés dans cette section, j’ai cherché à établir une lignée dans laquelle s’inscrit mon 

propre analyseur. J’ai voulu assurer une certaine profondeur historique, en choisissant 

des travaux anciens mais qui s’inscrivent dans la veine actuelle de l’analyse robuste, j’ai 

donné un petit coup de projecteur à des travaux menés en France, et j’ai privilégié des 

auteurs qui, au-delà des réalisations effectives, ont tenté de problématiser leur approche 

en analyse syntaxique. 

Je présente successivement les travaux suivants : 

- L’analyseur FULCRUM de P. S. Garvin (section 2.3.2) 

- L’analyseur du projet TDAP (section 2.3.3) 

- L’analyseur de F. Debili (section 2.3.4) 

- Le projet PLNLP (section 2.3.5) 

- L’analyse par chunks de S. Abney (section 2.3.6) 

- L’analyseur 98 de J. Vergne (section 2.3.7) 

- L’analyse syntaxique robuste selon J. -P. Chanod (section 2.3.8) 

44

2.3.2. L’analyseur FULCRUM de P. S. Garvin 

Paul S. Garvin commence ses recherches, dans les années 1950, à l’université de 

Georgetown, au sein de l’équipe qui travaille sur le développement du système de 

traduction automatique GAT (section 2.2), et il les poursuit au sein de Ramo-Wooldridge 

Corporation, toujours dans le cadre de la traduction automatique, entreprise dont il prend 

la direction en mars 1960. Il développe une méthode d’analyse syntaxique, dite Fulcrum 

method. Dans l’article qu’il présente lors de la deuxième conférence internationale sur le 

Traitement Automatique des Langues, à Grenoble en août 1967 (Garvin, 1967), Paul 

Garvin présente l’analyseur syntaxique FULCRUM pour le russe, qui possède la 

caractéristique essentielle d’être un système bipartite, constitué d’un dictionnaire et d’un 

algorithme. Le dictionnaire recense de façon classique les formes avec leurs catégories 

potentielles, et l’algorithme ordonne des règles de reconnaissance de patrons 

linguistiques dans différentes parties de la phrase pour identifier les structures 

syntaxiques. En cela, le système FULCRUM se démarque de la majorité des systèmes de 

traduction développés à l’époque, dans lesquels, selon le principe de séparation cher à 

Yngve (section 2.2.1), les règles de grammaire étaient séparées des algorithmes 

d’analyses. Ces systèmes étaient tripartites, composés d’un dictionnaire électronique, 

d’une base de règles grammaticales et sémantiques, et d’un algorithme d’analyse. Les 

arguments pour une telle séparation étaient la possibilité d’un partage des tâches entre 

les linguistes, qui se concentrent sur la mise au point de règles de grammaire, et les 

informaticiens, qui eux planchent sur la conception d’algorithmes performants, ainsi 

qu’une meilleure maintenabilité. Selon Garvin, ce cloisonnement n’est viable que tant 

qu’il y a indépendance entre les règles et les algorithmes, et donc qu’il est possible de 

modifier ou d’ajouter des règles sans qu’il soit nécessaire de modifier l’algorithme. Or ce 

n’est plus le cas dès que le nombre de règles augmente et que la grammaire atteint une 

taille réaliste. La base de règles ne peut plus être gérée par un algorithme simple. Soit il 

faut adapter l’algorithme à la base de règles, et l’algorithme perd toute généralité, soit il 

faut un algorithme secondaire servant d’interface entre l’algorithme général et la base de 

règles. Dans les deux cas, l’indépendance n’existe plus, et les avantages apportés par la 

séparation sont illusoires. C’est pourquoi Garvin opte pour un système bipartite. 

Les deux concepts essentiels de la méthode sont les suivants : 

- La méthode par passes. Une phrase est traitée en plusieurs passes, à chaque passe 

sont identifiées un certain nombre de relations syntaxiques grâce à la reconnaissance 

de patrons grammaticaux. Les passes se succèdent de telle façon que soient 

reconnus d’abord les constituants syntaxiques de la phrase, puis les relations entre 

ces constituants, et enfin la structure générale de la phrase. Les règles de 

reconnaissance sont appliquées par l’algorithme dans un ordre tel que chacune est 

testée au moment où les informations grammaticales nécessaires sont disponibles 

(les étiquettes et relations posées lors des passes précédentes). 

45

- Le concept de « fulcrum ». Pour une fonction de recherche donnée (par exemple le 

rattachement des adverbes à des adjectifs), les « fulcra 22 » sont les mots pivots à 

partir desquels est lancée une analyse locale portant sur les mots voisins dans la 

phrase pour placer une relation de dépendance syntaxique. A chaque passe, le 

système ne traite donc pas tous les mots de la phrase successivement de gauche à 

droite (ou de droite à gauche), mais « saute » de mot pivot en mot pivot en 

effectuant à chaque fois une analyse locale. 

Dans un tel système bipartite, les connaissances linguistiques sur la grammaire de la 

langue sont contenues dans l’algorithme : 

This means that the highly complex system of rules that makes up the real 

grammar of a language is distributed over a correspondingly complex 

algorithm which applies the rules in terms of the ordering that the 

language requires. 

(Garvin, 1967, p. 1) 

2.3.3. L’analyseur du projet TDAP 

Entre juin 1958 et juillet 1959, au sein du projet Transformations and Discourse 

Analysis Project (TDAP) dirigé par Zellig S. Harris à l’université de Pennsylvania, un 

analyseur syntaxique de l’anglais est conçu et développé par une équipe composée de 

L. Gleitman, A. Joshi, B. Kauffman et N. Sager, rejoints plus tard par Caroll Chomsky. 

Ces recherches ont été menées en marge du courant des recherches en traduction 

automatique. Cet analyseur a été réécrit au milieu des années 1990 par A. Joshi et 

P. Hopely (Joshi & Hopely, 1996, 1999) à partir de la documentation de l’époque. 

L’analyseur est implémenté comme une cascade de transducteurs. Selon Joshi et Hopely, 

il s’agit de la première application des transducteurs à états finis à l’analyse syntaxique. 

L’analyse se déroule en 7 passes successives. 

1. Analyse morphologique. A partir de la consultation d’un dictionnaire, le système 

attribue une ou plusieurs étiquettes grammaticales aux mots de la phrase. Dans le 

dictionnaire, les catégories affectées à une forme sont classées par ordre de 

fréquence décroissante. 

2. Traitement des locutions grammaticales. Certaines locutions grammaticales sont 

remplacées par une étiquette grammaticale ; par exemple of course est remplacée 

par l’étiquette d’adverbe. 

3. Désambiguïsation morphologique. Elle est effectuée à l’aide de 14 règles de 

désambiguïsation, qui ont pour fonction d’éliminer des étiquettes affectées aux mots 

ambigus et qui s’appuient sur les contextes droit et gauche. Les règles s’enchaînent 

et le processus se répète jusqu’à ce que plus aucune désambiguïsation ne soit 

effectuée. Il peut subsister des mots non désambiguïsés. 

22 Fulcrum désigne en anglais le pivot d’un levier, ou le couteau d’une balance. 

46

4. Repérage des groupes nominaux simples (« simple noun phrases »). Ce repérage est 

effectué par deux transducteurs à états finis, un premier qui parcourt la phrase de 

droite à gauche, et qui repère les groupes nominaux à partir d’une limite finale sûre 

(nom ou pronom), puis un second de gauche à droite, et qui repère les groupes 

nominaux à partir d’une limite initiale sûre (article). Les catégories admises par le 

premier transducteur sont nom, adjectif et article. Le transducteur parcourt le graphe 

jusqu’à un point de sortie, en adoptant la stratégie du chemin le plus long. En 

particulier, s’il rencontre un mot ambigu, il choisit l’étiquette qui lui permet de 

continuer le chemin. C’est ainsi que certaines ambiguïtés sont résolues à ce stade. 

De la même façon, si le transducteur rencontre une conjonction de coordination, il 

l’absorbe si cela lui permet de continuer le chemin. Le second transducteur repère 

les groupes nominaux élémentaires qui commencent par un article. Les groupes 

nominaux reconnus à cette étape sont placés entre crochets (Exemples : [the rich 

man], [increased production]). 

5. Repérage des adjoints simples (« simple adjuncts »). Un transducteur gauche droite 

repère les groupes prépositionnels ou adverbiaux simples. Dans l’exemple « in 

increased production », le tranducteur peut repérer à in le début d’un groupe 

prépositionnel parce que le transducteur droite gauche de la passe précédente a 

d’abord reconnu le groupe nominal qui commence juste après la préposition. Les 

auteurs soulignent que c’est tout l’intérêt d’une architecture séquentielle enchaînant 

les transducteurs que de rendre facile la reconnaissance des groupes syntaxiques. 

Les groupes reconnus à cette étape sont placés entre parenthèses (Exemples : (very 

clearly), (rapidly), (to date), (in [increased production])). 

6. Repérage des noyaux verbaux simples (« verb clusters »). Un transducteur à états 

finis gauche droite repère des noyaux verbaux, n’incluant que des compléments 

verbaux, ainsi que des adjoints simples reconnus lors de la phase précédente. Les 

groupes reconnus à cette étape sont placés entre accolades (Exemples : {went}, {has 

gone fishing}, {may have been (already) published}, {have been observed and 

reported to be}, {wants to leave}, et {wants} [the man] (from [Philadelphia]) {to 

leave}). 

7. Repérage des propositions. Toutes les structures repérées dans les phases 

précédentes sont dites de premier ordre, car non enchâssées (nested). Au cours de la 

phase de repérage des propositions, les structures repérées peuvent être enchâssées. 

Le repérage de propositions se fait grâce à l’application itérative d’un transducteur 

gauche droite qui commence sa recherche par les propositions les plus 

profondément enchâssées. Au cours de la reconnaissance d’une proposition, les 

adjoints sont soit sautés, soit considérés comme compléments. Des informations de 

sous-catégorisation sont exploitées. La stratégie du complément le plus long est 

adoptée, et le rattachement se fait au verbe le plus proche. 

Joshi et Hopely expliquent que les transducteurs utilisés dans les phases 1 à 6 ont été 

rendus déterministes grâce au choix de l’ordre d’enchaînement des transducteurs et de 

leur sens de parcours (gauche droite ou droite gauche), et grâce à l’adoption de la 

stratégie du plus long chemin. Dans le cadre du projet TDAP, l’analyseur a été 

47

développé à l’origine pour être utilisé dans diverses tâches applicatives, dont le résumé 

automatique d’articles scientifiques. Les phrases analysées sont des phrases réelles, 

extraites de textes de biochimie. Ce programme est le précurseur du programme de la 

grammaire de chaînes que développera N. Sager à l’université de New-York (Sager, 

1970), qui donnera lieu aux analyseurs développés par R. Grishman et L. Hirschman. 

2.3.4. L’analyseur de F. Debili 

Fathi Debili soutient sa thèse intitulée Analyse syntaxico-sémantique fondée une 

acquisition de relations lexicales-sémantiques en janvier 1982. Il a mené sa recherche 

dans une équipe animée par A. Andreewsky, et dont les travaux en Traitement 

Automatique des Langues sont orientés vers la recherche documentaire dans des bases 

textuelles (de type juridique essentiellement). F. Debili s’intéresse plus précisément à la 

détection de la paraphrase. A la question « Qui nomme le premier ministre ? », un 

système documentaire devrait fournir des documents contenant les phrases « Le premier 

ministre est nommé par le président de la république. » ou « La nomination du premier 

ministre par le président de la république a été (…) ». L’analyseur syntaxique développé 

par F. Debili est un analyseur en dépendance, qui s’appuie sur les résultats d’un 

étiqueteur morphologique. Le système exploite de façon massive un principe que j’ai 

qualifié d’apprentissage endogène, dix ans plus tard lors de la conception de LEXTER 

(Chap. 1, section 1.2). Le système est constitué de 3 composantes, morphologique, 

syntaxique, sémantique. La composante morphologique repose sur un découpage des 

mots étiquetés du corpus en préfixe + radical + suffixe et a pour fonction de regrouper 

les mots du corpus en familles morphologiques. La composante syntaxique segmente 

d’abord la phrase en chaînes nominales et verbales, puis construit toutes les relations de 

dépendance potentielles entre les mots. La composante sémantique a pour fonction de 

résoudre les ambiguïtés de rattachement laissées par le module syntaxique, à l’aide d’un 

raisonnement par analogie. Par exemple (Debili, 1982, p. 5), dans la phrase « La 

nomination par le ministre des membres du conseil supérieur … », la composante 

syntaxique a identifié 2 gouverneurs potentiels pour le nom membres : les noms ministre 

et nomination. Si le corpus comprend la phrase « Les membres du conseil supérieur sont 

nommés … », et si la composante morphologique a acquis le lien morphologique entre 

nomination et nommer, et si la composante syntaxique a identifié sans ambiguïté la 

relation sujet entre le nom membres et le verbe nommer au passif, alors la composante 

sémantique va lever l’ambiguïté dans la première phrase en choisissant le nom 

nomination comme gouverneur de membres. C’est ce principe de désambiguïsation 

endogène qui fait la principale originalité du système de F. Debili. Le système prend en 

entrée un corpus de phrases, supposé être suffisamment homogène sur le plan des 

caractéristiques lexico-syntaxiques pour que des propriétés morphosyntaxiques des mots 

considérés comme types soient acquises sur l’ensemble de ce corpus et propagées 

rétrospectivement lors de passes ultérieures à l’ensemble des occurrences de ces types. 

Dans le module syntaxique, le traitement se déroule en deux étapes : une étape de 

segmentation, une étape de mise en relation. Lors de la première étape, le système 

48

effectue le découpage de la phrase en « chaînes nominales » et « chaînes verbales ». Les 

exemples donnés ci-dessous donnent une idée du type de résultat produit par le 

découpage (CN : chaîne nominale, CV : chaîne verbale, X : élément autre). 

/CN1 Ces dispositions /CV1 ne sont pas opposables /CN2 aux personnes /X 

qui /CV2 auront déposé /CN3 une demande de permis de construire / 

/CN1 Les faces directement accessibles des conduits adossés à un mur 

extérieur /CV1 doivent avoir /CN2 une isolation suffisante /X pour que 

/CN3 le refroidissement /CV2 ne contrarie pas /CN 4 le tirage. 

La description de ce qu’est une chaîne nominale est donnée sous la forme d’une matrice 

de reconnaissance dont les lignes et les colonnes sont des filtres catégoriels élémentaires. 

Ceux-ci ont pour fonction de reconnaître les éléments qui peuvent faire partie d’une 

chaîne nominale (substantifs, adjectifs antéposés, adjectifs postposés, préposition de et à, 

articles, verbe infinitif…). La valeur d’une cellule de cette matrice renseigne sur la 

possibilité qu’un mot dont la catégorie est donnée par la ligne soit suivi d’un mot dont la 

catégorie est donnée par la colonne. Dans cette matrice, sont indiquées aussi les 

catégories possibles de début et de fin de chaîne. Cette matrice est donc la représentation 

d’un automate à états finis, qui reconnaît les chaînes nominales. Il existe aussi une 

matrice de reconnaissance des chaînes verbales bâtie sur le même principe. 

Lors de la seconde étape de l’analyse syntaxique, le système identifie les relations de 

dépendance potentielles entre les mots de la phrase. F. Debili distingue deux types de 

relations : les relations homo-syntagmatiques, qui s’établissent entre des mots 

appartenant à une même chaîne nominale ou verbale, et les relations 

hétéro-syntagmatiques, qui s’établissent entre un mot appartenant à une chaîne nominale 

et un mot appartenant à une chaîne verbale. Les principales relations 

homo-syntagmatiques repérées au sein des chaînes nominales sont les relations entre un 

nom et un adjectif postposé, et entre un nom et une préposition. Les procédures de 

reconnaissance de ces relations sont définies sous la forme de filtres syntaxiques qui 

spécifient des contraintes, en terme de catégories et de succession de catégories, sur la 

séquence de mots qui peut se trouver entre un nom régisseur et un adjectif postposé, et 

entre une préposition et un nom régisseur. Par exemple, pour la relation Nom-Adjectif 

postposé, une de ces contraintes est qu’on ne peut trouver entre un nom et un adjectif de 

prépositions autres que de, à et en, ni de séquences participe passé + préposition. Dans la 

chaîne nominale « dispositif de surveillance par détecteur à ionisation autonome », le 

système va identifier deux relations de dépendances à partir de l’adjectif postposé 

autonome, l’une qui pointe vers le nom ionisation et l’autre vers le nom détecteur. Les 

noms dispositif et surveillance ne seront pas reconnus comme régisseurs potentiels, car il 

se situent au-delà de la barrière qu’est la préposition par. 

Les principales relations hétéro-syntagmatiques sont les relations sujet, complément 

d’objet et complément d’objet indirect. L’algorithme de reconnaissance du sujet d’un 

verbe choisit le nom ou le pronom libre, c’est-à-dire non régi par un autre élément, le 

plus proche à gauche du verbe. Il n’y pas de restriction sur le champ d’investigation, 

c’est-à-dire pas de contraintes négatives, en terme de barrières, sur la séquence 

49

séparative. L’algorithme de reconnaissance du complément d’objet d’un verbe choisit le 

nom libre le plus proche à droite du verbe. Les barrières sont les chaînes verbales à la 

forme active, les conjonctions de subordination ou de coordination, les ponctuations, les 

pronoms sujets. Concernant la relation entre un verbe et une chaîne nominale introduite 

par une préposition (complément prépositionnel), il est à noter que F. Debilli ne traite 

que les cas où le verbe est au passif. Il laisse donc de côté les configurations où un verbe 

à l’actif est suivi d’un complément direct, puis d’un groupe prépositionnel, qui sont 

pourtant les configurations prototypiques de l’ambiguïté de rattachement prépositionnel 

mettant en jeu un verbe conjugué. 

Les règles d’analyse syntaxique sont donc implémentées sous forme d’automates à états 

finis qui décrivent les parcours possibles entre un élément régisseur (resp. régi) et un 

élément régi (resp. régisseur), en terme de successions licites ou illicites de catégories 

morphosyntaxiques. F. Debili ne donne pas de précision dans sa thèse sur 

l’ordonnancement des traitements, en particulier sur l’ordre d’enchaînement des 

algorithmes de reconnaissance de relations : y-a-t-il un seul parcours de la phrase, de 

gauche à droite, au cours duquel un algorithme de reconnaissance est lancé dès que la 

catégorie du mot courant le justifie, ou bien y-a-t-il autant de parcours de la phrase que 

de relations ? Comme c’est souvent le cas pour les travaux précurseurs, développés en 

marge des courants porteurs, les travaux de F. Debili sont assez peu connus. Ils sont 

cependant cités par Gregory Greffenstette (1994, 1996), quand celui-ci décrit ses 

travaux, menés dans le même esprit que F. Debili, sur l’utilisation de transducteurs à 

états finis pour la réalisation d’analyseurs syntaxiques légers et robustes. 

G. Greffenstette a soutenu en 1983, dans la même équipe et à la même époque que 

F. Debili, une thèse intitulée « Traitements linguistiques appliqués à la documentation 

automatique » (Greffenstette, 1983). 

2.3.5. Le projet PLNLP 

Le concept de robustesse a été au centre des préoccupations des chercheurs du Centre de 

Recherche d’IBM à Yorktown, qui ont travaillé sur le projet PLNLP (Programming 

Language for Natural Language Processing) pendant les années 1980. Lors de l’édition 

de 1988 de la conférence COLING organisée à Budapest, Makato Nagao, chercheur à 

l’université de Kyoto et pionnier de la traduction automatique au Japon, organise une 

table ronde intitulée « Language Engineering : the real bottleneck of Natural Language 

Processing » 23 , qu’il introduit ainsi: 

The bottleneck in building practical natural language processing system is 

not those problems which have been often discussed in research papers, 

but in handling much more dirty, exceptional (for theoreticians, but we 

frequently encounter) expressions. 

(Nagao, 1988, p. 448) 

23 Selon Ruslan Mitkov (1995), cité par (Cunningham, 2000), c’est de cet intitulé qu’a été reprise l’expression 

« Natural Language Engineering ». 

50

Karen Jensen, du Centre de Recherche d’IBM, propose une intervention dont le titre est 

« Why computational grammarians can be sceptical about existing linguistic theories ». 

Elle y expose en quoi les descriptions produites par les théoriciens de la syntaxe ne sont 

que d’un intérêt limité dès lors que l’on cherche à réaliser des grammaires à large 

couverture, utiles pour des systèmes opérationnels devant traiter des productions 

textuelles réelles. 

Existing theories are of limited usefulness to broad-coverage, real-world 

computational grammars, perhaps largely because existing theorists focus 

on limited notions of “grammaticality”, rather than the goal of dealing, in 

some fashion, with any piece of input text. Therefore, existing theories 

play the game of ruling out many strings of language, rather than the game 

of trying to assign plausible structures to all strings. 

(Jensen, 1988, p. 449) 

Ce constat est tiré de l’expérience de réalisation d’un système de correction 

grammaticale et de vérification de style, le système EPISTILE (Jensen et al., 1983). Par 

définition, le système doit être en mesure de traiter des textes produits en milieu 

professionnel, comme des lettres, des rapports, des manuels. Le système opère en deux 

étapes fortement différentes. Au cours de la première étape, une grammaire de base 

(core grammar) est exploitée pour analyser la séquence en entrée. Cette grammaire de 

base est censée couvrir le plus largement possible les structures fondamentales du 

langage. Elle comporte 300 règles, écrites dans le langage NLP (Heidorn, 1972). Quand 

la grammaire de base conduit à plusieurs analyses pour une sous-séquence, une 

procédure de désambiguïsation classe les analyses par ordre de plausibilité décroissante 

et choisit la meilleure. Si la grammaire échoue à reconnaître l’ensemble de la séquence 

comme une phrase, c’est-à-dire lorsqu’elle ne réussit pas à conclure l’analyse sur un 

noeud phrase, une procédure d’ajustement d’analyse (fitting procedure) est alors lancée 

dans une seconde étape. Cette procédure cherche, à partir de l’ensemble des constituants 

fabriqués lors de la première étape, à produire une approximation plausible de la 

structure de la séquence initiale en associant certains de ces constituants. Cette procédure 

est simple. Elle se déroule elle-même en deux temps. Dans un premier temps, elle choisit 

le constituant qui sera le constituant tête de la séquence, en testant les différents 

constituants candidats selon cet ordre de préférence : 

(a) constituant verbal avec verbe conjugué et sujet ; 

(b) constituant verbal avec verbe conjugué ; 

(c) constituant non verbal (groupe nominal, groupe prépositionnel…) ; 

(d) constituant verbal avec verbe non conjugué ; 

(e) autres. 

Si plus d’un candidat est trouvé pour une catégorie, la procédure d’ajustement choisit 

celui qui couvre la plus grande partie de la séquence d’entrée, et en cas de nouvelle 

égalité le plus à gauche. Dans un second temps, si le constituant tête sélectionné ne 

couvre pas toute l’entrée, la procédure intègre successivement les constituants restants, à 

51

gauche et à droite du constituant tête, selon l’ordre de préférence suivant : les 

constituants non verbaux, les constituants verbaux avec verbe non conjugué, les 

constituants verbaux avec verbe conjugué. 

Par exemple, si la séquence en entrée est 

Example : Your percentage of $255.00 is $187.50. 

la grammaire de base échoue à produire une analyse complète de phrase. La procédure 

d’ajustement tente alors de fabriquer, à partir des constituants extraits lors de la première 

étape, la structure la plus plausible et utile possible pour cette séquence. Pour trouver un 

constituant tête, elle recherche des constituants verbaux avec verbe conjugué : elle 

trouve dans le stock des constituants fabriqués par la grammaire de base : [$255.00 is], 

[percentage of $255.00 is], [$255.00 is $187.50], etc. Elle choisit le plus long, soit 

[Your percentage of $255.00 is $187.50]. La procédure cherche ensuite s’il reste des 

constituants à gauche, et ajoute ainsi le signe de ponctuation [:], puis le nom [Example]. 

Elle ajoute à droite le point final. Le résultat de l’ajustement est l’arbre ajusté (fitted 

parse) constitué de la juxtaposition des constituants identifiés : 

[FITTED [NP Example] [PUNC:] [VP Your percentage of $255.00 is 187.50] [PUNC .] ] 

L’intérêt de l’approche présentée ne réside pas seulement dans les procédures et 

techniques concrètes mises en oeuvre pour construire un arbre plausible après un échec 

d’analyse. L’intérêt tient aussi à l’explicitation de la notion de robustesse en terme 

d’utilité. L’utilisation concrète des analyses produites par le système dans les 

applications de correction grammaticale et de vérification de style impose d’abord que le 

système produise une analyse pour toute séquence en entrée, et spécifie ensuite la forme 

des analyses qu’il doit produire en cas d’échec de la grammaire de base. La validité des 

arbres ajustés ne relève pas de la théorie syntaxique, mais de l’utilité pour la suite des 

traitements. Un autre apport du travail de K. Jensen se situe dans l’identification des 

« vraies » difficultés auxquelles se heurte un analyseur syntaxique qui reçoit des phrases 

réelles. C’est ainsi que les « horreurs de ponctuation » (punctuation horrors) rencontrées 

dans les textes sont élevées au rang de difficulté supérieure pour l’analyse syntaxique : 

Real-world natural processing must deal with huge amounts of data, which 

involve many, and messy, details. For example, punctuation is very 

important in processing real text, but current linguistic theories have 

nothing substantial to say about punctuation. 

(Jensen, 1988, p. 449) 

Enfin, la contribution sans doute la plus importante concerne l’articulation dans un 

système opérationnel entre la prise en compte de la norme, via la grammaire de base, et 

la prise en compte des écarts à cette norme, et donc des échecs de la grammaire, par une 

procédure d’ajustement, dans une architecture incrémentale qui délimite clairement la 

place et la fonction des deux types d’opérations. Il s’agit d’une implémentation simple 

mais pertinente de coopération entre une grammaire dans laquelle on souhaite décrire les 

structures et contraintes de la langue, et une procédure de relâchement qui vient prendre 

le relais quand la grammaire échoue. La procédure d’ajustement n’est pas conçue 

52

comme devant compenser les faiblesses de la grammaire de base, sur son domaine, qui 

est la reconnaissance des structures de base. Elle est là pour « récupérer » une analyse en 

cas d’échec de la grammaire, c’est-à-dire quand certaines des contraintes implémentées 

dans la grammaire de base ne sont pas respectées. 

«It should be emphasized that a fitting procedure cannot be used as a 

substitute for explicit rules, and that it in no way lessens the importance of 

the core grammar. There is a tight interaction between the two 

components. The success of the fitted parse depends on the accuracy and 

completeness of the core rules; a fit is as good as its grammar. 

(Jensen et al., 1983, p. 151) 

2.3.6. L’analyse par chunks de S. Abney 

Les travaux de Steven Abney sont parmi les plus connus parmi ceux publiés ces 15 

dernières années dans le domaine de l’analyse syntaxique robuste. Leur renommée tient 

autant à leur intérêt propre qu’au fait qu’ils ont été publiés à un moment où, face aux 

difficultés rencontrées par les approches classiques pour réaliser des analyseurs 

syntaxiques utiles, on s’intéresse plus ouvertement à l’analyse syntaxique robuste. 

S. Abney développe un analyseur syntaxique (CASS, pour Cascaded Analysis of Syntactic 

Structure) qui est à la fois rapide et fiable. Abney ne sacrifie pas la qualité pour la 

vitesse. Il vise l’objectif d’une analyse syntaxique qui soit à la fois plus rapide et plus 

fiable que ce que réalisent les analyseurs développés dans un cadre classique, sans 

rabattre le niveau d’exigence en terme de qualité et de profondeur des analyses. Sa 

réussite repose sur deux concepts clés, le concept linguistique de chunk et le concept 

informatique de cascade, le second dérivant du premier. 

Le concept de chunk est issu des travaux de thèse d’Abney sur la structure du groupe 

nominal anglais (Abney, 1987). Les chunks sont définis à partir des têtes sémantiques 

(major heads) des principaux types de groupes syntaxiques (NP, VP, PP, AP, AdvP). 

Tout mot plein est une tête sauf s’il est situé entre un mot fonctionnel (déterminant, 

préposition…) et le mot plein que ce mot fonctionnel sélectionne. Un chunk est constitué 

par la séquence des mots entre le mot fonctionnel et le mot tête sélectionné. Par exemple, 

the bald man est un chunk nominal dont la tête est man, was sitting un chunk verbal dont 

la tête est sitting, on his red suitcase est un chunk prépositionnel dont la tête est suitcase. 

Les chunks sont non récursifs. Un chunk a une structure syntaxique qui est un 

sous-graphe connecté de l’arbre syntaxique de la phrase, mais ce n’est pas 

nécessairement un constituant syntaxique intégral. Si Abney voit dans certaines 

expériences psycholinguistiques une validation au plan psychologique de la notion de 

chunk, c’est bien dans le cadre de l’analyse syntaxique automatique que le concept de 

chunk acquiert toute sa pertinence. Il joue un rôle clé dans la conception de l’analyseur 

syntaxique. D’abord, ces unités non récursives que sont les chunks sont simples à 

reconnaître : 

A simple context-free grammar is quite adequate to describe the structure 

of chunks. By contrast, the relationships between chunks are mediated 

53

more by lexical selection than by rigid templates (…). The order in which 

chunks occur is much more flexible than the order of words within chunks. 

(Abney, 1990b, p. 1) 

Deux niveaux d’analyse s’imposent : un niveau de base, celui des chunks, et un niveau 

supérieur, celui des propositions (simplex clauses), au sein desquelles s’établissent les 

relations entre chunks. L’architecture de l’analyseur est alors la suivante : d’abord 

reconnaître les chunks, puis délimiter les propositions et enfin établir des liens entre 

chunks à l’intérieur des propositions. C’est le principe de l’analyse en cascade. 

L’analyse en cascade consiste en une succession de passes, chaque passe prenant en 

entrée la séquence des groupes du niveau inférieur pour fabriquer les groupes du niveau 

courant, qui deviennent eux-mêmes les unités de traitement de la passe suivante. Il n’y a 

pas de récursivité, les groupes d’un niveau ne contiennent pas de groupes de même 

niveau ou de niveau supérieur. Dans la seconde version de CASS (Abney, 1996), l’auteur 

envisage jusqu’à 9 niveaux, mais ils sont au nombre de deux dans la première version 

(Abney, 1990a, 1990b). 

Ce partage des tâches, d’abord la reconnaissance des chunks, ensuite la mise en relation 

des chunks au sein des propositions, présente l’avantage de maîtriser de façon optimale 

le problème des ambiguïtés de rattachement, qui constitue l’une des difficultés 

essentielles de l’analyse syntaxique. En effet, selon Abney, il convient de distinguer 

deux types d’ambiguïtés de rattachement : l’ambiguïté de rattachement à l’intérieur des 

chunks et l’ambiguïté de rattachement entre les chunks. Du point de vue de la 

reconnaissance automatique, ces deux types d’ambiguïté sont radicalement différents. Ils 

doivent être traités de façon séparés, séquentiellement, et avec des méthodes différentes. 

Au sein d’un chunk, par exemple un chunk nominal constitué d’une séquence de noms 

ou d’adjectifs, l’identification des rattachements ne peut être pris en charge par 

l’analyseur syntaxique. Dans le chunk [cherry picker exhaust manifold], toutes les 

combinaisons de rattachement binaire entre ces 4 éléments sont possibles d’un point de 

vue syntaxique : [[[cherry picker] exhaust] manifold], [[cherry picker] [exhaust 

manifold]], etc. Selon Abney, l’ambiguïté n’est pas syntaxique. L’analyseur syntaxique 

peut retourner le chunk non analysé, avec implicitement toutes les analyses internes 

possibles. L’ambiguïté est sémantique, et c’est à un module sémantique de finir le 

travail. Il n’en va pas du tout de même pour l’ambiguïté de rattachement des chunks au 

sein d’une proposition en revanche. Abney prend l’exemple suivant (VP : chunk verbal, 

NP : chunk nominal, CP : clause, PP : chunk prépositionnel) : 

John [VP [met] [NP the woman] [CP he married] [PP in Italy]] 

Toutes les combinaisons de rattachement binaire entre éléments, au sein de la séquence 

de 4 éléments constituée du chunk verbal pivot et les 3 groupes qui suivent, ne sont pas 

syntaxiquement licites. Par exemple, la relative ne peut être attachée au verbe, le chunk 

prépositionnel ne peut être attaché au chunk nominal. Au sein d’une proposition, il peut 

y avoir des contraintes syntaxiques fortes pesant sur la détermination des attachements 

possibles, et la syntaxe doit d’abord dire son mot, avant de passer la main à la 

sémantique. La notion de chunk induit donc une séparation en deux du problème du 

rattachement et un partage des tâches qui permet de contrôler la propagation de 

54

l’ambiguïté en évitant qu’elle se multiplie entre des niveaux qui sont hétérogènes quant 

aux principes de désambiguïsation que l’on peut leur appliquer. 

Aux concepts de chunk et de traitement en cascade, il faut ajouter un troisième principe, 

indépendant des deux premiers, essentiel dans l’approche promue par Abney, au moins 

dans ses premiers écrits : séparer autant que possible les règles de grammaire des 

heuristiques et algorithmes. Dans ses deux articles de 1990, Abney fait référence aux 

analyseurs PARSIFAL de Marcus (Marcus, 1980) et FIDDITCH de Hindle (Hindle, 1990) 

pour montrer que l’on peut s’engager avec confiance dans la voie de l’analyse 

déterministe pour faire des analyseurs rapides et fiables. Néanmoins, tout en souhaitant 

s’inscrire dans cette lignée, Abney considère que l’analyseur FIDDITCH, qui est 

l’analyseur adoptant les principes de Marcus possédant la plus large grammaire, montre 

un certain nombre de limites, qui sont dues en partie à la non distinction des 

informations grammaticales et heuristiques. On retrouve là le débat récurrent sur la 

séparation des règles et des algorithmes. 

Marcus-style deterministic parsing has two related drawbacks. First, the 

complexity of the grammar development and debugging increases too 

rapidly. I believe this results partly from the use of a production-rule 

grammar format, and partly from the fact that grammatical and heuristic 

information are folded together indiscriminately. Second, if the parser’s 

best initial guess at every choice point leads to a dead end, the parser 

simply fails. It is much preferable to separate heuristic information from 

grammatical information, and use a non-deterministic architecture. As 

heuristics improve, we approach deterministic parsing on non-garden path 

sentences. 

(Abney, 1990b, p. 258) 

C’est pourquoi dans les deux versions de l’analyseur CASS, Abney développe un 

ensemble de grammaires hors contexte, une par niveau, chaque règle de grammaire étant 

donnée sous la forme d’une expression régulière, permettant de reconnaître les chunks 

du niveau correspondant. Ces grammaires ne constituent pas des descriptions théoriques 

des structures syntaxiques valides de la langue, comme c’est classiquement le cas, mais 

des ensembles de patrons de reconnaissance de morceaux de structure syntaxique : 

The grammar is not viewed as a linguistic description but as a 

programming language for recognizers. The goal is to write patterns that 

are reliable indicators of bits of syntactic structure, even if those bits of 

structure are “boundaries” or “kernels” rather than traditional phrases. 

(Abney, 1996, p. 339) 

Dans la version 2 de CASS, chaque expression régulière d’un niveau est transformée en 

un automate à états finis, et l’union de ces automates produit le reconnaisseur du niveau 

considéré. C’est la stratégie du plus long chemin qui est adoptée : si le reconnaisseur 

atteint un état final en plusieurs points, c’est l’état qui conduit au plus large 

recouvrement du flux en entrée qui est choisi. En cas d’échec, le premier mot est 

abandonné, et on passe au suivant. Dans la première version de l’analyseur, Abney 

55

n’utilise pas l’arsenal des automates à états finis, mais développe un compilateur 

spécifique pour ses grammaires, dans lequel il implémente un certain nombre 

d’heuristiques qui font de son analyseur un analyseur non déterministe. Ce compilateur 

est une version non déterministe d’un analyseur LR (Left-to-right Rightmost derivation), 

exploitant une recherche best-first. Il y a deux sources de non déterminisme : (1) un mot 

donné peut appartenir à plus d’une catégorie ; (2) les points où les chunks s’arrêtent ne 

sont pas marqués explicitement dans le flux de mots entrant, ce qui conduit à des 

ambiguïtés impliquant des chunks de différentes longueurs. Par exemple dans la phrase 

« In South Australia beds of boulders were deposited by melting icebergs. », si 

l’analyseur applique la stratégie du plus long chemin, il va reconnaître le chunk [South 

Australia beds], alors que la bonne analyse découpe cette séquence en deux chunks 

[South Australia] et [beds], dont le second est le sujet du verbe. 

Pour s’approcher d’un comportement déterministe sans perdre en robustesse, le 

compilateur effectue une recherche best-first, qui s’appuie sur une pondération des 

actions possibles à chaque itération. A chaque étape de l’analyse, étant donné la 

configuration en cours, le mot entrant et les règles de la grammaire, un certain nombre 

d’actions sont possibles : chacune de ces actions reçoit de façon dynamique un poids, qui 

est une estimation de la probabilité que cette action conduise à la meilleure analyse. Les 

actions sont alors placées dans la pile des actions possibles qui, à chaque itération, est 

mise à jour puis triée par ordre de poids décroissants. L’action de plus fort poids est 

choisie. Et le cycle se répète. Les actions alternatives non choisies restent dans la pile et 

peuvent ultérieurement passer en tête de liste, ce qui correspond à un retour en arrière 

dans l’analyse. C’est l’affectation de scores aux différentes actions qui détermine les 

choix de l’analyseur. Pour le chunker de la première version de CASS, dont la fonction 

est de reconnaître les chunks, les scores sont déterminés par quatre paramètres. Pour 

l’attacher, dont la fonction est de reconnaître les liens entre chunks, 2 paramètres 

supplémentaires s’ajoutent. Les quatre premiers paramètres sont les suivants : 

- fréquences lexicales relatives : préférer pour un mot la catégorie qu’il a le plus 

souvent ; 

- préférences générales sur les catégories : préférer une modification N-N à une 

modification adjectivale... ; 

- préférences liées aux conflits rencontrés par l’algorithme LR : préférer une 

opération shift à une opération reduce ; 

- préférences liées aux contraintes d’accord : préférer un choix qui ne viole aucune 

contrainte d’accord. 

Les deux paramètres supplémentaires exploités par l’attacheur sont les suivants : 

- préférer l’attachement d’un argument (vs. modifieur) 24 , préférer l’attachement à un 

verbe (vs. nom ou adjectif) ; 

24 L’auteur ne précise pas comment cette distinction est faite. 

56

- préférer un attachement bas. 

Notons que l’attacheur, contrairement au chunker, exploite aussi des informations sur les 

propriétés de restriction de sélection des mots, c’est-à-dire la possibilité pour un mot 

d’avoir un complément direct, obligatoire ou nom, positionné nécessairement après le 

mot ou non, d’avoir un ou plusieurs compléments prépositionnels ou une subordonnée. 

Les paramètres sont valués : le logarithme de la fréquence pour le premier, le nombre de 

violations des préférences pour les autres. Ces paramètres sont pondérés pour avoir une 

valeur unique. Les paramètres de pondération sont choisis de façon arbitraire, et Abney 

reconnaît qu’il faudrait les choisir après expérimentation. Pour finir, Abney fait dépendre 

les scores de façon dynamique du rang dans l’avancée de la phrase : les scores 

décroissent globalement de façon monotone au fur et à mesure que l’on avance dans 

l’analyse, ceci pour assurer que la première solution trouvée soit la meilleure… 

Devant une structure à ce point compliquée, on peut comprendre qu’Abney, dans la 

seconde version de CASS, ait remplacé son compilateur maison, saturé d’heuristiques 

quelque peu ad hoc et sans doute difficiles à maintenir, par la machinerie bien huilée des 

transducteurs, avec comme unique stratégie celle du plus long chemin. On peut aussi 

supposer que cet abandon a été rendu possible, sans perte en fiabilité de l’analyseur, 

parce que l’abandon des heuristiques complexes a été compensé par la multiplication des 

niveaux de traitement. Dans son article de 1996, Abney évoque une grammaire à 9 

niveaux. Dans l’exemple qu’il donne en introduction de son article, il apparaît clairement 

que la tâche d’identification des chunks, qui était réalisée en une seule passe par le 

chunkeur dans la première version, est ici distribuée sur plusieurs niveaux. On peut donc 

supposer que les heuristiques qui étaient nécessaires pour obtenir en une seule passe les 

meilleures analyses perdent de leur utilité quand on exploite à fond le principe de la 

cascade et que l’on multiplie les étages de l’analyse. La difficulté se reporte alors 

certainement sur le choix des niveaux et de l’ordre d’enchaînement des traitements. 

En résumé, les concepts clés de la philosophie d’Abney sont les suivants (Abney, 1996, 

p. 339) : 

- Commencer par le plus facile (easy-first parsing). Travailler par passes successives, 

traitant des problèmes de plus en plus difficiles, en ne prenant que des décisions 

sûres pour produire à chaque étape des résultats fiables. 

- S’appuyer sur des îlots de confiance (islands of certainty). Procéder en fabriquant 

des îlots de certitudes que l’on fait croître petit à petit pour obtenir des groupes de 

plus en plus larges, toujours en prenant les décisions les plus sûres, même si cela ne 

conduit pas à reconnaître la structure syntaxique de façon strictement ascendante. 

- Contenir l’ambiguïté (containment of ambiguity). Ne pas hésiter à reconnaître une 

relation à longue distance, toujours si la décision est sûre, avant d’avoir reconnu le 

détail de l’agencement syntaxique entre les deux unités reliées. L’identification des 

relations à grand empan permet de délimiter des zones de rattachement pour les 

unités enfermées, contribuant ainsi à contenir l’ambiguïté. 

57

Il reste un point qui n’est pas évoqué dans l’article de 1996 alors qu’il est 

particulièrement mis en exergue dans le premier article de 1990, c’est celui de la 

réparation d’erreurs (repair) Abney (1990a). Il s’agit de réparer les erreurs faites lors 

d’étapes antérieures dès qu’elles sont détectées, en modifiant la structure erronée, sans 

prendre en considération l’histoire du calcul qui a conduit à l’erreur. L’exemple donné 

concerne le problème de groupes nominaux « à rallonge » (« run-on NP »). Par exemple, 

dans l’exemple déjà donné plus haut, « In South Australia beds of boulders were 

deposited by melting icebergs », le chunkeur, en appliquant la stratégie du chemin le 

plus long, reconnaît le chunk [South Australia beds]. C’est l’attacheur qui, au moment 

où il cherche un sujet pour le chunk verbal [were deposited], peut détecter une erreur et, 

si l’analyse alternative en deux chunks [South Australia] et [beds] a été conservée, peut 

restituer l’analyse correcte. Il n’est pas clair que de telles réparations soient encore 

possibles dans une approche qui enchaîne strictement de simples transducteurs. 

2.3.7. L’analyseur 98 de J. Vergne 

Jacques Vergne est certainement le chercheur le plus actif en France pour critiquer 

l’approche classique en analyse syntaxique automatique. Sa première place lors de 

l’action Grace d’évaluation des étiqueteurs morphosyntaxiques du français (Adda et al., 

1998, 1999) donne un poids certain à son entreprise courageuse de critique du courant 

dominant (Vergne, 1995, 1999 ; Vergne et Giguet, 1998). S’affichant autodidacte en 

linguistique et en informatique (Vergne, 1999, p. 41), J. Vergne dit ne pas avoir été 

influencé par le paradigme classique qui voit dans l’analyse syntaxique automatique des 

langues naturelles une tâche analogue à la compilation des langages informatiques. Selon 

lui, si les grammaires formelles constituent un outillage adéquat pour modéliser la 

syntaxe des langages de programmation, elles ne sont pas du tout adaptées à la 

description des langues naturelles, dont la syntaxe a très peu de caractéristiques 

communes avec celle des langages formels. Ses arguments sont les suivants : 

La redondance des formes est une caractéristique des langues, comme de 

tout code utilisé par des êtres vivants (…) ; comme un langage formel 

n’est pas redondant, une grammaire formelle n’est pas appropriée à tirer 

parti de cette redondance, qui constitue pourtant un des fondements du 

TAL. 

La récursivité des segments (et donc des règles) est une hypothèse sur les 

structures profondes de la compétence du locuteur natif, mais elle n’est pas 

indispensable pour modéliser la syntaxe des langues, car il n’y a jamais 

une infinité de compléments, ni des insertions multiples illimitées, alors 

qu’elle est indispensable pour la syntaxe d’un langage de programmation, 

car il n’y a pas de limite a priori à l’enchâssement des instructions. 

La polycatégorie (est) inexistante dans les langages formels, (…) le fait 

qu’une même graphie recouvre plusieurs rôles syntaxiques et plusieurs 

sens est une conséquence de la correspondance forme-sens non biunivoque 

dans les langues. 

58

(Vergne, 1999, p. 28) 

Selon J. Vergne, l’hypothèse implicite du courant formel, à savoir que tout l’objet 

analysé est connu (tous les mots, toutes leurs catégories, toutes les structures), est 

erronée : « ces attendus sont irréalistes et imposent des rattrapages par des procédures ad 

hoc (qui exploitent enfin contexte et redondance ») » (Vergne, 1999, p. 29). Ceci 

explique les échecs des systèmes d’analyse syntaxique basés sur cette hypothèse : temps 

d’analyse exorbitants, dus à la complexité des algorithmes, absence d’analyse ou 

multiplicité des analyses pour une phrase. 

L’analyseur de J. Vergne est structuré en deux phases : le « tagging » (étiquetage 

morphologique) et la mise en relation (pose de relations de dépendance). Le tagger 

exploite des ressources lexicales minimales et des règles de déduction contextuelle. A la 

sortie du tagger, presque tous les mots sont affectés d’une et une seule étiquette. 

Certaines ambiguïtés résiduelles sont levées au moment de la mise en relation. Le 

tagging n’est pas conçu comme une désambiguïsation, c’est-à-dire un choix parmi un 

ensemble d’étiquettes possibles extraites d’une ressource lexicale supposée exhaustive, 

mais comme un calcul par des règles de déduction contextuelle à partir des étiquettes 

issues de la ressource lexicale, considérées comme de simples amorces. Le calcul sur le 

contexte prime sur la consultation du dictionnaire « Le contexte ne filtre pas le lexical 

supposé exhaustif, mais comble les lacunes du lexical supposé partiel » (op. cit., p. 33). 

Par exemple, dans « je positive », le tagger affecte l’étiquette de verbe au mot positive, 

bien que cette forme n’apparaisse qu’avec la catégorie d’adjectif dans la ressource 

lexicale. De plus, dans le lexique, chaque forme a une catégorie par défaut, qui est 

affectée systématiquement aux occurrences de la forme dans les phrases. Ce sont les 

règles de déduction contextuelles qui viennent le cas échéant changer cette étiquette. Le 

tagger affecte des catégories grammaticales aux mots de la phrase et construit des 

« syntagmes non récursifs » (SNR), analogues aux chunks d’Abney. Par exemple, de la 

phrase « L’usine d’Eloyes dans les Vosges représente un investissement de 3,7 milliards 

de yens. », le tagger extrait et étiquette les SNR de la façon suivante : 

{l’usine} SNR nominal 

{d’Eloyes} SNR prépositionnel 

{dans les Vosges} SNR prépositionnel 

{représente} SNR verbal 

{un investissement} SNR nominal 

{de 3,7 milliards} SNR prépositionnel 

{de yens} SNR prépositionnel 

La très grande majorité des tokens est désambiguïsée par les règles de déduction 

contextuelles, mais il subsiste des mots qui résistent à la désambiguïsation contextuelle 

locale, et dont le sort ne peut être réglé que lors de la phase de mise en relation. Par 

exemple, dans la phrase « La présence de Florence Arthaud au milieu d’un plateau de 

spécialistes montre que cette transat a été la course la plus disputée de ces dix dernières 

59

années », c’est lors de l’étape de mise en relation des SNR, au moment d’établir le lien 

sujet entre présence et montre que ce dernier mot sera étiqueté verbe. Le cas des formes 

du, de la, des, de l’, de, ainsi que des formes que, qu’ est analogue. 

Le processus de mise en relation effectué lors de la seconde phase d’analyse consiste à 

placer des relations de dépendance syntaxique entre les SNR identifiés lors de la phase 

de tagging. L’algorithme d’analyse est contraint de la façon suivante : la phrase est 

analysée en une seule passe, de gauche à droite. Au cours de ce processus, le système 

gère un certain nombre de mémoires. Il stocke les SNR, au fur et mesure de leur 

traitement, dans des mémoires correspondant aux relations dans lesquelles elles peuvent 

être prises, étant donné leur catégorie et leur place dans la phrase. Il y a deux types de 

règles, celles qui placent le SNR courant dans une mémoire et celles qui mettent en 

relation le SNR courant avec le SNR d’une mémoire. Ces mémoires s’effacent à certains 

moments de l’analyse, dès qu’une relation est posée. Si on reprend l’exemple « L’usine 

d’Eloyes dans les Vosges représente un investissement de 3,7 milliards de yens », le 

processus d’analyse de la phrase ci-dessus. Au moment où le système est positionné sur 

le premier SNR nominal {l’usine}, il le range dans la mémoire des sujets, ce qui signifie 

que ce SNR est en attente d’un verbe dont il pourrait être le sujet. Il le range aussi dans 

la mémoire des noms en attente de complément. Quand le système est positionné sur le 

deuxième SNR nominal {d’Eloyes}, une première règle le range dans la mémoire des 

noms en attente de complément, puis une seconde règle le met en relation avec le 

premier SNR {l’usine}, qui était en tête de la file d’attente dans cette même mémoire. 

Quand le système est positionné sur le SNR nominal {dans les Vosges}, il le place dans 

la mémoire des SNR en attente de complément, puis le met en relation avec le SNR 

{d’Eloyes}. Le système ne semble pas traiter les ambiguïtés de rattachement, puisque ce 

troisième SNR nominal pourrait tout aussi bien être mis en relation avec le premier SNR 

{l’usine}. Lorsque le système est positionné sur le SNR verbal {représente}, il place une 

relation sujet entre ce SNR et le SNR {l’usine} en attente dans la mémoire sujet. Puis il 

efface de la mémoire des noms en attente de compléments les SNR {d’Eloyes} et {dans 

les Vosges}. 

Le choix d’une analyse en une seule passe, gauche droite, détonne un peu dans l’univers 

de l’analyse syntaxique robuste, où l’on ne se prive pas en général de multiplier les 

passes et de diversifier les sens d’analyse de la phrase. Chez J. Vergne, ce choix répond 

au souci affiché d’une certaine plausibilité cognitive du processus d’analyse. D’un point 

de vue « théorique », J. Vergne voit dans le processus de réception d’une phrase par un 

humain une phase de traitement syntaxique qui consiste à passer de l’ordre linéaire de la 

phrase à sa représentation dépendancielle (Vergne, 1999, section 2.3.2). Cette contrainte 

d’une analyse gauche-droite en une seule passe est forte. Elle complique la tâche en 

imposant de gérer au fil de l’eau 13 mémoires (mémoire des sujets en attente d’un SNR 

verbe, mémoire des SNR verbes transitifs en attentes d’un SNR objet, mémoire des que 

pronoms relatifs en attente d’un SNR verbal transitif, etc.). 

Sur le fond, la caractéristique essentielle du système d’analyse syntaxique développé par 

J. Vergne est de relever d’une approche procédurale : il ne s’agit pas d’expliciter dans 

une grammaire formelle les structures syntaxiques possibles et acceptables, mais 

60

d’implémenter via une architecture informatique et des algorithmes les processus 

d’identification des relations de dépendance syntaxique entre SNR dans une phrase. 

2.3.8. L’analyse syntaxique robuste selon J. P. Chanod 

Dans les années 1980, Jean-Pierre Chanod, alors chercheur au Centre Scientifique 

d’IBM France, reprend le flambeau brandi par K. Jensen (section 2.3.5) et poursuit la 

réflexion sur la robustesse en analyse syntaxique. Un bilan de cette réflexion apparaît 

dans un article, publié en 2000, intitulé « Robust parsing and beyond » (Chanod, 2000). 

Selon J.-P. Chanod, l’effet le plus spectaculaire du besoin d’approches robustes en TAL 

a été l’arrivée en force des méthodes statistiques dans toutes les régions du TAL. Mais la 

robustesse n’est pas une question d’opposition entre des méthodes à base de règles d’un 

côté et des méthodes statistiques de l’autre : 

Still robustness is not about statistical vs. rule-based methods. It is not 

about virtual core languages, be they defined by principles or by frequency 

counts. It is not even about the quantity of unrestricted text that can be 

parsed by a given system. Robustness is about exploring all constructions 

humans actually produce, be they grammatical, conformant to formal 

models, frequent or not. Linguistic phenomena, regardless of their oddity 

or frequency, account for meaning of whatever segment of text they 

appear in. (…) In this view, robustness is a matter of breadth and depth of 

analysis. Altogether.» 

(Chanod, 2000, pp. 132–133) 

J.-P. Chanod multiplie les exemples dans lesquels des principes linguistiques 

généralement reconnus comme essentiels, en particulier concernant les phénomènes 

d’accord, sont mis à mal par la réalité des productions langagières attestées dans des 

textes réels. Voici quelques-uns de ces exemples, qui parlent d’eux-mêmes : 

Mon adorable chatte 

Mon chèvre 

Un cinq tonnes 

Des tee shirts avec Coca-Cola écrit dessus 

J’ai perdu mon Madame Bovary 

Le France s’appelle aujourd’hui le Norway 

Les premier et dernier chapitres 

La salle était pleine d’étudiants. Une bonne moitié sont partis avant la fin. 

On est contentes. 

Ces exemples sont typiques de cas où les contraintes d’accord ne sont pas respectées. Or, 

c’est le principe de l’unification de traits lexicaux qui est à l’origine du paradigme très 

productif des grammaires d’unification, théories dans lesquelles l’unification constitue le 

61

moyen élégant de traiter les phénomènes d’accord et de sous-catégorisation. 

L’abondance dans les textes réels de contextes dans lesquels les principes de base de la 

grammaticalité sont violés condamne à l’échec toute entreprise de réalisation d’un 

analyseur qui s’appuierait de façon stricte sur de tels principes. Un tel constat ne remet 

pas en cause les principes eux-mêmes, mais doit conduire à une réflexion sur 

l’articulation entre principes grammaticaux et règles de reconnaissance au sein d’un 

analyseur. Un analyseur syntaxique robuste doit être capable de reconnaître les cas où les 

principes s’appliquent, mais il doit aussi reconnaître les cas déviants et proposer une 

analyse. Dans cet esprit, on ne peut assigner à l’analyseur la fonction de distinguer les 

phrases grammaticales des phrases agrammaticales. Une telle spécification n’aurait de 

sens que dans un cadre de recherche, par exemple sur l’apprentissage des langues, où 

l’on s’intéresserait précisément à la capacité humaine de produire des jugements de 

grammaticalité. La fonction d’un analyseur syntaxique robuste est de reconnaître, parfois 

« à tâtons », la structure grammaticale d’une séquence en entrée. Il exploite les principes 

grammaticaux généraux, non pour accepter les phrases grammaticales et rejeter les 

phrases agrammaticales, mais comme contraintes de base qu’il privilégie pour trouver 

rapidement une analyse plausible. L’analyseur doit disposer de solutions de repli pour 

les cas où il reconnaît que l’application de ces principes l’empêche de parvenir à une 

solution acceptable. C’est le principe du relâchement, fondamental en analyse syntaxique 

robuste. Par exemple, pour analyser le groupe « mon adorable chatte », on peut 

introduire une règle qui, dans certains contextes, identifiera la relation entre un 

déterminant et un nom quels que soient leurs genres respectifs. Cette règle n’est pas 

pénalisante, même si potentiellement elle permet l’analyse de groupes non 

grammaticaux comme « mon chatte ». Le fait qu’un analyseur puisse produire une 

analyse pour des groupes agrammaticaux n’a pas le même caractère fondamentalement 

disqualifiant que dans l’approche classique, où les grammaires formelles doivent être 

utilisées tant en analyse qu’en génération. Les analyseurs syntaxiques robustes sont des 

outils opérationnels de reconnaissance de structures syntaxiques. Le principe de la 

réversibilité ne tient pas. 

Le principe de base que J.-P. Chanod met en avant pour caractériser d’un point de vue 

opérationnel les analyseurs syntaxiques robustes est celui d’incrémentalité. Il a travaillé 

sur ce principe depuis son arrivée au Centre de Recherche de Xerox à Meylan, en 

particulier dans le cadre de ses travaux menés avec Salah Aït-Mokhtar sur l’analyseur 

IFSP (pour Incremental Finite-State Parser) (Aït-Mokhtar et Chanod, 1997a, 1997b). 

Dans un article publié en 2002 dans la revue Natural Language Engineering, écrit avec 

Salah Aït-Mokhtar et Claude Roux, Jean-Pierre Chanod décrit avec précision en quoi le 

principe de l’incrémentalité est un concept clé pour envisager la conception de systèmes 

d’analyse syntaxique qui soient à la fois robustes, profonds, à large couverture et fiables. 

Deux propriétés essentielles distinguent l’approche incrémentale des approches 

classiques en analyse syntaxique automatique : l’autonomie des règles (self-containment) 

et la décomposition descriptive (descriptive decomposition). 

L’autonomie des règles. Chaque règle incrémentale est auto-suffisante, toute application 

de règle est définitive. Les conditions contextuelles dans lesquelles la règle s’applique 

sont stipulées dans la règle elle-même. Ces conditions sont évaluées sur les 

62

connaissances disponibles au moment où le système teste cette règle, en particulier sur 

les structures partielles déjà construites à ce stade de l’analyse incrémentale. Si les 

conditions ne sont pas vérifiées, la règle ne s’applique pas, et la structure en cours de 

construction est passée telle quelle à l’étape suivante du calcul. Si les conditions sont 

vérifiées, la règle s’applique et la structure en cours de construction est enrichie. Le 

système ne revient pas sur l’application de cette règle plus tard dans le processus 

incrémental. Il se peut que la relation de dépendance posée par cette règle soit 

ultérieurement détruite, si une règle testée à un stade plus avancé détecte une erreur. 

Mais en aucun cas, le système ne rembobine l’analyse jusqu’au moment où la première 

règle s’est appliquée. Cette règle n’est pas fautive, elle a simplement pris la meilleure 

décision possible étant donné les connaissances disponibles au moment où elle a été 

testée et appliquée. La situation est différente dans les systèmes classiques, où le 

contrôle que permet l’incrémentalité est absent. Ces règles produisent des hypothèses 

locales qui doivent se combiner de façon cohérente pour conduire à une analyse globale 

de la phrase. Le postulat implicite est que les propriétés sous-jacentes du langage, 

qu’elles soient spécifiées ou non dans la grammaire, vont en quelque sorte guider le 

processus d’analyse vers l’identification spontanée d’interprétations correctes de la 

phrase. Ce mode opératoire non contrôlé conduit à des effets de bord indésirables bien 

connus : explosion combinatoire, ambiguïtés factices, échecs d’analyse. 

La décomposition descriptive. Pour assurer une couverture la plus large possible, le 

système doit être capable de traiter la très grande variété des constructions linguistiques 

que l’on peut trouver dans des textes réels. Ceci exige une granularité fine dans la 

description linguistique, et impose d’être capable de contrôler des centaines de 

configurations différentes de façon opératoire. L’incrémentalité permet de décomposer la 

description linguistique d’un phénomène linguistique donné en un grand nombre de 

descriptions partielles autonomes. Plus précisément, dans un analyseur incrémental, on 

décompose la tâche de découverte des configurations répondant à ce phénomène. Par 

exemple, pour reconnaître les configurations à contrôle de l’infinitif, on aura d’abord 

reconnu la relation de complément entre un verbe et un verbe à l’infinitif, puis lors d’une 

étape ultérieure, on aura reconnu une relation de complément entre ce même verbe et un 

chunk prépositionnel, et enfin encore plus tard dans le processus, une règle spécifique 

reconnaîtra la structure de contrôle globale de façon simple, sans avoir à reconnaître les 

différents éléments du puzzle dont chacun a pu être difficile à reconstituer, et qui ont été 

pris en charge par des modules spécifiques dans l’enchaînement incrémental. 

Les chercheurs de Centre de Recherche de Xerox ont mis au point un système générique 

pour construire des analyseurs syntaxiques robustes basés sur le concept 

d’incrémentalité, c’est-à-dire des systèmes basés sur l’enchaînement en cascade de 

couches de règles, écrites par un « grammairien » 25 : le système XIP. Ce système permet 

de réaliser des analyseurs prenant en entrée des textes bruts ou des sorties d’autres 

analyseurs, de type tokéniseur, étiqueteur morphosyntaxique ou chunker. Le formalisme 

des règles a été conçu pour permettre l’incrémentalité et la profondeur des analyses. Le 

25 Le joli terme de grammarian est utilisé par (Aït-Mokhtar et al., 2002, p. 131) 

63

système repose sur une représentation unifiée : une séquence d’arbres en constituants. 

Les nœuds des arbres sont étiquetés par des catégories morphosyntaxiques ou des noms 

de constituants, et sont associés à des ensembles de traits attribut/valeur. Les règles 

s’appuient sur une représentation bipartite mais cohérente de l’entrée : des arbres en 

constituants et des relations de dépendance. Une règle de dépendance a la syntaxe 

suivante : 

1- un schéma d’appariement d’arbre qui spécifie les propriétés structurales d’une 

portion de la séquence d’arbres en constituants en entrée. 

2- une expression booléenne qui spécifie des conditions sur les relations de dépendance 

et sur la disposition linéaire des tokens ou chunks. 

3- un terme de dépendance qui indique quelle est la relation de dépendance à ajouter 

quand les conditions sont vérifiées. Les arguments de la relation de dépendance sont 

des variables qui sont exprimées dans la description du schéma d’appariement et 

dans les conditions. 

Avec un tel formalisme, il est possible de décrire des règles très riches avec un degré de 

finesse très précis. Voici, sous une forme non formalisée, quelques règles que les auteurs 

donnent dans leur article de 2002. 

Pour identifier les relations de complément d’objet direct, par exemple dans la phrase 

John enjoys wine. 

1- Schéma d’appariement d’arbre : la tête d’un chunk verbal a le trait ‘+transitif’ ; ce 

chunk verbal est dans une proposition ; dans cette proposition, il est suivi d’un 

chunk nominal qui n’a pas le trait ‘+temporel’. 

2- Conditions : (pas de conditions). 

3- Terme de dépendance : placer une relation de complément d’objet direct entre la tête 

du chunk verbal et la tête du chunk nominal. 

Pour identifier le partage de fonction dans des structures coordonnées, par exemple dans 

la phrase John peels and then eats an apple. 

1- Schéma d’appariement d’arbre : pas de schéma. 

2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) et un nom 

(#2) (entre eats et apple) ; il y a une relation de coordination entre ce verbe (#1) et 

un autre verbe (#3) qui le précède (entre peels et eats) ; cet autre verbe (#3) n’a pas 

de complément d’objet. 

3- Terme de dépendance : placer une relation de complément d’objet entre le premier 

verbe (#3) et le nom (#2) (entre peels et apple). 

Pour identifier les structures de contrôle de l’infinitif, par exemple dans la phrase Mary 

orders Fred to close the window. 

1- Schéma d’appariement d’arbre : pas de schéma 

64

2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) qui a le 

trait ‘+contrôle infinitif sujet’ et un verbe à l’infinitif (#2) (entre orders et close) ; il 

y a une relation de complément d’objet entre ce verbe (#1) et un chunk nominal (#3) 

(entre orders et Fred). 

3- Terme de dépendance : placer une relation de sujet entre le verbe infinitif (#2) et la 

tête du chunk nominal (#3) (entre close et Fred). 

Les exemples donnés ci-dessus donnent une idée du type de règles que le grammairien 

doit écrire pour construire le système. Ces règles sont établies en fonction d’un savoir 

grammatical que possède le grammairien sur les structures qu’il souhaite voir reconnues 

par le système. Ce savoir grammatical ne se manifeste pas uniquement dans ces règles. Il 

est aussi dans l’architecture globale du traitement. Au grammairien de choisir quels 

ensembles de règles vont s’appliquer à chaque couche. Dans une approche par règles, 

c’est-à-dire où les règles d’analyse sont écrites indépendamment de l’algorithme, il est 

important que cet algorithme soit connu du grammairien. Dans le cas de XIP, même si 

cela n’est pas stipulé dans l’article, on peut supposer que les règles s’appliquent dans 

l’ordre dans lequel elles sont données dans la grammaire, et que chaque règle est testée 

en parcourant la séquence en entrée de gauche à droite. L’ordre d’enchaînement des 

couches de traitement et celui des règles au sein d’une couche sont fondamentaux, mais 

c’est au grammairien de les optimiser en conciliant la connaissance grammaticale et les 

contraintes d’implémentation. 

Since the application of a rule of a given stage depends on the background 

information produced by the previous stages, the correct choice of 

increments is important and is made on the basis of the identification of 

various linguistic phenomena and the (possibly multiple) configurations of 

each phenomenon. The incremental order is determined in such a way that 

basic and simple phenomena are always described before more complex 

ones. For a given phenomenon, general and default configurations are 

modelled before more specific cases and exceptions. 

(Aït-Mokhtar et al., 2002, p. 136) 

2.3.9. Bilan : une lignée 

A l’issue de cette description de différents analyseurs développés ces 50 dernières 

années, on pourrait s’interroger sur l’éventuelle existence et unité d’un courant de 

recherche en analyse syntaxique robuste. En fait, la revue des travaux effectuée dans 

cette section ne répond pas aux normes du classique «état de l’art » que l’on retrouve 

dans les disciplines scientifiques, dans lequel on expose comment les résultats obtenus 

contribuent à l’avancée des connaissances dans un domaine scientifique. Les travaux de 

présentés ici sont le plus souvent menés par des individus ou des groupes restreints, 

relativement isolés, selon une démarche ingénierique. Celle-ci laisse un large espace de 

liberté dans les choix de conception et fait la part belle aux innovations personnelles. On 

est moins que dans l’accumulation des connaissances que dans la réitération d’efforts 

visant à la résolution du même problème, celui de l’analyse syntaxique automatique, 

65

dans des contextes différents (différences de langues, de contraintes technologiques, de 

principes de base, d’applications cibles). On peut malgré tout tenter de dégager des 

récurrences et des points de convergence dans les choix des concepteurs, qui, une fois 

rassemblés, tracent les contours de ce que Gilbert Simondon, dans sa philosophie des 

techniques, appelle une lignée (Simondon, 1971) (cf. Chap. 3, section 3.3.2). 

- Application. Presque tous les travaux visent une application spécifique : la 

traduction automatique pour Garvin, le résumé d’articles scientifiques pour le projet 

TDAP, la recherche documentaire pour Debili, la correction grammaticale et la 

vérification de style pour le projet PLNLP. 

- Cascade. La majorité des travaux affichent une architecture en cascade, qui organise 

les traitements en plusieurs passes, sans contrainte sur le sens de parcours de la 

phrase (gauche-droite, droite-gauche). L’ordonnancement des traitements répond à 

des principes, plus ou moins explicités, de bons sens : traiter d’abord les relations à 

plus courte distance et les plus sûres, compléter de façon incrémentale les 

analyses… Une exception notable est constituée par le choix de J. Vergne qui fait du 

traitement gauche-droite en seule passe un principe de base dans sa conception de 

l’analyse syntaxique. 

- Procéduralité. Aucun des chercheurs ne présente la déclarativité et la séparation 

nette des règles et des algorithmes comme des principes fondamentaux. Leurs 

systèmes sont plutôt de style procédural. C’est particulièrement le cas pour 

P. Garvin, qui juge non tenable le principe de la séparation dès que les systèmes se 

complexifient. La grammaire de base du projet PLNLP, qui comporte 300 règles, est 

complétée par une procédure d’ajustement. Dans le cas de l’analyseur XIP, le choix 

d’un formalisme de haut niveau pour l’écriture de règles répond non pas à des 

considérations d’ordre théoriques, mais au souci d’impliquer des grammairiens non 

spécialistes de programmation dans le développement d’analyseurs. 

- Absence de théorie. Aucun chercheur ne se réclame, de façon forte, d’une théorie 

linguistique. Même dans la présentation rétrospective, par Joshi et Hopely, de 

l’analyseur développé dans l’équipe dirigée par le linguiste Z. S. Harris, la référence 

à la théorie est absente. Néanmoins, S. Abney affirme une pertinence 

psycho-linguistique à ses chunks, et J. Vergne recourt à une contrainte de 

plausibilité cognitive pour justifier son choix d’un traitement gauche-droite en une 

passe. 

66

Chapitre 3 

Description de l’analyseur SYNTEX 

3.1. Principes de base 

3.1.1. Analyseur syntaxique opérationnel 

L’analyseur SYNTEX a été développé à l’origine (Bourigault et Fabre, 2000) pour 

prendre la suite du logiciel LEXTER (Bourigault, 1994), un analyseur syntaxique robuste 

dédié au repérage des syntagmes nominaux terminologiques dans les corpus spécialisés 

et utilisé dans des applications de construction de terminologies ou d’ontologies 

spécialisées. Les diverses expérimentations réalisées avec LEXTER avaient mis en 

évidence la nécessité d’étendre la couverture du logiciel à l’extraction des syntagmes 

verbaux (chap. 1). L’objectif du projet SYNTEX était la construction d’un analyseur 

syntaxique opérationnel, précis et efficace, qui produise des analyses aussi correctes et 

complètes que possible, sur des textes de genres variés, avec des temps de traitement 

raisonnables pour être compatibles avec la nécessité d’absorber des volumes de plus en 

plus importants ; un analyseur qui soit utilisable dans une large gamme d’applications, 

que ce soit du côté de la recherche académique, en linguistique, sciences humaines, 

intelligence artificielle, ou de celui des applications industrielles, pour la construction 

d’ontologies, le traitement de l’information, la recherche d’information, etc. J’ai choisi 

de qualifier d’opérationnel, un tel analyseur, en référence à l’expression « operational 

syntax » utilisé par J. Bar-Hillel son article de 1951, qui constitue le premier état de l’art 

sur le domaine de la Traduction Automatique (Bar-Hillel, 1951) : 

A considerable body of descriptive data about the language of the world 

has been amassed in recent years, but so far no operational syntax of any 

natural language exists with a sizeable degree of completeness, and the 

necessity of providing such a syntax has apparently not been recognized 

by linguists. To give an analogy: Just as even the most extensive 

knowledge of all imaginable properties of all chemical substances will not 

materially assist a student of chemistry in developing a method of 

analyzing a given mixture of unknown chemical substances, so even the 

67

most elaborate description of the properties of all morphological units of a 

given language will not enable a student of linguistics to find, in a 

reasonable time, a method of analyzing a given sentence-specimen of this 

language. Chemists have had to write, in addition to their general 

textbooks, special books instructing the student on how to proceed in a 

fixed sequential order (order which sometimes depends on the outcome of 

the preceding step) in his attempted analysis of a given mixture. Likewise 

special books will have to be written containing sequential instructions for 

linguistic analysis, i.e. an operational syntax. 

(Bar-Hillel, 1951, p. 232) 

Ma conviction au départ de ce projet, forgée lors de l’expérience LEXTER, était qu’il était 

possible d’avancer vers cet objectif en restant hors du paradigme formel, d’une part, et 

sans attendre que soient disponibles des ressources lexicales à très large couverture pour 

le français, d’autre part. Sur le plan de la description linguistique, je me suis appuyé sur 

une bonne connaissance de la grammaire traditionnelle et des travaux de syntaxe 

descriptive, et j’ai adopté une démarche de développement empirique basée sur des tests 

systématiques sur corpus. Sur le plan des ressources, j’ai choisi d’abord de profiter de la 

disponibilité d’étiqueteurs morphosyntaxiques très performants, et j’ai opté pour une 

stratégie minimaliste et opportuniste : reprendre et développer l’apprentissage endogène, 

et construire les ressources nécessaires au fur et à mesure que les besoins apparaissent, 

autant que possible de façon automatique à partir de grands corpus. 

3.1.2. Un problème de reconnaissance de formes 

Dans le paradigme formel, le problème de l’analyse syntaxique automatique se formule 

selon le thème de la compilation. La fonction de l’analyseur est de décider si la séquence 

en entrée est bien formée du point de vue de la grammaire de l’analyseur, et d’en donner 

une description conforme à cette grammaire. L’analyse est dirigée par la connaissance 

des structures syntaxiques licites de la langue, formulée de façon générative. A l’instar 

de bon nombre de chercheurs dont j’ai décrit les travaux dans le chapitre précédent, je 

n’adopte pas ce point de vue. Je formule le problème de l’analyse syntaxique comme un 

problème de reconnaissance de formes. La séquence en entrée est supposée avoir une 

forme, syntaxique, et c’est cette forme que l’analyseur doit approcher au mieux. 

L’analyseur n’a pas pour fonction de déterminer si une phrase est grammaticalement 

correcte ou non, il doit fournir une description de la forme syntaxique pour toute 

séquence du corpus qui lui est donnée. Quelques exemples de séquences extraites de sont 

donnés en 1-4 26 . 

26 Dans ce chapitre, les exemples attestés sont suivis du code du corpus d’origine. [LMO] : Le Monde, décembre 

1999 ; [HAN] : un extrait du corpus Hansard ; [STX] : le roman Vol de nuit d’Antoine de Saint-Exupéry. 

68

(1) Dans certaines gammes, trop de cigares mal roulés, aux capes imparfaites, 

présentent des arômes ternes et insipides, sans parler de la contrefaçon, qui 

touche de nombreux secteurs de la distribution. [LMO] 

(2) Une mesure impatiemment attendue par les opérateurs concurrents de 

France-Télécom. [LMO] 

(3) Si c'est un bon projet de loi, il me semble qu'il devrait mériter une vigoureuse 

défense de la contribution qu'il apportera à l'amélioration de la vie 

canadienne. [HAN] 

(4) Rivière sortit pour tromper l'attente, et la nuit lui apparut vide comme un 

théâtre sans acteur. [STX] 

Les séquences à analyser ne ressemblent pas toujours aux phrases des théoriciens de la 

syntaxe. C’est pourquoi j’emploie le terme de séquence, et non ceux de phrase ou 

d’énoncé. Dans la communauté des linguistes, il existe des courants forts qui remettent 

en cause le statut même de la phrase. Ceux-ci se développent d’une part chez les 

linguistes de l’oral et d’autre part chez ceux qui travaillent sur les discours. Claire 

Blanche-Benveniste (2002), par exemple, affirme que « La notion vague de phrase 

usurpe des propriétés qui reviennent de fait aux constructions verbales, comme celles de 

modes, temps, diathèse ou fonctions (…). Dans la plupart des cas, la phrase n’est pas une 

bonne unité de calcul pour l’analyse syntaxique (…) » (Blanche-Benveniste, 2002, p. 7). 

Pour elle, il faudrait distinguer trois domaines de dépendance syntaxique : celui des 

dépendances par rapport à une catégorie grammaticale (la syntaxe au sens strict), celui 

des dépendances qui se font en dehors de toute référence à une catégorie de grammaire 

(la « macro-syntaxe »), et celui des unités énonciatives (op. cit., p. 20). Pour Alain 

Berrendonner, qui se place dans la perspective de l’analyse des discours, la notion de 

phrase n’est pas non plus un instrument opératoire : « La phrase est un héritage de la 

tradition typographique et grammaticale, une notion originellement conçue pour 

raisonner et normer une pratique utilitaire : la mise en écrit du discours » (Berrondonner, 

2002, p. 27). Il propose de remplacer cette notion par deux types de données 

empiriquement fondées : la clause et la période. Les clauses sont des « îlots de 

dépendance grammaticale » (op. cit., p. 27). Les périodes sont des secteurs de discours 

délimités par des marques prosodiques ad hoc. La syntaxe de la clause est bien connue, 

c’est la syntaxe au sens strict. Celle des périodes est d’un tout autre ordre. Il faut, pour la 

caractériser, introduire la notion de « mémoire discursive », c’est-à-dire « une 

représentation des savoirs publiquement partagés par les interlocuteurs » (op. cit., 

p. 30) : les unités minimales de la période sont les clauses (plus précisément des 

énonciations de clauses), et chaque énonciation opère des transformations de la mémoire 

discursive. K. Gerdes et S. Kahane (2006) reprennent la la distinction entre micro- et 

macrosyntaxe pour mettre en place leur modèle topologique du verbe en français. 

Pour décrire les formes syntaxiques, j’ai choisi le mode de représentation en dépendance. 

Le principe de la représentation syntaxique d’une phrase par un arbre de dépendance est 

que, dans une phrase, la présence de chaque mot est légitimée par la présence d’un autre 

mot ; on représente cet état de fait par un lien syntaxique entre le second mot (le 

69

gouverneur) et le premier (le dépendant). L’arbre constitué des mots et des liens 

syntaxiques constitue ce que Lucien Tesnière appelle un stemma (Tesnière, 1959). Au 

moment de passer de LEXTER, analyseur centré sur le groupe nominal, à SYNTEX, censé 

avoir une couverture beaucoup plus large, j’ai abandonné la constituance pour la 

dépendance. Le choix de la dépendance s’est immédiatement et très naturellement 

imposé, car il permet une formulation simple et opératoire du problème de l’analyse 

syntaxique, vue comme un problème de reconnaissance de formes. On peut décomposer 

le problème de la reconnaissance de la structure syntaxique d’une phrase en 

sous-problèmes locaux de reconnaissance de liens syntaxiques. Dans (Bourigault et 

Fabre, 2000), en reprenant les termes de la syntaxe posito-argumentale de J.-C. Milner 

(Milner, 1989), nous formulions le problème de la reconnaissance syntaxique de cette 

façon : pour chaque mot de la séquence, identifier sa position dans la structure 

syntaxique à partir de sa place dans l’énoncé. Je le reformule ici de façon plus précise : 

pour chaque mot de la séquence, trouver son gouverneur. La procédure d’analyse qui 

s’impose alors avec cette formulation de problème est ascendante. Les formes 

syntaxiques se révèlent au fur et à mesure que l’analyseur reconnaît les liens syntaxiques 

entre mots. Pour décrire la forme syntaxique des séquences, je reprends la terminologie 

de Berrendonner, et je définis, dans SYNTEX, une clause comme la projection d’un arbre 

de dépendance syntaxique dont le gouverneur ne dépend d’aucun autre mot dans la 

séquence. Dans une séquence, l’analyseur peut reconnaître plusieurs clauses ; celles-ci 

sont alors simplement juxtaposées, aucune relation n’est placée entre elles par 

l’analyseur. Les clauses, leur délimitation et leur forme, émergent de l’analyse et sont 

révélées à l’issue du processus. Par exemple, la forme de la séquence 1 est la 

juxtaposition de 3 clauses : 

- la première clause (Dans certaines gammes) est l’îlot rectionnel dominé par la 

préposition dans en tête de séquence. Soit SPNom son étiquette. 

- la deuxième clause (trop de cigares mal roulés, aux capes imparfaites, présentent 

des arômes ternes et insipides) est l’îlot rectionnel dominé par la forme verbale finie 

présentent. Soit S son étiquette. 

- la troisième clause (sans parler de la contrefaçon, qui touche de nombreux secteurs 

de la distribution) est l’îlot rectionnel dominé par la préposition sans, elle-même 

gouvernant la forme infinitive parler. Soit SPVinf son étiquette. 

La forme globale de la séquence 1 est donc : [SPNom] , [S] , [SPVinf], la forme de 

chacune des trois clauses étant donnée par un arbre de dépendance. La préposition dans, 

le verbe présentent et la préposition sans n’ont été rattachés à aucun gouverneur par 

l’analyseur. Les formes des séquences 1-4 sont données en 1’-4’ (les gouverneurs non 

dépendants sont soulignés). 

(1’) [SPNom] , [S] , [SPVinf] : [SPNom Dans certaines gammes ] , [S trop de 

cigares mal roulés, aux capes imparfaites, présentent des arômes ternes et 

insipides ] , [SPVinf sans parler de la contrefaçon, qui touche de nombreux 

secteurs de la distribution ] . 

70

(2’) [SNom] : [SNom Une mesure impatiemment attendue par les opérateurs 

concurrents de France-Télécom ] 

(3’) [SSub] , [S] : [SSub Si c'est un bon projet de loi ] , [S il me semble qu'il devrait 

mériter une vigoureuse défense de la contribution qu'il apportera à 

l'amélioration de la vie canadienne ] 

(4’) [S] , CC [S] : [S Rivière sortit pour tromper l'attente ] , [cc et ] [S la nuit lui 

apparut vide comme un théâtre sans acteur ] . 

Dans une séquence donnée, il y a autant de clauses que de mots non gouvernés. Ces mots 

sont parfois isolés, quand ils n’ont eux-mêmes aucun dépendant. Le non-attachement 

d’un mot à un gouverneur peut être le résultat d’un choix d’implémentation, comme 

celui de ne pas chercher de gouverneur aux prépositions ou adverbes situés en position 

initiale de séquence (l’adverbe en revanche dans l’exemple 5, la préposition sur dans 

l’exemple 5, la préposition en dans l’exemple 6), aux conjonctions de subordination 

autres que que (la conjonction alors que dans l’exemple 6). Le non-attachement d’un 

mot peut aussi être la manifestation d’une erreur de l’analyseur. Dans l’exemple 7, 

l’analyseur n’a pas reconnu la bonne catégorie pour la forme que, qu’il n’a pas réussi à 

attacher, de même qu’il n’a pu attacher la préposition dans, ce qui produit par erreur la 

clause dans le giron de la Russie. De même, dans l’exemple 8, la clause des mesures 

préventives est identifiée à tort à cause de la non reconnaissance du segment si 

nécessaire, dans lequel si est étiqueté Adverbe. 

(5) [Adv] , [SPNom] , [S] : [Adv En_revanche ] [,] [SPNom sur la libéralisation des 

services ] [,] [S les pays industrialisés ont peu de divergences ] 

(6) [SPNom] , [S] [SSub] : [SPNom En Thaïlande ] [,] [S le coût mensuel d' une 

trithérapie est de 675 dollars ] [SCSub alors qu'un employé du secteur tertiaire 

gagne le plus souvent 120 dollars par mois ] 

(7) [S] [Sub] [SPNom] : [S Ils ne peuvent trouver leur bonheur ] [Sub que ] [SPNom 

dans le giron de la Russie ] 

(8) [S] [SAdj] [SPNom] : [S C'est la raison pour laquelle Grenoble a été choisie 

pour étudier ce phénomène propre aussi à certaines vallées alpines et prendre 

] [,] [SAdj si nécessaire ] [,] [SPNom des mesures préventives ] 

3.1.3. Fonctionnement simplifié 

SYNTEX est un analyseur procédural à cascade. Le terme à cascade signifie qu’il traite 

chaque séquence en plusieurs passes successives. L’entrée d’une passe est la sortie de la 

passe précédente. La séquence donnée en entrée à l’analyseur est étiquetée : elle est 

découpée en mots (token), à chaque mot est associée une catégorie grammaticale (nom, 

verbe, adjectif…). J’utilise le TREETAGGER 27 . A chaque passe, l’analyseur ajoute des 

27 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ 

71

liens syntaxiques, en s’appuyant sur les liens placés lors des passes antérieures. Le terme 

procédural signifie que les liens syntaxiques sont placés par des heuristiques qui 

décrivent l’algorithme de parcours de la chaîne des mots étiquetés partiellement 

analysée entre un mot donné et un gouverneur ou dépendant potentiel. L’analyseur 

SYNTEX est très proche, dans sa philosophie, de l’analyseur FULCRUM de P. S. Garvin 

(Garvin, 1967), avec sa méthode par passes et ses mots pivots (chap. 2, section 2.3.2). 

L’analyseur est aussi modulaire : chaque type de lien syntaxique (sujet, objet…) est pris 

en charge par un module dédié. J’illustre de façon simplifiée le fonctionnement de 

l’analyseur en déroulant pas à pas le traitement de la séquence 1. En préalable à l’analyse 

syntaxique, l’étiqueteur morphologique a découpé la séquence en mots et a attribué une 

étiquette morphosyntaxique à chacun des mots (N : nom, V : verbe, D : déterminant, P : 

préposition, A : adjectif) (2). Il a reconnu la préposition complexe en direction du. 

(1) Marie lance la pelote de laine rouge en direction du chat de Jean. 

(2) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 

D N P N V D N P N A P N P N 

Lors d’une première passe, l’analyseur traite les relations dites « locales ». Il reconnaît 

par exemple des liens syntaxiques entre un déterminant et son gouverneur, entre une 

préposition et son dépendant, entre un auxiliaire et son participe passé (3). 


Lors d’une deuxième passe, l’analyseur traite les relations dites « non ambiguës ». Il 

reconnaît dans la séquence 1 le lien Sujet entre le verbe lance et le nom fille et le lien 

Objet entre le verbe lance et le nom pelote (4). Les flèches en pointillés sous la séquence 

marquent les étapes du parcours entre les extrémités des liens syntaxiques. Les barres 

verticales sous les mots marquent les fins de parcours. Le module de recherche des sujets 

se positionne sur le verbe conjugué lance et se déplace vers la gauche à la recherche d’un 

dépendant pour ce gouverneur. Il rencontre d’abord le nom Marie qui est déjà gouverné 

(par la préposition de), puis le nom fille, situé immédiatement à gauche de la préposition. 

Le module retient ce nom, puisqu’il est libre, et stoppe son parcours puisque le 

déterminant gouverné par ce nom est le premier mot de la séquence. Le module de 

recherche des objets se positionne sur le verbe transitif lance et se déplace vers la droite 

à la recherche d’un dépendant pour ce gouverneur. Il rencontre d’abord le déterminant la 

et « remonte » à son gouverneur pelote. Puisque ce nom est libre, il le retient comme 

cible de la relation, et stoppe sa recherche. 


72

Lors d’une troisième passe, l’analyseur traite les relations dites « non ambiguës ». Il 

recherche les gouverneurs potentiels des adjectifs et des prépositions. Pour des raisons 

de lisibilité, je décompose la description en commentant le traitement des 3 prépositions 

de (5a), puis de l’adjectif rouge (5b) et enfin de la préposition en direction du (5c). Pour 

la première préposition de, le module de recherche des gouverneurs des prépositions 

reconnaît sans ambiguïté le nom fille comme gouverneur. Pour la deuxième préposition 

de, le module retient d’abord le nom pelote situé immédiatement à sa gauche, puis 

remonte directement au verbe lance, gouverneur de ce nom et situé à gauche, qu’il 

retient comme deuxième gouverneur candidat, et il stoppe la recherche sur ce verbe 

conjugué. Il a donc retenu 2 gouverneurs candidats pour cette préposition. Pour la 

troisième préposition de, le module retient d’abord le nom chat situé immédiatement à sa 

gauche, puis remonte directement à gauche de la préposition qui gouverne ce nom, pour 

se saisir de l’adjectif rouge, puis du nom laine, avant de remonter à la deuxième 

préposition de, gouverneur de ce nom, dont il récupère tous les gouverneurs candidats. Il 

a donc retenu 4 gouverneurs candidats pour cette préposition. 

(5a) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 

Pour trouver le gouverneur de l’adjectif rouge (5b), le module de recherche des 

gouverneurs nominaux des adjectifs part de cet adjectif, se déplace à gauche et 

sélectionne le nom laine comme candidat, puis, situé immédiatement à gauche de la 

préposition gouvernant ce nom, le nom pelote. La recherche s’arrête car ce second nom 

est gouverné par un verbe qui ne se construit pas avec un attribut. Le module a donc 

retenu 2 gouverneurs candidats pour cet adjectif. 

(5b) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 

De façon analogue (5c), le module de recherche des gouverneurs des prépositions 

identifie comme gouverneurs candidats pour la préposition en direction du les mots 

rouge, laine, pelote et lance. A la fin du traitement des relations ambiguës, l’analyse a 

produit le treillis (5d). La procédure de désambiguïsation qui intervient à l’issue de ce 

traitement produit le résultat 5e. Le résultat final complet de l’analyse est l’arbre de 

dépendance 5f. 

(5c) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 

73

(5d) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 

(5e) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 

(5f) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 

Dans l’activité de conception et de développement de l’analyseur, les problèmes à 

résoudre relèvent de deux grands types : au niveau macroscopique, ils concernent le 

choix de l’architecture du système : dans quel ordre enchaîner la reconnaissances des 

liens syntaxiques (3.1.4) ; au niveau microscopique, ils concernent la mise au point des 

algorithmes de parcours pour la reconnaissance des liens syntaxiques (3.1.5). 

3.1.4. Architecture 

SYNTEX effectue une analyse ascendante. Il identifie progressivement les liens de 

dépendance syntaxique élémentaires pour reconnaître in fine la forme syntaxique globale 

de la séquence en entrée. Des questions se posent alors concernant la stratégie à adopter 

pour traiter l’ensemble des mots de la phrase : dans quel ordre entreprendre la 

reconnaissance des liens syntaxiques ? De gauche à droite ? Relation par relation ? 

Combien de passes ? Quels types de liens reconnaître à chaque passe ? Quand on vise un 

analyseur syntaxique opérationnel, il n’y a pas lieu de s’imposer des contraintes de type 

cognitif sur l’architecture du système et rien n’exige a priori d’adopter un traitement 

incrémental, de gauche à droite, sans retour en arrière. Les questions posées sont propres 

à la problématique de développement d’un analyseur opérationnel, et les enjeux relèvent 

crucialement de l’ingénierie linguistique. 

La difficulté de fond vient de l’antinomie entre la contrainte de séquentialité des 

traitements informatiques et l’intrication des liens syntaxiques dans un énoncé. Celle-ci 

est liée à la propriété de concrétion de la langue (Milner, 1989, p. 113), qui fait qu’une 

difficulté syntaxique ne vient jamais seule. Dans un énoncé, les configurations 

syntaxiques problématiques se mêlent et s’enchevêtrent. Par exemple, du point de vue du 

traitement automatique, on sait que la coordination et le rattachement prépositionnel 

constituent chacun un problème sérieux. Mais les cas ne sont pas rares où l’analyseur 

doit résoudre les deux problèmes dans la même zone de la séquence. C’est le cas dans 

l’exemple 6, où les ambiguïtés de rattachement de la deuxième préposition à (devant 

agriculture) et de la préposition aux se mêlent avec celle de la coordination. 

(6) La commission européenne s'oppose à une limitation des discussions à 

l'agriculture et aux services. [LMO] 

74

De façon générale, l’antinomie entre séquentialité informatique et concrétion syntaxique 

débouche sur une double circularité : (1) pour reconnaître un lien syntaxique de tel type 

(Sujet, Objet, etc.) pour un mot de l’énoncé, il faudrait avoir déjà reconnu un lien d’un 

autre type pour un autre mot, et réciproquement ; (2) pour reconnaître un lien syntaxique 

pour un mot à telle place dans l’énoncé, il faudrait avoir déjà reconnu un lien à gauche, 

ou à droite, et inversement. Quelques exemples (construits) permettent illustrer cette 

circularité. Dans l’exemple 7, c’est la reconnaissance du lien syntaxique entre l’adjectif 

roses, dernier mot de l’énoncé, et le nom bonbons qui permet la reconnaissance sans 

ambiguïté du nom bonbons comme gouverneur de la préposition à. Le problème de la 

circularité est porté à son comble avec la coordination. Dans l’exemple 8, il serait 

préférable d’avoir reconnu le liens Objet entre aime et chat d’une part et le lien Sujet 

entre dort et chien d’autre part pour identifier correctement le statut du coordonnant. 

Dans l’exemple 9, la situation est plus compliquée. Pour reconnaître le lien Sujet entre 

dorment et chats, il faudrait avoir identifié le fait que le coordonnant et relie hommes et 

oiseaux, objets de regardent. Et réciproquement… 

(7) Il donne des bonbons à la fraise roses. 

(8) Jean aime le chat et le chien dort. 

(9) Les chats qui regardent les hommes et les oiseaux dorment. 

Deux ordres de séquentialité interagissent dans le traitement informatique, correspondant 

à la double circularité évoquée ci-dessus : l’ordre dans lequel on prend les mots dans la 

phrase (de gauche à droite, de droite à gauche), l’ordre dans lequel on traite les relations 

(identification des sujets avant ou après les objets, rattachement des prépositions avant 

ou après les adjectifs, etc.). La difficulté est réelle, et grande peut être la tentation de 

chercher à mettre en place des solutions d’un niveau de complexité qui serait à la hauteur 

de la difficulté du problème : par exemple, décider de générer tous les possibles, en 

repoussant au terme de l’analyse le choix de la bonne description dans le fouillis du 

treillis. Pour aboutir à un analyseur opérationnel, il faut savoir maîtriser la complexité, et 

accepter le risque d’erreur. Il faut trouver un ordonnancement optimal tel que les 

quelques pertes entraînées par des décisions précoces soient largement compensées par 

les gains ultérieurs permis par la pose anticipée de liens syntaxiques. 

Au départ du projet, j’ai choisi l’architecture et les principes suivants : 

- Une passe par relation, dans cet ordre : coordination, objet, sujet, adjectif épithète, 

prépositions. 

- Aucun module ne remet en cause les relations ou étiquettes placées par les modules 

antérieurs. 

- Chaque module résout ses ambiguïtés avant de passer la main au module suivant. 

Cette stratégie initiale de base, cloisonnée, a été rapidement opérationnelle et m’a permis 

d’enclencher le cycle de développement par essai/erreur des heuristiques des différents 

modules de connaissance de liens syntaxiques et des procédures de désambiguïsation, 

endogènes et exogènes. C’est en développant et évaluant ces modules que j’ai pu 

identifier les limites de l’architecture initiale, et imaginer des stratégies adéquates 

75

sensiblement plus complexes, pour aboutir à l’architecture présentée dans la section 

suivante de ce chapitre (3.2). 

3.1.5. Algorithmes de reconnaissance 

Le second type de problème, après celui de l’architecture, que pose le développement de 

l’analyseur est celui de la mise au point des modules de reconnaissance de liens 

syntaxiques. Dans chaque module est décrit un algorithme qui spécifie les parcours 

possibles, dans la séquence étiquetée et partiellement analysée, entre un mot de départ, 

susceptible d’être la cible ou la source d’un lien de dépendance et son gouverneur ou un 

de ses dépendants. Cet algorithme doit permettre de couvrir le maximum de 

configurations de surface susceptibles de se réaliser entre un dépendant et son 

gouverneur. L’élaboration de ces modules exige la mise au jour de contraintes 

syntaxiques locales sur lesquelles s’appuyer pour déterminer les procédures de 

reconnaissance des liens syntaxiques. Certaines de ces contraintes sont générales, en 

particulier la contrainte de projectivité (de façon générale, les liens syntaxiques ne se 

croisent pas) et la contrainte d’unicité du gouverneur (de façon générale, un mot n’a 

qu’un seul gouverneur). Mais à chaque relation syntaxique correspond des 

configurations particulières qui imposent des contraintes spécifiques. Par exemple, 

concernant le module qui recherche les sujets, quelles étiquettes morphosyntaxiques ou 

quelles configurations syntaxiques, décrites en termes soit de succession d’étiquettes, 

soit de liens syntaxiques, est-il légitime de sauter pour atteindre un sujet en partant d’un 

verbe conjugué ? Quelles sont celles au contraire qui constituent des barrières à ne pas 

franchir ? 

Pour identifier ces contraintes, et en déduire les algorithmes d’analyse, la voie la plus 

efficace est celle de la confrontation systématique aux corpus par essai/erreur, de l’aller 

et retour incessant entre l’implémentation et l’observation. C’est en implémentant et 

testant les algorithmes à grande échelle que l’on améliore la précision et la couverture 

des modules de reconnaissance. Cela est d’autant plus vrai que face à des énoncés réels, 

on est confronté à des configurations syntactico-discursives sur lesquelles les 

grammaires ou les théories syntaxiques sont peu loquaces. Par exemple, le traitement des 

coordonnants et des virgules (apposition, incise, coordination, énumération), qui 

foisonnent dans les textes réels, exigent le développement de procédures d’analyse 

complexes, qui empruntent peu aux descriptions linguistiques classiques, et qui exigent 

en revanche une analyse en corpus détaillée. Les théories syntaxiques sont de peu de 

secours. Les œuvres des grands noms de la dépendance, comme Tesnière (1959) et 

Mel’čuk (1988), sont passionnantes et stimulantes pour le grammairien qui sommeille 

dans tout concepteur d’analyseur. Mais elles fournissent peu de clés pour la mise au 

point d’un système automatique de reconnaissance de formes dépendancielles. Tel n’est 

pas leur propos. Les problèmes pratiques liés à la reconnaissance automatique de la 

structure syntaxique d’une phrase et les problèmes théoriques liés à la description 

syntaxique sont de deux ordres différents. 

76

Néanmoins, même si le développement de l’analyseur n’emprunte rien directement aux 

grammaires ou aux travaux de descriptions syntaxiques, il est impossible de mener à 

bien cette tâche sans une bonne connaissance de ces travaux. D’abord, et c’est le 

minimum, parce que le concepteur doit être capable de d’identifier lui-même l’analyse 

attendue face à toute configuration avant de chercher à modéliser des procédures de 

reconnaissance. Ensuite, il doit reconnaître des phénomènes syntaxiques identiques 

derrière la multiplicité des configurations syntaxiques de surface qu’il observe quand il 

dépouille un corpus en examinant les cas d’application des règles qu’il élabore. Il doit 

donc être expert en grammaire. Enfin, le recours à des théories et descriptions 

syntaxiques est utile pour motiver tel choix de représentation pour certaines relations de 

dépendance qui peuvent poser problème : quel est le gouverneur, quel est le dépendant, 

et dans quel sens s’établit la relation de dépendance, dans le cas, par exemple, des 

complexes verbaux, des structures comparatives, de la coordination. 

3.2. Description des modules 

3.2.1. Enchaînement des modules de reconnaissance 

L’organisation de SYNTEX est modulaire (section 3.1.4). Il y a un module par type de 

relation traitée (coordination, sujet, objet…). Un module est constitué d’un algorithme 

décrivant les parcours possibles entre un mot de départ, passé en argument, un mot 

d’arrivée auquel il est syntaxiquement relié via R. Le mot de départ est soit la source du 

lien syntaxique (le gouverneur), et dans ce cas l’orientation de la recherche est celle de la 

relation syntaxique (« orientation directe »), soit la cible (le dépendant), et dans ce cas 

l’orientation de la recherche est inverse de celle de la relation syntaxique (« orientation 

inverse »). Comme je l’ai évoqué dans la section 3.1.4 à propos de l’architecture de 

l’analyseur, le choix de l’ordonnancement des modules est délicat. A ce stade du 

développement de SYNTEX, j’ai convergé vers une organisation stable qui identifie, du 

point de vue du traitement automatique, trois grandes catégories de relations, 

correspondant à trois catégories de modules qui s’enchaînent dans cet ordre : 

- Les relations locales (section 3.2.3). Il s’agit, par exemple, des relations entre un 

déterminant et le nom qui le gouverne, entre une préposition et son dépendant, entre 

un auxiliaire et un participe passé. Les liens syntaxiques correspondant connectent 

des mots qui sont très proches, et les procédures de reconnaissance sont simples 

- Les relations non ambiguës (sections 3.2.5 et 3.2.6). Il s’agit des relations Objet, 

Attribut et Sujet. Les modules associés sont à orientation directe : chaque module 

part du gouverneur (verbe) à la recherche du dépendant. Le problème de la 

reconnaissance se formule pour chacune des relations de la façon suivante : 

sélectionner le premier mot non gouverné (de telle ou telle catégorie, situé à droite 

ou à gauche, selon la relation). Ces modules ne génèrent aucune ambiguïté. 

77

- Les relations ambiguës (sections 3.2.7 à 3.2.12). Il s’agit de la relation entre un 

pronom relatif et son antécédent, la relation entre une préposition et son gouverneur 

et la relation entre un adjectif et le nom dont il est épithète. Les modules associés 

sont à orientation inverse : chaque module part du dépendant (pronom relatif, 

préposition, adjectif) à la recherche du gouverneur. Contrairement au cas précédent, 

la recherche ne doit pas s’arrêter au premier gouverneur trouvé. Plusieurs 

gouverneurs candidats peuvent être sélectionnés, qui sont tous syntaxiquement 

également plausibles : ils ne peuvent être départagés sur de simples critères de 

configuration syntaxique. Ces relations imposent donc une étape de 

désambiguïsation. 

La relation de coordination a un statut à part ; elle est traitée immédiatement après les 

relations locales (section 3.2.4). Un module global intervient en fin de traitement 

(section 3.2.13) pour modofoer certains liens syntaxiques posés par les modules 

antérieurs, ajouter des liens syntaxiques « profonds » et construire la forme syntaxique 

globale de la séquence. Avant de décrire en détail les différents modules, je présente, 

dans la section suivante, les primitives d’implémentation utilisées dans les algorithmes 

de parcours. 

3.2.2. Formalisation du parcours 

Dans le développement de l’analyseur SYNTEX, l’essentiel du travail porte sur la mise au 

point des algorithmes décrivant les parcours possibles, dans la chaîne étiquetée et 

partiellement annotée, entre les deux extrémités d’un lien syntaxique : entre un 

dépendant et son gouverneur pour les modules à orientation inverse, entre un gouverneur 

et un de ses dépendants pour les modules à orientation directe. J’ai défini un certain 

nombre de fonctions primitives de calcul des pas de déplacement dans les parcours. Ces 

primitives exploitent la propriété de projectivité ; sauf cas particuliers, les arbres de 

dépendance construits par SYNTEX sont projectifs : « en plaçant les nœuds sur une ligne 

droite et tous les arcs dans le même demi-plan, on peut assurer que 1) deux arcs ne se 

coupent jamais et que 2) aucun arc ne couvre la racine de l’arbre. (…) La projectivité est 

équivalente au fait que la projection de tout nœud x de l’arbre (c’est-à-dire l’ensemble 

des nœuds dominés par x, x compris) forme un segment continu de la phrase. » (Kahane, 

2001, p. 26). Les primitives de déplacement exploitent cette propriété en calculant les 

pas de déplacement de telle sorte qu’un lien posé entre un point d’arrêt et le point de 

départ du déplacement ne croise aucun lien déjà placé. 

Avant de décrire ces fonctions, j’illustre l’idée avec un exemple figuré. Supposons 

(exemple 1) qu’un module à orientation directe cherche un dépendant du mot f à sa 

gauche, et qu’aient été placés les liens entre les mots a et c et entre les mots c et e (par 

exemple, f est un verbe, le module cherche son sujet, certains liens prépositionnels ou 

adjectivaux ont été placés). Au moment d’entamer son parcours à gauche, le module ne 

peut s’arrêter sur le mot e car celui-ci a déjà un gouverneur (principe de l’unicité du 

gouverneur) (exemple 2). Il ne peut s’arrêter sur le mot d car un lien syntaxique entre les 

mots f et d viendrait couper un lien déjà placé (principe de la projectivité) (exemple 3). 

78

Le module ne peut s’arrêter sur le mot c ou sur le mot d pour des raisons analogues. Le 

premier pas du parcours doit conduire au mot a (exemple 4), qui sera ainsi le premier 

mot testé comme dépendant de f. 

(1) a b c d e f 

! 

(2) a b c d e f 

! 

(3) a b c d e f 

(4) a b c d e f 

? 

Les fonctions primitives permettent d’implémenter le calcul des pas de parcours. Avant 

de les décrire, quelques notations : 

Soit un mot, soit i son numéro, c’est-à-dire son rang dans l’énoncé segmenté : 

Gov(i) est l’ensemble constitué du couple (R,L). R est le nom d’une relation syntaxique. 

L est une liste de numéros de mots. Quand la relation syntaxique R pointant sur i a 

été désambiguïsée, la liste L ne comporte qu’un seul élément, qui est le gouverneur 

de i via la relation R. Quand la relation syntaxique R pointant sur i n’a pas été 

désambiguïsée, la liste L contient les numéros des gouverneurs candidats de i via la 

relation R. 

Gov(i)={(R,{j1, …, jn}), où n est le nombre de gouverneurs candidats de i, via la 

relation R} 

Dep(i) est l’ensemble des couples (Rj,j), tels que le mot j est le dépendant de i via la 

relation Rj. Un mot peut avoir plusieurs dépendants. Les couples sont ordonnés par 

valeur croissante de j. Le couple (Rj,j) n’intègre l’ensemble Dep(i) que quand la 

relation Rj a été désambiguïsée, c’est-à-dire si Gov(j)={( Rj,i)}. 

Dep(i)={(Rj,j), pour j=j1, …, jn, où n est le nombre de dépendants de i} 

Je donne ci-dessous quelques exemples illustratifs (exemples 5 et 6, tableaux 1, 2 et 3). 

SUJ est la relation sujet ; OBJ est la relation complément d’objet ; DET est la relation entre 

un nom et son déterminant ; PREP est la relation entre une préposition et son 

gouverneur ; CPREP est la relation entre une préposition et son dépendant ; ADJ est la 

relation entre un adjectif et son gouverneur nominal. 

79

(5) Le 1 chat 2 de 3 Marie 4 regarde 5 la 6 souris 7 grise 8 . 

i Mot Gov(i) Dep(i) 

1 Le {(DET, {2})} ∅ 

2 Chat {(SUJ, {5})} {(DET, 1), (PREP, 3)} 

3 De {(PREP, {2})} {(CPREP, {3})} 

4 Marie {(CPREP, {3})} ∅ 

5 Regarde ∅ {(SUJ, 2), (OBJ, 7)} 

6 La {(DET, {7})} ∅ 

7 Souris {(OBJ, {5})} {(DET, 6), (ADJ, 8)} 

8 Grise {(ADJ, {7})} ∅ 

Tableau 1. Fonctions Gov et Dep pour l’exemple 5 

80

(6) Marie 1 regarde 2 le 3 chat 4 gris 5 sur 6 le 7 paillasson 8 . 

i mot Gov(i) Dep(i) 

1 Marie {(SUJ, {2})} ∅ 

2 regarde ∅ {(SUJ, 1), (OBJ, 4)} 

3 le {(DET, {4})} ∅ 

4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5)} 

5 gris {(ADJ, {4})} ∅ 

6 sur {(PREP, {5,4,2})} {(CPREP, {8})} 

7 le {(DET, {8})} ∅ 

8 paillasson {(CPREP, {6})} {(DET, 7)} 

Tableau 2. Fonctions Gov et Dep pour l’exemple 5, avant désambiguïsation de la 

relation PREP pointant sur 4 

i mot Gov(i) Dep(i) 

1 Marie {(SUJ, {2})} ∅ 

2 regarde ∅ {(SUJ, 1), (OBJ, 4)} 

3 le {(DET, {4})} ∅ 

4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5), (PREP, 6)} 

5 gris {(ADJ, {4})} ∅ 

6 sur {(PREP, {4})} {(CPREP, {8})} 

7 le {(DET, {8})} ∅ 

8 paillasson {(CPREP, {6})} {(DET, 7)} 

Tableau 3. Fonctions Gov et Dep pour l’exemple 5, après désambiguïsation de la 

relation PREP pointant sur 4 

On dispose de deux fonctions de base, qui donnent pour un mot donné dans une 

séquence partiellement analysée les frontières droite et gauche de sa projection : frDmax 

et frGmax. La fonction frDmax prend comme argument le numéro d’un mot et retourne 

la frontière droite de sa projection. La fonction frGmax prend comme argument le 

numéro d’un mot et retourne la frontière gauche de sa projection. Ce sont deux fonctions 

récursives. Le principe, pour la fonction frDmax, est le suivant : dans la liste des 

dépendants du mot, sélectionner le dépendant le plus à droite ; si ce mot n’a pas de 

dépendant, il est la frontière droite ; s’il a un ou plusieurs dépendants, chercher sa 

frontière droite, qui sera celle du mot initial, et ainsi de suite (tableau 4). Par exemple, 

soit le mot regarde dans l’exemple (1). Son dépendant le plus à droite est le mot souris ; 

le dépendant le plus à droite de souris est grise, qui n’a pas de dépendant. La frontière 

droite de souris est donc le mot grise, qui est aussi la frontière droite du mot regarde. 

81

Fonction frDmax(i) 

si Dep(i) = ∅ , retourner i 

sinon Dep(i) = {(Rj,j), pour j=j1, …, jn} 

si jn > i , retourner frDmax(jn) 

sinon , retourner i 

Fonction frGmax(i) 

si Dep(i) = ∅ , retourner i 

sinon Dep(i) = {(Rj,j), pour j=j1, …, jn} 

si j1 

sinon , retourner i 

Tableau 4. Fonction frDmax et frGmax 

On peut maintenant décrire les fonctions de base de parcours de la chaîne annotée. Dans 

l’algorithme décrivant le parcours entre le point de départ (gouverneur ou dépendant) 

d’une relation syntaxique et le point d’arrivée (dépendant ou gouverneur), la fonction de 

base permet de passer d’un élément testé au prochain à tester. Chaque fonction de base 

donne ainsi le pas élémentaire du parcours. Il y a 4 fonctions de base, selon le sens de 

déplacement, de gauche à droite (gd) ou de droite à gauche (dg), et selon l’orientation de 

la recherche par rapport à celle de la relation syntaxique, du gouverneur au dépendant 

(GD) ou du dépendant au gouverneur (DG) : 

- fonction gdGD : de gauche à droite quand on part du gouverneur et que l’on cherche 

un dépendant 

- fonction dgGD : de droite à gauche quand on part du gouverneur et que l’on cherche 

un dépendant 

- fonction gdDG : de gauche à droite quand on part du dépendant et que l’on cherche 

un gouverneur 

- fonction dgDG : de droite à gauche quand on part du dépendant et que l’on cherche 

un gouverneur 

Je décris plus en détail la dernière fonction, qui est la plus utilisée. C’est celle qui est 

utilisée par le module ADJ qui cherche à gauche d’un adjectif des gouverneurs candidats 

nominaux. C’est celle aussi qui est utilisée par le module PREP qui cherche à gauche 

d’une préposition des gouverneurs candidats verbaux, nominaux ou adjectivaux. La 

fonction dgDG a 2 arguments : i, le numéro du mot courant dans le parcours, et i0 le 

numéro du mot initial dont on cherche des gouverneurs candidats. La fonction retourne 

le numéro du prochain mot à analyser. Si cette valeur est 0, la recherche de gouverneurs 

candidats s’arrête (tableau 5). Je précise qu’il s’agit d’une description simplifiée, les 

choses se compliquant sensiblement avec la prise en compte des relations de 

coordination et d’antécédence relative et des structures comparatives. 

82

Fonction dgDG(i,i0) 

1. si frDmax(i) > i0 , retourner 0 

2. sinon 

3. si Gov(i) = ∅ , retourner frGmax(i)-1 

4. sinon Gov(i) = {(R,L)} 

5. si L={j} 

6. si j>i , retourner 0 

7. sinon retourner j 

8. sinon L={j1, …, jn} 

9. tester j1, …, jn comme candidats pour i0 

10. retourner dgDG(j1) 

Tableau 5. Fonction dgDG 

J’illustre les différents pas de l’algorithme avec les exemples 7 à 11 28 . Dans l’exemple 5, 

le module PREP cherche les gouverneurs potentiels de la préposition à. L’action du pas 

n°1 arrête le parcours au nom bonbons, car le choix d’un gouverneur à gauche de ce nom 

provoquerait un croisement avec le lien syntaxique entre le mot bonbons, situé à gauche 

de la préposition, et le mot fraise, situé à sa droite. Dans l’exemple 6, le module ADJ 

cherche les gouverneurs potentiels du participe passé installée. Après que le nom tension 

a été testé et retenu comme candidat, l’action du pas n°3 prolonge le parcours au nom 

ligne, situé immédiatement à gauche de la frontière Gauche du mot tension. La recherche 

s’arrête car la frontière Gauche du mot ligne est le premier mot de la phrase. Dans 

l’exemple 7, le module ADJ cherche les gouverneurs potentiels de l’adjectif gris. 

L’action du pas n°6 arrête le parcours au nom chat, car le choix d’un gouverneur à 

gauche de ce nom provoquerait un croisement avec le lien syntaxique placé entre chat et 

dort. Dans l’exemple 8, le module PREP cherche les gouverneurs potentiels de la 

préposition aux. Après que l’adjectif roses a été testé et retenu comme candidat, l’action 

du pas n°7 prolonge le parcours au nom bonbon, qui est le gouverneur de l’adjectif (le 

nom fraise est « sauté », car un lien entre aux et fraise viendrait croiser le lien déjà posé 

entre roses et bonbons). Le parcours se prolonge au mot donne situé immédiatement à 

gauche de la frontière Gauche du mot bonbons (pas n°3), et elle s’arrête car ce mot est 

un verbe. Dans l’exemple 9, le module PREP cherche les gouverneurs potentiels de la 

préposition à. Après que l’adjectif rose a été testé et retenu comme candidat, l’action du 

pas n°9 entraîne le test des noms fraise et bonbon, gouverneurs candidats de l’adjectif, 

comme gouverneurs candidats pour la préposition, et l’action du pas n°10 prolonge le 

parcours au verbe donne, situé immédiatement à gauche de la frontière Gauche du 

premier candidat (bonbon). Le module ajoute ce verbe à la liste des candidats, et arrête 

sa recherche. 

28 Je rappelle que, dans les exemples, les flèches situées au-dessus de la séquence représentent les liens 

syntaxiques déjà placés, les flèches en traits pointillés au-dessous de la séquence représentent les pas du 

parcours. Les barres verticales marquent l’arrêt du parcours. 

83

(7) Il donne des bonbons à la fraise roses 

(8) La ligne très haute tension installée … 

(9) Le chat gris dort. 

(10) Il donne des bonbons à la fraise roses aux enfants 

(11) Il donne un bonbon à la fraise rose à l’enfant 

3.2.3. Les relations locales 

? 

Au cours de la première phase du traitement, l’analyseur s’occupe des relations 

syntaxiques locales, en posant par exemple les liens syntaxiques entre les déterminants et 

les noms qui les gouvernent, entre les prépositions et les mots qu’elles gouvernent, entre 

les auxiliaires et les participes passés. Cette phase s’apparente au chunking des 

analyseurs de surface (Abney, 1990a) (Vergne, 1999). Ces liens syntaxiques connectent 

dans la très grande majorité des mots qui sont très proches. Les procédures de 

reconnaissance sont donc simples. C’est pourquoi j’énumère ici les types de liens posés, 

en précisant les catégories des gouverneurs et dépendants impliqués, sans entrer dans les 

détails d’implémentation. Le traitement s’effectue en plusieurs passes sur la phrase. 

Entités nommées 

Les dates (22 janvier 2007, juin 2002) sont reconnues avant l’étiquetage et concaténées 

en mots, étiquetés NomDate. Les patronymes sont reconnus lors de cette première étape 

d’analyse, à partir d’une liste de prénoms et de règles d’exploration autour des 

occurrences de prénoms. Quand un patronyme est reconnu, le nom de famille gouverne 

le ou les (initiales de) prénoms (1a-b). 

84

(1a) Victor Hugo (1b) John F. Kennedy 

Déterminants 

Le module DET place un lien entre un déterminant et son gouverneur, qui est toujours un 

nom (2a-c). Un certain nombre de déterminants complexes sont reconnus au cours d’une 

phase de concaténation qui s’insère entre l’étiquetage et l’analyse syntaxique : tous les, 

plus de, beaucoup de, la plupart des, l’un des, etc. L’ambiguïté bien connue liée à ces 

unités n’est pour le moment pas traitée dans SYNTEX, ce qui conduit parfois à des 

segmentations malheureuses : il ne veut plus_de vin. 

(2a) Le chat (2b) Beaucoup_de chats (2c) 5 chats 

Le module DET part du déterminant et parcourt la séquence étiquetée vers la droite à la 

recherche d’un nom. Pendant le voyage, il peut effectuer des réétiquetages « à la volée ». 

Par exemple, il arrive assez fréquemment que le TREETAGGER reconnaisse, après un 

déterminant, deux adjectifs consécutifs, non suivis d’un nom. Ce type d’ambiguïté, 

succession des deux mots pouvant être Nom ou Adjectif, est courant. Dans ces contextes, 

le module DET réétiquette le premier en nom, systématiquement, ce qui constitue dans la 

très grand majorité des cas le bon choix, comme dans l’exemple 2d où génératrice est 

réétiqueté en nom, mais produit parfois une erreur comme dans l’exemple 2e'. 

(2d) Par suite du récent accident à laD génératriceA nucléaireA de 

Tchernobyl,[HAN] 

(2d’) Par suite du récent accident à laD génératriceN nucléaireA de 

Tchernobyl,[HAN] 

(2e) Les médias régionaux rapportent lesD bonnesA nouvellesA comme celle là. 

[HAN] 

(2e') Les médias régionaux rapportent lesD bonnesN nouvellesA comme celle là. 

[HAN] 

Prépositions 

Le module CPREP place un lien entre une préposition et son dépendant, qui peut être un 

nom, un pronom ou un verbe à l’infinitif (3a-c). Un certain nombre de prépositions 

complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage : 

afin de, en faveur de, au cours de, au sujet de, etc. L’ambiguïté liée à ces unités n’est 

pour le moment pas traitée dans SYNTEX. Ce module effectue du réétiquetage à la volée 

comme le module DET. 

(3a) avec le chat (3b) avec lui (3c) afin_de partir 

85

Formes de+le 

Les formes de+le (du, de la, des, de l’) posent un redoutable problème d’étiquetage, 

puisqu’elles peuvent être selon les contextes Déterminant ou Préposition. J’ai choisi de 

ne pas tenir compte des choix du TREETAGGER et toutes ces formes sont étiquetées 

PrepDet (PD) en entrée de SYNTEX. La désambiguïsation de ces formes est répartie en 

plusieurs points de la chaîne d’analyse. Les modules DET et CPREP effectuent une partie 

du travail, dans les contextes suivants : immédiatement après un nom ou un adjectif, une 

forme de+le est systématiquement considérée comme une préposition ; immédiatement 

après un verbe une forme de+le est systématiquement considérée comme un 

déterminant, sauf si le verbe est un verbe pronominal ou s’il appartient à une liste qui 

regroupe des verbes intransitifs se construisant avec un complément en de 

(démissionner, dépendre, etc.) 29 , auquel cas elle est étiquetée Préposition. Les principaux 

cas d’ambiguïtés qui subsistent sont ceux dans lesquels une forme de+le est précédée 

d’une virgule ou d’un coordonnant. Nous verrons à la section 3.2.4 comment se passe la 

désambiguïsation dans ces cas. 

Complexes verbaux 

Un ensemble de modules s’occupe du complexe verbal 30 . Il s’agit de reconnaître les liens 

syntaxiques au sein de séquences constituées de verbes, de modaux (pouvoir, devoir) et 

d’auxiliaires (être, avoir), à des formes conjuguées ou au participe passé, ainsi que 

d’adverbes, de pronoms réfléchis et de pronoms clitiques. Je n’entre pas dans le détail de 

l’implémentation. Les exemples 4a-h donnent une idée des types de liens reconnus et de 

la façon dont ils sont représentés. 

(4a) Il a mangé. (4b) Il est venu. (4c) Il a été vu 

(4d) Il peut manger. (4e) Il a pu manger. (4f) Il peut avoir mangé. 

(4g) Il peut s’ être trompé. (4h) Il peut l’avoir mangé. (4i) Il ne peut pas venir. 

Adverbes 

29 Cette liste a été constituée, à partir des tables du Lexique-Grammaire, par Cécile Frérot (Frérot et al., 2002) 

30 Ces modules ont été réalisés par Marie-Paule Jacques, que je remercie ici chaleureusement. 

86

Le module ADV place un lien entre un adverbe et son gouverneur, qui peut être un verbe, 

un adjectif, un autre adverbe ou un nom (exemples 5a-d). Un certain nombre d’adverbes 

complexes sont reconnus au cours de la phase de concaténation qui suit l’étiquetage : le 

plus, en effet, par exemple, en revanche, en particulier, par ailleurs, etc. L’ambiguïté 

liée à ces unités n’est pour le moment pas traitée dans SYNTEX. Les heuristiques de 

reconnaissance sont locales et ne couvrent que les cas où un gouverneur est trouvé à 

proximité de l’adverbe. A l’issue de ce traitement, environ 70% des adverbes ont été liés. 

Les adverbes orphelins vont le rester jusqu’à la fin de l’analyse. Il manque ici une 

analyse linguistique systématique et détaillée pour élaborer une typologie des cas de 

figure dans lesquels un adverbe n’a pu être attaché. Mais beaucoup de ceux-ci se 

trouvent en début ou fin de phrase, souvent précédés ou suivis d’une virgule, ou bien 

entre virgules à l’intérieur de la séquence. Dans de tels contextes, les adverbes relèvent 

le plus souvent de l’organisation discursive, et peuvent difficilement être liés à un mot 

particulier de la séquence (cf. section 3.1.2). Le fait que des adverbes flottent ainsi dans 

les séquences ne perturbe pas outre mesure les traitements ultérieurs puisque les 

heuristiques de parcours les sautent allègrement. 

(5a) Il court vite. (5b) très rapide (5c) très vite (5d) non prolifération 

Conjonctions de subordination 

La relation de dépendance entre une conjonction de coordination et le verbe de la 

proposition subordonnée n’est pas à proprement parler une relation locale. Les liens de 

ce type sont reconnus lors de cette étape car sans être locaux ils sont faciles à identifier. 

Le module CSUB place un lien entre une conjonction de subordination, autre que que, et 

son dépendant, qui est un verbe conjugué (6). Un certain nombre de conjonctions 

complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage : 

pour que, bien que, à ce que, alors que, etc. L’ambiguïté liée à ces unités n’est pour le 

moment pas traitée dans SYNTEX. La procédure de reconnaissance est simple et peu 

faillible, et n’est mise en défaut qu’en cas d’erreurs d’étiquetage : parcourir la séquence 

à droite jusqu’à rencontrer un verbe conjugué. 

(6) Quand Jean est venu 

Formes Que 

Une forme que peut être adverbe, pronom relatif, conjonction de subordination. Le 

traitement des formes que est réparti aux deux extrémités de la chaîne d’analyse. Lors de 

cette première étape de reconnaissance de liens syntaxiques locaux, un module de 

87

traitement 31 prend en charge toutes les formes que, quelle que soit la catégorie 

morphosyntaxique attribuée par l’étiqueteur. Ce module repère des constructions locales 

pour résoudre un certain nombre d’ambiguïtés catégorielles et poser sous certaines 

conditions des liens syntaxiques impliquant une forme que. En plus des étiquettes des 

mots entourant la forme que et des liens syntaxiques placés par des modules antérieurs 

(entre verbe et adverbe essentiellement), les informations mobilisées sont des listes 

lexicales : noms prenant un complément en que, adverbes susceptibles d’entrer dans une 

construction corrélative, adverbes de négation, verbes prenant un objet direct en que. Les 

exemples 7a-k résument les différentes configurations traitées. A l’issue de ce premier 

traitement, selon les corpus, de 85 à 95% des formes que étiquetées Adverbe sont liées. 

Cette fourchette est de l’ordre de 50 à 60% pour les formes étiquetées Conjonction, qui 

sont dans leur très grande majorité liées à des gouverneurs verbaux et dépendants 

verbaux. Les conjonctions que encore libres à l’issue de cette étape seront reconsidérées 

en fin d’analyse (section 3.2.13). 

(7a) Il ne mange que du pain. (7b) Il veut que Jean vienne. 

(7c) Un autre que Jean (7d) Un homme autre que Jean 

(7e) Un homme tel que Jean (7f) La loi telle qu’ elle a été votée 

(7g) davantage que Jean (7h) ainsi que Jean le veut 

(7i) plus rapide que Jean (7j) plus rapide qu’ il n’ paraît 

(7k) si triste que Jean pleure 

31 Ce module a été réalisé par Marie-Paule Jacques, que je remercie de nouveau. 

88

3.2.4. Coordination 

La représentation de la coordination fait l’objet de débats chez les théoriciens de la 

dépendance. Tesnière relie deux mots coordonnés par un « trait de jonction », constitué 

de deux tronçons au milieu desquels apparaît le « jonctif » (la conjonction de 

coordination) ; le jonctif ne porte aucun lien de dépendance (Tesnière, 1959, 

pp. 326-327). Mel’čuk considère que, d’un point de vue syntaxique, la coordination n’est 

pas symétrique et que l’élément coordonné gauche gouverne la conjonction, qui 

elle-même gouverne l’élément droit (Mel’čuk, 1988, pp. 26-33). Il intègre dans son 

formalisme la notion de « groupement » pour représenter les relations de dépendance qui 

impliquent les éléments d’une chaîne coordonnée dans leur ensemble. Pour Hudson 

(2000), la conjonction de coordination fait partie de la structure de coordination mais ne 

porte aucune relation de dépendance. 

tombent 

Alfred et Bernard (Tesnière, 1959) 

sa gaieté et son accent étonnant (Mel’čuk, 1988) 

[ sa gaieté et son accent ] étonnants (Mel’čuk, 1988) 

Jo (reads and writes) books (Hudson, 2000) 

Ces questions de représentation sont essentielles dans le contexte du développement 

d’un appareil théorique ou descriptif pour la syntaxe des langues. Les choix de 

représentation trouvent leur justification dans la cohérence globale du cadre théorique 

dans lequel ils sont inscrits par les différents auteurs. D’un point de vue 

épistémologique, le projet de développement d’un analyseur syntaxique n’est pas de 

même nature. Il s’agit de mettre au point des algorithmes de reconnaissance de chaînes 

de coordination dans des séquences attestées. Le problème est celui de la reconnaissance 

automatique et non pas celui de la représentation. Le choix d’une représentation est alors 

une affaire de convention, d’autant plus si ces représentations sont formellement 

mutuellement traduisibles les unes vers les autres. Si l’analyseur trouve les différents 

éléments d’une coordination, il peut « rendre » les résultats de sa recherche sous 

différentes formes, correspondant à différentes conventions de représentation. J’ai choisi 

comme convention de considérer le coordonnant comme le gouverneur de tous les 

89

éléments coordonnés, et comme la cible ou source des liens syntaxiques extérieurs 

(exemple 1). Je peux justifier ce choix en termes de commodités d’implémentation, mais 

non sur des bases théoriques. 

(1) X , Y et Z 

(1a) Alfred et Bernard tombent. 

(1b) sa gaieté et son accent étonnants 

(1c) Jo reads and writes books 

La reconnaissance automatique des liens de coordination est un problème difficile. La 

relation de coordination interfère avec toutes les relations syntaxiques : des éléments 

coordonnés sont susceptibles d’être source ou cible de tous les types de liens 

syntaxiques. L’enchevêtrement des liens fait que c’est avec la coordination que le 

problème de la circularité se pose avec le plus de gravité : à quel(s) moment(s) 

reconnaître les liens de coordination ? J’ai choisi au départ du projet de traiter la 

coordination dès le premier stade de l’analyse, juste après la reconnaissance des liens 

syntaxiques locaux. L’idée étant alors de mettre beaucoup d’efforts sur ce module pour 

rendre plus simple la reconnaissance, au niveau des couches supérieures de l’analyse, 

des autres types de liens syntaxiques. Dans les versions successives de l’architecture, je 

ne suis pas revenu sur ce choix. La coordination est traitée en premier. Mais il est clair 

que les progrès du traitement de la coordination passeront par l’instauration d’un mode 

réparti, certaines configurations pouvant être reconnues tôt dans le processus d’analyse, 

alors que d’autres le sont plus aisément avec plus de liens syntaxiques préalablement 

reconnus. 

Le traitement de la coordination inclut celui des virgules coordinatrices. De façon 

générale, le traitement de la virgule est lui aussi très difficile. La virgule n’a jamais 

passionné les linguistes, au contraire de la coordination, et les grammaires ou les théories 

syntaxiques sont peu loquaces à son sujet. Pourtant, quand il s’agit de réaliser un 

analyseur syntaxique opérationnel, la virgule est un problème transversal, comme la 

coordination, qui se pose pour toutes les relations syntaxiques : quelle que soit la relation 

syntaxique pour laquelle on cherche à mettre au point des algorithmes de 

reconnaissance, il faut tenir compte, dans la description du parcours entre un dépendant 

90

et son gouverneur potentiel, de l’irruption possible de virgules, dont il est le plus souvent 

difficile de savoir si elles marquent une coordination ou une incise, et, dans le second 

cas, si l’on est à l’intérieur ou à l’extérieur de l’incise. La coordination et la virgule sont 

des problèmes massifs, comme l’illustrent les données du tableau 6, qui indique que, 

selon les corpus, entre 22 et 36% des séquences contiennent au moins un coordonnant, et 

entre 44 et 76% des séquences contiennent au moins une virgule. 

% #séquences LMO HAN STX 

0 coordonnant 64 72 78 

1+ coordonnant 36 28 22 

0 virgule 34 56 51 

1 virgule 20 28 16 

2 virgules 18 11 15 

3+ virgules 28 5 18 

Tableau 6. % des séquences avec coordonnants et avec virgules 

Toute virgule dans le contexte droit de laquelle se trouve un élément coordonné est 

traitée comme un coordonnant. De façon à pouvoir traiter les virgules coordinatrices lors 

de la même passe sur la séquence que les coordonnants, on analyse la séquence de la 

droite vers la gauche. Par exemple dans la séquence « bleu, blanc et rouge », le 

coordonnant et est d’abord traité, les adjectifs blanc et rouge sont coordonnés, puis, 

comme la virgule est suivie d’un mot coordonné (l’adjectif blanc), elle est traitée comme 

un coordonnant, et les adjectifs bleu et blanc sont coordonnés. 

Le principe du traitement de la coordination est le suivant : quand un coordonnant est 

reconnu, le module recherche dans son contexte droit le mot initial, celui susceptible 

d’être le dernier mot de la chaîne coordonnée (par exemple l’adjectif rouge pour le 

coordonnant et dans la séquence « bleu, blanc et rouge »). Le traitement de la 

coordination est isocatégoriel, c’est-à-dire que les configurations de coordination 

potentiellement reconnues par l’analyseur, dans son état actuel, sont celles où les 

éléments coordonnés ont tous la même catégorie morphosyntaxique. L’analyseur échoue 

quand, par exemple, des noms propres et des syntagmes définis sont coordonnés, ou 

quand des adjectifs ou des adverbes sont coordonnés avec des syntagmes 

prépositionnels. Cette contrainte d’isocatégoricité pourra être relâchée quand le 

traitement de la coordination interviendra plus tard dans le processus d’analyse. Même 

avec cette hypothèse simplificatrice, valide dans une très grande majorité de cas, la tâche 

de reconnaissance est rude. 

Une fois le mot initial reconnu, le module de coordination lance une recherche dans le 

contexte gauche du coordonnant d’un mot de la même catégorie que le mot initial. Les 

catégories concernées sont (par ordre approximatif de difficulté croissante) : adjectif, 

participe passé, verbe, conjonction de subordination que, pronom relatif, préposition 

autre que de, préposition de, nom. Toute la difficulté est dans l’élaboration des 

algorithmes de parcours de la séquence à gauche du coordonnant. Puisque, d’une part, 

peu de liens ont été placés à ce stade de l’analyse, sur lesquels l’algorithme pourrait 

91

s’appuyer, et que, d’autre part, les liens de coordination peuvent s’établir à longue 

distance, il faut apporter beaucoup de soin dans la mise au point des algorithmes. 

Comme il est impossible d'anticiper toutes les configurations possibles, il faut procéder 

par essais/erreurs via de multiples tests sur corpus. L’outil lui-même sert de dispositif de 

découverte. 

Adjectif et participes passés 

La coordination des adjectifs et participes passés ne pose pas de difficultés majeures. 

Dans l’exemple 2 32 , le module Coordination détecte d’abord le coordonnant et, et le mot 

initial belle, puis il reconnaît l’adjectif coordonné épaisse. Ensuite, il détecte la virgule, 

suivie de l’adjectif coordonné épaisse, et reconnaît le troisième adjectif coordonné 

fripée. Dans l’exemple 3, le module Coordination détecte le coordonnant et, et le mot 

initial spécialisé, puis il remonte sans embûche jusqu’au participe passé créé. Dans les 

exemple 4 et 4’, après avoir reconnu la coordination entre les participes passé quitté et 

créé, le module Coordination déplace la cible de la relation partant de l’auxiliaire ont du 

participe quitté au coordonnant et. 

Verbe 

(2) Et les vieilles mains tremblaient, et Rivière détournait les yeux de cette peau 

fripée, épaisse et belle. [STX] 

(3) Il est « chasseur de têtes » à la Banque centrale de recrutement, un cabinet 

créé en septembre 1997 et spécialisé dans les métiers de l'informatique. 

[LMO] 

(4) des dizaines de militants ont quitté les organisations traditionnelles et créé 

leurs propres structures. [LMO] 

(4’) des dizaines de militants ont quitté les organisations traditionnelles et créé 

leurs propres structures. [LMO] 

La coordination des verbes ne pose pas non plus de difficultés majeures. On coordonne 

des verbes à des formes finies (exemples 5 et 6), ou des verbes à l’infinitif (exemple 7). 

(5) Ce massacre provoqua l'indignation internationale et modifia l'attitude de la 

communauté internationale face à la RFY. [LMO] 

(6) Ils sont ensuite allés vérifier sur le terrain et ont complété un travail similaire 

effectué cet hiver par la mission de vérification de l' OSCE ( KVM ). [LMO] 

32 Pour ne pas surcharger le manuscrit de flêches de dépendance, j’adopte une seconde convention pour 

marquer les relations de dépendance dans les séquences : le gouverneur est en gras et souligné, le ou les 

dépendant(s) sont en gras. 

92

(7) Ils pourront communiquer avec le journaliste pour lui demander des 

précisions ou lui suggérer une question lors d'une interview. [LMO] 

Pronom relatif 

Le module Coordination coordonne des pronoms relatifs, qui peuvent être le cas échéant 

gouvernés par une préposition (exemples 8 à 10). 

(8) Comme Touré, qui a quitté la Guinée en 1992 « pour des raisons politiques » 

et qui dit ne pas pouvoir rentrer dans son pays sans risque pour sa vie. [LMO] 

(9) Le président Siaka Stevens était célèbre pour la canne creuse sur laquelle il 

s'appuyait et surtout dans laquelle il plaçait les diamants devant parvenir en 

Europe sans attirer la curiosité des douaniers. [LMO] 

(10) Ils tardent à distribuer les nouvelles molécules attendues par les patients sur 

lesquels tous les traitements ont échoué et qui vont mourir ». [LMO] 

Conjonction de subordination que 

Une conjonction de subordination que peut être coordonnée avec une autre conjonction 

que (exemple 11) ou avec toute autre conjonction (exemple 12). 

(11) Ils apprenaient là, mystérieusement, que, peut-être, on suspendrait les vols de 

nuit, et que le courrier d'Europe lui-même ne décollerait plus qu' au jour. 

[STX] 

(12) Rivière connut cette irritation, que l'on éprouve quand le rapide stoppe sur la 

voie, et que les minutes ne délivrent plus leur lot de plaines. [STX] 

Préposition autre que de 

Pour les prépositions, la contrainte d’isocatégoricité est propagée au dépendant des 

prépositions : si la préposition initiale gouverne un nom ou un pronom (resp. un verbe à 

l’infinitif), le module de coordination cherche dans le contexte gauche une préposition 

gouvernant un nom ou un pronom (resp. un verbe à l’infinitif) (exemples 13 et 14). Le 

module de recherche à gauche prend la première préposition qui satisfait cette 

contrainte. Les prépositions ne sont pas nécessairement identiques. 

(13) Confrontés aux lenteurs de la justice ou à l'attitude jugée partiale d'un 

magistrat. [LMO] 

(14) C'était là le moyen le plus intelligent d'obliger les nationalistes partisans de la 

clandestinité à faire leurs preuves et à dépasser les discours incantatoires et 

négatifs. [LMO] 

Préposition de 

La coordination des prépositions de et celle des noms posent de très sérieux problèmes. 

Quand la préposition de gouverne un verbe à l’infinitif, le traitement est simple, 

analogue à celui des autres prépositions (exemple 15). Les choses se compliquent quand 

93

la préposition de gouverne un nom. La préposition de coordonnée à gauche n’est pas 

systématiquement la première préposition de rencontrée. Lors du parcours de recherche, 

le module de coordination peut retenir plusieurs prépositions de candidates. Il y a donc 

ambiguïté, comme dans les exemples 16 à 18 33 . 

(15) Ici on a choisi de ne pas dénoncer les crimes de guerre et de soigner les gens. 

[LMO] 

(16) Que ce soit au titre du Programme de développement de l'emploi ou du 

nouveau Programme de développement des collectivités. [HAN] 

(17) Elle demande au gouvernement d'aider les travailleurs de l'industrie du bois 

d'oeuvre et du bardeau en vertu de la Loi de soutien de l' emploi. [HAN] 

(18) Le président du syndicat des employés de l'Emploi et de l'Immigration a 

déclaré : [HAN] 

Les configurations d’ambiguïtés sont très variables, et les indices permettant de choisir 

sont peu nombreux. Décider de ne pas choisir en invoquant le recours nécessaire à « la 

sémantique » ou à des « connaissances du monde » n’est pas dans la philosophie du 

projet SYNTEX. J’ai cherché à mettre au point une méthode de désambiguïsation, qui 

fasse le mieux possible avec les informations disponibles, mieux en tout cas qu’une 

solution par défaut qui choisirait systématiquement la première préposition de rencontrée 

à gauche. La méthode de désambiguïsation s’appuie sur un principe d’harmonie 

morphologique. L’idée est de coordonner des prépositions de dont les noms dépendants 

sont « semblables », en terme de nombre et de présence ou non d’un déterminant. 

Chaque préposition de est caractérisée par deux paramètres, calculés à partir du nom 

qu’elle gouverne : la présence ou non d’un déterminant gouverné par le nom (1 ou 0), le 

nombre du nom (S pour singulier, P pour pluriel, ? pour genre indéterminé). La 

concaténation de ces deux valeurs constitue le profil de la préposition. Il y a 6 profils 

possibles : [0S], [0P], [0?], [1S], [1P], [1?]. La procédure de désambiguïsation choisit la 

préposition candidate qui a un profil identique ou proche de la préposition initiale. 

Je n’entre pas dans les détails de la procédure, qui est assez complexe car la 

combinatoire augmente vite avec le nombre de candidats. Je l’illustre sur quelques 

exemples simples, dans lesquels seulement deux prépositions candidates sont en 

concurrence. Dans les exemples 19 à 22, les profils des prépositions sont donnés entre 

crochets à droite du nom dépendant. Dans les exemples 19 à 21, c’est la première 

préposition qui est choisie car elle a le même profil que la préposition droite : dans 

l’exemple 19, les noms orientation et surveillance n’ont pas de déterminant et sont au 

singulier ([0S]); dans l’exemple 20, les noms hommes et projets n’ont pas de déterminant 

et sont au pluriel ([0P]) ; dans l’exemple 21, les noms qualité et production ont un 

déterminant et sont au singulier ([1S]). Dans l’exemple 22, c’est la seconde préposition 

qui est choisie : les noms anomalies et malformations n’ont pas de déterminant et sont au 

pluriel ([0P]). 

33 Les prépositions candidates sont en italiques. 

94

Noms 

(19) La réunion du conseil [1S] d' orientation [0S] et de surveillance [0S] 

(20) Ses capacités de meneur [0S] d' hommes [0P] et de projets [0P] 

(21) Les systèmes de contrôle [0S] de la qualité [1S] et de la production [1S] 

(22) Responsable d' anomalies [0P] de la face [1S] et de malformations [0P] 

Le traitement des noms coordonnés est analogue à celui de la préposition de. Plusieurs 

candidats nominaux sont sélectionnés dans un premier temps. La désambiguïsation 

s’effectue avec les mêmes indices que précédemment. Quelques exemples sont donnés 

en 23-27. Dans les cas où les profils de deux candidats sont identiques à celui du nom 

initial, le choix par défaut se porte sur le plus proche du coordonnant, ce qui conduit à 

des décisions malheureuses parfois, comme dans les exemples 26 et 27. 

(23) Dans la vente [1S] de produits [0P] et services [0P]. [LMO] 

(24) Président [0S] de l' Association [1S] des maires [1P] de France [0 ?] et 

sénateur [0S] du Pas-de-Calais. [LMO] 

(25) Cabinets [0P] de conseil [0S] et sociétés [0P] de services informatiques. 

[LMO] 

(26) Présidents [0P] de tribunaux [0P] et procureurs [0P]. [LMO] 

(27) Changement [0S] fréquent de partenaire [0S] et prostitution [0S] sont, dans 

ce groupe, de gros facteurs de risque. [LMO] 

Certains liens de coordination entre noms posés par le module de coordination pourront 

être remis en cause plus tard, lors de la recherche d’autres liens syntaxiques. Une 

configuration typique est celle où deux noms ont été coordonnés, puis reconnus comme 

objets directs d’un verbe, alors que le second nom est sujet dans une seconde clause 

(exemple 28). Je reviendrai sur ces cas de figures dans la section 3.2.6, consacrée à la 

relation Sujet. 

(28) C'est cet acharnement qui engendre la révolte des contribuables et ce genre 

de disparités soulève les sentiments populaires [HAN] 

Formes de+le 

La complexité culmine avec les formes ambiguës de+le. Quand une telle forme est 

située à droite d’un coordonnant, elle n’est pas désambiguïsée à l’issue de la phase 

d’étiquetage. Le principe du traitement de ces formes est le suivant : le module de 

coordination traite d’abord la forme de+le comme une préposition et cherche à 

gauche une éventuelle préposition de coordonnée ; s’il réussit, il réétiquette la forme 

de+le en Préposition et pose le lien de coordination entre les deux prépositions ; sinon, il 

la traite ensuite comme un déterminant et cherche un éventuel nom coordonné ; s’il 

réussit, il réétiquette la forme de+le en Déterminant et pose le lien de coordination entre 

les deux noms ; s’il échoue dans ces deux tentatives, il laisse l’ambiguïté catégorielle et 

ne pose pas de lien de coordination. 

95

Dans l’exemple 29, la première forme de a été étiquetée en Préposition (P) car elle suit 

immédiatement le nom sens et la forme des est ambiguë, préposition ou déterminant 

(PD). La forme des est désambiguïsée en préposition car le module de coordination a pu 

la coordonner avec la préposition de (exemple 29’).Dans les exemple 30 et 30’, la forme 

du est désambiguïsée en Déterminant car la coordination qu’a reconnue le module 

Coordination est celle qui implique les noms financement et dette. Dans les exemples 31 

et 31’, la première forme des a été désambiguïsée, au moment du traitement des relations 

locales, en Déterminant car elle est située juste après un verbe transitif. La seconde 

forme des est désambiguïsée en Déterminant car la coordination qu’a reconnue le 

module Coordination est celle qui implique les noms opinions et critères. 

(29) Il faut faire appel au sens deP la logique et desPD responsabilités. [HAN] 

(29’) Il faut faire appel au sens deP la logique et desP responsabilités. [HAN] 

(30) D'ailleurs, ce n'est pas une dette à long terme mais duPD financement à court 

terme pour effectuer la transaction. [HAN] 

(30’) D'ailleurs, ce n'est pas une dette à long terme mais duD financement à court 

terme pour effectuer la transaction. [HAN] 

(31) Il présente desD critères subjectifs et non desPD opinions subjectives. [HAN] 

(31’) Il présente desD critères subjectifs et non desD opinions subjectives. [HAN] 

La situation peut être plus complexe, par exemple dans les cas où la recherche du 

coordonné à gauche aboutit à une nouvelle forme de+le non désambiguïsée, précédée 

d’une virgule. Il faut alors retarder la désambiguïsation, et poursuivre par le traitement 

de la virgule, considérée alors comme coordinatrice, jusqu’à ce que la désambiguïsation 

soit possible. On a alors une désambiguïsation en chaîne. Dans l’exemple 32, ce n’est 

qu’au moment du traitement de la dernière virgule (la première dans l’ordre séquentiel 

de la séquence), grâce à la non ambiguïté de la forme des après le verbe a, que le module 

coordination a pu boucler l’affaire, en désambiguïsant les formes des en Déterminant et 

en coordonnant les noms (exemples 32’ à 32’’’). Dans l’exemple 33, c’est la détection de 

la préposition du après le nom cadre qui déclenche la résolution en chaîne du problème 

(exemple 33’). 

(32) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt 

et desPD stimulants fiscaux accordés aux entreprises privées. [HAN] 

(32’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt 


(32’’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt 


(32’’’) Il y a desD dégrèvements, desD échappatoires fiscales, desD reports d'impôt 

et desD stimulants fiscaux accordés aux entreprises privées. [HAN] 

96

(33) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duPD 

développement de programmes, dePD la réforme de la fiscalité ou dePD la 

réduction du déficit. [HAN] 

(33’) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duP 

développement de programmes, deP la réforme de la fiscalité ou deP la 

réduction du déficit. [HAN] 

3.2.5. Objet et attribut 

Après la relation de coordination, je présente les relations dites « non ambiguës ». La 

présente section est consacrée aux relations Objet et Attribut. La relation Sujet est traitée 

dans la section suivante, car les problèmes qu’elle pose sont très différents de ceux que 

je vais aborder dans cette section. Pour les relations Objet et Attribut, les conventions de 

représentation en dépendance sont les suivantes : la relation Attribut a pour source le 

verbe et pour cible l’attribut (adjectif, nom, pronom personnel, pronom relatif ou verbe à 

l’infinitif) ; quand le verbe est à une forme composée, c’est le participe qui est la source 

du lien, sauf quand l’attribut est un clitique (exemples 1) ; la relation Objet a pour source 

le verbe et pour cible le complément d’objet (nom, pronom personnel, pronom relatif, 

verbe à l’infinitif, conjonction que) ; quand le verbe est à une forme composée, c’est le 

participe qui est la source du lien, sauf quand l’objet est un clitique (exemples 2). Ces 

conventions valent pour les configurations à attribut de l’objet (exemples 3). Pour les 

configurations à double objet, on distingue la relation OBJ1 entre le verbe et l’objet 

nominal et OBJ entre le verbe et l’infinitif (exemples 4). Dans les cas de coordination 

d’attributs ou d’objets, c’est le coordonnant qui est la cible de la relation de dépendance. 

(1) Il est heureux Il l’est Il a été heureux Il l’a été l’homme qu’il a été 

(2) Il mange une pomme Il souhaite manger Il l’a mangé la pomme qu’il a mangée 

OBJ ATT OBJ ATT 

OBJ ATT 

(3) Il la croit malade Il l’ a nommé ministre l’homme qu’il a nommé ministre 

OBJ1 

OBJ OBJ1 OBJ OBJ1 OBJ 

(4) Je vois Jean partir. Je l’ ai vu partir. L’homme que j’ai vu partir 

97

La reconnaissance de la relation Attribut ne pose pas de problèmes difficiles. 

L’analyseur exploite une liste de verbes susceptibles de se construire avec un attribut du 

sujet (être, devenir, paraître…), une liste de verbes susceptibles de se construire avec un 

attribut de l’objet (considérer, croire, déclarer, juger…). Les configurations à attribut de 

l’objet sont très souvent ambiguës (je juge les enfants malades). Dans son état actuel, 

l’analyseur ne cherche à reconnaître des attributs de l’objet que dans les contextes non 

ambigus suivants : (i) le verbe attributif est au passif (exemple 5) ; (ii) le complément 

d’objet du verbe est le pronom relatif que (exemple 6) ; (iii) le complément d’objet du 

verbe est un pronom clitique (exemple 7) ; (iv) le complément d’objet du verbe est placé 

après l’attribut (exemple 8). 

(5) La pétition a été certifiée correcte par le greffier des pétitions. (ATTO) [HAN] 

(6) Ils exercent un droit qu'ils estiment tout à fait légitime. (ATTO) [HAN] 

(7) L'un des objectifs de la réforme des pensions de la fonction publique est de 

les rendre conformes aux exigences de la LNPP. (ATTO) [HAN] 

(8) Il n'appartient pas aux tribunaux d'ajouter les détails qui rendent 

constitutionnelles les lacunes législatives. (ATTO)[HAN] 

La mission assignée au module Objet se formule simplement ainsi : sélectionner le 

premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à droite du verbe. Mais 

le traitement de la relation Objet est plus difficile que celui de la relation Attribut. Les 

objets appartiennent à diverses catégories morphosyntaxiques : pronom clitique, pronom 

relatif que, nom, verbe à l’infinitif 34 . Certains verbes se construisent avec deux objets, un 

objet nominal et un objet verbal (emmener, envoyer, faire, laisser…, apercevoir, 

contempler, écouter, entendre, entrevoir, observer…). La difficulté du traitement est 

principalement due au fait que, comme l’étiquetage des formes que en Pronom relatif 

n’est pas fiable, j’assigne au module la mission supplémentaire de corriger autant que 

possible ces erreurs d’étiquetage. 

Le lien Objet entre un pronom relatif que et le verbe de la subordonnée relative n’est pas 

placé par le module Objet, mais par le module Sujet, qui sera décrit dans la section 

suivante. Cela peut paraître paradoxal puisque le principe de l’approche modulaire veut 

qu’une relation syntaxique soit traitée par un seul module et que chaque module ne traite 

qu’une seule relation syntaxique. Ce principe, qui s’impose pour des raisons de facilité 

de maintenance, peut être écorné quand une contrainte d’efficacité s’impose. En 

l’occurrence, au moment où le module Sujet a trouvé le sujet d’un verbe, il lui est facile 

de remonter de quelques pas sur la gauche pour relever la présence éventuelle d’un 

pronom relatif, et placer à ce moment-là, en plus d’un lien entre le verbe et le sujet, un 

lien entre le verbe et le pronom relatif. Ce lien est un lien Objet si le relatif est que. 

34 Les liens Objet entre un verbe et une forme que étiquetée Conjonction de subordination ne sont pas traités 

ici. Une partie des liens de ce type est placée au moment du traitement des relations locales (cf. 3.2.3). Une 

autre partie en fin d’analyse (cf. 3.2.13). 

98

La recherche d’un complément d’objet est systématique. Elle est déclenchée pour tout 

verbe, conjugué ou infinitif, quelles que soient ses propriétés lexicales, i.e. qu’il soit 

transitif ou non, pour des raisons qui apparaîtront évidentes plus loin dans cette section. 

Le module dispose de l’information de la présence d’un pronom relatif objet, car la 

recherche des sujets précède celles des objets. Dans un premier temps, le module teste la 

présence d’un pronom clitique, et celle d’un verbe infinitif en construction directe dans 

le contexte droit du verbe. Il est donc potentiellement face à 6 cas de figure, selon qu’il y 

a un pronom relatif objet ou non, un clitique ou non et un verbe infinitif ou non (en 

éliminant le cas où aucun objet de ce type n’a été reconnu, et le cas où les 3 ont été 

reconnus, si rarissime qu’il n’est pas traité) : 

1) Pas de pronom relatif, un clitique, pas de verbe à l’infinitif. Le module place un lien 

Objet entre le verbe et le clitique. 

2) Pas de pronom relatif, pas de clitique, un verbe à l’infinitif. Le module place un lien 

Objet entre le verbe et le verbe à l’infinitif. 

3) Pas de pronom relatif, un clitique, un verbe à l’infinitif. Le module vérifie que le 

verbe initial appartient à la liste des verbes à double objet, et place les deux liens 

Objet (exemple 9). 

OBJ1 OBJ 

(9 ) Les mécaniciens sournois l' avaient laissé flétrir pendant vingt minutes. [STX] 

4) Un pronom relatif, un clitique, pas de verbe à l’infinitif. Le pronom relatif que est 

réétiqueté Conjonction de subordination, le lien entre que et le verbe est inversé, et 

un lien Objet est placé entre le verbe et le clitique (exemples 10 et 10’). 

(10) C' est avec fierté, sérieux et intégrité que Rel je les représenterai. [HAN] 

99 

OBJ 

OBJ 

(10’) C' est avec fierté, sérieux et intégrité queSub je les représenterai. [HAN] 

5) Un pronom relatif, pas de clitique, un verbe à l’infinitif. Si le verbe initial appartient 

à la liste des verbes à double objet, le module requalifie en OBJ1 le lien entre le 

verbe et le pronom relatif et place un lien Objet entre le verbe et le verbe à l’infinitif 

(exemple 11). Sinon, il laisse le lien Objet entre le pronom relatif et le verbe, et 

ajoute un second lien Objet à partir du verbe vers le verbe à l’infinitif. Ce lien sera 

déplacé éventuellement en fin d’analyse, au moment où l’analyseur traite le cas des 

subordonnées relatives dont le verbe principal gouverne, directement ou via une 

préposition, un verbe à l’infinitif (section 3.2.13). Dans le cas de l’exemple 12,

l’origine du lien qui pointe vers le pronom relatif que sera déplacé sur le verbe 

déposer. 

OBJ1 OBJ 

(11) C’est l'histoire des compagnons qu' il a vu sortir vivants du « couloir ». [LMO] 

OBJ OBJ 

(12) J'ai ici des pétitions que je compte déposer ce matin. [LMO] 

Le 6 ème cas de figure est celui où il y a un pronom relatif, et ni clitique, ni verbe à 

l’infinitif. Le module teste la présence d’un nom (ou d’un pronom) en construction 

directe à droite du verbe. S’il y a un pronom relatif et un nom, le module réétiquette le 

pronom relatif que en Conjonction de subordination, et modifie en conséquence la 

relation entre la forme que et le verbe de la relative (exemples 13 et 13’), et il ne reste 

qu’un nom. 

OBJ 

(13) C'est grâce à elle qu’ Rel il a séquencé, entre autres, le virus de la grippe.[LMO] 

OBJ 

(13’) C'est grâce à elle qu’ Sub il a séquencé, entre autres, le virus de la grippe.[LMO] 

S’il y a un nom, et pas de pronom relatif, ce n’est qu’à ce stade du traitement que le 

module se préoccupe de la propriété de transitivité du verbe. Le module exploite une 

liste de verbes censés ne pas se construire avec un complément d’objet nominal. Cette 

liste a été construite automatiquement à partir d’un vaste corpus annoté par SYNTEX, 

selon une technique qui sera décrite dans la section 3.2.8 consacrée aux ressources 

lexicales. Si le verbe est transitif, le module pose un lien Objet entre le verbe et le nom. 

Si le verbe est intransitif, et qu’il est à l’infinitif, le module teste s’il n’est pas objet d’un 

verbe à double objet, auquel cas le module place une relation OBJ1 entre ce dernier verbe 

et le nom (exemple 14). 

OBJ 

OBJ1 

(14) Moscou laisse toujours planer le doute sur ses intentions de vote. [LMO] 

S’il y a un pronom relatif que objet, et pas de nom, et si le verbe est transitif, le module 

laisse le lien Objet entre le verbe et le nom. Si le verbe est intransitif, la procédure 

décrite précédemment à propos des noms objets de verbes intransitifs ne s’applique pas 

immédiatement. Le lien entre ce verbe et le pronom relatif est provisoirement maintenu. 

100

Le traitement de ces configurations est pris en charge par un module spécifique, qui est 

décrit dans la section 3.2.13. C’est ce dernier module qui reconnaîtra dans l’exemple 15 

que le gouverneur du pronom relatif est entretenir et non pas suffit, et qui, dans 

l’exemple 16, testera de la même façon le verbe rendre comme gouverneur du pronom 

relatif (sans succès puisque ce verbe aura alors déjà un objet). De tels traitements ne sont 

envisageables que quand d’avantage de liens ont été posés dans la séquence, et donc il 

serait prématuré d’interdire un lien entre un pronom relatif que et un verbe intransitif à 

ce stade de l’analyse. 

OBJ 

(15) Un jardin tout planté, qu' il suffit ensuite d'entretenir, n'est pas intéressant. [LMO] 

OBJ 

(16) C'est pour combler le déficit qu' on songe à rendre obligatoire l'alcool carburant. [LMO] 

Quelle que soit la configuration, quand le module s’apprête à placer un lien entre un 

verbe à double objet et un nom à sa droite, il teste la présence d’un verbe à l’infinitif 

sans gouverneur dans le contexte droit de ce nom. En cas de succès, il pose un lien OBJ1 

entre le verbe et le nom, et un lien OBJ entre le verbe et le verbe à l’infinitif 

(exemple 17). 

OBJ1 

OBJ 

(17) Il voit une marée humaine onduler dans la fumée des cigares. [LMO] 

Pour finir, quand le module a posé un lien Objet entre un verbe et un nom, il garde cette 

information en mémoire, sous la forme d’un triplet (verbe, OBJ, nom), pour une 

exploitation ultérieure dans le processus de désambiguïsation des rattachements des 

pronoms relatifs (section 3.2.7) et des prépositions de (section 3.2.9). 

3.2.6. Sujet 

Pour la relation Sujet, les conventions de représentation sont les suivantes : la relation 

Sujet a pour source le verbe et pour cible le sujet (nom, pronom personnel, pronom 

relatif ou verbe à l’infinitif) ; quand le verbe est à une forme composée, c’est l’auxiliaire 

qui est la source du lien (exemples 1). Dans les cas de coordination de sujets, c’est le 

coordonnant qui est la cible de la relation de dépendance. Dans les cas de coordination 

de verbes, c’est le coordonnant qui est la source de la relation de dépendance. 

101

(1) Jean mange. Il a mangé. Fumer est interdit. 

OBJ SUJ OBJ SUJ 

(1’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean 

Il faut noter que ces conventions, jointes à celles portant sur la relation Objet, conduisent 

à des croisements de liens dans les relatives à sujet inversé (exemples 1’). Les arbres de 

dépendance construits par SYNTEX ne sont donc pas tous projectifs. C’est inévitable à 

partir du moment où je n’utilise pas de moyen de regrouper en une seule unité plusieurs 

mots qui se comportent comme un seul mot du point de vue de certains phénomènes 

syntaxiques. Les stemmas de Tesnière (1959) comportent des « nucléus », et on a vu que 

Mel’čuk (1988) utilisait des « regroupements » pour représenter certains cas de 

coordination (section 3.2.4). Sylvain Kahane (2000) propose, dans sa grammaire de 

dépendance lexicalisée à bulles, de représenter formellement ces objets grâce à la notion 

de « bulle » (exemples 1’’). 

OBJ SUJ OBJ SUJ 

(1’’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean 

Dans SYNTEX, Les fonctions de parcours génériques empêchent toute prise de décision 

qui conduirait à un croisement de lien. Ce n’est que dans des cas particuliers, tels que 

celui-ci, que des règles spécifiques peuvent poser des liens se croisant. 

La mission assignée au module Sujet se formule simplement ainsi : sélectionner le 

premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à gauche du verbe dans 

un premier temps, puis à droite du verbe en cas d’échec. Ce principe n’est valide que si 

l’architecture de l’analyseur est telle qu’elle assure que les autres contextes où un nom 

peut être gouverné ont été traités : 

- au moment du traitement des relations locales en début d’analyse (section 3.2.3), les 

noms gouvernés par une préposition ont été liés. 

- pour la reconnaissance des liens Sujet et Objet, la séquence est analysée de gauche à 

droite ; dès qu’un verbe conjugué est rencontré, le module Sujet est lancé, puis le 

module Objet, dès qu’un verbe à l’infinitif est rencontré, le module Objet est lancé. 

Ainsi les compléments d’objets ou les sujets inversés dans les subordonnées 

relatives intercalées entre un verbe et son sujet ont été attachés avant la recherche du 

sujet du verbe, comme cela sera illustré dans les exemples 2-4. 

La relation Sujet pose des problèmes d’un tout autre ordre que la relation Objet. Dans le 

cas de cette dernière, la difficulté ne tenait pas tant à la découverte des compléments 

d’objet qu’à la gestion des configurations dans lesquelles plusieurs types d’objets 

pouvaient avoir été trouvés. Avec la relation Sujet, l’élaboration des algorithmes de 

reconnaissance est rendue complexe du fait de la variété des configurations que l’on peut 

rencontrer entre un verbe et son sujet, en particulier à cause de l’interposition possible de 

102

subordonnées relatives et de séquences incises entre virgules. La mise au point du 

module Sujet exige patience et minutie, et s’appuie, plus encore que celle des autres 

modules, sur des allers et retours incessants entre l’implémentation et les tests sur 

corpus. Le module de recherche des sujets utilise de façon intensive la fonction frGmax 

pour parcourir le plus rapidement et le plus sûrement possible la séquence. 

Je ne détaille pas ici l’algorithme de reconnaissance des sujets. Je commente un certain 

nombre d’exemples pour en faire comprendre les caractéristiques essentielles. Dans les 

exemples qui suivent, les pas du parcours sont indiqués par des indices numériques sur 

les mots 35 . Dans l’exemple 2, le module cherche un sujet pour le verbe vont. Il entame 

son parcours à gauche du verbe. Le premier pas de son parcours est le nom vacances. 

Celui-ci est gouverné par la préposition pour, il ne peut être choisi comme sujet. Le 

parcours se poursuit à la préposition pour (pas n°2), puis au nom embarcation situé à 

gauche de la préposition (pas n°3). Ce nom est gouverné par le verbe recherchent, et ne 

peut lui non plus être choisi comme sujet. Le parcours se poursuit au verbe recherchent 

(pas n°4), puis à la frontière maximale droite de ce mot, qui est le pronom relatif qui. Ce 

pronom ayant déjà un gouverneur, le module se déplace immédiatement à sa gauche, où 

il trouve le pronom sans gouverneur ceux, qu’il retient comme sujet du verbe vont. 

(2) Ceux 6 qui 5 recherchent 4 une embarcation 3 pour 2 leurs prochaines vacances 1 

vont pouvoir déambuler au milieu des stands de la porte de Versailles à la 

recherche du bateau de leur rêve. [LMO] 

L’exemple 3a illustre le cas, fréquent, d’un sujet inversé dans une relative. Le module 

Sujet reconnaît le nom Bercy comme sujet du verbe de la relative (trouve). Au moment 

de sa recherche du sujet du verbe découle, il ne sélectionne donc pas ce nom, et 

reconnaît comme sujet, au-delà de la relative intercalée, le nom situation (exemple 3b). 

Dans l’exemple 4, les transitions au pas n° 3 (d’une préposition à un adjectif 

immédiatement à gauche) et au pas n°4 (d’un adjectif à un nom immédiatement à 

gauche) illustrent le fait que l’algorithme de parcours est conçu de façon à « remonter » 

les groupes nominaux potentiels, alors que les liens de dépendance au sein de ces 

groupes n’ont pas encore été posés (comme le lien entre la préposition de et son 

gouverneur). De façon générale, le postulat qu’il existe certainement un sujet autorise 

des prises de risques, raisonnables, dans le parcours, et justifie que l’on peut chercher à 

reconnaître les liens Sujet, pourtant susceptibles d’être à longue distance, assez tôt dans 

le processus de reconnaissance syntaxique de l’énoncé. 

(3a) L'étrange situation dans2 laquelle1 se trouve Bercy3 découle largement de la 

décision prise par le chef du gouvernement. [LMO] 

(3b) L'étrange situation5 dans4 laquelle3 se trouve2 Bercy1 découle largement de 

la décision prise par le chef du gouvernement. [LMO] 

35 Ces indices ne représentent plus les numéros des mots dans la séquence, comme dans la section 3.2.2. 

103

(4) Laisser9 s'installer l'idée8 que7 l'IVG peut6 constituer5 un palliatif4 

acceptable3 de2 la contraception1 équivaut à une démission, à un retour en 

arrière. [LMO] 

Des incises sont fréquemment intercalées entre un verbe et son sujet. Dans l’exemple 5, 

le module se déplace de la virgule située à gauche du premier verbe coordonné prend 

(pas n°1) à la première virgule qu’il rencontre à gauche (pas n°2), puis il continue son 

parcours jusqu’au nom membre (pas n°3 à 5). La situation peut être, en apparence, plus 

compliquée quand incises et relatives sont intercalées. Dans l’exemple 6a, le module 

reconnaît d’abord le lien sujet entre le coordonnant et et le pronom relatif qui, en sautant 

l’incise peu après Trafalgar. Cela lui permet ensuite d’identifier le nom navire comme 

sujet du verbe était (exemple 6b), grâce au saut entre le coordonnant et et sa frontière 

gauche maximale qui (pas n°8). L’algorithme de recherche des sujets est conçu sur la 

base de l’hypothèse que les virgules dans les séquences sont correctement équilibrées. 

C’est une contrainte forte qui vaut pour tous les modules de SYNTEX. Quand, dans une 

séquence, cette norme n’est pas respectée, l’analyse échoue le plus souvent. C’est le cas 

dans les exemples 7a et 7b, où l’absence de virgule fermante après l’adjectif rural 

empêche la reconnaissance du sujet du verbe doivent, pour lequel le module Sujet 

échoue sur la préposition comme (exemple 7a), et du sujet du verbe précise, pour lequel 

le module Sujet échoue sur le nom aspects (exemple 7b), qui ne s’accorde pas avec le 

verbe. 

(5) La célèbre membre5 de4 la meute3 ,2 la députée de Hamilton Est ,1 prend la 

parole et salit tout ce qu'elle peut. [HAN] 

(6a) En fait le navire, qui3 ,2 peu après Trafalgar ,1 avait été pris par les Anglais au 

large de la côte portugaise et avait servi longtemps dans la Royal Navy, était 

en si mauvais état que les explosifs, au lieu de percer des trous dans la coque 

comme il avait été prévu, la détruisirent complètement. [LMO] 

(6b) En fait le navire9 qui8 , peu après Trafalgar , avait été pris par les Anglais au 

large de la côte portugaise et7 avait6 servi5 longtemps4 dans3 la Royal2 Navy1 

était en si mauvais état que les explosifs, au lieu de percer des trous dans la 

coque comme il avait été prévu, la détruisirent complètement. [LMO] 

(7a) Les aspects non-commerciaux de l'agriculture, comme4 la protection de 

l'environnement, la sécurité alimentaire et3 le développement2 rural1 doivent 

être pris en compte, précise le texte. [LMO] 

(7b) Les aspects6 non-commerciaux5 de4 l'agriculture3 ,2 comme la protection de 

l'environnement, la sécurité alimentaire et le développement rural doivent 

être pris en compte ,1 précise le texte. [LMO] 

Différents types de configurations d’inversion de sujet sont reconnues, en plus des 

relatives, par exemple quand un syntagme prépositionnel est positionné en tête de 

séquence (Sous le pont Mirabeau coule la Seine). Le syntagme prépositionnel n’est pas 

nécessairement séparé du verbe par une virgule. Dans l’exemple 8, quand le module 

Sujet traite le verbe est, il arrive (pas n°4) à la préposition à en tête de séquence, sans 

104

avoir trouvé de sujet. Il relance alors une recherche à droite du verbe et trouve le nom 

notion. Dans l’exemple 9, c’est au pas n°12 que le module fait demi-tour pour aller 

chercher le sujet menace à droite du verbe ajoute. 

(8) À4 Charlottetown3 ,2 en 1864 ,1 est née la notion5 d'un peuple dont les divers 

éléments sont à la fois unis et fiers de leurs différences 

(9) Aux12 soucis12 que11 lui causait10 sa majorité9 au8 conseil7 général6 d'5 Ille et4 

Vilaine3 ,2 qu'il préside depuis 1982 ,1 s'ajoute aujourd'hui une menace13 

directe sur sa gauche. [LMO] 

Le module Sujet peut être amené à défaire des liens posés par le module Coordination et 

d’autres modules. Dans l’exemple 10a, le module Coordination a coordonné les noms 

histoire et régions et le module Objet a placé un lien entre le verbe a et le coordonnant 

et. Quand il cherche le sujet du verbe ont (exemple 10b), le module Sujet part du nom 

régions, situé immédiatement à gauche du verbe. Ce nom est gouverné par le 

coordonnant et. Le module Sujet garde en mémoire l’information selon laquelle un nom 

situé à gauche est gouverné par un coordonnant, et il poursuit son parcours du 

coordonnant et au verbe a, dont ce coordonnant est objet. De façon générale, quand le 

module Sujet atteint dans son parcours un verbe conjugué, il s’attend à ce que celui-ci 

soit le verbe d’une proposition relative ou complétive, auquel cas il continue sa 

recherche à partir du pronom relatif ou de la conjonction. Quand ce n’est pas le cas, s’il a 

en mémoire le fait qu’il a trouvé au cours de son parcours un nom coordonné à gauche 

du verbe dont il cherche le sujet, il utilise cette information pour défaire les liens 36 . Dans 

l’exemple 10c, le module décoordonne les noms histoire et régions, déplace la cible du 

lien Objet du coordonnant vers le nom histoire, et enfin ajoute un lien Sujet entre le 

verbe ont et le nom régions. La situation est analogue dans l’exemple 11, où le module 

Sujet décoordonne les noms lots et fiches pour placer un lien Sujet entre seront et fiches, 

et dans l’exemple 12, où le module Sujet décoordonne les noms faim et chef pour placer 

un lien Sujet entre pouvait et chef. 

(10a) Le Canada a une histoire relativement courte et certaines régions ont 

une histoire encore plus courte que d' autres. [HAN] 

(10b) Le Canada4 a3 une histoire relativement courte et2 certaines régions1 ont une 

histoire encore plus courte que d'autres. [HAN] 

(10c) Le Canada a une histoire relativement courte et certaines régions ont 

une histoire encore plus courte que d' autres. [HAN] 

(11) Les différents manuels et encyclopédies vendus dans les librairies apportent 

leur lot de renseignements pratiques et les petites fiches décrivant les plantes 

36 Tout ceci évoquera à ceux qui les connaissent le fonctionnement des ATN. 

105

qui les accompagnent seront d'un grand secours pour ceux qui débutent. 

[LMO] 

(11’) Les différents manuels et encyclopédies vendus dans les librairies apportent 

leur lot de renseignements pratiques et les petites fiches décrivant les plantes 

qui les accompagnent seront d'un grand secours pour ceux qui débutent. 

[LMO] 

(12) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang 

au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de 

presse à El Paso, faire état que de la découverte de restes « qui pourraient être 

humains ». [LMO] 

(12’) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang 

au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de 

presse à El Paso, faire état que de la découverte de restes « qui pourraient être 

humains ». [LMO] 

Les formes de+le à droite d’une virgule ne sont pas désambiguïsées au moment du 

traitement des relations locales (cf. 3.2.2). Elles peuvent l’être dans certains cas quand 

une coordination est reconnue (cf. 3.2.3). Elles peuvent être désambiguïsées aussi par le 

module Sujet. Dans l’exemple 13, le module Sujet, après avoir identifié le nom millions 

comme seul sujet possible pour le verbe croupissaient, réétiquette la forme des devant ce 

nom en Déterminant (PD, pour Préposition ou Déterminant, et D pour Déterminant).Il 

désambiguïse selon le même principe la forme de dans l’exemple 14. Il désambiguïse en 

chaîne les formes des dans l’exemple 15. 

(13) Sans grands secours, desPD D millions de personnes déplacées croupissaient 

encore dans les centres de regroupement ou campaient dans des villes en 

ruines. [LMO] 

(14) Avec le boom économique des années 1975-1983, dePD D vraies maisons où 

vivent aujourd'hui la majorité des habitants s'élevèrent. [LMO] 

(15) A mesure que la vidéo se déroule, desPD D textes et desPD D illustrations 

d'accompagnement apparaissent automatiquement sur une autre partie de 

l'écran. [LMO] 

Pour finir, quand le module a posé un lien Sujet entre un verbe et un nom, il stocke cette 

information en mémoire, sous la forme d’un triplet (verbe, SUJ, nom). Les triplets acquis 

à l’issue du traitement de l’intégralité du corpus par les modules Sujet et Objet seront 

exploités dans le processus de désambiguïsation endogène des rattachements des 

prépositions de (section 3.2.9) et des relatifs (section 3.2.10). 

3.2.7. Les relations ambiguës : apprentissage endogène 

Après les relations Objet, Attribut et Sujet, je présente les relations dites « ambiguës ». Il 

s’agit des relations suivantes : la relation entre un pronom relatif et son antécédent 

106

(relation REL), la relation entre une préposition et son gouverneur (relation PREP) et la 

relation entre un adjectif et le nom dont il est épithète (relation ADJ). Ces relations sont 

ambiguës en ce sens qu’au moment de la recherche des liens syntaxiques plusieurs cibles 

de rattachement peuvent être identifiées, qui sont toutes syntaxiquement également 

plausibles : on ne peut les départager sur de simples critères de configuration syntaxique. 

Ces relations imposent un mode de traitement particulier comprenant une phase de 

désambiguïsation, qui n’existe pas avec les relations Objet, Attribut et Sujet. Pour 

chacune de ces relations, le traitement s’effectue en deux étapes : 

- au cours d’une première passe, le module chercherCandidat recherche des candidats 

gouverneurs sur la base de critères configurationnels ; 

- dans le cas où plusieurs candidats ont été identifiés, le module choisirCandidat 

procède à la désambiguïsation en sélectionnant un candidat sur la base d’indices 

lexico-syntaxiques affectés à chacun des candidats. 

Les indices sont de deux types : endogène et exogène. Le principe de l’apprentissage 

endogène, que j’avais introduit dans LEXTER (section 1.2), a été repris et étendu dans 

SYNTEX. Comme nous l’avons dans la section 2.3.4 du chapitre 2, ce principe a été 

utilisé par F. Debili dans son analyseur (Debili, 1982). Il est aussi à la base des travaux 

de R. Basili, M.T. Pazienza et M. Vindigni sur l’analyse syntaxique de l’italien (Basili et 

al., 1999). L’intérêt est de capter automatiquement des spécificités du corpus, en terme 

de forces d’association entre unités lexicales, pour les utiliser, en circuit fermé, à des fins 

de désambiguïsation. Les indices endogènes sont calculés à partir d’informations 

collectées par l’analyseur lui-même au cours du traitement du corpus. Ces informations 

sont obtenues à partir de triplets stockés en mémoire par les différents modules au fur et 

à mesure de l’analyse. Ces triplets ont la forme (w,R,w’), ils sont extraits de contextes 

non ambigus dans lesquels l’analyseur a placé un lien syntaxique R entre le gouverneur 

w et le dépendant w’. Par exemple, dans l’exemple 1, le module Sujet stocke en mémoire 

le triplet (voter,SUJ,néo-démocrate) ; le module chercherCandidat associé à la relation 

PREP de recherche des gouverneurs des prépositions stocke en mémoire le triplet 

(voter,CONTRE,TRPG), car il a trouvé le verbe voter comme seul candidat pour la 

préposition contre 37 . 

(1) Les néo-démocrates avaient également voté contre la TRPG. [HAN] 

Le premier triplet peut permettre de choisir le bon rattachement de la préposition de dans 

un contexte comme « le vote de défiance des néo-démocrates », si on utilise en plus un 

lexique morphologique dans lequel le nom vote est associé au verbe voter 

(section 3.2.10). Bien entendu, l’information désambiguïsante est susceptible 

d’apparaître dans le corpus après le contexte ambigu. Il s’ensuit que les modules qui 

exploitent des informations de type endogène doivent intervenir une fois que l’ensemble 

du corpus a été traité, éventuellement en plusieurs passes, par les modules qui acquièrent 

37 Dans le cas de la relation PREP, le triplet est construit à partir de 2 liens syntaxiques, celui entre le 

gouverneur de la préposition et la préposition et celui entre la préposition et son dépendant : le premier élément 

du triplet est le gouverneur de la préposition, le deuxième est la préposition elle-même, le troisième est le 

dépendant de la préposition. 

107

ces informations. L’apprentissage endogène implique donc, dans son principe même, le 

traitement du corpus en au moins deux passes. Les modules Sujet et Objet, et les trois 

modules chercherCandidat, correspondant aux trois relations ambiguës introduites plus 

haut, ont traité l’ensemble des séquences du corpus, avant la phase de désambiguïsation : 

ces modules n’ont acquis que les triplets reconnus dans des contextes non ambigus, 

c’est-à-dire ceux dans lequel un seul candidat a été identifié. Les modules de 

désambiguïsation disposent d’un ensemble de données endogènes constituées de triplets 

(w,R,w’), et de leur fréquence F(w,R,w’). 

Pour la résolution des ambiguïtés de rattachement prépositionnel, le module 

choisirCandidatPrep calcule à partir de ces données des probabilités de 

sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec 

telle préposition). Le mode de calcul de ces probabilités est simple. Lors du traitement de 

l’ensemble du corpus, le module chercherCandidatPrep a acquis non seulement les 

triplets (w,p,w’), où w est le gouverneur de la préposition p, et w’ le dépendant (nom ou 

verbe à l’infinitif), mais il a compté aussi pour chaque mot w le nombre d’occurrences 

dans le corpus où ce mot n’est candidat gouverneur d’aucune préposition. A l’issue du 

traitement de l’ensemble du corpus, le module choisirCandidatPrep dispose des données 

de fréquence suivantes : 

– F(w,0) : nombre d’occurrences non ambiguës où le mot w ne gouverne aucune 

préposition, 

– F(w,p,w’) : nombre d’occurrences non ambiguës où le mot w gouverne la 

préposition p, qui elle-même gouverne le mot w’, 

La probabilité est calculée comme une fréquence relative pondérée 38 . Soit T, l’ensemble 

des triplets (w,p,w’). Pour un couple (w,p), on définit Ew,p comme l’ensemble des mots 

w’ tels que la fréquence F(w,p,w’) est supérieure à 0. Je définis la productivité du couple 

(w,p), Prod(w,p), comme le cardinal de l’ensemble Ew,p, c’est-à-dire comme le nombre 

de mots différents que gouverne la préposition p quand elle-même est gouvernée par le 

mot w. J’utilise ce coefficient pour pondérer la fréquence totale du couple (w,p). A 

fréquence égale, plus le couple (w,p) a été repéré avec des contextes w’ différents, plus 

grande est estimée la propension du mot w à gouverner la préposition p. L’expérience 

montre en effet que, dans des corpus thématiques, la très haute fréquence de certains 

syntagmes très répétitifs incluant le triplet (w,p,w’) vient biaiser la probabilité 

d’association lexicale entre w et p. La pondération proposée ci-dessus vise à limiter une 

telle surestimation et à accorder un poids non seulement à la fréquence de l’association, 

mais aussi à sa diversité. Par exemple, si le verbe manger apparaît 5 fois avec la 

préposition avec, uniquement dans {manger,avec,Jean}, et 5 fois aussi avec la 

préposition à, dans {manger,à,restaurant|maison|self|cantine|table}, la probabilité 

pondérée de {manger,avec} sera de 0.28 et celle de {manger,avec} sera de 0.72. 

La formule de calcul de la probabilité pondérée est donnée dans le tableau 7 : F(w,p) est 

la fréquence totale du couple (w,p), F(w) est la fréquence totale du mot w, et λ est un 

38 Je n’ai pas testé d’autres méthodes de filtrage, comme celle de la distribution polynomiale (Manning, 1993). 

108

coefficient de normalisation, choisi de telle sorte que la somme des probabilités 

associées à un mot donné soit égale à 1. 

T = { (w,p,w’) / F(w,p,w’) > 0 }, ensemble de triplets 

F(w,p,w’) : nombre d’occurrences où le mot w gouverne la préposition p, 

elle-même gouvernant le mot w’ 

F(w,0) : nombre de cas où w ne gouverne aucune préposition 

Ew,p = { w’ / F(w,p,w’) > 0 }, le contexte du couple (w,p) 

Prod(w,p) = Card(Ew,p), la productivité du couple (w,p) 

F(w,p) = ∑w’Є Ew,p F(w,p,w’), le nombre d’occurrences de w quand il gouverne p 

F(w)=F(w,0)+ ∑ p F(w,p), le nombre total d’occurrences de w 

P(w,0) = F(w,0)/F(w), la probabilité d’occurrence de w sans préposition 

P(w,p)=F(w,p) /F(w)*log(1 + Prod(w,p))/ λ, la probabilité d’occurrence de w avec 

la préposition p 

Tableau 7. Méthode de calcul des probabilités de sous-catégorisation 

Pour être tout à fait précis, il faut préciser que le couple (w,p) est distingué selon que la 

préposition p gouverne un nom (P(w,pNom)) ou un verbe à l’infinitif (P(w,pVinf)). A titre 

d’illustration, je donne un extrait du lexique acquis sur un corpus de 400 000 mots 

constitué de comptes rendus d’hospitalisation dans le domaine de la réanimation 

chirurgicale (corpus REA, (Bourigault et al., 2004)). 

P w p 

0,44 accord avec 

0,24 accouchement par 

0,41 allergie à 

0,20 amylasémie à 

0,46 analgésie par 

0,20 anémie à 

0,73 antibioprophylaxie par 

0,35 antibiothérapie par 

0,23 anticoagulation par 

0,61 argument pour 

0,31 argument en faveur de 

0,30 arme à 

Tableau 8. Quelques probabilités de sous-catégorisation acquise ssur un corpus médical 

3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation 

Après de longues années d’une adhésion obstinée et exclusive à l’apprentissage 

endogène, et avec l’arrivée de Cécile Frérot dans le projet, j’ai travaillé à l’élaboration de 

109

essources générales, susceptibles d’être exploitées pour tout corpus. Dans le cadre de sa 

thèse, Cécile Frérot a expérimenté l’utilisation d’un lexique de sous-catégorisation 

construit à partir des tables du Lexique Grammaire (Frérot et al., 2003 ; Frérot, 2005). 

Devant les limites d’une telle approche, j’ai développé une méthode d’acquisition 

automatique d’un lexique de probabilités de sous-catégorisation à partir d’un corpus de 

très grande taille (Bourigault et Frérot, 2005). 

Les méthodes d’acquisition de propriétés de sous-catégorisation exploitent 

classiquement des corpus étiquetés de grande taille (Ushioda et al., 1993 ; 

Manning, 1993 ; Basili, Vindigni, 1998). Le Web est aussi considéré comme source 

potentielle d’acquisition (Gala Pavia, 2003 ; Volk, 2001). J’utilise comme base 

d’apprentissage un corpus de 200 millions de mots, constitué des articles du journal Le 

Monde, des années 1991 à 2000 (corpus LM10 39 ). Sa taille et sa diversité thématique en 

font un corpus référentiellement et linguistiquement peu marqué, à partir duquel il est 

raisonnable de chercher à acquérir des données de sous-catégorisation qui soient 

relativement génériques. La procédure d’acquisition est directement adaptée de la 

méthode d’apprentissage endogène présentée dans la section précédente. La méthode de 

calcul des probabilités de sous-catégorisation s’appuie sur un ensemble de triplets 

(w,p,w’) extraits d’une analyse syntaxique de l’ensemble du corpus LM10 effectuée par 

SYNTEX 40 . La procédure d’acquisition se déroule en deux étapes, au cours desquelles la 

même méthode de calcul de probabilités est lancée successivement sur deux ensembles 

différents de triplets : une étape d’amorçage et une étape de consolidation. 

- Au cours de l’étape d’amorçage, les probabilités sous-catégorisation sont calculées 

exactement comme décrit précédemment, et donc à partir de triplets (w,p,w’) acquis 

dans des contextes non ambigus ; 

- Au cours de l’étape de consolidation, le module choisirCandidatPrep exploite le 

lexique construit lors de l’étape d’amorçage, et traite à son tour l’ensemble du 

corpus LM10, analysé par le module chercherCandidatPrep. Il revient sur les cas 

ambigus et choisit le gouverneur candidat dont la probabilité de construction avec la 

préposition, fournie dans le premier lexique, est la plus élevée. A partir de ces 

nouvelles annotations, un nouvel ensemble de triplets est constitué, qui inclut le 

précédent et auquel s’ajoutent les triplets (w,p,w’) issus des cas ambigus résolus. De 

nouvelles données de fréquence F(w,p,w’) et F(w,0) sont alors constituées, à partir 

desquelles un second ensemble de probabilités de sous-catégorisation est calculé, 

selon la même méthode. C’est le lexique construit à l’issue de cette étape de 

consolidation qui est utilisé dans SYNTEX. 

39 Ce corpus a été préparé, à partir de fichiers obtenus auprès de l’agence Elra, à l’aide de programmes, mis au 

point par Benoît Habert (LIMSI), qui ont effectué les tâches de nettoyage, de balisage et de signalisation 

nécessaires pour transformer les fichiers initiaux en un corpus effectivement « traitable » par des outils de 

Traitement Automatique des Langues. Nous remercions Benoît Habert et le LIMSI de nous avoir permis de 

bénéficier de ces programmes. 

40 Environ 24 heures de traitement sur un biprocesseur Xeon 3.06GHz (4 Go de RAM) 

110

Le nombre total d’occurrences de triplets (w,p,w’) à partir desquels les probabilités sont 

calculées est de l’ordre de 6,7 millions à l’issue de l’étape d’amorçage, et de 12 millions 

à l’issue de l’étape de consolidation. Le nombre total d’occurrences de mots ne régissant 

pas de préposition est d’environ 87 millions à l’issue de l’étape d’amorçage, et de 95 

millions à l’issue de l’étape de consolidation. Les probabilités ne sont calculées que pour 

les couples (w,p) tels que la fréquence totale du mot w est supérieure à 20. Un couple 

n’est retenu dans le lexique de désambiguïsation que si la probabilité dépasse le seuil de 

0.01. Le lexique final compte 6 693 verbes différents (chacun pouvant être présent avec 

plusieurs prépositions), 11 528 noms et 698 adjectifs. Je présente les résultats d’une 

évaluation comparative des ressources endogènes et exogènes pour la désambiguïsation 

prépositionnelle dans la section 3.2.10. 

3.2.9. Antécédence relative 

Je présente successivement les modules « à ambiguïté » : le module de rattachement des 

pronoms relatifs à leur antécédent (3.2.9), le module de rattachement des prépositions à 

leur gouverneur (3.2.10) et le module de rattachement des adjectifs épithètes à leur nom 

(3.2.11). Pour chacun de ces modules, je précise d’abord les conventions de 

représentation, puis l’algorithme de recherche des candidats gouverneurs et enfin les 

indices exploités pour la désambiguïsation. 

Représentation 

Comme la coordination, la relation de l’antécédence relative pose des problèmes de 

représentation. Ceux-ci ont pour origine la « nature double » du pronom relatif, pour 

reprendre les termes de Tesnière. Selon ce dernier, le pronom relatif est à la fois un 

« translatif », en tant qu’il confère à la subordonnée la valeur d’adjectif, et un 

« anaphorique », en connexion anaphorique avec son antécédent, subordonné au verbe 

de la proposition relative (Tesnière, 1959, pp. 560-561). Pour la représentation en 

stemma, Tesnière propose de disloquer en deux le pronom relatif qui : la forme qu- est le 

« transférème » et la forme –i est l’« anaphorème ». Le stemma correspondant à la 

séquence « l’homme qui écrit » est celui-ci : 

l’homme 

A 

qu- qu- écrit 

écrit 

-i 

-i 

(Tesnière, 1959, p. 561) 

La représentation de Mel’čuk est peu différente. Selon lui, le pronom relatif ne dépend 

syntaxiquement que du verbe de la subordonnée. Certes, le pronom relatif dépend aussi 

de son antécédent, mais simplement morphologiquement, et il y a par ailleurs un lien 

111

anaphorique entre le pronom et son antécédent, mais ceci est non pertinent du point de 

vue syntaxique. Du point de vue syntaxique, la subordonnée relative dépend de 

l’antécédent, via son verbe. On reprenant l’exemple de Tesnière, on peut reconstituer la 

représentation qu’en ferait Mel’čuk, et classiquement les praticiens de la dépendance, 

ainsi (les traits en pointillés représente un lien anaphorique) : 

L’homme qui écrit À partir de (Mel’čuk, 1988, p. 26) 

Dans SYNTEX, je ne dispose pas d’une catégorie spéciale pour les liens anaphorique, je 

traite la relation d’antécédence relative comme une relation syntaxique. J’ai choisi de 

représenter cette relation par un lien syntaxique dont la source est l’antécédent et la cible 

le pronom relatif. Je ne marque pas le lien entre le verbe de la subordonnée et 

l’antécédent ; ce lien est calculé par une fonction spécifique à chaque fois que cela est 

nécessaire dans les traitements. Dans la représentation SYNTEX, les pronoms relatifs ont 

potentiellement deux gouverneurs 41 . Le pronom relatif est la cible des relations de 

dépendance Sujet et Objet qui partent du verbe de la subordonnée (exemple 1a). Si le 

pronom relatif est gouverné par une préposition, celle-ci est gouvernée par le verbe de la 

relative. Avec une telle représentation, des croisements sont possibles (exemples 1b). 

REL SUJ REL 

OBJ 

(1a) l’homme qui mange l’homme que je vois 

(1b) l’homme qu’ a vu Jean l’homme avec lequel Jean mange 

Recherche des antécédents 

Pour la relation d’antécédence relative, la recherche des candidats est relativement 

simple. Le module chercherCandidat teste tous les noms qu’il trouve à gauche du 

pronom relatif, dans un contexte restreint, et il utilise deux contraintes pour les filtrer. La 

première contrainte est une contrainte d’accord, pour les pronoms relatifs en –quel, pour 

le pronom relatif sujet qui, et pour le pronom relatif que quand le verbe est à une forme 

composée. Dans l’exemple 2, le nom ministre est refusé comme candidat antécédent 

pour le pronom relatif laquelle, de même que le nom libération pour le pronom qui dans 

l’exemple 3, et que les noms collaboration, fonction et conseil dans l’exemple 4. La 

seconde contrainte est une contrainte de forme : le module rejette les noms au singulier 

sans déterminant, gouvernés par une préposition (loi dans l’exemple 5 et financement 

dans l’exemple 6). 

41 S. Kahane (1997) propose lui –aussi d’associer deux nœuds aux mots –wh. 

112

(2) L'opinion du ministre selon laquelle ces organismes sont incapables de 

subvenir à leurs besoins ont provoqué du mécontentement dans de 

nombreuses localités. [HAN] 

(2’) Le premier ministre confère un redoutable pouvoir d'empêchement aux 

organisations clandestines, sur les décisions desquelles la très grande 

majorité des Corses n'ont pas prise. [LMO] 

(3) Il permettra d'accélérer la libération des prisonniers qui, pour quelque raison 

que ce soit, seraient admissibles à la libération conditionnelle de jour. [HAN] 

(4) Ces lignes directrices avaient été préparées en collaboration avec les 

syndicats de la Fonction publique représentés au Conseil national mixte, qui 

les ont approuvées. [HAN] 

(5) Nous avons enfin adopté le projet de loi qui élargissait la Commission 

d'appel de l'immigration. [HAN] 

(6) C'est une formule de financement fort originale dont nous sommes très fiers 

parce qu'elle est fonction des résultats. [HAN] 

Désambiguïsation 

Pour choisir parmi plusieurs antécédents candidats, le module choisirCandidatRel utilise 

un seul indice, de type endogène, et uniquement dans le cas des pronoms relatifs qui ou 

que. Pour les autres pronoms, il applique la règle par défaut (cf. infra). Soit c le candidat, 

soit v le verbe de la relative. Si le pronom relatif est qui, l’indice affecté au candidat c est 

F(v, SUJ, c), c’est-à-dire le nombre de fois où l’antécédent c a été trouvé comme sujet du 

verbe v. Si le pronom relatif est que, l’indice affecté au candidat c est F(v, OBJ, c). Dans 

l’exemple 6 42 , c’est le nom problème qui a été choisi comme antécédent, plutôt que le 

nom interprétation, car le module Sujet a eu l’occasion d’établir ailleurs dans le corpus 

un lien entre le verbe demeurer et le nom problème. Dans l’exemple 7, c’est le nom 

fonctions qui a été choisi comme antécédent, plutôt que le nom anti-terrorisme, car le 

module Objet a eu l’occasion d’établir ailleurs dans le corpus un lien entre le verbe 

occuper et le nom fonction. Dans l’exemple 8, le nom rôle est choisi pour des raisons 

analogues. 

(6) Il n'est pas possible ici de traiter du problème + de l'interprétation des 

séquences, qui demeure le prochain défi à relever. [LMO] 

(7) Cette règle pourrait, en revanche, contraindre Jean-Louis Bruguière à quitter 

ses fonctions + de juge d'instruction spécialisé dans l'anti-terrorisme, qu'il 

occupe depuis plus de dix ans. [LMO] 

42 Dans les exemples suivants, le candidat choisi par le module de désambiguïsation est marqué par un ‘+’ en 

exposant. 

113

(8) Un policier algérien décide de passer du côté du FLN alors que son collègue 

français, témoin des exactions de l'armée, ne trouve plus sa place dans le 

rôle + de maintien de l'ordre qui lui est confié. [LMO] 

La règle par défaut, qui s’applique pour les pronoms relatifs autres que qui et que ou 

quand aucun indice n’a été trouvé pour aucun candidat, est la suivante : si le pronom 

relatif est dans une incise (précédé d’une virgule), choisir le candidat le plus éloigné du 

pronom relatif(exemples 9 et 10) ; sinon, choisir le candidat le plus proche (exemples 11 

et 12). 

(9) La Chambre a entendu les explications + du ministre, qu’on retrouve à la 

page 1147 du Hansard du 6 novembre. [HAN] 

(10) Le ministre pourra assurément trouver une ou deux personnes + parmi ces 

groupes, qui seraient favorables à certains des aspects de la mesure. [HAN] 

(11) Les sénateurs seront nommés à partir d'une liste proposée par le 

gouvernement de la province + où il y a des postes à combler. [HAN] 

(12) Le ministre de la Justice a entrepris une étude de cette question + au cours de 

laquelle il consultera les parties intéressées et les groupes professionnels. 

[HAN] 

3.2.10. Attachement des prépositions 


Pour la relation PREP, les conventions de représentation sont les suivantes : la relation 

PREP a pour source le gouverneur de la préposition, qui peut être un verbe, un nom ou un 

adjectif, et pour cible la préposition. Si le gouverneur est un verbe à une forme 

composée, c’est l’auxiliaire qui est la source du lien. Dans le cas de prépositions 

coordonnées, c’est le coordonnant qui est la cible de la relation. Il n’y pas de distinction 

de représentation entre complément et adjoint, ou entre complément « essentiel » et 

complément « circonstanciel » (exemple 1). Le problème essentiel en analyse syntaxique 

automatique est de trouver le bon gouverneur d’une préposition. En corpus, la distinction 

argument/circonstant est difficile à établir dans nombre de cas, même pour un 

grammairien. Dans le cadre du développement de SYNTEX, C. Fabre et C. Frérot (2002) 

ont proposé une mesure simple pour distinguer automatiquement, au sein des groupes 

prépositionnels rattachés au verbe, les arguments et les circonstants. Cette mesure, 

endogène, utilise deux coefficients de productivité : la productivité du gouverneur verbal 

vis à vis de la préposition et celle du dépendant vis à vis de la préposition. Les résultats 

montrent que cette mesure permet de repérer les arguments avec une précision de 88%, 

et les circonstants avec une précision de 72%, 

SYNTEX n’effectue pas la distinction argument/circonstant, mais il tente de distinguer les 

compléments dits « de phrase », ceux qui ne dépendent syntaxiquement d’aucun mot de 

la phrase, et qu’il convient de laisser « flotter » dans la séquence (exemple 2). 

114

(1) Jean donne un bonbon à Marie. Jean regarde un film à la télévision. 

(2) Après le travail, Jean rentre chez lui. 

Recherche des gouverneurs candidats 

PREP PREP 

Quand on évoque les prépositions en analyse syntaxique automatique, on parle le plus 

souvent du problème de l’ambiguïté de rattachement, c’est-à-dire de celui du choix du 

bon gouverneur parmi plusieurs candidats (en général deux). On s’étend rarement sur le 

problème de la reconnaissance des gouverneurs candidats. Or, quand il s’agit de 

développer un analyseur opérationnel, mettre au point des procédures qui cherchent à 

gauche d’une préposition l’ensemble des mots susceptibles de la gouverner est un 

problème en soi. Le module chercherCandidatPrep s’appuie sur les liens syntaxiques 

déjà placés pour parcourir la séquence de droite à gauche. Il dispose d’un certain nombre 

de critères d’arrêt, décrivant les configurations dans lesquelles il doit stopper sa 

recherche. Il n’est pas question ici de décrire en détail l’algorithme. Je donne quelques 

indications en fonction de la catégorie des mots rencontrés par le module pendant le 

parcours : nom, adjectif, préposition, verbe, virgule. 

Nom. Si le module rencontre un nom, il le prend comme candidat, puis il se déplace au 

recteur de ce nom, sauf si celui-ci est placé à droite, comme c’est le cas en particulier s’il 

est antécédent d’un pronom relatif ou sujet. Dans l’exemple 3, la recherche des 

gouverneurs candidats pour la préposition sur s’arrête au nom loi qui est lié 

syntaxiquement au pronom relatif laquelle situé à droite de la préposition. Dans 

l’exemple 4, la recherche pour la préposition de s’arrête au nom filles qui est lié 

syntaxiquement au pronom relatif qui situé à droite de la préposition. Dans l’exemple 5, 

la recherche pour la préposition à s’arrête au nom conflits qui est sujet du verbe se 

poursuivent situé à droite de la préposition. 

(3) Ce procédé représente de probables atteintes à la loi sur les partis, laquelle fixe 

en particulier le financement politique. [HAN] 

115 

REL 

(4) Engels s'est plié une fois à l' exercice, sur l' instance des filles de Marx qui le 

considéraient comme leur oncle. [LMO] 

(5) Elle intervient alors que des conflits liés à l'application des 35 heures se poursuivent 

dans plusieurs secteurs. [LMO] 

Adjectif. Si le module rencontre un adjectif, il conserve cet adjectif comme candidat 

uniquement si celui-ci est placé immédiatement à gauche de la préposition. La recherche 

des gouverneurs candidats pour les prépositions et pour les adjectifs s’effectue au cours 

d’une seule et même passe sur la séquence, de gauche à droite. A un adjectif situé à 

gauche d’une préposition, le module chercherCandidatAdj peut avoir affecté un ou 

REL 

SUJ

plusieurs gouverneurs nominaux dont l’adjectif est potentiellement épithète 

(section 3.2.11). Chacun de ces noms est récupéré comme candidat de la préposition, et 

la recherche continue à partir du plus à gauche de ces noms. Dans l’exemple 6, le 

module chercherCandidatPrep retient, pour la préposition en, l’adjectif judiciaire 

comme candidat, ainsi que ses gouverneurs potentiels dossiers et commissions, 

préalablement identifiés par le module chercherCandidatAdj. Il retient ensuite le nom 

ingérence situé immédiatement à gauche du gouverneur des du nom commissions. Dans 

l’exemple 7, il retient, pour la préposition du, l’adjectif Mondiale, et tous ses 

gouverneurs nominaux candidats. 

(6) L’ingérence des commissions dans des dossiers judiciaires en cours. [LMO] 

(7) L’ouverture de la réunion de l’Organisation Mondiale du Commerce. [LMO] 

Préposition. Si le module rencontre une préposition, il récupère tous les gouverneurs 

candidats qu’il a lui-même identifiés pour cette préposition, quelque instants auparavant. 

Dans l’exemple 8, le module chercherCandidatPrep retient, pour la seconde préposition 

à, le participe passé limitée, puis le nom négociation, puis les deux gouverneurs 

candidats échec et préfère qu’il avait retenus pour la première préposition à. 

(8) OMC : la France préfère un échec à une négociation limitée à l'agriculture. [LMO] 

Verbe. Si le module rencontre un verbe, il le retient comme candidat et arrête sa 

recherche. Les cas où cet arrêt est prématuré, par exemple quand il s’agit de trouver un 

gouverneur verbal au-delà d’une relative, sont extrêmement rares. Ils sont pour le 

moment mal traités par l’analyseur. 

Virgule. Un cas problématique est celui où une virgule, non coordinatrice, précède 

immédiatement une préposition. A ce stade du traitement, il est difficile de déterminer 

s’il faut aller chercher les gouverneurs candidats juste après cette virgule, au cas où la 

préposition serait tête d’un syntagme prépositionnel en position incise, ou bien s’il faut 

« sauter » une section incise jusqu’à une éventuelle virgule « ouvrante » pour retrouver 

le gouverneur de la préposition. On peut être en présence d’un « complément de phrase » 

qu’il serait malvenu de lier syntaxiquement à quoi que ce soit. C’est pourquoi le 

rattachement des prépositions précédées d’une virgule est reporté à un stade ultérieur de 

l’analyse, quand tous les liens ont été posés (section 3.2.8). 

Dans beaucoup d’études sur l’ambiguïté de rattachement prépositionnel, en particulier 

dans les travaux fondateurs de Hindle et Rooth (1993), les configurations sur lesquelles 

116 

ADJ 

ADJ

sont testés les algorithmes de désambiguïsation ne sont constituées que de deux 

candidats, un verbe et un nom. Dans les corpus, les configurations d’ambiguïtés, 

exprimées en termes de suite des catégories des candidats repérés par le module 

chercherCandidatPrep, sont en fait très diverses. Dans l’expérience que nous avons 

menée avec Cécile Frérot, et présentée dans (Bourigault et Frérot, 2005), nous avons 

montré que, sur les 4 corpus de test, la configuration ‘V N’, où seuls un verbe et un nom 

sont en compétition ne représente que 50 % des cas dans le corpus littéraire, 35 % dans 

le corpus journalistique et 15 % dans le corpus juridique et le corpus technique. 

Indices et stratégie de désambiguïsation 

Le module choisirCandidatPrep exploite essentiellement trois indices : deux indices 

endogènes (F et ProbaEndo) et un indice exogène (ProbaExo). Soit, p la préposition, w le 

dépendant de la préposition, C la catégorie de ce dépendant. Soit {ci, i=1, …, n}, les 

gouverneurs candidats. 

- L’indice Fi pour le candidat ci est égal à la fréquence du triplet (ci,p,w) dans le 

corpus. C’est un indice endogène. Si la préposition est de, le module calcule un 

autre indice endogène du même type, en exploitant le lexique de correspondance 

verbo-nominale VERBACTION, développé par Nabil Hathout 43 . Pour chaque 

gouverneur candidat qui est un nom, si ce nom ci est associé à un verbe vi dans 

VERBACTION, l’indice Fvi pour le candidat ci est égal à somme des fréquences des 

triplets (vi,SUJ,w) et (vi,OBJ,w). 

- L’indice ProbaEndoi pour le candidat ci est égal à la probabilité endogène du couple 

(ci,pC) dans le corpus. 

- L’indice ProbaExoi pour le candidat ci est égal à la probabilité exogène du couple 

(ci,pC). 

L’algorithme de choix, dans sa version simplifiée, est le suivant : choisir le candidat dont 

l’indice F est le plus élevé ; ou bien choisir le candidat dont l’indice ProbaEndo ou 

ProbaExo est le plus élevée ; ou, par défaut, laisser l’ambiguïté, qui sera prise en charge 

par le module de désambiguïsation globale (section 3.2.12). 

Quelques exemples de désambiguïsation réussie. Dans l’exemple 9, le nom rappel est 

choisi comme gouverneur de la préposition au, sur la base de l’indice F, car le triplet 

(rappel,à,règlement) a été extrait 3 fois dans le corpus, dans des contextes non ambigus 

comme celui de l’exemple 9’. Dans l’exemple 10, le participe passé venus est choisi 

comme gouverneur de la préposition à, sur la base de l’indice F, car le triplet 

(venir,à,Seattle) a été extrait 2 fois dans le corpus, dans des contextes non ambigus 

comme celui de l’exemple 10’. Dans l’exemple 11, le nom délivrance est choisi comme 

gouverneur de la préposition de, sur la base de l’indice Fv, car le couple (délivrer, 

délivrance) est présent dans le lexique VERBACTION et le triplet (délivrer,OBJ,pilule) a 

été extrait 5 fois dans le corpus. Dans l’exemple 12, le nom modifications est choisi 

43 http://w3.univ-tlse2.fr/erss/ressources/verbaction/ 

117

comme gouverneur de la préposition au, sur la base de l’indice ProbaEndo, car la 

probabilité endogène du couple (modification, àNom) est de 0.10, supérieure aux 

probabilités endogène et exogène du couple (étudier, àNom). Dans l’exemple 13, le verbe 

attirer est choisi comme gouverneur de la préposition sur, sur la base de l’indice 

ProbaExo, car la probabilité exogène du couple (attirer, surNom) est de 0.14, alors que les 

probabilités associées aux autres gouverneurs candidats sont nulles. 

(9) Monsieur le Président, j'aimerais aussi participer quelques minutes au 

rappel + au règlement qui a été soulevé par mon collègue. [HAN] 

(9’) Ce rappel + au Règlement est complexe et touche à la politique des musées 

au Canada. [HAN] 

(10) Glen Mpufane fait partie des manifestants venus + du monde entier à 

Seattle pour protester contre la liberté du commerce. [MON] 

(10’) BILL CLINTON est venu + à Seattle exposer les positions américaines. [MON] 

(11) Il s’agit de la décision d'autoriser la délivrance + de la « pilule du 

lendemain » aux adolescentes dans les établissements scolaires. [MON] 

(12) Je suis membre du comité chargé d'étudier les modifications + au régime 

d'assurance chômage. [HAN] 

(13) Elles visent à attirer+ l'attention des Canadiens sur une initiative politique 

très importante pour notre pays. [HAN] 

Evaluation 

Dans (Bourigault et Frérot, 2005), nous présentons une évaluation détaillée de 

différentes stratégies de désambiguïsation. Nous testons 4 stratégies : une stratégie de 

base, qui n’exploite que la règle par défaut d’attachement au candidat le plus éloigné, 

une stratégie endogène, qui est analogue à la stratégie décrite ci-dessus mais qui 

n’exploite que les indices endogènes, une stratégie exogène, qui est analogue à la 

stratégie décrite ci-dessus mais qui n’exploite que les indices exogènes, et enfin une 

stratégie dite « mixte », qui est la stratégie décrite ci-dessus. Nous avons testé ces 4 

stratégies sur un grand nombre de cas d’ambiguïté de rattachement, annotés à la main sur 

4 corpus de genre différents : 

- BAL. Le roman Splendeurs et misères des courtisanes, d’Honoré de Balzac 

(199 789 mots) : 672 cas annotés. 

- LMO. Un extrait du journal Le Monde (673 187 mots) : 1 238 cas annotés. 

- TRA. Le Code du travail de la législation française (509 124 mots) : 1 150 cas 

annotés. 

- REA. Un corpus de comptes-rendus d’hospitalisation dans le domaine de la 

réanimation chirurgicale (377 967 mots) : 646 cas annotés. 

118

BAL LMO TRA REA 

base 83.0 70.3 65.5 59.9 

endogène 83.5 (-2.9) 80.1 (-33.0) 82.3 (-48.7) 78.0 (-45.1) 

exogène 86.9 (-22.9) 86.6 (-54.9) 86.3 (-60.3) 66.3 (-16.0) 

mixte 86.6 (-21.2) 85.9 (-52.5) 87.3 (-63.2) 78.3 (-45.9) 

Tableau 9. Taux de précision des différentes stratégies de désambiguïsation sur les 4 

corpus de test (avec le taux de réduction de l’erreur par rapport à la stratégie de base). 

Le tableau 9 donne les taux de précision des différentes stratégies de désambiguïsation 

sur les 4 corpus de test, ainsi que, pour un corpus donné, le taux de réduction de l’erreur 

par rapport à la stratégie de base. Les principales conclusions que l’on peut tirer de ces 

résultats sont les suivantes : 

- L’apport des ressources exogènes génériques est indéniable. Le taux de réduction de 

l’erreur, qui est de 22.9 % pour le corpus littéraire (BAL), sur lequel la stratégie de 

base est déjà très performante, s’élève à 54.9 % pour le corpus journalistique (LMO) 

et à 60.3 % pour le corpus juridique (TRA). 

- Il n’y a que sur le corpus médical (REA) que l’apprentissage endogène s’avère être 

indispensable. La réduction du taux d’erreur est de 45.1 % avec la stratégie 

endogène, alors qu’elle n’est que de 16 % avec la stratégie exogène. Plus que par le 

domaine couvert, ceci s’explique par le style très particulier utilisé par les médecins 

pour rédiger les comptes rendus d’hospitalisation, avec un usage abondant de 

phrases nominales et d’une phraséologie très spécifique. 

- Le résultat le plus remarquable, et le moins attendu, est la très grande homogénéité 

des taux de précision obtenus avec les stratégies exploitant le lexique générique 

(stratégies exogène ou mixte) sur les corpus littéraire, journalistique et juridique. 

Ces taux ont des écart de moins de 2 % (respectivement 86.6 %, 85.9 % et 87.3 % 

pour ces trois corpus avec la stratégie mixte). L’exploitation de ressources exogènes 

conduit à un resserrement et à un rapprochement par le haut des performances. 

On peut rapprocher ces résultats de ceux, récapitulés dans (Pantel et Lin, 2000), obtenus 

sur 3 000 cas ambigus extraits de la partie Wall Street Journal du Penn TreeBank par 

différentes méthodes : 81,6% avec une méthode supervisée utilisant un modèle 

d’entropie maximale (Ratnaparkhi et al., 1994), 88,1% avec une méthode supervisée 

utilisant un dictionnaire sémantique (Stetina, Nagao, 1997) et 84.3% avec une méthode 

non supervisée utilisant des mots distributionnellement proches (Pantel et Lin, op.cit.). 

Mais puisque les langues, le type de corpus de test et les conventions d’annotations sont 

différentes, il est délicat de comparer ces chiffres avec ceux que nous présentons dans le 

tableau 3. 

Les ressources de sous-catégorisation syntaxique construites à partir du corpus LM10 

sont exploitées par l’analyseur sans avoir été validées manuellement, et les résultats 

montrent qu’elles sont performantes pour cette tâche. Il convient de préciser que, sur le 

plan linguistique, ces propriétés de sous-catégorisation ne sont pas comparables aux 

descriptions que l’on peut trouver dans des lexiques construits à la main, comme le 

119

Lexique Grammaire ou le lexique Dicovalence 44 , dans les dictionnaires de langue ou 

dans les études de psycholinguistique. C’est vrai particulièrement pour les verbes. La 

probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de 

toutes les occurrences (lemmatisées) de ce verbe, sans distinction des différentes 

acceptions du verbe, alors que l’on sait qu’un même verbe peut avoir des cadres de souscatégorisation 

différents selon ses différents sens. Dans le contexte du développement 

d’un analyseur syntaxique « tout terrain », l’approximation à laquelle conduit ce lissage 

des sens est un mal nécessaire. 

3.2.11. Attachement des adjectifs 


La relation épithète, notée ADJ, a pour source un nom et pour cible un adjectif 

qualificatif, un participe passé ou un participe présent. L’adjectif peut être antéposé. 

Dans le cas d’une coordination de noms gouverneurs, la relation a pour source le 

coordonnant. Dans le cas d’une coordination de dépendants, la relation a pour cible le 

coordonnant. 

Recherche des gouverneurs candidats 

Après avoir testé la possibilité d’un gouverneur à droite, dans le cas d’un adjectif 

qualificatif, le module chercherCandidatAdj remonte la séquence à gauche à la 

recherche de noms gouverneurs candidats. S’il rencontre un nom, il teste l’accord, retient 

ce nom s’il n’y pas d’incompatibilité, et dans tous les cas poursuit au gouverneur de ce 

nom. Dans le cas de noms coordonnés, s’il y a accord avec le premier de ces noms (le 

plus à droite), le module retient uniquement celui-ci, et remonte au gouverneur du 

coordonnant (exemples 1 et 2). S’il n’y a pas accord avec le premier nom, il peut retenir 

dans certains cas le coordonnant comme gouverneur candidat (exemples 3 et 4). La 

recherche s’arrête si le gouverneur d’un nom retenu comme gouverneur candidat est 

situé à droite de l’adjectif. Dans l’exemple 5, la recherche de gouverneurs candidats pour 

l’adjectif stratégique s’arrête au nom plan, antécédent du pronom relatif lequel situé à 

droite de l’adjectif, et ne se poursuit donc pas au nom mouture. 

(1) Il se traduit dans l' agencement des tables, l' accueil prévenant et la cuisine 

désormais très personnelle de l' ancien chef du restaurant Le Quai d' Orsay. 

[LMO] 

(2) Les artistes et les musiciens contemporains. [LMO] 

44 http://bach.arts.kuleuven.be/dicovalence/ 

120

(3) Exeunt les représentants de l' Etat et les mutuelles , considérés comme 

« juge et partie ». [LMO] 

(4) Il s’agit de connaître la nature et la structure exactes des terrains 

sédimentaires sur lesquels la ville de Grenoble est construite. [LMO] 

(5) La première mouture du plan stratégique , dans lequel le statut 

de l' AFP est identifié comme un frein à son développement. [LMO] 

Indices et stratégie de désambiguïsation 

Le module choisirCandidatAdj n’utilise qu’un indice, de type endogène. Soit a l’adjectif 

et {ci, i=1, …, n} les gouverneurs candidats. L’indice Fi pour le candidat ci est égal à la 

fréquence du triplet (ci,ADJ,a). Le module choisit le candidat qui a l’indice le plus élevé, 

ou, par défaut, il laisse l’ambiguïté, qui sera prise en charge par le module de 

désambiguïsation globale (section 3.2.12). Dans l’exemple 6, le module choisit le 

gouverneur information, car le triplet (information,ADJ,judiciaire) a été extrait de 

nombreuses fois dans le corpus dans des contextes non ambigus. Dans le cas où le 

dépendant est un participe passé, le module choisirCandidatAdj utilise un second indice 

endogène, qui est égal à la fréquence du triplet (a,OBJ, ci). Dans l’exemple 7, le module 

choisit pour le participe passé déposée le nom plainte, car le triplet (déposer,obj,plainte) 

a une fréquence non nulle. 

(6) Cela permet aussitôt l'ouverture d'une nouvelle information + judiciaire. 

[LMO] 

(7) Le tribunal des prud'hommes devait juger une plainte+ pour discrimination 

déposée par six militants de la CGT. [LMO] 

3.2.12. Procédure de désambiguïsation globale 

La tâche de désambiguïsation des liens PREP et ADJ est réalisée par un module 

spécifique qui intervient sur le treillis des liens placés par ces modules 

chercherCandidatPrep et chercherCandidatAdj. La stratégie de désambiguïsation 

exploite la contrainte de projectivité : au sein d’une séquence, deux liens syntaxiques ne 

peuvent se croiser, sauf exceptions répertoriées. Dans le treillis de liens syntaxiques, il y 

a deux types de liens : les liens surs, pour lesquels les source et cible sont des mots 

uniques, et les liens possibles qui pointent sur le même dépendant et qui sont 

incompatibles entre eux. La stratégie de désambiguïsation est simple, elle comporte trois 

étapes. 

1- Elagage préliminaire. Le module calcule d’abord les croisements entre liens 

syntaxiques. Dès qu’il repère un croisement entre un lien sûr et un lien possible, il 

élimine le lien possible, ce qui élimine un gouverneur de la liste des candidats 

121

gouverneurs du mot sur lequel pointait le lien possible. Dans l’exemple 1, le lien 

entre donne et à et le lien entre bonbon et à sont des liens possibles, incompatibles 

entre eux. Le lien entre bonbon et rose est un lien sûr. Il y a croisement entre ce lien 

et le premier des deux liens pointant sur à, qui est alors éliminé. Le rattachement de 

la préposition à est désambiguïsé. 

(1) Il donne des bonbons à la fraise roses. 

(1’) Il donne des bonbons à la fraise roses. 

2- Prise en compte des indices positifs. Le module parcourt la séquence de gauche à 

droite. Si le mot courant est ambigu, c’est-à-dire qu’il a plusieurs gouverneurs 

candidats, il lance le module de désambiguïsation correspondant 

(choisirCandidatPrep ou choisirCandidatAdj, selon la catégorie du mot). Je rappelle 

que ces modules de désambiguïsation ne prennent aucune décision lorsque aucun 

indice positif ne permet de choisir un gouverneur candidat. Si aucun candidat n’est 

sélectionné, le module passe au mot suivant. Si un candidat est sélectionné, il place 

le lien de dépendance entre ce gouverneur et le mot courant, en éliminant tous les 

liens possibles qui pointaient vers ce dernier. Puis il élimine le cas échéant les liens 

possibles qui croisent ce nouveau lien sûr. La désambiguïsation d’un lien peut ainsi 

réduire l’ambiguïté d’autres mots de la séquence 45 . Par exemple, dans l’exemple 3, 

aucun indice ne permet de lever l’ambiguïté sur le gouverneur de la préposition de 

(affiche ou volonté). Puis aucun indice ne permet de lever l’ambiguïté sur le 

gouverneur de l’adjectif franche (volonté ou discussion). En revanche, parmi les 

gouverneurs candidats de la préposition avec, le nom discussion possède un indice 

positif : la probabilité exogène que ce nom se construise avec la préposition avec est 

de 0.11 (ProbaExo(discussion,avec)=0.11). Le lien syntaxique entre discussion et 

avec est retenu comme sûr, ce qui conduit à l’élimination des autres liens pointant 

sur avec, ainsi que celle du lien possible entre volonté et franche. Le rattachement 

de l’adjectif est alors désambiguïsé (exemple 3’). 

3- Décisions par défaut. Le module parcourt une seconde fois la séquence de gauche à 

droite. Si le mot courant est ambigu, il applique la règle de rattachement par défaut : 

si le mot est une préposition, il choisit le dernier candidat, c’est-à-dire le plus 

éloigné de la préposition, dans le cas où la préposition n’est pas de, il choisit le 

premier si la préposition est de ; si le mot est un adjectif, il choisit le premier 

45 Il est possible d’imaginer des procédures de désambiguïsation globale différentes de celle présentée dans 

cette section : par exemple, plutôt que de résoudre en parcourant les mots de gauche à droite, il serait possible 

de le faire en parcourant les liens possibles par indice de confiance décroissant. Les gains seraient, je pense, 

relativement marginaux. 

122

candidat. Après chaque application d’une règle par défaut, le module élimine le cas 

échéant des liens possibles croisants. 

(3) Le ministre affiche sa volonté d’une discussion franche avec les syndicats. 

(3’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats. 

(3’’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats. 

3.2.13. Analyse profonde 

Un certain de nombre de liens syntaxiques (ne) peuvent être placés (qu’) en fin 

d’analyse, quand la plupart des liens syntaxiques qui structurent la séquence ont été 

posés par les différents modules décrits jusqu’ici. Ces liens correspondent pour certain à 

une analyse dite « profonde ». La combinaison de techniques d’analyse superficielle et 

profonde est une problématique d’actualité. Blache (2005) dresse un bilan sur les 

différentes approches testées pour combiner ces analyses. Il identifie 4 types 

d’approches : (1) L’approche pré-traitement, où l’entrée a été préformatée avec des 

outils de désambiguïsation morphosyntaxique et de reconnaissances d’entités nommées ; 

(2) l’approche pré-analyse, où l’entrée est le résultat d’une analyse superficielle ; (3) 

l’approche contrôle, dans laquelle un analyseur profond est guidé par un analyseur 

superficiel ; (4) l’approche granularité variable, dans laquelle la finesse d’un même 

analyseur peut être réglée en fonction des objectifs (op. cit., pp. 96-98). Blache et al. 

(2002) proposent un analyseur du dernier type, basé sur les contraintes, dans lequel les 

seuils et les types de contraintes sont les variables de réglage. Dans SYNTEX, certaines 

des analyses que l’on qualifie de profondes sont réalisées en fin de traitement par ce 

module final. Les principales analyses effectuées par ce module concernent le repérage 

de dépendances non bornées et celui des sujets logiques de l’infinitif. 

Dépendances non bornées avec relatif 

Le phénomène de dépendance non bornée est « le fait que deux éléments liés l’un à 

l’autre se trouvent à une distance structurelle (en termes de dépendances syntaxiques) 

potentiellement illimitée » (Kahane, 2002, p. 51). Le module traite certains cas de 

dépendance non bornée mettant en jeu des relatives (du type « l’homme avec lequel je 

souhaite manger » ou « l’homme auquel je cherche à parler »), dans lesquels le pronom 

relatif est gouverné par une préposition, et le verbe de la relative gouverne directement 

123

ou indirectement un infinitif. Dans ce cas, la source du lien de dépendance pointant sur 

la préposition, est déplacée du verbe de la relative au verbe infinitif (exemples 1 et 1’, 2 

et 2’). Dans l’état actuel de l’analyseur, l’ambiguïté de rattachement n’est pas traitée, le 

verbe infinitif est systématiquement choisi, alors que le verbe de la relative peut être le 

bon gouverneur (exemples 3 et 3’). Le module traite aussi certains cas d’extraction 

(exemples 4 et 4’). 

(1) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord . [LMO] 

(1’) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord. [LMO] 

(2) Un projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO] 

(2’) Un projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO] 

(3) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO] 

(3’) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO] 

(4) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO] 

(4’) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO] 

124

Dans le cas de dépendances non bornées impliquant le pronom relatif que, le traitement 

est plus complexe, pour tenir compte d’une possible erreur d’étiquetage de cette forme, 

et la corriger le cas échéant. Si le verbe à l’infinitif est transitif et n’a pas d’objet, la 

source du lien objet qui pointe sur que est déplacée du verbe principal au verbe à 

l’infinitif (exemples 5 et 5’). Si le verbe à l’infinitif a déjà un objet, le module constate 

une incompatibilité. Il réétiquette le mot que en conjonction de subordination et 

transforme le lien objet entre le verbe conjugué et que en un lien de subordination entre 

que et le verbe (exemples 6 et 6’). 

(5) Le bouclier que ProRel Washington tient à déployer a des effets déstabilisants. 

[LMO] 

(5’) Le bouclier que ProRel Washington tient à déployer a des effets déstabilisants. 

[LMO] 

(6) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste 

que ProRel nous continuerons à exercer notre activité. [LMO] 

(6’) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste 

que CSub nous continuerons à exercer notre activité. [LMO] 

Sujet logique des infinitifs 

Le module traite le cas des sujets des infinitifs. Il ajoute une relation Sujet logique qui 

part de l’infinitif vers un des dépendants du verbe gouverneur. Le module utilise des 

listes de verbes. Dans les exemples 7 à 9, le sujet de l’infinitif est le sujet du verbe à 

contrôle. Dans les exemples 10 et 11, le sujet de l’infinitif est le complément d’objet du 

verbe à contrôle. Dans les exemples 12 et 13, le sujet de l’infinitif est un complément 

indirect du verbe à contrôle. 

(7) Rares sont les hommes politiques et les intellectuels qui osent s'opposer à la 

croisade sanglante menée par Vladimir Poutine dans le Caucase du Nord. 

(8) Tous les économistes s'accordent à dire qu'elle se situe à la marge. 

(9) Sensibles aux barrières symboliques, les opérateurs risqueraient alors de 

fuir en masse. 

(10) Nous avons décidé d'occuper le terrain militaire pour forcer l'Etat Français à 

engager le règlement politique de la question corse. 

125

(11) Cela ne devrait pas empêcher les partisans de la démocratie de mettre ses 

bonnes intentions à l'épreuve. 

(12) Elle reproche à France-Télécom d'abuser de sa position dominante dans les 

communications locales. 

(13) Ce texte interdit notamment aux enfants de voyager sur des strapontins. 

Analyse globale 

Enfin, le module construit la forme syntaxique finale de la séquence, en termes de 

succession de clauses. Chaque clause est la projection d’un mot non gouverné. 

L’algorithme de construction de cette forme est simple. Le résultat de cette construction 

est la forme globale de la séquence, telle qu’elle est obtenue à l’issue d’une phase 

d’analyse exclusivement ascendante au cours de laquelle l’analyseur a cherché à lier 

autant que possible chacun des mots de la séquence à un gouverneur syntaxique. A partir 

de cette forme globale, on peut envisager une phase d’analyse descendante,au cours de 

laquelle l’analyseur a une vision globale des clauses construites lors de la première 

phase, vision globale qui peut lui permettre de compléter l’analyse syntaxique. Dans 

l’état actuel du développement de SYNTEX, cette étape d’analyse descendante reste 

marginale. Le seul traitement effectué est le rattachement de certaines prépositions 

précédées d’une virgule (exemples 4 et 5). Les recherches pour reconnaître, avec cette 

nouvelle perspective, de nouveaux liens, ou pour corriger des liens existants, se 

poursuivent… 

(3) Il refuse de créer avec lui , hors de tout cadre légal , une hypothétique entité 

constitutionnelle basque . [MON] 

(4) Comme le fut en son temps , dans les mêmes conditions , le Tornado , le nouvel 

avion de combat européen est très inspiré par la « culture » militaro-industrielle 

britannique . [MON] 

(5) Le FBI estime que, pendant la même période, plus de cent personnes pourraient 

avoir été enterrées dans des fosses communes. [LMO] 

3.2.14. Evaluation 

126 

SUJ 

OBJ 

COMP 

Je présente les résultats obtenus dans le cadre de la campagne nationale EASY 46 

d’évaluation des analyseurs syntaxiques du français. Cette campagne était une des 8 

46 http://www.limsi.fr/Recherche/CORVAL/easy/

campagnes d’évaluation des technologies de la langue du projet EVALDA 47 , piloté par 

l’agence ELDA et financé par le Ministère français en charge de la Recherche dans le 

cadre du programme Technolangue (décembre 2002 - avril 2006). Les organisateurs de 

la campagne EASY ont été l’agence ELDA et le laboratoire LIMSI du CNRS. Dans cette 

campagne, les 15 analyseurs ont participé à la compétition, provenant de 13 participants 

différents : ERSS, FT R&D, INRIA, LATL, LIC2M, LIRMM, LORIA, LPL, STIM, 

SYNAPSE, SYSTAL, TAGMATICA, VALORIA et XRCE. Les corpus annotés ont été 

fournis par 5 partenaires : l’ATILF, le LLF, le DELIC, le STIM et ELDA. La tâche des 

fournisseurs de corpus a consisté en la collecte du corpus de différents genres de textes 

et en leur annotation (tableau 10). Les différents corpus sont les suivants : Web, des 

pages WEB du site ELDA ; Le Monde, des articles du journal Le Monde ; Parlement, 

des transcriptions de débats parlementaires (Sénat français et Parlement Européen) ; 

Littérature, des textes littéraires, issus de la base Frantext de l’ATILF ; Mail, des 

emails ; Médical, des textes médicaux (pathologies et traitements) ; Oral, des 

transcriptions de parole ; Questions, des questions, issues de la campagne EQUER. 

Le protocole d’évaluation EASY supposait que tous les participants adoptent la même 

segmentation en mots et en énoncés. En concertation avec les participants, les 

organisateurs ont défini un formalisme et des conventions d’annotation censés permettre 

d’exprimer l’essentiel d’une annotation syntaxique quelle que soit sont type (de surface 

ou profonde, complète ou partielle), ceci sans privilégier une approche particulière. Le 

formalisme d’annotation EASY permet d’annoter des constituants continus et 

non-récursif, ainsi que des relations syntaxiques. Les relations peuvent associer 

indifféremment des mots ou des constituants. Dans EASY, il y a 6 types de constituants : 

nominal, adjectival, prépositionnel, adverbial, verbal et prépositionnel-verbal. Il y a 14 

types de relations fonctionnelles : sujet-verbe, auxilliaire-verbe, complément d’objet 

direct, complément-verbe, modifieur de nom, modifieur de verbe, modifieur d’adjectif, 

modifieur d’adverbe, modifieur de préposition, complémenteur, attribut du sujet/objet, 

coordination, apposition, juxtaposition. Pour plus de détails, voir (Vilnat et al., 2004) 

(Paroubek & Robba, 2006) (Paroubek et al., 2007). 

Nous n’avons participé qu’à l’évaluation sur les relations, puisque SYNTEX ne fabrique 

pas de constituants. Par ailleurs, j’avais décidé d’emblée de ne pas fournir de résultats 

sur les corpus Oral et Mail, pour marquer le fait que SYNTEX n’avait pas été conçu pour 

traiter des corpus de n’importe quel type, mais qu’il avait été mis au point pour, et été 

testé sur, des corpus qui respectent les normes syntaxiques de l’écrit standard. 

L’essentiel du travail a consisté, d’une part, à réaliser les programmes de conversion en 

amont de l’analyseur, pour prendre en entrée le découpage en mots fourni par les 

organisateurs, et en aval de l’analyseur, pour rendre les résultats dans le format XML 

demandé, et, d’autre part, à compléter l’analyseur pour qu’il traite correctement des 

47 http://www.elda.org/ 

127

elations (locales) sur lesquelles j’avais alors peu avancé. L’ensemble de ces tâches a été 

mené à bien, de main de maître, par Marie-Paule Jacques 48 . 

Je présente dans les tableaux 12a-h les résultats, pour les relations, de tous les analyseurs 

sur tous les corpus, en termes de précision, rappel et f-mesure. Le tableau 11 rassemble 

ces résultats pour SYNTEX, sur les 6 corpus qu’il a traités. On constate que SYNTEX est 

classé premier partout, sauf en rappel sur les corpus Littéraire (3 ème ), Le Monde (3 ème ) et 

Parlement (2 ème ). Le résultat le plus remarquable est l’écart entre SYNTEX et ses suivants 

en terme de précision : en moyenne 10 points de précision en plus. 

Corpus Fournisseur Enoncés Mots Enoncés Mots 

annotés annotés 

Web ELDA 836 16 786 77 2 104 

Le Monde LLF 2 950 86 273 380 10 081 

Parlement ELDA 2 818 81 310 276 7 551 

Littérature ATILF 8 062 229 894 892 24 358 

Mail ELDA 7 976 149 328 852 9 243 

Médical STIM 2 270 48 858 554 11 799 

Oral DELIC 522 8 106 505 8 117 

Questions ELDA 3 528 51 546 203 4 116 

Tableau 10. Les corpus de la campagne EASY 

Corpus Précision Rappel F mesure 

r S-n°2 r S-n°1 r S-n°2 

Web 0.80 1 + 0.11 0.60 1 0 0.69 1 + 0.12 

Médical 0.79 1 + 0.14 0.63 1 0 0.70 1 + 0.07 

Littéraire 0.80 1 + 0.12 0.55 3 - 0.07 0.65 1 + 0.03 

Le Monde 0.76 1 + 0.10 0.58 3 - 0.02 0.66 1 + 0.04 

Parlement 0.75 1 + 0.11 0.57 2 - 0.02 0.64 1 + 0.05 

Questions 0.77 1 + 0.09 0.63 1 0 0.70 1 + 0.05 

Mail 

Oral 

Tableau 11. Résultats de SYNTEX dans la compagne EASY (pour les relations), sur 6 

corpus. Précision, rappel et f-mesure, avec le rang de classement (r) et l’écart avec 

l’analyseur classé deuxième pour la précision et la f-mesure (S-n°2), et l’écart avec 

l’analyseur classé premier pour le rappel (S-n°1). 

48 Elle était alors jeune doctorante au sein de l’ERSS. Je la remercie ici chaleureusement, et je suis heureux de 

partager avec elle la joie de voir d’avoir obtenu de si bons résultats. 

128

p r f 

P1 0.59 0.51 (3) 0.55 (3) 

P2 0.42 0.16 0.23 

P3 - - - 

P4 0.55 0.33 0.42 

P5 0.55 0.44 0.49 

P6 0.46 0.41 0.43 

P7 0.61 0.39 0.47 

Sy 0.80 (1) 0.60 (1) 0.69 (1) 

P9 0.69 (2) 0.30 0.42 

P10 0.60 0.55 (2) 0.57 (2) 

P11 0.67 (3) 0.06 0.11 

P12 0.41 0.29 0.34 

P13 0.27 0.24 0.26 

P14 - - - 

P15 0.34 0.32 0.33 

Tableau 12a. Résultats EASY 

(relations) sur le corpus Web 

p r f 

P1 0.61 0.54 0.58 

P2 0.08 0.04 0.05 

P3 0.58 0.62 (1) 0.60 (3) 

P4 0.53 0.36 0.43 

P5 0.51 0.41 0.46 

P6 - - - 

P7 0.68 (2) 0.43 0.52 

Sy 0.80 (1) 0.55 (3) 0.65 (1) 

P9 0.02 0.01 0.02 

P10 0.64 (3) 0.61 (2) 0.62 (2) 

P11 0.64 0.09 0.16 

P12 0.39 0.27 0.32 

P13 0.43 0.38 0.40 

P14 - - - 

P15 0.38 0.31 0.34 

Tableau 12c. Résultats EASY 

(relations) sur le corpus Littéraire 

129 

p r f 

P1 0.60 0.53 0.56 

P2 0.07 0.04 0.05 

P3 0.64 (3) 0.63 (2) 0.63 (2) 

P4 0.28 0.20 0.23 

P5 0.56 0.49 0.52 

P6 - - - 

P7 0.65 (2) 0.44 0.53 

Sy 0.79 (1) 0.63 (1) 0.70 (1) 

P 9 0.04 0.02 0.03 

P10 0.61 0.59 (3) 0.60 (3) 

P11 0.62 0.10 0.17 

P12 0.43 0.33 0.38 

P13 0.36 0.33 0.34 

P14 - - - 

P15 0.33 0.28 0.30 

Tableau 12b. Résultats EASY 

(relations) sur le corpus Médical 

p r f 

P1 0.57 0.52 0.54 

P2 0.32 0.12 0.17 

P3 0.63 (3) 0.60 (1) 0.62 (2) 

P4 0.58 0.32 0.41 

P5 0.56 0.46 0.51 

P6 0.42 0.34 0.38 

P7 0.66 (2) 0.43 0.52 

Sy 0.76 (1) 0.58 (3) 0.66 (1) 

P9 - - - 

P10 0.61 0.59 (2) 0.60 (3) 

P11 0.60 0.07 0.13 

P12 0.41 0.29 0.34 

P13 0.36 0.32 0.34 

P14 - - - 

P15 0.34 0.29 0.31 

Tableau 12d. Résultats EASY 

(relations) sur le corpus Le Monde

p r f 

P1 0.58 0.52 0.55 

P2 0.29 0.11 0.16 

P3 0.59 0.59 (1) 0.59 (2) 

P4 0.55 0.32 0.40 

P5 0.53 0.43 0.47 

P6 0.41 0.34 0.37 

P7 0.64 (2) 0.41 0.50 

Sy 0.75 (1) 0.57 (2) 0.64 (1) 

P9 - - - 

P10 0.58 0.56 (3) 0.57 (3) 

P11 0.60 (3) 0.08 0.14 

P12 0.37 0.24 0.29 

P13 0.34 0.31 0.32 

P14 - - - 

P15 0.34 0.29 0.31 

Tableau 12e. Résultats EASY 

(relations) sur le corpus Parlement 

p r f 

P1 0.57 0.48 (3) 0.52 (3) 

P2 0.13 0.05 0.08 

P3 0.60 (3) 0.55 (1) 0.57 (1) 

P4 0.55 0.04 0.07 

P5 0.50 0.40 0.44 

P6 - - - 

P7 0.64 (2) 0.36 0.46 

Sy - - - 

P9 0.04 0.02 0.03 

P10 0.57 0.52 (2) 0.55 (2) 

P11 0.66 (1) 0.01 0.02 

P12 0.39 0.24 0.30 

P13 0.45 0.36 0.40 

P14 - - - 

P15 0.41 0.29 0.34 

Tableau 12g. Résultats EASY 

(relations) sur le corpus Mail 

130 

p r f 

P1 0.68 (2) 0.62 (2) 0.65 (2) 

P2 0.16 0.06 0.09 

P3 0.66 0.61 (3) 0.64 (3) 

P4 0.67 (3) 0.56 0.61 

P5 0.45 0.38 0.41 

P6 - - - 

P7 0.67 0.43 0.52 

Sy 0.77 (1) 0.63 (1) 0.70 (1) 

P9 0.11 0.05 0.07 

P10 0.64 0.61 0.62 

P11 0.61 0.09 0.16 

P12 0.48 0.35 0.40 

P13 0.35 0.31 0.33 

P14 - - - 

P15 0.36 0.29 0.32 

Tableau 12f. Résultats EASY 

(relations) sur le corpus Questions 

p r f 

P1 0.61 (3) 0.49 (1) 0.54 (1) 

P2 0.33 0.09 0.14 

P3 0.56 0.48 (3) 0.51 (2) 

P4 0.56 0.39 0.46 

P5 0.51 0.36 0.43 

P6 - - - 

P7 0.63 (2) 0.33 0.43 

Sy - - - 

P9 0.26 0.09 0.13 

P10 0.52 0.48 (2) 0.50 (3) 

P11 0.65 (1) 0.10 0.18 

P12 0.34 0.21 0.26 

P13 - - - 

P14 - - - 

P15 - - - 

Tableau 12h. Résultats EASY 

(relations) sur le corpus Oral

3.3. Discussion 

Pour conclure ce mémoire, je consacre cette dernière section à une discussion 

épistémologique sur le statut de l’analyseur SYNTEX et sur la valeur des connaissances 

générées par le projet de recherche décrit dans ce mémoire. Dans une première partie 

(section 3.3.1), je situe les recherches présentées dans ce mémoire par rapport au 

paradigme des grammaires formelles, qui domine largement le domaine de l’analyse 

syntaxique au sein du TAL depuis les travaux de N. Chomsky. Je reprends 

l’argumentation épistémologique de Jean-Marie Marandin (1993), à propos de 

l’inadéquation des grammaires formelles pour l’analyse d’énoncés réels. Je discute 

ensuite les oppositions entre approche procédurale et approche déclarative, et entre 

analyse et génération. J’insiste sur le rôle central de la grammaire traditionnelle, tant 

pour le projet de la Grammaire Générative Transformationnelle, que pour celui du 

développement d’un analyseur syntaxique opérationnel. Je conclus cette section sur la 

nécessité de choisir un cadre épistémologique au sein duquel il soit possible de penser le 

statut et la valeur de connaissances des objets techniques réalisés par l’ingénierie 

linguistique. Dans la deuxième partie de cette section (3.3.2), je me situe dans le cadre 

épistémologique de la philosophie de la technique de Gilbert Simondon. Je montre 

comment les concepts d’adaptation et d’auto-corrélation élaborés par Simondon 

permettent de décrire de façon particulièrement éclairante le processus de 

développement de l’analyseur SYNTEX en tant qu’objet technique. La dernière partie de 

cette section (3.3.3) pose la question du savoir sur la langue produit par le projet 

SYNTEX, et y répond, partiellement, en proposant d’utiliser l’analyseur comme un 

instrument d’observation en corpus des structures syntaxiques de la langue. 

3.3.1. Situation par rapport au paradigme formel 

La critique de J.-M. Marandin (1993) 

Dans un article de la revue Traitement Automatique des Langues publié en 1993, 

Jean-Marie Marandin expose une critique épistémologie du principe de l’utilisation des 

grammaires formelles en analyse syntaxique automatique (Marandin, 1993). Le point de 

départ de sa réflexion est la question suivante : « Quel statut (…) prend, ou peut prendre, 

un analyseur dans un programme de recherche consacrée au langage » (op. cit., p. 5). 

Marandin examine le statut de l’analyseur syntaxique dans trois programmes de 

recherche : le Traitement du Langage Naturel, la syntaxe et la compréhension. Je me 

concentre ici sur ce que dit Marandin du premier programme, le plus proche de mon 

propre projet. Marandin nomme ce projet « 3A », pour Analyse Automatique Autonome, 

et il le définit ainsi : « concevoir, étant donné une grammaire, l’algorithme ou 

l’heuristique qui permet de décrire des énoncés dans les termes de cette grammaire ; 

implémenter la procédure ». Marandin affirme que, bien que les tenants de ce 

131

programme s’en défendent ou bien l’ignorent, ce programme est entièrement déterminé 

par la problématique de la Grammaire Générative transformationnelle (GGT) dans sa 

version standard, puisque, de fait, l’analyseur 3A occupe la place du dispositif de 

performance telle qu’elle est définie dans ce cadre théorique. Or, explique Marandin, « il 

est faux de considérer que l’appareil de performance, tel que le propose la GGT, en 

particulier Chomsky dans Aspects, soit réductible à une pure application des règles 

syntaxiques » (op. cit., p. 12), et il poursuit en citant N. Chomsky : « la grammaticalité 

est seulement l’un des nombreux facteurs qui, par leur interaction, déterminent 

l’acceptabilité [des énoncés] » (Chomsky, 1971, p. 23). Ainsi, selon Marandin, les 

difficultés rencontrées par 3A dans la mise en œuvre effective de son programme 

viennent d’une inadéquation de fond entre le dispositif abstrait des grammaires 

formelles, emprunté au cadre théorique de la GGT dans lequel il est exploité pour 

générer des phrases grammaticales, et la fonction assignée à l’analyseur par le 

programme 3A, à savoir de produire automatiquement des descriptions syntaxiques 

d’énoncés appréhendés dans des échanges langagiers. Un énoncé n’est que partiellement 

organisé par la grammaire conçue comme un système de règles de bonne formation (voir 

section 3.1.2). L’énoncé est hétérogène, en tant que résultat intriqué de l’interaction de 

plusieurs principes organisationnels, et cela se marque dans la forme même des énoncés : 

« le système des circonstanciels, par exemple, échappe en grande partie au contrôle de la 

syntaxe ; il en est de même pour les différents système d’anaphore et certains aspects de 

la sous-catégorisation verbale quand on ne se laisse pas leurrer par le dogme de la 

projection (ou ses équivalents) » (Marandin, 1993, p. 14). 

Procéduralité vs. déclarativité 

On a vu dans le chapitre 2 que l’arrivée sur le devant de la scène des grammaires 

d’unification pour l’analyse syntaxique, est concomitant du discrédit dans lequel tombe 

le paradigme des ATN, au moment où l’Intelligence Artificielle promeut la déclarativité 

au rang de principe incontournable. Le principe de la séparation des règles de grammaire 

et des algorithmes, cher à Yngve dès les années 1950, est un principe essentiel du 

paradigme formel. S’écarter de ce paradigme impose-t-il de renoncer au principe de la 

séparation ? La question est ouverte. Parmi les travaux en analyse syntaxique robuste 

présentés dans le chapitre 2, la plupart s’inscrivent dans une philosophie procédurale. 

P. S. Garvin, dès 1967, remet en cause le principe d’une tripartition des analyseur 

syntaxiques (dictionnaire électronique, base de règles grammaticales, algorithme 

d’analyse) avec l’argument que dès que la grammaire atteint une taille réaliste, il n’est 

plus possible de maintenir le principe d’une indépendance entre les règles et les 

algorithmes, qui rend possible la modification ou l’ajout des règles sans qu’il soit 

nécessaire de modifier l’algorithme. Son analyseur syntaxique pour le russe est un 

système bipartite, constitué d’un dictionnaire et d’un algorithme. Il en est de même de 

SYNTEX. Les connaissances grammaticales sont incluses, « encapsulées », dans les 

algorithmes. Le grammairien concepteur doit maîtriser intégralement, à la fois le 

développement des algorithmes locaux de reconnaissance syntaxique, et la mise au point 

de l’architecture globale de l’analyseur. 

Analyse vs. génération 

132

Un autre dogme du paradigme formel est celui de la réversibilité. L’un des intérêts 

affichés des grammaires formelles est qu’elles sont censées pouvoir fonctionner en 

analyse et en génération. Tous les travaux en analyse syntaxique robuste se consacrent 

exclusivement à la tâche d’analyse, et c’est peut-être l’une des raisons de leur succès. 

Peut-être faut-il assumer le fait qu’en Traitement Automatique des Langues les tâches 

d’analyse et de génération sont radicalement différentes, et donc qu’elles exigent des 

choix méthodologiques potentiellement différents ? S. Kahane explique que « le choix 

d’un ensemble de fonctions syntaxiques est directement lié à la façon dont seront écrites 

les règles de pronominalisation, linéarisation, redistribution ou coordination » (Kahane, 

2001, p. 25). Les règles évoquées sont des règles de génération. Par exemple, il faut 

deux relations différentes, complément oblique et complément locatif, pour distinguer la 

relation entre compte et sur dans Marie compte sur Pierre de la relation entre pose et sur 

dans Marie pose le livre sur la table, de façon à gérer correctement les différences de 

pronominalisation en y. En analyse, ces contraintes sur le degré de finesse de la 

description syntaxique ne s’appliquent pas nécessairement. C’est sans doute sur le 

lexique que l’impact du choix entre analyse et génération est le plus fort. En génération, 

il est crucial de coder dans le lexique toutes les informations lexicales nécessaire pour 

placer les mots, et leur affecter des cas ; la connaissance est concentrée dans le lexique. 

En analyse, beaucoup d’information est apportée par la séquence en entrée, et ce 

d’autant plus qu’elle a été préalablement étiquetée. C’est pour cette raison que, dans le 

projet SYNTEX, j’ai pu adopter, concernant le lexique, une approche minimaliste: 

(i) Partir de rien. J’ai fait le choix initial de la table rase. Contrairement aux approches 

qui choisissent, pour réaliser un analyseur syntaxique, de développer au préalable un 

lexique syntaxique très riche recensant les propriétés syntaxiques des mots de la 

langue, j’ai commencé sans aucune information de ce type. Cette approche est 

possible à partir du moment où l’on a choisi de s’appuyer sur les résultats d’un 

étiqueteur (on bénéficie indirectement des ressources lexicales éventuellement 

exploitées par celui-ci). 

(ii) Identifier les besoins en ressources lexicales au fur et à mesure du développement de 

l’analyseur. Dans un certain nombre de cas, ces ressources sont des listes fermées 

d’unités lexicales, que l’on peut construire à partir de la consultation de bonnes 

grammaires. Pour la constitution de listes non fermées d’unités lexicales, les 

informations sont acquises de façon automatique à partir de corpus, à l’aide de et 

pour l’analyseur, sans validation manuelle. 

La place de la grammaire 

La grammaire, en tant que tradition séculaire de description des structures syntaxiques 

des langues, joue un rôle fondamental dans le projet de développement d’un analyseur 

syntaxique opérationnel. Sur ce point, la position que j’adopte est analogue à celle de la 

Grammaire Générative Transformationnelle : la grammaire comme base d’appui. Dans 

son Introduction à une science du Langage, J.-C. Milner (1989) montre qu’une science 

linguistique n’est possible que parce que la grammaire existe et qu’elle fournit les 

descriptions minimales dont a besoin cette science pour fonctionner comme une science 

133

empirique. C’est un postulat qui est à la base de la grammaire générative. Dès le début 

d’Aspects, Chomsky revendique le recours à la grammaire traditionnelle comme un point 

de passage indispensable pour élaborer la théorie de la grammaire générative : « [Le 

linguiste] aura grand avantage à commencer par étudier le type d’information structurale 

que présentent les grammaires traditionnelles et le type de processus linguistiques 

qu’elles ont mis au jour, sans encore les formaliser » (Chomsky, 1971, p. 15). Mais c’est 

Milner qui, dans ses efforts pour reconstituer le cadre épistémologique de la grammaire 

générative, explicite le statut de la grammaire dans l’édifice théorique. A une science du 

langage qui se veut empirique, la grammaire fournit ses observables, à savoir les 

exemples. Dans la grammaire, l’exemple n’est pas un énoncé attesté, c’est le 

représentant d’une classe d’équivalence, qui rassemble toutes les données de langue 

(phrases) qui partagent un ensemble de propriétés. L’exemple, et donc l’observable, 

n’existe que parce qu’il est possible d’attribuer des propriétés à des données de langue. 

Or, ce qui garantit qu’il soit simplement possible, de manière générale, d’attribuer des 

propriétés à des données de langue, c’est l’existence de fait de ce qu’on appelle les 

grammaires (Milner, 1989, p. 53). La grammaire fournit au linguiste une analyse 

grammaticale minimale, qui segmente les unités, leur attribue un type (nom, verbe…) et 

identifie des relations. Cette analyse minimale initiale aura à être reprise, critiquée, voire 

modifiée, mais elle est nécessaire et elle ne peut être entièrement produite par la théorie 

linguistique elle-même. 

Selon mon point de vue, le développement d’une théorie formelle et celui d’un analyseur 

opérationnel ne sont pas des chemins consécutifs, mais parallèles, qui prennent comme 

point de départ les concepts de la tradition grammaticale. De même que l’existence des 

grammaires rend possible la construction d’une science linguistique, de même elle rend 

possible l’élaboration d’analyseurs syntaxiques. Comme pour la théorie, les concepts et 

descriptions de la grammaire ne sont qu’un point de départ, duquel on s’éloigne vite dès 

que l’entreprise avance. Dans le contexte du développement d’un analyseur, cette prise 

de distance s’impose parce que les descriptions syntaxiques que propose la grammaire 

sont celles d’exemples et non d’énoncés réels. Les exemples sont construits par le 

grammairien de façon à être le plus simples possible pour isoler au mieux les règles que 

ces exemples sont censés illustrer : « Quant aux règles qui fonctionnent avec des 

exemples inventés, elles s’attacheront à inventer des phrases où l’on pourra sans trop de 

difficulté neutraliser tout ce qui dans la phrase ne relève pas de la règle considérée » 

(Milner, 1989, p. 113). La matière à traiter par l’analyseur n’est pas constituée 

d’exemples, mais de séquences réelles, qui possèdent le caractère empirique des données 

de langue que Milner nomme la concrétion. Tout énoncé résulte de l’application de 

plusieurs règles syntaxiques. Le grammairien est capable de fabriquer ces artefacts 

presque purs que sont les exemples, il est aussi capable d’exercer son talent d’analyste 

pour identifier la description syntaxique d’un énoncé attesté, aussi complexe soit-il. Si le 

grammairien sait en plus programmer, alors il peut mettre au point un système de 

reconnaissance de ces formes syntaxiques. 

Science et ingénierie linguistiques 

134

Un argument régulièrement avancé par les promoteurs des grammaires formelles est 

celui de la possibilité d’un partage des tâches entre linguistes et informaticiens. Avec 

l’approche formelle et déclarative, chaque communauté de spécialistes peut se 

concentrer sur son domaine de compétence : aux linguistes la tâche de développer les 

grammaires, aux informaticiens celle de s’occuper des algorithmes et de toute la 

mécanique informatique. Il existe une autre voie, celle de l’ingénierie linguistique 

(Natural Language Engineering). Cette voie se caractérise d’abord par des objectifs 

appliqués, mais aussi par des profils de compétence particuliers, qui associent chez des 

individus, d’un côté, un goût prononcé pour la chose linguistique, une bonne 

connaissance de la grammaire et une bonne culture syntaxique, ainsi que l’absence 

d’aversion pour le dépouillement de corpus, et, de l’autre côté, de solides compétences 

en programmation. Ces linguistes informaticiens ne seront pas considérés comme des 

informaticiens par les informaticiens, à juste titre, ni comme des linguistes par les 

linguistes, ce qui est sans doute plus regrettable. Ce sont des ingénieurs linguistes. Un 

ingénieur linguiste, ou une équipe d’ingénieurs linguistes, peut mener à bien un projet de 

recherche visant la réalisation d’un analyseur syntaxique opérationnel. 

Le partage des tâches est selon moi dépassé, mais la route est longue avant que les 

clivages s’estompent. A la conclusion de sa critique du programme de recherche de 

l’Analyse Automatique Autonome, J.-M. Marandin affiche un certain scepticisme sur la 

possibilité d’un programme de recherche en ingénierie linguistique : « L’analyseur prend 

le statut d’une machine industrielle dans le TAL ; il est soumis aux impératifs de la 

technologie, ce ne sont pas toujours ceux d’un programme de recherche » (Marandin, 

1993, p. 31). Nous avons vu aussi, à la fin de la section 2.2.3, comment J. Léon et 

M. Cori regrettaient que le tournant déclaratif, en encourageant un partage des tâches 

entre la description des données linguistiques, d’un côté, et l’écriture de modèles et 

algorithmes, de l’autre, ait contribué à faire réapparaître une ligne de fracture entre la 

linguistique et l’informatique, et provoqué une régression dans le chemin vers la 

constitution du TAL comme discipline scientifique, en laissant le champ libre aux 

ingénieurs : 

Seuls peuvent se réclamer sans équivoque du domaine les ingénieurs qui 

réalisent des applications industrielles et qui, donc, ont simultanément 

besoin des algorithmes et de la description des données. Alors même qu’en 

adoptant des modèles déclaratifs le TAL cherche à s’imposer des critères 

de rigueur, il tend du même coup à rendre impossible sa constitution 

comme discipline scientifique. 

(Cori et Léon, 2002, p. 50) 

Cette réticence à accorder un crédit scientifique à un programme de recherche en 

ingénierie linguistique vient d’une conception schématique et partielle des rapports entre 

sciences et techniques. Cette conception est exposée pour la linguistique de façon très 

nette par Jean-Claude Milner dans son ouvrage de 1989. Même si l’épistémologie 

invoquée par Milner n’est sans doute pas appropriée à l’objet qu’elle vise, on peut sans 

doute estimer qu’elle est acceptée aisément au sein de la communauté du TAL. Milner 

s’interroge sur la manière dont la question de la science est pertinente pour la 

135

linguistique. Il reprend l’hypothèse du programme de recherche initial de la grammaire 

générative : si la linguistique est une science, elle est une science empirique ; elle l’est au 

même sens que le sont les sciences de la nature et elle relève donc de la même 

épistémologie. Or Milner rappelle que, depuis A. Koyré, on caractérise la science par la 

combinaison de deux traits : 

(I) La mathématisation de l’empirique (…) ; (II) La constitution d’une 

relation avec une technique, telle que la technique se définisse comme 

l’application pratique de la science (d’où le thème de la science appliquée) 

et que la science se définisse comme la théorie de la technique (d’où le 

thème de la science fondamentale). 

(Milner, 1989, p. 23) 

Pour accéder au statut de science empirique, la linguistique doit fonctionner comme la 

théorie d’une ou de plusieurs techniques qui en seraient la version appliquée, autrement 

dit il faut qu’il existe une « linguistique industrielle ». Pour Milner, on pourra parler de 

linguistique industrielle quand on disposera de techniques informatiques capables de 

« transformer » les objets que vise la science linguistique, c’est-à-dire non pas tant les 

langues elles-mêmes que les réalisations de langue : textes, messages, slogans, discours, 

etc. Milner évoque des outils informatiques capables de traitements de textes syntaxiques 

dignes de ce nom, c’est-à-dire au moins capables de réaliser des opération syntaxiques 

telles que la transposition du style direct au style indirect, ou la conversion actif/passif, 

ou la correction grammaticale, avec, pour commencer, la vérification de l’accord 

(op. cit., note 11, pp. 34-35). Mais il ne suffira pas que tels outils existent, il faudra aussi 

que ces systèmes aient été construits à partir des lois des langues découvertes et 

organisées en théorie par les linguistes, lois qui régissent ces matières réalisées que sont 

les productions textuelles. Or Milner constate qu’on est loin de cette situation. La raison 

essentielle pour lui est que la relation de la science moderne à la technique n’est ni 

simple, ni directe : il y a loin de la proposition théorique à la procédure technique. Il 

prend l’exemple de la physique. Le théoricien ne sera satisfait que quand la technique du 

moteur à explosion pourra être présentée comme déductible de la théorie d’Einstein, et 

donc comme une application de la physique d’Einstein. Or les ingénieurs n’en ont cure. 

Ils construisent de leur côté pour leurs propres besoins une physique pour l’ingénieur, en 

détachant de la science physique quelques parties plus ou moins étendues et détaillées. 

Toujours selon Milner, ce qui est vrai pour la physique est encore plus vrai pour la 

linguistique, où l’indifférence réciproque entre linguistes et techniciens de la langue est 

plus accentuée qu’ailleurs. Ainsi il s’est construit une « linguistique pour ingénieur », 

qui « n’a guère dépassé en profondeur et en étendue les manuels de grammaire du cours 

préparatoire » (op. cit., p 34). L’avènement d’une linguistique industrielle n’est pas pour 

demain, où l’on verrait les ingénieurs venir puiser dans des théories linguistiques les 

connaissances à appliquer pour construire de belles réalisations industrielles. 

Au reste, l’on entrevoit déjà ce que promet l’avenir, en ce qui concerne les 

doctrines du langage et de la langue : d’un côté, l’appel aux technologies 

obtuses ; de l’autre, la résurgence des bavardages romanesques. En tout 

état de cause, le fil de la science est bien prêt d’être rompu. 

136

(Milner, 1989, p. 19) 

Il ne conviendrait pas que, poussé par l’exaspération que suscite 

légitimement l’intervention répétée des charlatans, le linguiste entonne 

sans prudence le cantique des applications. 

(Milner, 1989, p. 32) 

L’épistémologie adoptée par Milner privilégie l’idée d’une relation orientée entre 

sciences et techniques, dans laquelle les techniques sont fécondées par les sciences, en 

tant qu’elles n’en sont que des applications, qui, le cas échéant, viennent les valider. Un 

tel cadre épistémologique laisse donc peu de place à une réflexion sur le statut des 

techniques, leur valeur de connaissances intrinsèque et leur identité propre. Dans le 

domaine du TAL, et bien au-delà, on reste souvent prisonnier de la vison traditionnelle 

d’une dichotomie entre la science fondamentale, noble, et la science appliquée, plus 

vulgaire, et de la technique comme simple application de la science. Dans cette vision 

classique, il n’y a pas de place pour un programme de recherche en ingénierie 

linguistique, au prétexte qu’il ne peut y avoir production de connaissances quand on 

cherche à réaliser des objets techniques utiles. Dans le domaine du TAL, cette 

conception sert de justification à l’implication limitée des acteurs de la recherche 

universitaire dans le monde industriel du TAL et de ses applications, où ils auraient 

pourtant beaucoup à faire et beaucoup à apprendre. Si l’on veut sortir de la situation 

d’ignorance ou de méfiance entre linguistes et ingénieurs, et renouveler au-delà des 

vœux pieux un dialogue entre science et ingénierie linguistiques, il faut dans un premier 

temps trouver un cadre épistémologique dans lequel les ingénieurs linguistes puissent 

conceptualiser leur activité de production et donner un statut aux objets qu’ils 

produisent. B. Habert (2006), dans son article qui présente « le linguiste à l’instrument », 

suggère de se référer au cadre épistémologique de Gilbert Simondon (Simondon, 1958, 

1971). 

3.3.2. SYNTEX, un « objet technique » 

Georges Simondon et la philosophie de l’objet technique 

G. Simondon a développé une philosophie de la technique. Ancien élève de l’Ecole 

Normale Supérieure de la rue d’Ulm et agrégé de philosophie en 1948, Simondon a été 

nommé au lycée Descartes de Tours, où, de 1948 à 1955, il a enseigné non seulement la 

philosophie, mais aussi la physique dans la classe de philosophie. En 1963, il a été 

nommé professeur à la Sorbonne, puis à l’Université Paris V, où il a dirigé 

l’enseignement de psychologie générale et a fondé le laboratoire de psychologie générale 

et technologie. C’est dans son premier ouvrage, publié en 1958 (Simondon, 1958), dont 

le titre est « Du mode d’existence des objets techniques », qu’il développe sa philosophie 

de la technique. Son objectif est de réduire les conflits entre les valeurs de la culture 

classique et celles qui sont liées aux sciences et aux techniques : 

Cette étude est animée par l’intention de susciter une prise de conscience 

du sens des objets techniques. La culture s’est constituée en système de 

137

défense contre les techniques ; or cette défense se présente comme une 

défense de l’homme, supposant que les objets techniques ne présentent pas 

de réalité humaine. Nous voudrions montrer que la culture ignore dans la 

réalité technique une réalité humaine, et que, pour jouer son rôle complet, 

la culture doit incorporer les êtres techniques sous forme de connaissance 

et de sens des valeurs. 

(Simondon, 1958, p. 9) 

La philosophie de la technique de Simondon est une philosophie de l’invention. Les 

réalisations techniques apparaissent par invention. Les concepts qu’il met en place pour 

décrire les objets techniques et l’activité d’invention sont élaborés à partir de l’analyse 

historique, psychologique, technique d’un très grand nombre de réalisations techniques, 

empruntées à tous les domaines de l’activité humaine. La perspective historique est 

fondamentale, en ce sens que, pour Simondon, la genèse de l’objet technique fait partie 

de son être : « L’unité de l’objet technique, son individualité, sa spécificité sont les 

caractères de consistance et de convergence de sa genèse » (Simondon, 1971, p. 20). 

Simondon parle de genèse concrétisante. L’étude d’un objet technique doit être 

appréhendée en tant qu’il appartient à une lignée et marque à un moment donné une 

étape dans l’évolution de cette lignée. C’est pourquoi j’ai retracé, dans le chapitre 1 de 

ce mémoire, en quoi l’analyseur SYNTEX était un descendant de l’outil LEXTER, et j’ai 

cherché ensuite à inscrire mon travail de recherche dans une lignée de travaux en 

Traitement Automatique des Langues dont l’unité et la convergence se concrétisent par 

l’objectif commun de réaliser des analyseurs opérationnels (chap. 2). Dans ce deuxième 

chapitre, la perspective adoptée n’a pas été celle, classique dans les disciplines 

scientifiques, d’un « état de l’art » dans lequel on montre comment les résultats présentés 

constituent une contribution à l’avancée des connaissances dans un domaine scientifique. 

Même si on peut identifier des choix méthodologiques proches dans ces divers travaux, 

on est moins dans une évolution cumulative des connaissances que dans la réitération 

d’efforts, accomplis par des chercheurs inventeurs le plus souvent isolés, pour résoudre 

le même problème, mais dans des contextes différents (différences de langues, de 

contraintes technologiques, de principes de base, d’applications cibles). L’émergence 

d’inventions techniques analogues à des dates et des lieux différents n’est d’ailleurs pas 

un cas rare dans le développement des techniques. 

Les concepts clés de la philosophie de Simondon sont ceux d’adaptation et 

d’auto-corrélation. La caractéristique de l’objet technique est d’être un mixte 

d’adaptation et d’auto-corrélation : 

L’objet technique est d’une part un médiateur entre organisme et milieu, 

d’autre part une réalité intérieurement organisée et cohérente ; comme 

médiateur, il doit s’adapter à des termes extrêmes qu’il relie, et c’est un 

des aspects de son progrès d’améliorer son couplage aux réalités entre 

lesquelles il jette un pont ; mais cette augmentation de complexité et de 

distance entre les termes extrêmes doit être compensée par un surcroît 

d’organisation et de cohérence entre les différentes parties de l’objet 

138

technique ; le progrès se fait par oscillation entre les progrès de la 

médiation et ceux de l’auto-corrélation. 

(Simondon, 1971, p. 101-102) 

Ces concepts ont été élaborés à partir d’études approfondies de multiples inventions, 

menées par Simondon, que celui-ci a l’habitude de fournir en détail dans ses exposés 

pour appuyer ces propositions théoriques. Je reproduis ici l’illustration donnée par 

Simondon à propos de la roue : 

Une étude plus exhaustive de la roue véhiculaire ne pourrait être faite sans 

tenir compte des étapes de l’adaptation aux termes extrêmes, le plan de 

roulement (appartenant au milieu) et le véhicule (portant l’organisme et 

conduit par lui) ; la roue s’adapte au plan de roulement en se différenciant 

(roue de chemin de fer, roue d’automobile, roue avant et roue arrière de 

tracteur) très particulièrement au niveau du contact avec le plan de 

roulement (pneumatiques pour la neige, tout-terrain…) ; elle s’adapte au 

véhicule par la suspension, les amortisseurs, les boggies. Ces progrès 

relationnels amènent à une nécessité d’auto-corrélation plus serrée, en 

particulier pour les virages (différentiel, système de la barre de couplage 

des roues directrices avec fusées entraînées par des leviers dont les 

prolongements géométriques se coupent au milieu du pont arrière) ; dans 

le cas des chemins de fer, l’auto-corrélation dans les virages est obtenue 

par inclinaison de la voie, conicité des roues et prescription d’une vitesse 

définie pour chaque courbe. 

(Simondon, 1971, p. 102) 

L’analogie entre la roue et un analyseur syntaxique ne va a priori pas de soi. La 

différence des déterminants devant ces deux objets est le signe qu’il est trop tôt pour 

parler de l’analyseur syntaxique comme d’un objet technique reconnu. Néanmoins, les 

concepts d’adaptation et d’auto-corrélation sont pour moi des clés essentielles pour 

parler du développement de l’analyseur SYNTEX et pour théoriser l’activité de recherche 

en ingénierie linguistique dont il est un résultat. Dans la suite de cette section, j’applique 

d’abord les concepts d’adaptation et d’auto-corrélation aux systèmes de traitement de 

l’information qui intègrent un analyseur syntaxique comme composant. Je considère 

ensuite l’analyseur syntaxique en tant qu’objet technique et j’utilise ces mêmes concepts 

pour décrire les dimensions selon lesquelles se sont développées les évolutions de 

l’analyseur syntaxique. 

Adaptation et auto-corrélation de systèmes intégrateurs 

L’analyseur syntaxique n’est quasiment jamais en contact direct avec l’organisme, 

c’est-à-dire avec un utilisateur final. Pour une première mise en scène, dans le domaine 

de l’ingénierie linguistique, des concepts d’adaptation et d’auto-corrélation, et avec eux 

ceux d’organisme et de milieu, entre lesquels l’objet technique vient établir une liaison, 

je propose d’observer d’abord des systèmes au sein desquels l’analyseur syntaxique est 

un composant. Je prends les trois exemples suivants : 

139

- une plateforme d’acquisition de terminologie. L’analyseur syntaxique est utilisé 

pour fournir les analyses syntaxiques des séquences du corpus d’étude, à partir 

desquelles un programme d’extraction construit un réseau de candidats termes 

complexes (syntagmes verbaux, nominaux, adjectivaux). L’utilisateur est un 

terminologue ou un spécialiste qui construit une ressource terminologique pour un 

domaine donné. 

- une chaîne d’analyse distributionnelle. Les analyses syntaxiques fournies par 

l’analyseur sont exploitées par un programme de calcul distributionnel qui extrait les 

contextes syntaxiques associés aux mots du corpus d’étude et qui rapproche les mots 

qui ont des profils syntaxiques proches. L’utilisateur est un linguiste spécialiste de 

sémantique lexicale, ou un chercheur en sciences humaines, intéressé par l’évolution 

des mots et concepts dans une communauté donnée. 

- un moteur de recherche sur site Web. L’analyseur syntaxique est utilisé pour 

extraire des mots clés liés aux mots de la requête posée par l’utilisateur qui seront 

proposés comme suggestions de reformulation. L’utilisateur final est le responsable 

du site, qui souhaite intégrer à son site des facilités de navigation, soit pour satisfaire 

l’internaute qui visite le site, en l’aidant à trouver le plus vite possible l’information 

qu’il recherche, soit pour le maintenir le plus longtemps possible sur le site. 

Dans toutes ces applications, le système doit s’adapter aux termes extrêmes qu’il relie, à 

savoir un fond textuel (milieu) et un utilisateur (organisme). Les adaptations concernent 

d’abord les frontières externes, avec le milieu d’un côté et avec l’organisme de l’autre. 

Le système doit comporter en début de chaîne, côté milieu, des programmes de captage, 

de conversion, de balisage, de nettoyage de sources textuelles, qui permettent la prise en 

compte de fichiers aux formats divers et leur conversion dans le format adéquat exigé 

par l’analyseur syntaxique. Puisque l’analyseur SYNTEX attend le corpus à traiter au 

format texte avec un balisage minimal (séparation en unités textuelles), il faut 

débarrasser le texte du balisage initial quand il existe, pour éventuellement le récupérer 

et le reprojeter le cas échéant une fois l’analyse effectuée. Dans certains cas, la phase de 

pré-traitement peut comporter une étape de découpage du corpus en séquences, dans les 

contextes où un simple découpage sur ponctuations fortes apparaît inadéquat. Le système 

intégrateur doit être équipé en fin de chaîne, du côté de l’organisme, d’interfaces 

adaptées aux besoins de l’utilisateur. Dans les première et troisième applications, il faut 

intégrer, en aval de l’analyseur, un extracteur, c’est-à-dire un module capable de passer 

de la représentation syntaxique en dépendance des phrases à des syntagmes structurés 49 . 

Ces adaptations sont obligatoires pour permettre la communication entre composants. 

D’autres adaptations ne sont pas obligatoires, mais sont ajoutées de façon opportuniste 

pour renforcer le potentiel du système. Par exemple, en amont de l’analyseur, des 

procédures de prétraitement syntaxiques peuvent être intercalées avant l’analyse 

syntaxique pour le traitement d’entités nommées spécifiques au domaine traité 

(reconnaissance de noms de société, de gênes, de composés chimiques, etc.). En aval, 

49 J’ai réalisé un tel extracteur pour l’analyseur SYNTEX. Bien que cela représente une quantité de travail non 

négligeable et un certain intérêt, j’ai choisi de ne pas présenter ce travail dans le présent document. 

140

des extensions peuvent être apportées aux interfaces utilisateurs dans le cas où 

l’analyseur intégré apporte plus d’informations que le strict nécessaire requis 

initialement par les spécifications de l’application. Par exemple, si l’analyseur est 

capable de repérer des relations de variations morphosyntaxiques entre candidats termes, 

ou peut produire des liens de proximités distributionnelles entre candidats termes, les 

interfaces doivent intégrer la possibilité de visualiser ces liens supplémentaires. 

Inversement, il existe des applications dans lesquelles il convient plutôt de réduire les 

capacités de l’analyseur, pour ne se saisir que des résultats pertinents pour l’application 

(uniquement des syntagmes nominaux, par exemple). 

Toutes ces interventions portent sur l’amélioration de la caractéristique d’adaptation des 

systèmes de traitement de l’information qui intègrent un analyseur syntaxique. Au-delà 

de ces adaptations plus ou moins ad hoc, les concepteurs de tels systèmes sont amenés à 

réfléchir à une meilleure auto-corrélation de ces systèmes. C’est particulièrement 

nécessaire quand il s’agit de quitter le cadre des solutions artisanales et d’adopter des 

solutions ingénieriques destinées à favoriser la maintenance, la réutilisabilité et la 

généricité de ces systèmes. On peut faire référence à l’initiative GATE pour les 

applications d’extraction d’information (Cunningham et al., 1996, Cunningham et al., 

2002), ainsi qu’aux propositions de F. Cerbah sur une architecture à base de services 

Web pour la mise en œuvre d’applications d’acquisition terminologique (Cerbah et 

Daille, 2006). Ces efforts n’ont pas un impact immédiat fort visible du côté de 

l’utilisateur final, mais ils permettent des progrès à moyen terme sur le développement 

des systèmes qui aboutiront à une meilleure adaptation aux besoins des utilisateurs. 

Adaptation de l’analyseur syntaxique 

Après avoir présenté l’adaptation et l’auto-corrélation de systèmes qui intègrent comme 

composant un analyseur syntaxique, je m’intéresse à l’analyseur lui-même en tant 

qu’objet technique. L’analyseur est bien un objet technique au sens où l’entend 

Simondon car les progrès dans son développement peuvent être décrits de façon 

parfaitement adéquate en exploitant les deux dimensions de l’adaptation et de 

l’auto-corrélation. Les termes extrêmes entre lesquelles l’analyseur doit réaliser 

l’adaptation sont d’un côté des séquences issues de corpus à analyser, et de l’autre les 

descriptions grammaticales idéales de ces séquences. Pour une séquence donnée en 

entrée, l’analyse produite doit être la plus proche possible de l’analyse correcte. 

Améliorer l’adaptation de l’analyseur, c’est réduire les différences entre analyses 

produites et analyses correctes. Il s’agit non pas d’améliorations locales qui viseraient à 

traiter correctement des exemples que telle théorie syntaxique considérerait comme 

difficiles, mais d’une amélioration globale, dont la mesure doit être effectuée, en terme 

de rappel et de précision, sur de larges échantillons de corpus de test annotés à la main. 

Améliorer l’analyseur consiste d’abord à améliorer sa couverture, à savoir le type de 

relations syntaxiques qu’il est capable de reconnaître, et pour chacune de ces relations 

améliorer le rappel et la précision, c’est-à-dire reconnaître sans erreur le maximum de 

liens syntaxiques dans les énoncés. Ces progrès passent essentiellement par une 

augmentation de la résistance de l’analyseur. On parle souvent de robustesse à propos 

141

d’analyse syntaxique et l’on entend généralement la capacité d’un analyseur à traiter des 

énoncés comportant des malformations grammaticales. Par résistance, j’entends sa 

capacité à reconnaître les liens syntaxiques dans des configurations complexes, que la 

caractéristique de concrétion de la langue rend fréquentes dans les corpus. Les séquences 

réelles sont souvent longues, par rapport aux exemples de la grammaire, et donc les liens 

syntaxiques sont nombreux et intriqués dans des configurations complexes. Par exemple, 

améliorer l’adaptation de l’analyseur sur la relation Sujet, c’est complexifier et enrichir 

les algorithmes de reconnaissance pour trouver les liens Sujet même s’il y a intercalation 

de chaînes coordonnées, d’incises, de subordonnées relatives entre le verbe et son sujet. 

La démarche adoptée pour améliorer l’adaptation de l’analyseur est une démarche 

pragmatique, par essais et erreurs, qui enchaîne de façon systématique programmation et 

tests sur corpus. C’est une démarche d’ingénierie linguistique. Comme je l’ai dit dans la 

section précédente, il n’y a pas de partage des tâches, entre d’un côté ce qui relèverait de 

l’informatique et de l’autre de la linguistique. Le concepteur doit avoir des compétences 

de grammairien, d’un niveau nettement supérieur à celui du cours moyen ou du collège. 

Il doit être capable de déterminer lui-même pour tout énoncé sa description syntaxique. 

De plus, même si la démarche de développement est empirique, elle n’est pas 

exclusivement guidée par l’observation du corpus. Le recours au corpus est fondamental 

pour mettre au jour et faire plus rapidement l’inventaire des multiples configurations de 

surface au sein desquelles il faut reconnaître les liens syntaxiques. Mais le concepteur 

doit être capable de prévoir des règles pour des configurations qui ne sont pas attestées 

dans le corpus d’apprentissage. C’est la connaissance qu’il a de la grammaire de la 

langue qui lui permet de dépasser les configurations qu’il observe en corpus, et 

d’abstraire à partir d’elles des règles de reconnaissance dont la couverture dépassera les 

simples cas observés. En revanche, ce sont ses réflexes d’ingénieurs qui vont lui 

permettre de faire des choix, de prioriser les développements et d’accepter des pertes, en 

laissant tomber des cas trop spécifiques au corpus, trop rares, voire anecdotiques, ou 

d’une complexité telle que la résolution entraînerait la mise en place, coûteuse en temps, 

d’un arsenal sophistiqué pour une amélioration de l’adaptation à peine sensible. Le 

recours aux tests sur corpus est indispensable pour se donner les moyens d’élaborer une 

stratégie de développement qui optimise le ratio temps passé sur progrès réalisés. 

Les progrès de l’adaptation sont le résultat d’une démarche méthodique, systématique de 

test sur des corpus variés. C’est d’abord de la sueur : le concepteur « a la tête dans le 

guidon », l’œil rivé sur les compteurs de rappel et de précision, toute l’énergie mobilisée 

pour faire bouger les aiguilles. C’est un travail quotidien de développement et 

d’enrichissement de règles et d’heuristiques, dont le concepteur peut difficilement 

s’enorgueillir dans de magistrales publications scientifiques. Les progrès d’adaptation et 

ceux de l’auto-corrélation se manifestent de façon radicalement différente : 

De manière assez générale, les progrès relationnels sont des 

perfectionnements progressifs, continus, se faisant par essais et erreurs au 

cours de l’usage ; ils résultent de l’expérience et s’additionnent : ils 

conservent l’allure temporelle de la relation entre organisme et milieu. 

(…) Par contre, les progrès de l’auto-corrélation demandent une résolution 

142

de problème, une invention qui pose un système synergétique de 

compatibilité. Cette invention peut être amenée par le besoin des progrès 

relationnels, mais elle ré-engendre la logique interne du système, qui est 

auto-normatif, et confère à ses sous-ensembles des propriétés provenant du 

fonctionnement et le rendant possible. 

(Simondon, 1971, p. 102) 

Auto-corrélation de l’analyseur syntaxique 

Les progrès d’auto-corrélation concernent l’architecture globale du système, c’est-à-dire 

d’une part la stratégie d’enchaînement des modules, et d’autre part les fonctions et 

procédures génériques partagées par l’ensemble des modules. Ils exigent du recul, et ne 

peuvent se produire qu’à partir d’une réflexion distanciée sur les limites patentes de 

l’analyseur, à la fois en termes de performances et de facilité de maintenance et de 

développement, et de la formulation de l’ensemble des difficultés sous la forme d’un ou 

plusieurs problèmes à résoudre. Alors peut jaillir la trouvaille géniale, l’idée, l’invention, 

qui conduit à un bond qualitatif que n’auraient pu générer les progrès de l’adaptation. 

Au départ du projet, j’ai volontairement choisi une architecture initiale simple : la 

séquence est traitée en plusieurs passes ; chaque passe est dédiée à la reconnaissance 

d’un type de relation et d’un seul ; chaque module résout immédiatement ses ambiguïtés 

de rattachement et transmet une séquence sans ambiguïtés au module de la passe 

suivante ; aucun module ne remet en cause les catégories morphologiques ou les liens 

syntaxiques posés par les modules antérieurs. Ce choix d’une architecture simple a été 

une condition nécessaire pour avancer dans la réalisation de l’analyseur, en particulier 

dans la programmation des algorithmes de recherche de gouverneurs candidats et des 

procédures de désambiguïsation et des ressources lexicales nécessaires et suffisantes. Il 

y a eu une longue phase de développement continu visant à améliorer l’adaptation de 

l’analyseur, sans que l’architecture soit modifiée. Les contraintes simplificatrices ont été 

poussées jusque dans leurs derniers retranchements. 

A plusieurs stades du cycle de développement de l’analyseur, j’ai procédé à des 

restructurations de l’architecture pour améliorer l’auto-corrélation de l’analyseur. Ces 

opérations se sont imposées sous la pression de différents facteurs : (i) le constat d’un 

certaine stagnation dans l’amélioration des performances, et l’identification de 

configurations de surface difficiles à traiter avec une architecture séquentielle 

cloisonnée ; (ii) la mise en chantier d’un SYNTEX anglais, à l’occasion de laquelle j’ai 

cherché au maximum à identifier des traitements génériques et à réaliser des fonctions 

partagées ; (iii) la rédaction du présent mémoire, qui m’a obligé à prendre du recul et 

m’a incité à m’interroger sur une meilleure cohérence interne et un meilleur équilibre de 

l’analyseur ; (iv) enfin, et surtout, la volonté de ne pas laisser SYNTEX devenir une 

« usine à gaz » qui ne pourrait être entretenue que par son concepteur historique. 

Les « révolutions » importantes dans l’évolution de l’auto-corrélation de l’analyseur ont 

été l’intégration du retour en arrière et la globalisation de la désambiguïsation. Le 

principe de l’interdiction du retour en arrière qui, après avoir longtemps été utile pour 

développer en profondeur les différents modules, s’est avéré être à l’origine d’une 

143

stagnation dans l’amélioration des performances. J’ai alors choisi d’intégrer dans 

l’analyseur la possibilité du retour en arrière. Bien entendu, le premier effet de cette 

décision n’a pas été une amélioration subite des performances de l’analyseur, mais, 

comme le formule Simondon, un ré-engendrement de la logique interne du système. Dès 

lors que cette possibilité est incluse, la philosophie de développement des modules est 

modifiée de façon profonde : il devient possible d’implémenter la pose de liens 

provisoires, qui pourront être supprimés lors des étapes ultérieures du traitement si des 

informations plus complètes sur la forme syntaxique de la séquence l’imposent. Ce 

changement donne une meilleure prise pour affronter le problème de la circularité, lié à 

l’incompatibilité entre l’intrication des liens syntaxiques et la séquentialité des 

traitements (section 3.1.4). Mais il impose de reprendre un à un les différents modules 

pour les repenser vis-à-vis de cette nouvelle norme et assurer une nouvelle logique 

interne du système. Cela revient à identifier les configurations dans lesquelles des liens 

déjà posés peuvent être supprimés et inversement celles où des liens peuvent être placés 

de façon éventuellement provisoire. 

La globalisation de la désambiguïsation participe du même effort vers une meilleure 

prise en compte du problème de la circularité. La modification consiste d’abord à 

développer une procédure de désambiguïsation sur le treillis des liens placés par les 

modules à ambiguïté. Mais elle impose aussi un ré-engendrement de la logique interne 

du système, en particulier au niveau de la formalisation du parcours, puisqu’il faut 

intégrer le fait qu’à une étape d’un parcours on peut passer sur un mot qui est cible de 

plusieurs liens de dépendance. 

3.3.3. Savoirs 

Quel savoir sur la langue le projet SYNTEX produit-t-il ? C’est sur cette interrogation que 

je conclus ce mémoire. Elle ne s’impose pas en droit. Pour reprendre la question de 

Marandin, « quel est le statut que prend, ou peut prendre, un analyseur dans un 

programme de recherche consacré au langage » (Marandin, 1993, p. 5, cf. section 3.3.1), 

je rappelle que mon programme de recherche initial n’était pas explicitement consacré 

au langage. Mon objectif (cf. section 3.1.1) était de construire un analyseur syntaxique 

opérationnel, précis et efficace, qui produise des analyses aussi correctes et complètes 

que possible, sur des textes de genres variés, qui soit utilisable dans une large gamme 

d’applications, que ce soit du côté de la recherche académique ou de celui des 

applications industrielles. Ce n’était pas un objectif de connaissance, mais un objectif 

d’utilité. Par rapport à cet objectif, un premier et rapide bilan peut être tiré après 

quelques années. D’abord, les résultats de SYNTEX sont exploités par plusieurs dizaines 

de chercheurs, auxquels j’ai fourni des résultats sur les corpus qu’ils m’ont envoyés. 

Cette tâche est consommatrice de temps, parfois fastidieuse, mais elle fait partie du 

contrat initial. Les retours, quand retours il y a, sont souvent très utiles (Bourigault et al., 

144

2004). Pour alléger le travail, une interface Web est mise en place à l’ERSS 50 pour 

permettre aux utilisateurs de déposer leur corpus et de le récupérer un peu plus tard, 

analysé. Par ailleurs, une version de SYNTEX pour la recherche est diffusée aux 

laboratoires qui souhaitent être autonomes. 

Ensuite, très tôt dans le projet, une convention de collaboration a été négociée entre le 

CNRS, l’Université Toulouse Le Mirail et la société Synomia 51 , pour que celle-ci 

exploite commercialement l’analyseur dans le domaine de la recherche d’informations 

sur Internet. Depuis 2003, la société Synomia commercialise des solutions de recherche 

d’informations sur site Internet. La collaboration avec cette entreprise a été extrêmement 

stimulante. Outre le retour permanent et systématique sur les erreurs, bugs et limites de 

l’analyseur, elle m’a permis de mener avec les ingénieurs linguistes de l’entreprise une 

réflexion particulièrement féconde sur les utilisations potentielles d’un analyseur 

syntaxique 52 . Bien entendu, tout n’a pas été toujours facile, que ce soit dans mes 

relations avec la société, puisque nos contraintes et objectifs concernant la diffusion des 

résultats n’ont pas toujours été immédiatement compatibles, ou au sein de ma 

communauté de recherche, où l’on regarde souvent avec beaucoup de suspicion toute 

collaboration avec le « privé ». Il reste que, sans cette collaboration, SYNTEX n’aurait pas 

atteint le niveau de performance qu’il a aujourd’hui. 

Même si la visée utilitaire a été primordiale au départ du projet, ce n’est pas elle qui a été 

proprement le moteur de la recherche. Comme le dit Simondon, les conditions 

extrinsèques de l’ambiance dans lesquelles naît une invention et se développe un objet 

technique, c’est-à-dire les facteurs économiques, culturels, psychologiques…, peuvent 

participer à la formulation d’une demande d’invention, mais elles ne peuvent produire à 

elles seules une telle invention : « c’est de la formulation, puis de la résolution du 

problème que dépendent de façon décisive l’invention et l’existence de la réalité 

technique. » (Simondon, 1971, p. 45). Le problème vers la résolution duquel ma 

recherche a été dirigée est celui de l’analyse syntaxique opérationnelle, abordé non 

comme un problème de compilation, mais comme un problème de reconnaissance de 

forme. Je l’ai formulé ainsi : pour chaque mot de la séquence, identifier son gouverneur 

syntaxique (section 3.1.2). La difficulté essentielle est la circularité : l’intrication globale 

des liens syntaxiques dans une séquence fait que chaque position ne peut être reconnue 

qu’en interdépendance avec les autres. Or le traitement informatique est séquentiel. Le 

problème de fond est donc un problème d’architecture : selon quel enchaînement 

séquentiel passer progressivement des places de mots, qui peuvent être perçues par 

l’analyseur, à leurs positions, qui doivent être reconnues par lui. L’analyseur SYNTEX 

constitue une solution technique à ce problème. Pour penser comment l’existence de cet 

objet technique pourrait contribuer à une avancée du savoir sur les langues, il faut se 

50 Je remercie Franck Sajous, qui a réalisé cette interface, pour l’ensemble de sa contribution pour faire de 

SYNTEX un outil utilisable. 

51 www.synomia.com 

52 Je remercie très chaleureusement Gaëlle Récourcé, de la société Synomia, pour les innombrables discussions 

enrichissantes que nous avons eues pendant toute la période de développement de SYNTEX. 

145

éférer à ce que dit Simondon des rapports entre invention technique et savoir 

scientifique : 

Les besoins pratiques ont contraint l’Homme à améliorer les techniques 

sans attendre le développement de toutes les sciences ; (…) cette avance 

est surtout caractérisée par le progrès des adaptations et la relative 

précarités des auto-corrélations ; c’est en partie ce hiatus au cœur des 

techniques qui a fait ressentir le besoin de sciences, tandis que les parties 

déjà constituées des techniques offraient aux sciences naissantes non 

seulement des problèmes théoriques à résoudre (…), mais encore des 

moyens d’expérimentation : le besoin d’un complément interne de 

l’invention déjà adaptée est en fait un appel au savoir scientifique ; du 

progrès rapide réalisé par la constitution de la science répondant à cet 

appel, il ne faut pas tirer trop hâtivement la conclusion du primat de la 

science en matière d’invention technique ; la science renouvelle très vite 

une technique lorsqu’elle a seulement à combler le hiatus central de l’autocorrélation 

; si les adaptations ne sont pas constituées avant l’étape 

scientifique, le progrès est moins rapide. 

(Simondon, 2005, p. 232) 

Si l’on fait confiance à Simondon, on peut rêver à des rapports nouveaux entre science 

du langage et ingénierie linguistique. Si le projet SYNTEX doit produire des 

connaissances sur la langue, c’est du côté de l’auto-corrélation du système qu’il faut aller 

chercher. Il faut analyser à quelle logique et organisation internes de l’analyseur a abouti 

le processus de résolution du problème de la reconnaissance syntaxique : si une 

architecture optimale et des fonctions génériques partagées se dégagent de façon 

singulière de l’élaboration d’analyseurs syntaxiques pour des langues appartenant à des 

familles différentes, alors sans doute pourra-t-on affirmer que « ça dit quelque chose » 

de fondamental sur la structure syntaxique des langues. Se dessinent ce que pourraient 

être de nouveaux rapports entre théorie linguistique et développement d’objet 

techniques : la science linguistique élabore une théorie syntaxique, qui s’appuyant sur les 

résultats de la technique, produit en retour un cadre théorique capable de faire progresser 

de façon rationnelle le développement de la technique… 

Sans attendre la convergence hypothétique entre une science linguistique à construire et 

une ingénierie linguistique productrice d’objets techniques, il est possible de mettre en 

oeuvre ces derniers dans une activité de connaissance sur la langue, en les utilisant 

comme des instruments d’observation (Habert, 2005, chap. VII, 2006). Le double usage 

de l’objet technique comme outil et comme instrument est une idée fondamentale de la 

philosophie de Simondon : 

L’outil est l’objet technique qui permet de prolonger et d’armer le corps 

pour accomplir un geste, l’instrument est l’objet technique qui permet de 

prolonger et d’adapter le corps pour obtenir une meilleure perception ; 

l’instrument est outil de perception. Mais un outil peut servir d’instrument, 

c’est-à-dire pour prélever des informations sur la tâche qu’il permet 

d’exécuter (ex marteau). Il y a une manière de considérer et d’étudier la 

146

technique qui recherche toujours également ce en quoi l’outil est 

instrument, c’est-à-dire (…) est le premier moyen de s’instruire de ce qu’il 

effectue, de considérer ce qu’il fait comme un monde (une dimension ou 

une partie nouvelle du monde) qu’il donne aussi à connaître – 

considération qui n’est pas négligeable à l’égard des relations entre la 

science et la technique. 

(op. cit., p. 58) 

Une fois encore, le recours à Simondon est salutaire. Un analyseur syntaxique 

opérationnel peut servir à acquérir des connaissances sur la tâche de description 

syntaxique, et donc sur la structure syntaxique des langues. Pour encourager cette 

production de savoir, nous mettons en place à l’ERSS un certain nombre d’outils 

d’analyse de corpus, associés à un ensemble de corpus diversifiés analysés 

syntaxiquement, et accessibles via le Web. Ceci pourrait ensemble constituer un 

observatoire de la langue française 53 . Différents outils sont envisagés : un concordancier 

permettant d’effectuer des requêtes, sur tout ou partie du corpus, portant sur les liens 

syntaxiques ; des modules d’extraction permettant d’obtenir des listes d’unités lexicales 

présentant telles ou telles propriétés syntaxiques ; des modules de calcul de corrélation 

entre faits syntaxiques ; des interfaces d’accès aux résultats d’analyse distributionnelle 

contrastée sur deux corpus. Bien entendu, ce type d’outils ne présente d’utilité que pour 

des approches en linguistique qui s’intéressent aux usages plus qu’à la norme, et aux 

tendances plus qu’aux démarcations binaires. Avec dans le lointain horizon la promesse 

de nouveaux rapports en science et ingénierie linguistiques, c’est d’abord dans 

l’utilisation de l’analyseur en tant qu’instrument que l’on doit attendre la production de 

savoirs diversifiés sur la langue. Et pour cela, on peut raisonnablement compter sur le 

génie des utilisateurs de SYNTEX. 

53 Je remercie une nouvelle fois Franck Sajous, qui pilote ce projet. 

147

148

Bibliographie 

ABEILLE A. & BLACHE P. (1997) Etat de l’art : la syntaxe. In Traitement Automatique 

des Langues, 38(2), pp. 69-90 

ABNEY S. (1987) The English Noun Phrase in Its Sentential Aspects. Thèse du 

Massachusetts Institute of Technology, Cambridge 

ABNEY S. (1990a) Rapid incremental parsing with repair. In Proceedings of the 6th New 

OED Conference: Electronic Text Research, pp. 1-9, University of Waterloo 

ABNEY S. (1990b) Parsing by Chunks. In BERWICK R., ABNEY S. & TENNY D., Eds, 

Principle-Based Parsing. Kluwer Academic Publishers 

ABNEY S. (1996) Partial parsing via finite-state cascades. In Natural Language 

Engineering 2(4), Cambridge University Press. pp. 337-344 

ADDA G., LECOMTE J., MARIANI J., PAROUBEK P. & RAJMAN M. (1998), The GRACE 

French Part-Of-Speech Tagging Evaluation Task, In proceedings of the 1 st International 

Conference on Language Resources and Evaluation (LREC’1998),Granada 

ADDA G., MARIANI J., PAROUBEK P. & RAJMAN M. & LECOMTE J. (1999) Métrique et 

premiers résultats de l'évaluation GRACE des étiqueteurs morphosyntaxiques pour le 

français. In Actes de la 6 ème conférence Traitement Automatique du Langage Naturel 

(TALN’1999), Cargese 

AÏT-MOKHTAR S. & CHANOD J.-P. (1997a) Incremental finite-state parsing. In 

Proceedings of the 5 th Conference on Applied Natural Language Processing 

(ANLP’1997), pp. 72-79, Washington DC 

AÏT-MOKHTAR S. & CHANOD J.-P. (1997b) Subject and object dependency extraction 

using finite-state transducers. In Proceedings of the ACL workshop on Automatic 

Extraction and Building of Lexical Semantic Resources for NLP applications, pp. 71-77, 

Madrid 

AÏT-MOKHTAR S., CHANOD J.-P. & ROUX C. (2002) Robustness beyond shallowness: 

incremental deep parsing. Natural Language Engineering 8(2/3), pp. 121-144 

ALPAC (1966) Language and Machines. Computers in translation and linguistics. A 

report by the Automatic Language Processing Advisory Committee (ALPAC), National 

Academy of Sciences, National Research Council. 

ASSADI H. (1998) Méthodologie et outils informatiques pour l'acquisition de 

connaissances à partir de textes, Thèse en informatique de l’Université Paris 6 

ASSADI H. & BOURIGAULT D. (1995) Classification d'adjectifs extraits d'un corpus pour 

l'aide à la modélisation des connaissances. In Actes des 3èmes Journées internationales 

d'Analyse des Données Textuelles (JADT’1995), pp. 313-320, Rome 

ASSADI H. & BOURIGAULT D. (1996) Acquisition et modélisation des connaissances à 

partir de textes : outils informatiques et éléments méthodologiques. In Actes du 10ème 

149

congrès Reconnaissance des Formes et Intelligence Artificielle (RFIA’1996), 

pp. 505-514, Rennes 

AUSSENAC N., KRIVINE J.-P. & SALLENTIN J. (1992) L’acquisition des connaissances 

pour les systèmes à base de connaissances. Revue d’Intelligence Artificielle 6(1-2) 

BACHIMONT B. (1996) Herméneutique matérielle et artéfacture : des machines qui 

pensent aux machines qui donnent à penser. Thèse de l’Ecole Polytechnique 

BAR-HILLEL Y. (1951) The present state of research on mechanical translation. In 

American Documentation 2, pp. 229-237 

BAR-HILLEL Y. (1953) A Quasi-Arithmetic Notation for Syntactic Description, 

Language 29, pp. 47-58. 

BAR-HILLEL Y. (1960) The Present Status of Automatic Translation of Languages, In 

Advances in Computers 1, pp. 91-141 

BASILI R., PAZIENZA M.T., VINDIGNI M. (1999) Adaptive Parsing and Lexical Learning, 

in Actes de VEXTAL’1999, Venise. 

BASILI R., VINDIGNI M. (1998) Adapting a Subcategorization Lexicon to a Domain, 

Proceedings of the ECML98 Workshop TANLPS, Chemnitz 

BENVENISTE E. (1974) Forme nouvelle de la composition nominale, Problèmes de 

linguistique générale, 2, pp. 163-176 

BERRENDONNER A. (2002) Les deux syntaxes, in Verbum 1-2, pp. 23-35 

BLACHE P. (2005) Combiner analyse superficielle et profonde : bilan et perspectives, in 

Actes de la 11 ème conférence sur le Traitement Automatique des Langues Naturelles 

(TALN’2005), pp. 93-102, Dourdan 

BLACHE P., BALFOURIER J.-M. et VAN RULLEN T. (2002). From Shallow to Deep Parsing 

Using Constraint Satisfaction, in Proceedings of 19th International Conference on 

Computational Linguistics (COLING’2002), Taipei 

BLANCHE-BENVENISTE C. (2002) Phrase et construction verbale, in Verbum 1-2, 

pp. 7-22 

BOUAUD J., BACHIMONT B., CHARLET J. & ZWEIGENBAUM P. (1995) Methodological 

Principles for Structuring an Ontology, In Proceedings of the IJCAI-95 Workshop on 

Basic Ontological Issues in Knowledge Sharing, Montreal 

BOURIGAULT D. (1991) LEXTER, un Logiciel d’Extraction de TERminologie. In Actes du 

colloque sur le Repérage de l’information textuelle, Ministère des Communications du 

Gouvernement du Québec et Hydro-Québec, pp. 15-25, Montréal 

BOURIGAULT D. (1993) Analyse syntaxique locale pour le repérage de termes complexes 

dans un texte, Traitement Automatique des Langues 34(2), pp. 105-117 

BOURIGAULT D. (1994a) Extraction et structuration automatiques de terminologie pour 

l'aide à l'acquisition des connaissances à partir de textes. In Actes du 9ème congrès 

Reconnaissance des Formes et Intelligence Artificielle (RFIA&1994). pp. 397-408, Paris 

150

BOURIGAULT D. (1994b) Lexter, un logiciel d’extraction de terminologie. Application à 

l’acquisition des connaissances à partir de textes, Thèse en Mathématique, Informatique 

Appliquées aux Sciences Humaines de l’Ecole des Hautes Etudes en Sciences Sociales, 

Paris 

BOURIGAULT D., AUSSENAC-GILLES N. & CHARLET J. (2004) Construction de 

ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour 

trois études de cas, Revue d'Intelligence Artificielle 18(1), pp. 87-110 

BOURIGAULT D. & FABRE C. (2000), Approche linguistique pour l’analyse syntaxique de 

corpus, Cahiers de Grammaire 25, pp. 131-151 Université Toulouse le Mirail 

BOURIGAULT D. & FREROT C. (2005) Acquisition et évaluation sur corpus de propriétés 

de sous-catégorisation syntaxique. In Actes de la 12ème conférence sur le Traitement 

Automatique des Langues Naturelles (TALN’2005), pp. 373-382, Dourdan 

BOURIGAULT D. & JACQUEMIN C. (1999) TERM EXTRACTION + TERM 

CLUSTERING: An Integrated Platform for Computer-Aided Terminology. In 

Proceedings of the 9th Conf. of the European Chapter of the Association for 

Computational Linguistics (EACL’1999), pp. 15-22, Bergen 

BOURIGAULT D. & JACQUEMIN C. (2000) Construction de ressources terminologiques, in 

J.-M. PIERREL, Ed., Ingénierie des langues, Hermès, pp. 215-233 

BOURIGAULT D. & SLODZIAN C. (1999) Pour une terminologie textuelle. In Actes des 

troisèmes rencontres Terminologie et Intelligence Artificielle, numéro spécial 

Terminologies nouvelles 19, pp. 29-32 

KAPLAN R. M. & BRESNAN J. (1982). Lexical-Functional Grammar: A formal system for 

grammatical representation. In J. BRESNAN, Ed., The Mental Representation of 

Grammatical Relations, chapter 4, p. 173-281. Cambridge, Mass.: MIT Press 

BROWN P. E., COCKE J., DELLA PIETRA S. A., DELLA PIETRA V. J., JELINEK F., 

LAFFERTY J. D., MERCER R. L. & ROOSSIN P. S. (1990). A statistical approach to 

machine translation, Computational Linguistics 16(2), pp. 79-85 

CERBAH F., DAILLE B. (2007) Une architecture à base de services pour mieux spécialiser 

les processus d’acquisition de terminologie. In Traitement Automatique des Langues 

47(1), www.atala.org/tal/ 

CHANOD J.-P. (1993) Problèmes de robustesse en analyse syntaxique. In Actes de la 2 ème 

Conférence Informatique et Langues Naturelles (ILN’1993), pp. 223-244, Nantes 

CHANOD J.-P. (2000) Robust parsing and beyond. In VAN VOORD G. & JUNQUA J. C., 

Eds, Robustness in Language Technology, Kluwer Academic Publishers, pp. 132-139 

CHOMSKY N. (1965) Aspects de la théorie syntaxique, Editions du Seuil [1971] 

COLBY K. (1973) Simulations of Belief systems. In SCHANK R. & COLBY K., Eds., 

Computer Models of Thought and Language, Freeman, San Francisco 

151

CORI M. & LEON J. (2002) La constitution du TAL, étude théorique des dénominations 

et des concepts. In Traitement Automatique des Langues 43(3), pp. 21-55 

CUNNINGHAM H., WILKS Y. & GAIZAUSKAS R. (1996) GATE - A General Architecture 

for Text Engineering, In Proceedings of 16th Conference on Computational Linguistics 

(COLING'96), Copenhagen 

CUNNINGHAM H., MAYNARD D., BONTCHEVA K. & TABLAN V. (2002) GATE : A 

Framework and Graphical Development Environment for Robust NLP tools and 

applications, In Proceedings of 40th Anniversary Meeting of the Association for 

Computational Linguistics (ACL’2002), Philadelphia 

DAVID J.-M., KRIVINE J.-P. & SIMMONS R. (1993) Second generation expert systems, 

Springer-Verlag 

DEBILI F. (1982) Analyse syntaxico-sémantique fondée sur une acquisition de relations 

lexicales-sémantiques. Thèse en informatique de l’Université Paris XI, Orsay 

FABRE C. & FREROT C. (2002) Groupes prépositionnels arguments ou circonstants : vers 

un repérage automatique en corpus. In Actes de la 9 ème conférence sur le Traitement 

Automatique des Langues Naturelles (TALN’2002), pp. 215-224, Nancy 

FABRE C., HABERT B. & LABBE D. (1997) La polysémie dans la langue générale et les 

discours spécialisés. Sémiotiques 13, pp. 15-31 

FELBER H. (1987) Manuel de terminologie, Unesco, Paris 

FILLMORE C. J. (1968) The case for case. In BACH & HARMS, Eds, Universal in 

linguistic theory. New York: Holt, Rinehart and Winston, pp. 1-90 

FOLCH H. & HABERT B. (1998) Proximités de comportement syntaxique entre les mots. 

In S. MELLET, Ed, In Actes des 4èmes journées internationales d'analyse statistique des 

données textuelles (JADT’1998), pp. 297-303 

FREROT C. (2005) Construction et évaluation en corpus variés de lexiques syntaxiques 

pour la résolution des ambiguïtés de rattachement prépositionnel, Thèse en sciences du 

langage de l’Université Toulouse le Mirail 

FREROT C., BOURIGAULT D. & FABRE C. (2003) Marier apprentissage endogène et 

ressources exogènes dans un analyseur syntaxique de corpus. Le cas du rattachement 

verbal à distance de la préposition de, in Traitement Automatique des Langues 44(3), 

pp. 167-186 

GALA PAVIA N. (2003) Un modèle d’analyseur syntaxique robuste basé sur la 

modularité et la lexicalisation de ses grammaires, Thèse en informatique de l’Université 

de Paris XI, Orsay 

GAMBIER Y. (1995) Implications épistémologiques et méthodologiques de la 

socioterminologie. Actes de langue française et linguistique 7/8, pp. 99-115 

152

GARCIA D. (1998) L’analyse automatique des textes pour l’organisation causale des 

actions. Réalisation du système informatique COATIS. Thèse en informatique de 

l’Université Paris-Sorbonne 

GARSIDE R. (1987) The CLAWS Word-tagging System. In GARSIDE R., LEECH G. & 

SAMPSON G., Eds, The Computational Analysis of English: A Corpus-based Approach. 

London: Longman 

GARVIN P. L. (1967) The fulcrum syntactic analyzer for Russian. In actes de la 

conférence internationale sur le traitement automatique des langues (COLING’1967), 

Grenoble 

GAZDAR G., KLEIN E., PULLUM G. K. & SAG I. A. (1985) Generalized Phrase Structure 

Grammar. Cambridge, MA: Harvard University Press 

GAUDIN F. (1996) Terminologie : l’ombre du concept. Meta XLI-4, pp. 605-621 

GERDES K., KAHANE S. (2006) L'amas verbal au coeur dune modélisation topologique du 

francais, in: Linguisticae Investigationes, vol. 29, p. 75-89 

GREFFENSETTE G. (1983) Traitements linguistiques appliquées à la documentation 

automatique, Thèse en informatique de l’Université Paris XI 

GREFFENSETTE G. (1994) Exploration in Automatic Thesaurus Discovery, Kluwer 

Academic Publishers 

GREFFENSETTE G. (1996) Light Parsing as Finite-State Filtering, In Proceedings of the 

ECAI’96 workshop on extended finite state models of language, Budapest 

GUILBERT B. (1965) La formation du vocabulaire de l’aviation, Larousse 

HABERT B. (1998) Des mots complexes possibles aux mots complexes existants : l'apport 

des corpus. Habilitation à diriger des recherches en linguistique, Université de Lille III 

HABERT B. (2005) Instruments et ressources électroniques pour le français, Ophrys 

HABERT B (2006) Portrait de linguiste(s) à l'instrument. In GUILLOT C., HEIDEN S. & 

PREVOST S., Eds, À la quête du sens : études littéraires, historiques et linguistiques en 

hommage à Christiane Marchello-Nizia, ENS Éditions, Lyon , pp. 124-132 

HABERT B., BARBAUD P., DUPUIS F. & JACQUEMIN C. (1995) Simplifier des arbres 

d’analyse pour dégager les comportements syntactico-sémantiques des formes d’un 

corpus. Cahiers de grammaire 20, Université de Toulouse Le Mirail, pp. 1-32 

HABERT B. & FOLCH (1998) Compter sur les arbres. In P. FIALA & P. LAFON, Eds., 

Hommage à Maurice Tournier, Éditions de l'École Normale Supérieure de 

Fontenay/Saint-Cloud, pp. 55-63 

HABERT B. & NAZARENKO A. (1996) La syntaxe comme marche-pied de l’acquisition 

des connaissances : bilan critique d’une expérience. In Actes des 6èmes Journées 

d’Acquisition des Connaissances, pp. 137-142, Sète 

153

HAYES P. J. & WEINSTEIN S. P. (1990) CONSTRUE/TIS: A System for Content-Based 

Indexing of a Database of News Stories, In Proceedings of the The Second Conference 

on Innovative Applications of Artificial Intelligence, pp. 49-64, Georgetown University 

HEIDORN G. E. (1972) Natural Language Inputs to a Simulation Programming System. 

Technical Report NPS-55HD72101A, Naval Postgraduate School, Monterey, California 

HINDLE D. (1990) Noun Classification from Predicate Argument Structures. In 

proceedings of the 28st Annual Meeting of the Association for Computational Linguistics 

(ACL’1990), pp. 268-275, Pittsburgh 

HINDLE D., ROOTH M. (1993) Structural Ambiguity and Lexical Relations, 

Computational Linguistics 19(1), pp. 103-120 

HUDSON R. (2000) Discontinuity, Traitement Automatique des Langue 41(1), pp. 15-56 

HUTCHINS, J. W. (1986) Machine Translation: Past, Present, Future. Ellis Horwood 

Limited, England (http://ourworld.compuserve.com/homepages/WJHutchins/PPF- 

TOC.htm) 

JACQUEMIN C. (1997) Variation terminologique : reconnaissance et acquisition 

automatique de termes et de leurs variantes en corpus. Habilitation à diriger des 

recherches en informatique, Université de Nantes 

JACQUEMIN C. & BOURIGAULT D. (2003) Term Extraction and Automatic Indexing, in 

MITKOV R., Ed, The Oxford Handbook of Computational Linguistics, Oxford University 

Press, pp. 599-615 

JACQUES M.-P. (2005) Que, la valse des étiquettes, in Actes de la 11 ème conférence sur le 

Traitement Automatique des Langues Naturelles (TALN’2005), pp. 133-142, Dourdan 

JENSEN K. (1988) Why computational grammarians can be sceptical about existing 

linguistic theories, In Proceedings of 6th International Conference on Computational 

Linguistics (COLING’1988), pp. 448-449, Budapest 

JENSEN K., HEIDORN G. E., MILLER L. A. & RAVIN Y. (1983) Parse Fitting and Prose 

Fixing: Getting a Hold on Ill-formedness. American Journal of Computational 

Linguistics 9(3-4), pp. 147-160 

JENSEN K., HEIDORN G. E. & RICHARDSON S. D., Eds (1992) Natural Language 

Processing: the PLNLP approach, Kluwer Academic Publishers 

JOSHI A. K. (1987) An introduction to tree adjoining grammars. In MANASTER-RAMER 

A., Ed, Mathematics of Language, John Benjamins Publishing Co., pp. 87-115 

JOSHI A. K. & HOPELY P. (1996) A Parser from Antiquity, Natural Language 

Engineering 2(4), pp. 291-294 

JOSHI A. K. & HOPELY P. (1999) A Parser from Antiquity, in KORNAI A., Ed, Extended 

Finite State Models of Language, Cambridge University Press, pp. 6-15 

154

KAHANE S. (1997) Bubble trees and syntactic representations, in BECKER & KRIEGER 

(eds), In Proc. 5th Meeting of the Mathematics of Language (MOL5), Saarbrücken: 

DFKI, pp. 70-76 

KAHANE S. (2000) Extraction dans une grammaire de dépendance lexicalisée à bulles, in 

Traitement Automatique des Langues 41(1), pp. 211-243 

KAHANE S. (2001) Grammaire de dépendance formelles et théorie Sens-texte, (tutoriel) 

in Actes de la 8 ème conférence sur le Traitement Automatique des Langues Naturelles 

(TALN’2002), pp. 17-77, Tours 

KAHANE S. (2002) Grammaire d'Unification Sens-texte : vers un modèle mathématique 

articulé de la langue. Habilitation à Diriger les Recherches, Université Paris 7 

KAY M. (1973) Automatic translation of natural languages, Daedalus 102(3), 

pp. 217-230 

KAY M. (2002) Introduction, In MITKOV R., Ed., The Oxford Handbook of 

Computational Linguistics, Oxford University Press, pp. xvii-xx 

L’HOMME M.-C. (1998) Caractérisation des combinaisons lexicales spécialisées par 

rapport aux collocations de langue générale. In Proceedings of the 8th EURALEX 

international congress on lexicography (EURALEX’1998), pp. 513-522, Liège 

LYTINEN S. & GERSHMAN A. (1986) ATRANS: automatic processing of money transfer 

messages. In Proceedings of the Fifth National Conference on Artificial Intelligence, 

pp. 1089-1095, Philadelphia 

MANNING C. (1993) Automatic Acquisition of Large Subcategorization Dictionary from 

Corpora, In Proceedings of the 31st Meeting of the Association for Computational 

Linguistics, pp. 235-242, Morristown 

MANNING C. D. & SCHÜTZE H. (1999) Foundations of Statistical Natural Language 

Processing. The MIT Press, Cambridge, Massachusetts 

MARANDIN J.-M. (1993) Analyseurs syntaxiques, équivoques et problèmes. In 

Traitement Automatique des Langues 34(1), pp. 5-33 

MARCUS M. P. (1980) A theory of syntactic recognition for natural language, The MIT 

Press, Cambridge, Massachusetts 

MARCUS M. P., SANTORINI B. & MARCINKIEWICZ M. A. (1994) Building a Large 

Annotated Corpus of English: The Penn Treebank, Computational Linguistics 19(2), 

pp. 313-330 

MARCUS M., KIM G., MARCINKIEWICZ M., MACINTYRE R., BIES A., FERGUSON M, 

KATZ K. & SCHASBERGER B. (1994) The Penn treebank: Annotating predicate argument 

structure. In proceedings of the ARPA Human Language Technology Workshop, 

pp. 114-119? Plainsboro 

155

MATTHEWS G. H. (1962) Analysis by synthesis of natural languages. In Proceedings of 

the International Conference on Machine Translation and Applied Language Analysis, 

Londres 

MEL’CUK I. (1988) Dependency Syntax: Theory and Practice, Albany, N.Y.: The SUNY 

Press 

MILLER P. & TORRIS T. (1990) Formalismes syntaxiques pour le traitement automatique 

du langage naturel, Hermès 

MILNER J.-C. (1989) Introduction à une science du langage, Seuil 

NAGAO M. (1988) Language Engineering: the real bottle neck of Natural Language 

Processing. In Proceedings of the 12th International Conference on Computational 

Linguistics (COLING’1988), pp. 448-449, Budapest 

PANTEL P. & LIN D. (2000) An Unsupervised Approach to Prepositional Phrase 

Attachment using Contextually Similar Words. In Proceedings of the 38th Meeting of 

the Association for Computational Linguistics, pp. 101-108, Hong Kong 

PAROUBEK P. & ROBBA I. (2006) Data, annotations and measures in Easy - the 

evaluation campaign for parsers of french. In ELRA, Ed., Proceedings of the fifth 

international conference on Language Resources and Evaluation (LREC’2006), 

pp. 315-320, Genoa 

PAROUBEK P., VILNAT A., ROBBA I. & AYACHE C. (2007) Les résultats de la campagne 

EASY d’évaluation des analyseurs syntaxiques du français, in actes de la 14 ème 

conférence sur le Traitement Automatique des Langues Naturelles (TALN’2007), 

Toulouse 

PEREIRA C. N. & WARREN D. H. (1980) Definite clause grammars for language analysis 

- a survey of the formalism and a comparison with augmented transition networks. 

Artificial Intelligence 13, pp. 231-278 

POLLARD C. & SAG I. A. (1987) Information-based Syntax and Semantics. Volume I: 

Fundamentals. Stanford: CSLI 

RATNAPARKHI A., REYNAR J. & ROUKOS S. (1994) A maximum entropy model for 

prepositional phrase attachment. In proceedings of the ARPA Human Language 

Technology Workshop, pp. 250-55 

RASTIER F. (1987) Sémantique interprétative. Presses Universitaires de France 

RASTIER F. (1991) Sémantique et recherches cognitives. Presses Universitaires de 

France 

RASTIER F. (1995) Le terme : entre ontologie et linguistique. In Actes des premières 

rencontres Terminologie et Intelligence Artificielle, numéro spécial de la Banque des 

mots 7, pp. 35-65 

RASTIER F., CAVAZZA M. & ABEILLE A. (1994) Sémantique pour l’analyse. Masson 

156

SAGER, N. (1970). The Sublanguage Method in String Grammars. In EWTON Jr. R.W. & 

ORNSTEIN J., Eds, Studies in Language and Linguistics, pp. 89-98, University of Texas 

at El Paso 

SEGUELA P., AUSSENAC-GILLES N. (1999) Extraction de relations sémantiques entre 

termes et enrichissement de modèles du domaine, In Actes de la conférence Ingénierie 

des Connaissances (IC’1999), pp. 79-88, Palaiseau 

SCHANK R. C. (1975) Conceptual Information Processing. North-Holland, Amsterdam 

SHIEBER (1990) Les grammaires basées sur l’unification, In MILLER P. & TORRIS T., 

Eds, Formalismes syntaxiques pour le traitement automatique du langage naturel, 

Hermès, pp. 27-85 

SIMONDON G. (1958) Du mode d’existence des objets techniques. Aubier, Paris 

SIMONDON G. (1971) L’invention dans les techniques. Editions du Seuil [2005], Paris 

SLODZIAN M. (1994) La doctrine terminologique, nouvelle théorie du signe au carrefour 

de l’universalisme et du logiscisme ? In Actes de Langue française et linguistique, 

volume 7/8, pp. 121-136 

SLODZIAN M. (1995) Comment revisiter la doctrine terminologique aujourd’hui ? In 

Actes des premières rencontres Terminologie et Intelligence Artificielle, numéro spécial 

Banque des mots 7, pp. 11-18 

STETINA J. & NAGAO M. (1997) Corpus-based PP Attachment Ambiguity Resolution 

with a Semantic Dictionary. In J. ZHOU and K. CHURCH, Eds, Proceedings of the 5th 

Workshop on Very Large Corpora, pp. 66-80, Beijing & Hong Kong 

TAYLOR A., MARCUS M. & SANTORINI B. (2003) The Penn Treebank: an overview. In 

ABEILLÉ A., Ed., Treebanks: Building and using parsed corpora, Kluwer academic 

publishers, pp. 5-22 

TESNIERES L. (1959) Eléments de syntaxe structurale. Klincksieck 

USHIODA A., EVANS D., GIBSON T. & WAIBEL A. (1993) The Automatic Acquisition of 

Frequencies of Verb Subcategorization Frames from Tagged Corpora. In BOGURAEV B., 

PUSTEJOVSKY J., Eds, Proceedings of the Workshop on Acquisition of Lexical 

Knowledge from Text, pp. 95-106, Columbus 

VERGNE J. (1995) Les cadres théoriques des TAL syntaxiques: quelle adéquation 

linguistique et algorithmique ? Une étude et une alternative. In Actes de la conférence 

Traitement Automatique du Langage Naturel (TALN’1995), pp. 24-33, Marseille 

VERGNE J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de 

l'ordinateur. Analyse syntaxique automatique non combinatoire, Habilitation à Diriger 

les Recherches, Université de Caen 

VERGNE J. & GIGUET E. (1998) Regards théoriques sur le tagging, in Actes de la 5ème 

conférence Traitement Automatique du Langage Naturel (TALN’1998), pp. 22-31, Paris 

157

VILNAT A., PAROUBEK P., MONCEAUX L., ROBBA I., GENDNER V., ILLOUZ G. & 

JARDINO M. (2004) The ongoing evaluation campaign of syntactic parsing of French : 

Easy. In Proceedings of the 4th International Conference on Language Resources and 

Evaluation (LREC), p. 2023-2026, Lisboa 

VOLK M. (2001) Exploiting the WWW as a Corpus to Resolve PP Attachment. In 

Proceedings of Conference on Corpus Linguistics, pp. 601-606, Lancaster 

WEAVER, W. (1949) Translation. Repr. in LOCKE W.N. & BOOTH A.D. , Eds. (1955) 

Machine translation of languages: fourteen essays, Press of the Massachusetts Institute 

of Technology, pp. 15-23 

WILKS Y. (2005) Computational Linguistics: History, In Encyclopedia of Language & 

Linguistics (2 nd Edition), Elsevier 

WILKS Y. & FASS D. (1992) The preference semantics family, In Computers & 

mathematics with applications 23(2-5), pp. 205-221 

WINOGRAD T. (1972) Understanding Natural Language, Academic Press 

WOODS W. (1970), Transition Network Grammars for Natural Language Analysis, 

Communications of the ACM, 13, pp. 59-60 

158

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?