Un analyseur syntaxique opérationnel : SYNTEX - ERSS

More documents

Recommendations

Info

1.1. Recherches en ingénierie linguistique J’ai effectué ma thèse dans un contexte industriel, à la Direction des Etudes et Recherches (DER) d’EDF, au sein du service Informatique et Mathématiques Appliquées (septembre 1990-juin 1994) 1 . Le sujet de recherche avait été déterminé suite à la question précise et concrète adressée par les responsables du Service Information, Prospective et Normalisation de la DER à leur collègues du service Informatique et Mathématiques Appliquées : comment enrichir et maintenir à jour le thesaurus électronique utilisé par le système d’indexation automatique de la DER. J’ai été d’emblée plongé dans le contexte d’une recherche guidée par un problème à résoudre. Ingénieur de formation, et après trois années d’études en linguistique théorique et formelle à l’Université Paris VII, je n’ai pas été rebuté par ces conditions de travail, que j’ai toujours considérées comme stimulantes 2 . Au long de mon parcours de chercheur, de la DER d’EDF au CNRS, cette « obligation de résultats », contrainte subie et acceptée au départ de ma recherche, est devenue une dimension constitutive assumée de ma conception du travail de chercheur en Traitement Automatique des Langues (TAL). Dans le paysage de la recherche en TAL, marqué par « la cohabitation paradoxale et nécessaire des recherches théoriques et des applications à visée industrielle » (Cori & Léon, 2002), je revendique une démarche ingénierique, où la définition du programme de recherche est, pour partie, liée à l’identification d’applications cibles ou de problèmes concrets, et où la validation des résultats passe par la confrontation des outils réalisés avec des contextes d’usages aussi réels que possible. Ce parti pris d’une recherche située en ingénierie linguistique est clairement assumé et affiché dans ma thèse soutenue en juin 1994. Il est révélé par l’architecture même du mémoire, et en particulier par les choix concernant la traditionnelle partie « état de l’art ». Le premier chapitre est consacré à la présentation des principes de base du logiciel. Il commence par l’énoncé du problème à résoudre, à savoir la constitution et l’enrichissement de thesaurus, et par la présentation de la solution visée : la réalisation d’un logiciel d’extraction de terminologie, prenant en entrée un corpus étiqueté portant sur un domaine spécialisé, et effectuant une analyse syntaxique pour extraire des syntagmes nominaux susceptibles de représenter les concepts du domaine. Pour la mise en contexte de la recherche, plutôt que d’inscrire mon travail dans un champ particulier de la linguistique ou du Traitement Automatique des Langues, je choisis de le situer en évoquant la « demande », c’est-à-dire les domaines d’application de la terminologie (traduction automatique, informatique documentaire, gestion de la connaissance). En restant dans la même veine « génie logiciel », je définis ensuite un cahier des charges minimal pour la réalisation du logiciel en imposant deux contraintes : généralité – le 1 Je dois beaucoup à Gérard Hatabian, alors chef du groupe Statistiques, Optimisation, Aide à la Décision, qui m’a fait confiance à ce moment crucial de mon parcours professionnel. 2 Il faut bien reconnaître qu’à cette époque la Direction des Etudes et Recherches d’EDF constituait un lieu extrêmement favorable et confortable pour des recherches à visée applicatives certes, mais avec une pression quant aux résultats beaucoup moindre que dans les entreprises industrielles du secteur privé. 8
logiciel doit être capable de traiter des corpus de domaines quelconques, et robustesse – le logiciel doit être capable de traiter des corpus de taille importante dans des temps raisonnables. C’est à la fin de ce premier chapitre que se glisse une discussion bibliographique sur les techniques de Traitement Automatique des Langues, dans laquelle je décris en détail et j’évalue par rapport à mes propres choix de conception deux séries de travaux : ceux de F. Debili d’une part, et ceux de S. David et P. Plante d’autre part. Le tout en une douzaine de pages. La « vraie » partie état de l’art est placée dans le dernier chapitre (chapitre 6). J’y expose un état de l’art très complet et détaillé (une soixantaine de pages) sur la problématique de l’acquisition des connaissances à partir de textes, domaine d’application que j’ai choisi pour le logiciel. Je présente, décortique et critique un bon nombre de travaux en acquisition des connaissances à partir de textes, et je propose en conclusion une typologie des outils d’analyse de textes pour l’acquisition des connaissances. Ce rapide retour en arrière sur l’architecture de mon mémoire de thèse révèle bien ma volonté de valoriser ma recherche selon le point de vue de l’utilisation de LEXTER, et donc de sa validation, plutôt que sur sa conception, en négligeant de me situer, dans le domaine du TAL, par rapport aux travaux sur l’analyse syntaxique automatique 3 . En ce qui concerne ma position par rapport aux théories et travaux en linguistique, je fais référence dans ma thèse à la Théorie Générale de la Terminologie et à certains linguistes reconnus (Benveniste, Guilbert). Je peux dire maintenant que ce positionnement est un habillage rapidement cousu au moment de la rédaction de la thèse pour justifier des choix de conception et d’implémentation que j’avais effectués sur des bases entièrement pragmatiques. En 1999, quand j’attaque la conception de l’analyseur syntaxique SYNTEX, je suis bien décidé à problématiser enfin la distance entre les théories linguistiques et la conception d’un analyseur opérationnel. Au moment où nous commençons à travailler sur ce nouvel analyseur, C. Fabre et moi rédigeons, pour un numéro spécial des Cahiers de Grammaire sur « Sémantique et corpus », un article qui constitue l’acte de baptême de SYNTEX et qui restera pendant plusieurs années sa seule référence bibliographique (Bourigault et Fabre, 2000). Dans cet article, j’amorce une réflexion sur les rapports entre certains des choix méthodologiques effectués pour le développement d’un analyseur syntaxique opérationnel et certaines des positions théoriques défendues par J.-C. Milner dans son Introduction à une science du langage (Milner, 1999). Mais une fois la rédaction de l’article achevée, je me plonge à nouveau dans les développements informatiques, pendant 5 années, période au bout de laquelle est achevée une première version stable de l’analyseur. 3 Cette disproportion entre une étude bibliographique hypertrophiée sur l’acquisition des connaissances à partir de textes et une discussion relativement légère sur les techniques de traitement automatique des langues n’a pas manqué de surprendre Jean Véronis, qui écrit dans son rapport sur la thèse : « J’ai été surpris tout d’abord par la place de cette étude qui constitue en quelque sorte un état de l’art, et il m’a semblé qu’elle aurait mieux eu sa place au début du mémoire, de façon à ce que l’exposé s’appuie sur elle. Mais il est vrai qu’elle ne porte pas exactement sur le thème général de la thèse, mais sur le seul aspect particulier de l’acquisition des connaissances. On peut alors se demander pourquoi une bibliographie si élaborée sur ce thème et pas sur le thème central de la thèse. » 9
Page 1: Université Toulouse-Le Mirail Un a
Page 5 and 6: Table des matières Chapitre 1 De L
Page 7: Chapitre 1 De LEXTER à SYNTEX : ru
Page 11 and 12: Le concept fondateur de LEXTER est
Page 13 and 14: éférentielle et dans sa forme, ca
Page 15 and 16: d’entretiens avec les experts son
Page 17 and 18: Il s’agit de considérer la termi
Page 19 and 20: terminologique navigable construit
Page 21 and 22: classe en expansion. Par exemple, l
Page 23 and 24: intégrer les résultats de LEXTER
Page 25 and 26: Chapitre 2 Etat de l’art en analy
Page 27 and 28: ésultats finalement prometteurs, e
Page 29 and 30: langue en question. Bar-Hillel éme
Page 31 and 32: et améliorations de plus en plus d
Page 33 and 34: translation or editing. In this con
Page 35 and 36: Ces améliorations ont permis au fo
Page 37 and 38: Les DCG (Definite Clause Grammars)
Page 39 and 40: problématiques et des méthodes qu
Page 41 and 42: Dans la philosophie du NLP, il conv
Page 43 and 44: en performance ne remettent pas né
Page 45 and 46: 2.3.2. L’analyseur FULCRUM de P.
Page 47 and 48: 4. Repérage des groupes nominaux s
Page 49 and 50: effectue le découpage de la phrase
Page 51 and 52: Karen Jensen, du Centre de Recherch
Page 53 and 54: comme devant compenser les faibless
Page 55 and 56: l’ambiguïté en évitant qu’el
Page 57 and 58: - préférer un attachement bas. No
Page 59 and 60:
(Vergne, 1999, p. 28) Selon J. Verg
Page 61 and 62:
d’implémenter via une architectu
Page 63 and 64:
connaissances disponibles au moment
Page 65 and 66:
2- Conditions : il y a une relation
Page 67 and 68:
Chapitre 3 Description de l’analy
Page 69 and 70:
(1) Dans certaines gammes, trop de
Page 71 and 72:
(2’) [SNom] : [SNom Une mesure im
Page 73 and 74:
Lors d’une troisième passe, l’
Page 75 and 76:
De façon générale, l’antinomie
Page 77 and 78:
Néanmoins, même si le développem
Page 79 and 80:
Le module ne peut s’arrêter sur
Page 81 and 82:
(6) Marie 1 regarde 2 le 3 chat 4 g
Page 83 and 84:
Fonction dgDG(i,i0) 1. si frDmax(i)
Page 85 and 86:
(1a) Victor Hugo (1b) John F. Kenne
Page 87 and 88:
Le module ADV place un lien entre u
Page 89 and 90:
3.2.4. Coordination La représentat
Page 91 and 92:
et son gouverneur potentiel, de l
Page 93 and 94:
(7) Ils pourront communiquer avec l
Page 95 and 96:
Noms (19) La réunion du conseil [1
Page 97 and 98:
(33) Nous croyons que cette straté
Page 99 and 100:
La recherche d’un complément d
Page 101 and 102:
Le traitement de ces configurations
Page 103 and 104:
subordonnées relatives et de séqu
Page 105 and 106:
avoir trouvé de sujet. Il relance
Page 107 and 108:
(relation REL), la relation entre u
Page 109 and 110:
coefficient de normalisation, chois
Page 111 and 112:
Le nombre total d’occurrences de
Page 113 and 114:
(2) L'opinion du ministre selon laq
Page 115 and 116:
(1) Jean donne un bonbon à Marie.
Page 117 and 118:
sont testés les algorithmes de dé
Page 119 and 120:
BAL LMO TRA REA base 83.0 70.3 65.5
Page 121 and 122:
(3) Exeunt les représentants de l'
Page 123 and 124:
candidat. Après chaque application
Page 125 and 126:
Dans le cas de dépendances non bor
Page 127 and 128:
campagnes d’évaluation des techn
Page 129 and 130:
p r f P1 0.59 0.51 (3) 0.55 (3) P2
Page 131 and 132:
3.3. Discussion Pour conclure ce m
Page 133 and 134:
Un autre dogme du paradigme formel
Page 135 and 136:
Un argument régulièrement avancé
Page 137 and 138:
(Milner, 1989, p. 19) Il ne convien
Page 139 and 140:
technique ; le progrès se fait par
Page 141 and 142:
des extensions peuvent être apport
Page 143 and 144:
de problème, une invention qui pos
Page 145 and 146:
2004). Pour alléger le travail, un
Page 147 and 148:
technique qui recherche toujours é
Page 149 and 150:
Bibliographie ABEILLE A. & BLACHE P
Page 151 and 152:
BOURIGAULT D. (1994b) Lexter, un lo
Page 153 and 154:
GARCIA D. (1998) L’analyse automa
Page 155 and 156:
KAHANE S. (1997) Bubble trees and s
Page 157 and 158:
SAGER, N. (1970). The Sublanguage M
show all

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Create successful ePaper yourself

Delete template?

Save as template?