Un analyseur syntaxique opérationnel : SYNTEX - ERSS

More documents

Recommendations

Info

Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement exponentiel des capacités des machines et la multiplication des ressources textuelles électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à toutes les tâches du TAL. Concernant l’analyse syntaxique automatique, toute une série de travaux convergent vers la construction automatique de grammaires hors contextes probabilistes à partir de l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de dérivation. Ces probabilités sont calculées à partir de corpus annotés syntaxiquement, presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir parmi les multiples analyses d’une phrase fournies par l’analyseur quelles sont celles qui ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres 11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse syntaxique automatique. 2.3. Travaux en analyse syntaxique robuste 2.3.1. La robustesse en analyse syntaxique Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce chapitre à une revue de travaux en analyse syntaxique robuste. L’analyse syntaxique robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL depuis 50 ans. Dès les débuts de la TA, on a fabriqué des analyseurs syntaxiques, et si le problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était acquis que les analyseurs devaient fournir une analyse syntaxique la plus complète, la plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept de robustesse en analyse syntaxique peut s’expliquer par deux facteurs concomitants : l’échec rencontré par les approches théorisantes en syntaxe à produire des analyseurs utiles, et la pression de la demande sociale liée au développement des nouvelles technologies de l’information. Les années 1980 voient l’arrivée des grammaires d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a conduit à l’élaboration de théories syntaxiques très fécondes, qui ont contribué à une meilleure description des langues. Mais il est apparu que cet objectif théorique était difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’analyseurs syntaxiques utilisables dans des contextes applicatifs. Les limites des analyseurs s’appuyant sur les descriptions formelles développées par ces théories sont connues : temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites 42
en performance ne remettent pas nécessairement en cause les programmes de recherche à la base de ces analyseurs. Il faut garder à l’esprit que le paradigme formel et celui de l’analyse syntaxique robuste relèvent de positions épistémologiques fondamentalement différentes : visée clairement théorisante d’un côté, objectifs prioritairement pratiques de l’autre. Une grammaire formelle peut être vue comme une théorie de la langue au sens de Chomsky, un analyseur syntaxique opérationnel peut être vu comme un objet technique, au sens de Gilbert Simondon dans sa philosophie des techniques, comme je le défendrai à la fin du chapitre 3. Du côté des applications, la pression de la demande sociale pour des outils de traitement de l’information s’est intensifiée avec le développement de la bureautique et l’accroissement exponentiel de la documentation électronique. Des outils de TAL robuste(s) sont requis comme composants des applications informatiques visant à gérer, traduire, classer, fouiller, interroger ces sources électroniques, nécessaires et accessibles dans une grande diversité d’activités humaines. Néanmoins, il ne faudrait pas surestimer l’importance et la nouveauté d’un tel phénomène. Pour les recherches en TAL, la pression de la demande sociale a toujours existé. Le TAL est né de cette pression, quand des esprits inventifs ont imaginé que les nouveaux calculateurs pourraient résoudre les immenses problèmes de la traduction à la fin des années 1940. Dans les années 1990, et dans le domaine de l’analyse syntaxique automatique, c’est donc le décalage entre les résultats produits par les approches dominantes en analyse syntaxique automatique et la demande en outils utilisables qui a conduit à l’émergence de la notion de robustesse pour caractériser les travaux de plus en plus nombreux développés en dehors du paradigme des grammaires formelles. Pour préciser la notion de robustesse, je reprends la caractérisation proposée par Salah Aït-Mokhtar, Jean-Pierre Chanod et Claude Roux dans leur article publié en 2002 dans le numéro spécial de la revue Natural Language Engineering sur les méthodes robustes en Traitement Automatique des Langues : We think of robustness as the ability of a language analyzer to provide useful analyses for real-world input texts. By useful analyses, we mean analyses that are (at least partially) correct and usable in some automatic task or application. That definition implies two requirements: first, a robust system should product (at least) one analysis for any real-world input. (…) A robust system should also limit the number of concurrent analyses it produces or a least give indications on which are the preferred ones. (Aït-Mokhtar et al., 2002, p. 122–123) Cette définition résume l’ironie pour les tenants d’une approche pratique en Traitement Automatique des Langues de devoir forger un concept spécifique pour caractériser leurs analyseurs en reprenant les termes même de leur cahier des charges. Le concept de robustesse s’efface devant celui d’utilité, qui est le concept fondamental. Dès lors qu’on ne poursuit pas l’objectif théorique d’une meilleure connaissance des langues, il s’agit de faire des analyseurs syntaxiques utiles, c’est-à-dire des analyseurs capables de produire dans des temps raisonnables, pour toute séquence fournie en entrée, une analyse la plus 43
Page 1: Université Toulouse-Le Mirail Un a
Page 5 and 6: Table des matières Chapitre 1 De L
Page 7 and 8: Chapitre 1 De LEXTER à SYNTEX : ru
Page 9 and 10: logiciel doit être capable de trai
Page 11 and 12: Le concept fondateur de LEXTER est
Page 13 and 14: éférentielle et dans sa forme, ca
Page 15 and 16: d’entretiens avec les experts son
Page 17 and 18: Il s’agit de considérer la termi
Page 19 and 20: terminologique navigable construit
Page 21 and 22: classe en expansion. Par exemple, l
Page 23 and 24: intégrer les résultats de LEXTER
Page 25 and 26: Chapitre 2 Etat de l’art en analy
Page 27 and 28: ésultats finalement prometteurs, e
Page 29 and 30: langue en question. Bar-Hillel éme
Page 31 and 32: et améliorations de plus en plus d
Page 33 and 34: translation or editing. In this con
Page 35 and 36: Ces améliorations ont permis au fo
Page 37 and 38: Les DCG (Definite Clause Grammars)
Page 39 and 40: problématiques et des méthodes qu
Page 41: Dans la philosophie du NLP, il conv
Page 45 and 46: 2.3.2. L’analyseur FULCRUM de P.
Page 47 and 48: 4. Repérage des groupes nominaux s
Page 49 and 50: effectue le découpage de la phrase
Page 51 and 52: Karen Jensen, du Centre de Recherch
Page 53 and 54: comme devant compenser les faibless
Page 55 and 56: l’ambiguïté en évitant qu’el
Page 57 and 58: - préférer un attachement bas. No
Page 59 and 60: (Vergne, 1999, p. 28) Selon J. Verg
Page 61 and 62: d’implémenter via une architectu
Page 63 and 64: connaissances disponibles au moment
Page 65 and 66: 2- Conditions : il y a une relation
Page 67 and 68: Chapitre 3 Description de l’analy
Page 69 and 70: (1) Dans certaines gammes, trop de
Page 71 and 72: (2’) [SNom] : [SNom Une mesure im
Page 73 and 74: Lors d’une troisième passe, l’
Page 75 and 76: De façon générale, l’antinomie
Page 77 and 78: Néanmoins, même si le développem
Page 79 and 80: Le module ne peut s’arrêter sur
Page 81 and 82: (6) Marie 1 regarde 2 le 3 chat 4 g
Page 83 and 84: Fonction dgDG(i,i0) 1. si frDmax(i)
Page 85 and 86: (1a) Victor Hugo (1b) John F. Kenne
Page 87 and 88: Le module ADV place un lien entre u
Page 89 and 90: 3.2.4. Coordination La représentat
Page 91 and 92: et son gouverneur potentiel, de l
Page 93 and 94:
(7) Ils pourront communiquer avec l
Page 95 and 96:
Noms (19) La réunion du conseil [1
Page 97 and 98:
(33) Nous croyons que cette straté
Page 99 and 100:
La recherche d’un complément d
Page 101 and 102:
Le traitement de ces configurations
Page 103 and 104:
subordonnées relatives et de séqu
Page 105 and 106:
avoir trouvé de sujet. Il relance
Page 107 and 108:
(relation REL), la relation entre u
Page 109 and 110:
coefficient de normalisation, chois
Page 111 and 112:
Le nombre total d’occurrences de
Page 113 and 114:
(2) L'opinion du ministre selon laq
Page 115 and 116:
(1) Jean donne un bonbon à Marie.
Page 117 and 118:
sont testés les algorithmes de dé
Page 119 and 120:
BAL LMO TRA REA base 83.0 70.3 65.5
Page 121 and 122:
(3) Exeunt les représentants de l'
Page 123 and 124:
candidat. Après chaque application
Page 125 and 126:
Dans le cas de dépendances non bor
Page 127 and 128:
campagnes d’évaluation des techn
Page 129 and 130:
p r f P1 0.59 0.51 (3) 0.55 (3) P2
Page 131 and 132:
3.3. Discussion Pour conclure ce m
Page 133 and 134:
Un autre dogme du paradigme formel
Page 135 and 136:
Un argument régulièrement avancé
Page 137 and 138:
(Milner, 1989, p. 19) Il ne convien
Page 139 and 140:
technique ; le progrès se fait par
Page 141 and 142:
des extensions peuvent être apport
Page 143 and 144:
de problème, une invention qui pos
Page 145 and 146:
2004). Pour alléger le travail, un
Page 147 and 148:
technique qui recherche toujours é
Page 149 and 150:
Bibliographie ABEILLE A. & BLACHE P
Page 151 and 152:
BOURIGAULT D. (1994b) Lexter, un lo
Page 153 and 154:
GARCIA D. (1998) L’analyse automa
Page 155 and 156:
KAHANE S. (1997) Bubble trees and s
Page 157 and 158:
SAGER, N. (1970). The Sublanguage M
show all

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?