Un analyseur syntaxique opérationnel : SYNTEX - ERSS

More documents

Recommendations

Info

des liens 14 . Surtout, les nœuds présentent des profils de répartition des liens entrants T, E, T’, E’ très dissemblables. J’analyse ces profils à partir de la notion de productivité. La productivité en T d’un nœud est le nombre de lien T qui pointent vers ce nœud, c’est-àdire le nombre de termes qui ont le terme pivot en position T, de même pour la productivité en E, en T’ et en E’. Un simple calcul sur les profils de répartition des productivités permet d’isoler certains noms du corpus qui ont un comportement marqué : par exemple, les noms qui sont proportionnellement beaucoup plus productifs en position T’ (tête de syntagme ayant comme connecteur de+le) que dans les autres positions désignent très probablement des actions importantes dans le domaine. Dans (Bourigault, 1994a), je formule ainsi 4 propositions d’interprétation, qui seront affinées dans (Assadi et Bourigault, 1996). Le résultat produit par LEXTER n’est plus uniquement un ensemble d’étiquettes de termes. Le réseau terminologique que permet de construire l’analyse syntaxique binaire en tête et expansion des candidats termes complexes devient une ressource intermédiaire pour des traitements ultérieurs dont les résultats servent eux aussi à l’aide à la modélisation des connaissances à partir de textes. Ce filon est exploité avec beaucoup d’énergie, avec l’arrivée dans le groupe SOAD d’H. Assadi, qui entame une thèse dans le domaine de la modélisation des connaissances à partir de textes. Dès les premières expériences de modélisation, menées dans le domaine de la planification de réseaux électriques, H. Assadi constate que les adjectifs extraits par LEXTER sont bien plus difficiles à valider que les groupes nominaux pour le cogniticien. Par exemple, celui-ci n’éprouve pas de difficulté particulière à valider des candidats termes tels que réseau, poste, hypothèse de consommation, alors que les candidats termes adjectivaux comme national, admissible ou fort lui posent plus de problèmes. Mais l’observation de l’ensemble des termes complexes {hydraulicité forte, puissance forte, section forte} par opposition à l’ensemble {hydraulicité faible, puissance faible, section faible} révèle quasiment immédiatement que les adjectifs faible et fort désignent des valeurs possibles d’attributs. Dans une tâche de modélisation des connaissances, l’accès à un tel rapprochement est primordial, puisque identifier les attributs et leurs domaines de variation est une condition essentielle pour la construction de taxinomies formalisables. Nous avons donc l’idée de travailler sur des méthodes automatiques de classification d’adjectifs apparaissant dans les mêmes contextes syntaxiques, c’est-à-dire modifieurs des mêmes noms ou syntagmes nominaux. La méthode que nous testons d’abord, et dont nous publions les premiers résultats lors des 3èmes Journées d’Analyse de Données Textuelles en décembre 1995 (Assadi et Bourigault, 1995), consiste à construire un tableau de présence/absence, dont chaque ligne correspond à un adjectif et chaque colonne à un nom, puis à calculer à partir de ce tableau une matrice de similarité entre les individus à classer, et enfin à lancer sur cette matrice une procédure de classification hiérarchique ascendante. Les classes d’adjectifs sont obtenues en coupant à un niveau donné l’arbre représentant la hiérarchie des classes. Pour chaque classe d’adjectif, on construit le contexte de la classe, c’est-à-dire l’ensemble des noms ou syntagmes nominaux ayant au moins l’un des adjectifs de la 14 Les réseaux terminolgiques ont les propriétés des graphes de petits mondes, qui ont été bien explorées justement depuis cette époque. 20
classe en expansion. Par exemple, le contexte de la classes d’adjectifs {primaire, secondaire} est l’ensemble des termes {circuit, enroulement, intensité nominale, réglage, tension nominale}. Ce type de résultats nous apparaît être une amorce fort utile pour la modélisation. Sans le savoir à l’époque, nous mettions nos pieds dans les traces de Zellig S. Harris 15 . Parallèlement à ces recherches, B. Habert « recycle » (selon une de ses expressions favorites) les résultats de LEXTER pour entreprendre toute une série d’études ayant comme objet le fonctionnement en corpus des dénominations complexes (Habert, 1998) 16 . Son projet était relativement éloigné du contexte applicatif dans lequel je développais LEXTER. Suite à des discussions avec C. Jacquemin sur la variation terminologique, il a l’idée de « déconstruire » (selon une autre de ses expressions favorites) les arbres d’analyse en Tête et Expansion produits par LEXTER pour en restituer les dépendances élémentaires fondamentales sous-jacentes. Dans un article publié en 1995 dans les Cahiers de Grammaire (Habert et al., 1995), B. Habert et ses collègues, s’inscrivent résolument dans l’horizon théorique de l’approche harrissienne d’analyse des sous langages et présentent les premiers résultats d’une exploitation des arbres de dépendances élémentaires extraits des arbres d’analyse de LEXTER pour classer les mots en fonction de leur contextes syntaxiques. Puis, B. Habert et A. Nazarenko développent ZELLIG, une chaîne de recyclage des résultats d’analyseurs syntaxiques robustes destinée à une analyse distributionnelle de contextes rendus élémentaires (Habert et Nazarenko, 1996). Avec ZELLIG, ils mènent des études sur la délimitation de classes sémantiques dans des corpus spécialisés (Habert et al., 1995 ; Bouaud et al., 1995). La représentation logique des arbres permet à B Habert et H. Folch de développer des méthodes efficaces pour analyser les régularités de fonctionnement des mots et mettre en évidence les opérateurs et opérandes caractéristiques d’un domaine donné (Folch et Habert, 1998) (Habert et Folch, 1998). Ils le font de façon beaucoup plus précise et plus systématique que mes propres tentatives d’analyse du réseau terminologique évoquées au début de cette section. B. Habert a donc procédé à un « détournement » de LEXTER en exploitant ses résultats dans une perspective de recherche différente de celle dans laquelle le logiciel a été conçu. Ce décalage dans les objectifs a révélé des limites importantes de LEXTER vis-à-vis d’une exploitation pour l’analyse distributionnelle : restriction aux syntagmes nominaux (pas d’analyse autour du verbe) ; parmi les syntagmes nominaux, restriction aux groupes « d’allure dénominative » (exclusion de certains déterminants, de certaines modifications adjectivales). Ces limitations sont apparues d’autant plus pénalisantes quand B. Habert et C. Fabre ont appliqué la méthode ZELLIG à des corpus plus proches 15 Cf. cette gentille pique adressée par B. Habert et A Nazarenko, faisant référence aux travaux du type des nôtres qui commençaient à se développer au milieu des années 90 : « explicitement, ou, plus souvent, implicitement [c’est moi qui souligne], ces recherches s’inscrivent dans la conception "distributionnaliste" de la sémantique défendue et mise en œuvre par ZELLIG Harris : le sens des mots se déduit des constructions dans lesquelles ils figurent » (Habert & Nazarenko, 1996). 16 Quand B. Habert me demande des sorties de Lexter, je n’imagine pas à quel point l’utilisation qu’il va en faire aura une grande influence sur la suite de mes recherches. 21
Page 1: Université Toulouse-Le Mirail Un a
Page 5 and 6: Table des matières Chapitre 1 De L
Page 7 and 8: Chapitre 1 De LEXTER à SYNTEX : ru
Page 9 and 10: logiciel doit être capable de trai
Page 11 and 12: Le concept fondateur de LEXTER est
Page 13 and 14: éférentielle et dans sa forme, ca
Page 15 and 16: d’entretiens avec les experts son
Page 17 and 18: Il s’agit de considérer la termi
Page 19: terminologique navigable construit
Page 23 and 24: intégrer les résultats de LEXTER
Page 25 and 26: Chapitre 2 Etat de l’art en analy
Page 27 and 28: ésultats finalement prometteurs, e
Page 29 and 30: langue en question. Bar-Hillel éme
Page 31 and 32: et améliorations de plus en plus d
Page 33 and 34: translation or editing. In this con
Page 35 and 36: Ces améliorations ont permis au fo
Page 37 and 38: Les DCG (Definite Clause Grammars)
Page 39 and 40: problématiques et des méthodes qu
Page 41 and 42: Dans la philosophie du NLP, il conv
Page 43 and 44: en performance ne remettent pas né
Page 45 and 46: 2.3.2. L’analyseur FULCRUM de P.
Page 47 and 48: 4. Repérage des groupes nominaux s
Page 49 and 50: effectue le découpage de la phrase
Page 51 and 52: Karen Jensen, du Centre de Recherch
Page 53 and 54: comme devant compenser les faibless
Page 55 and 56: l’ambiguïté en évitant qu’el
Page 57 and 58: - préférer un attachement bas. No
Page 59 and 60: (Vergne, 1999, p. 28) Selon J. Verg
Page 61 and 62: d’implémenter via une architectu
Page 63 and 64: connaissances disponibles au moment
Page 65 and 66: 2- Conditions : il y a une relation
Page 67 and 68: Chapitre 3 Description de l’analy
Page 69 and 70: (1) Dans certaines gammes, trop de
Page 71 and 72:
(2’) [SNom] : [SNom Une mesure im
Page 73 and 74:
Lors d’une troisième passe, l’
Page 75 and 76:
De façon générale, l’antinomie
Page 77 and 78:
Néanmoins, même si le développem
Page 79 and 80:
Le module ne peut s’arrêter sur
Page 81 and 82:
(6) Marie 1 regarde 2 le 3 chat 4 g
Page 83 and 84:
Fonction dgDG(i,i0) 1. si frDmax(i)
Page 85 and 86:
(1a) Victor Hugo (1b) John F. Kenne
Page 87 and 88:
Le module ADV place un lien entre u
Page 89 and 90:
3.2.4. Coordination La représentat
Page 91 and 92:
et son gouverneur potentiel, de l
Page 93 and 94:
(7) Ils pourront communiquer avec l
Page 95 and 96:
Noms (19) La réunion du conseil [1
Page 97 and 98:
(33) Nous croyons que cette straté
Page 99 and 100:
La recherche d’un complément d
Page 101 and 102:
Le traitement de ces configurations
Page 103 and 104:
subordonnées relatives et de séqu
Page 105 and 106:
avoir trouvé de sujet. Il relance
Page 107 and 108:
(relation REL), la relation entre u
Page 109 and 110:
coefficient de normalisation, chois
Page 111 and 112:
Le nombre total d’occurrences de
Page 113 and 114:
(2) L'opinion du ministre selon laq
Page 115 and 116:
(1) Jean donne un bonbon à Marie.
Page 117 and 118:
sont testés les algorithmes de dé
Page 119 and 120:
BAL LMO TRA REA base 83.0 70.3 65.5
Page 121 and 122:
(3) Exeunt les représentants de l'
Page 123 and 124:
candidat. Après chaque application
Page 125 and 126:
Dans le cas de dépendances non bor
Page 127 and 128:
campagnes d’évaluation des techn
Page 129 and 130:
p r f P1 0.59 0.51 (3) 0.55 (3) P2
Page 131 and 132:
3.3. Discussion Pour conclure ce m
Page 133 and 134:
Un autre dogme du paradigme formel
Page 135 and 136:
Un argument régulièrement avancé
Page 137 and 138:
(Milner, 1989, p. 19) Il ne convien
Page 139 and 140:
technique ; le progrès se fait par
Page 141 and 142:
des extensions peuvent être apport
Page 143 and 144:
de problème, une invention qui pos
Page 145 and 146:
2004). Pour alléger le travail, un
Page 147 and 148:
technique qui recherche toujours é
Page 149 and 150:
Bibliographie ABEILLE A. & BLACHE P
Page 151 and 152:
BOURIGAULT D. (1994b) Lexter, un lo
Page 153 and 154:
GARCIA D. (1998) L’analyse automa
Page 155 and 156:
KAHANE S. (1997) Bubble trees and s
Page 157 and 158:
SAGER, N. (1970). The Sublanguage M
show all

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Create successful ePaper yourself

Delete template?

Save as template?