X - Luc Quoniam

More documents

Recommendations

Info

De plus, quand ces dictionnaires existent, ils ne sont pas à jour étant donné la quantité denouveaux gènes et de nouvelles protéines découvertes chaque jour.Ces arguments ne manquent pas de pertinence, tant il est vrai que les dictionnaires, quandils existent, doivent être complétés et adaptés à la tâche de la reconnaissance ou del’identification des gènes ou de leurs produits. Cependant, nous remarquons que les mêmesauteurs qui emploient ces arguments (FUKUDA et alii, 1998), élaborent aussi desprogrammes permettant de créer de tels dictionnaires automatiquement par l’analyseinformatique des textes (YOSHIDA et alii, 1998). La non-disponibilité des dictionnairesspécialisés n’est donc pas un obstacle insurmontable. Nous verrons dans la partieréalisation, comment dans notre étude nous avons pu adapter le dictionnaire qui était ànotre disposition.Ces travaux s’inscrivent dans la tradition du traitement automatique des langues et plusprécisément dans la tâche de reconnaissance d’entités nommées. Il s’agit de travaux sur Medline,sauf dans le cas du travail de PROUX (voir plus bas).THOMAS et alii, dans leur travail sur les interactions entres protéines réalisent une analysegrammaticale des phrases (2000). Cela leur permet de détecter les syntagmes nominaux quisont de bons candidats pour des noms de gènes. Ils utilisent des particularitésmorphologiques des noms de protéines telles que la présence de caractères spéciaux comme/ - ( ) ou de chiffres qui sont souvent présents dans le nom des protéines auxquelles ils ontà faire. Cela leurs permet de se passer totalement de lexique sur les noms de gènes.FUKUDA et alii, dans leur travail en reconnaissance d’entités nommées sur les protéines, utilisentles mêmes principes (1998). En particulier, ils utilisent le fait que les noms de protéines sontsouvent en majuscules et comportent des caractères spéciaux et des chiffres. Les auteursremarquent les difficultés introduites par la présence de noms synonymes. D’ailleurs, ils nerenoncent pas totalement à l’utilisation d’un dictionnaire des protéines même s’ils n’enutilisent pas dans cet article. Ils promettent des développements sur la constructionautomatique de dictionnaires de protéines. Le travail en question sera publié par YOSHIDA etalii. Nous y reviendrons à la section suivante qui est consacrée à la construction dedictionnaire par extraction d’informations dans des textes.Tous ces auteurs travaillent sur des noms de protéines et non sur des noms de gènes. Or lesnoms de protéines ont des particularités morphologiques que n’ont pas les noms de gènesde la drosophile. Nous verrons que les noms de gènes chez la drosophile sont assezquelconques, c’est à dire que ce ne sont pas des noms de code. Ceci est moins vraicependant pour les symboles qui sont des abréviations.PROUX et alii ont effectué un travail sur la détection des noms de gènes, alors que lesprécédents auteurs ont travaillé sur les noms de protéines (1998). Cependant, ce travail estfait sur des textes issus de Flybase. Flybas est une base de données sur la drosophile surlaquelle nous reviendrons. Les textes en question, ont été écrits ou réécrits par lesannotateurs de la base de données. Une terminologie stricte a été utilisée. Un seul nom estutilisé pour chaque gène. Plus précisément, il s’agit du symbole attribué par Flybase dans sondictionnaire des gènes. Le problème de la synonymie se trouve donc être artificiellementabsent du corpus étudié. De plus, les symboles, qui sont des abréviations, ont desparticularités morphologiques spécifiques, et ces particularités sont utilisées lors de ladétection des labels. En outre, les symboles sont toujours composés d’un seul mot, ce qui28
n’est pas le cas des noms complets et des synonymes. Ainsi ce travail n’est pas directementtransposable aux textes issus de Medline.PROUX et alii sont néanmoins confrontés à un problème intéressant qui est celui des labelsambigus. Ce sont des labels qui peuvent éventuellement désigner autre chose que des gènes.Ils font une distinction entre différents types de labels ambigus. Les labels ambigus hors dudomaine (out of scope) sont des termes qui peuvent être caractérisés comme ambigus engénéral mais ne le sont pas dans le contexte des textes étudiés ici. Par exemple gypsy, quisignifie bohémien, n’est pas ambigu dans des textes de génétique sur la drosophile. Leslabels ambigus dans le domaine (in scope) sont des termes qui peuvent prêter à confusionavec des termes du domaine. Il s’agit par exemple de dorsal qui est le nom d’un gène connumais est aussi un terme anatomique. La dernière catégorie de label (in conflict) rassemble lesnoms de gènes qui prêtent à confusion avec un mot d’une autre catégorie grammaticale. Ils’agit par exemple de is, a , by, red, can. Ces termes, quand ils sont employés dans leurs sensde gènes, risquent de perturber l’analyse grammaticale de la phrase.L’analyse grammaticale des phrases apporte néanmoins des informations pertinentespuisque les performances calculées par PROUX et alii sont intéressantes pour un systèmesans dictionnaire de gène. Le taux de précision atteint 91,4 % pour un taux de rappel de 94,4 %.A notre avis, ces techniques gagneraient à intégrer malgré tout un dictionnaire des gènes ;d’autant plus que la construction de tel dictionnaire à partir de corpus est possible. Lestravaux décrits dans la section suivante le montrent.RINDFLESCH et alii adoptent une stratégie dans laquelle les termes sont trouvés par analysegrammaticale de la phrase, puis éventuellement associés à des entrées d’une ressourceterminologique (1999). Le travail porte sur l’extraction d’informations sur les affinités deliaisons moléculaires entre macro-molécules. Les termes recherchés sont tous les syntagmesnominaux qui peuvent éventuellement être sujets à une liaison moléculaire. Il peut doncs’agir d’une molécule, d’une partie d’une molécule, d’une cellule, d’une partie d’une celluleou d’une structure génomique. Pour identifier ces entités, les auteurs utilisent des ressourcesterminologiques variées. Il s’agit en particulier du thésaurus biomédical UMLSMetathesaurus, du dictionnaire biomédical SPECIALIST et de Genbank. Quand il n’y apas de correspondance, le terme est laissé non interprété et le processus d’extractiond’informations suit son cours normalement. Il s’agit donc d’une démarche intermédiaireentre le ‘tout lexique’ et le ‘sans lexique’.C. TRAVAUX SUR LA CRÉATION AUTOMATIQUE OU ASSISTÉE DE DICTIONNAIRE DESGÈNES OU DE LEURS PRODUITS À PARTIR DE TEXTESLes travaux que nous décrivons ici concernent la création de dictionnaire de gènes ou deprotéines à partir de l’analyse de corpus de publications. Tous ces travaux proviennent del’université de Tokyo.Le premier travail concerne la création de base de connaissances à partir de publicationsscientifiques (OHTA et alii, 1997). Il a conduit à la réalisation d’un système qui combinerecherche d’informations, extraction d’informations et construction de dictionnairesspécifiques. Le logiciel s’appelle IFBP pour Information Finding from Biological Paper. Ledictionnaire spécialisé utilisé par le système contient entre autres des noms de protéines. Cedictionnaire sert à analyser les textes pour la recherche et l’extraction d’informations. Unintéressant mécanisme de rétroaction est mis en place. Le résultat de la recherched’informations permise par le dictionnaire sert à améliorer le dictionnaire lui-même. Le29
Page 1 and 2: 01AIX30085U NIVERSITÉ D’AIX-MARS
Page 3 and 4: II. Réflexions sur la méthode d
Page 5 and 6: REMERCIEMENTJe voudrais tout d'abor
Page 7: Elle permet aussi de repérer des r
Page 10 and 11: Partie 1État de l’Art
Page 12 and 13: L’étude que nous proposons sur l
Page 14 and 15: similaires. On fait donc la distinc
Page 16 and 17: structure spatiale est essentielle
Page 18 and 19: La comparaison des séquences est u
Page 20 and 21: Le premier volet de notre travail,
Page 22 and 23: IV. LE COUPLAGE DES BASES DE DONNÉ
Page 24 and 25: d’information. Dans le cas de la
Page 26 and 27: Cependant dans un autre travail auq
Page 30 and 31: système est utilisé pour construi
Page 32 and 33: Elle doit aussi permettre de quanti
Page 34 and 35: famille. Pour un terme donné, on d
Page 36 and 37: gènes en relation sont ainsi mis e
Page 38 and 39: protéines et Action est un verbe a
Page 40 and 41: spécifique aux phrases décrivant
Page 42 and 43: Voyons-le sur l’exemple suivant :
Page 44 and 45: Tableau 2 Vocabulaire spécifique d
Page 46 and 47: Figure 1 Résultat de la méthode d
Page 48 and 49: 3. Calcul de l’IVI par l’analys
Page 50 and 51: l’utilisation des données statis
Page 52 and 53: Partie 2Réalisation et résultats
Page 54 and 55: B. COMPLEXITÉ DE LA NOMENCLATURE1.
Page 56 and 57: Tableau 7 Importance relative de ch
Page 58 and 59: Voici un exemple de phrase où cett
Page 60 and 61: Tableau 12 Confusion avec des terme
Page 62 and 63: Tableau 14 Labels et mots videsLes
Page 64 and 65: interprété comme une référence
Page 66 and 67: Tableau 18 Occurrence de gène de m
Page 68 and 69: 2. Les variations orthographiquesCe
Page 70 and 71: Par ailleurs, il est important de n
Page 72 and 73: d. Importance relative des variante
Page 74 and 75: Exemple 10 Préférence donnée à
Page 76 and 77: Exemple 12 Utilisation du contexte
Page 78 and 79:
Exemple 15 Contexte et ambiguïté
Page 80 and 81:
Tableau 30 Invalidation des variant
Page 82 and 83:
Exemple 20 Interaction non ordonné
Page 84 and 85:
Tableau 32 Interaction et nombre d
Page 86 and 87:
Tableau 34 Labels faiblement ambigu
Page 88 and 89:
LabelTableau 36 Orthographie absent
Page 90 and 91:
Tableau 37 Définitions aberrantesC
Page 92 and 93:
Chapitre 2 Mise en œuvreNous trait
Page 94 and 95:
pour une autre, de ne pas tenir com
Page 96 and 97:
Tableau 42 Table des phrases extrai
Page 98 and 99:
Tableau 44 Table des entités biolo
Page 100 and 101:
Tableau 48 Table des inclusionsUn e
Page 102 and 103:
Tableau 49 Table type de reconnaiss
Page 104 and 105:
ExemplesConfirmerInterpréterDésin
Page 106 and 107:
Tableau 53 Table des définitionsUn
Page 108 and 109:
2e) Structure de donné pour prendr
Page 110 and 111:
B. MÉTHODE D’IDENTIFICATION DES
Page 112 and 113:
− Le label à supprimer éventuel
Page 114 and 115:
Tableau 60 Table phrase FlybaseCe t
Page 116 and 117:
c. Mise en forme relationnelleLes d
Page 118 and 119:
3. Acquisition de nouvelles connais
Page 120 and 121:
Tableau 62 Table reconnaissance des
Page 122 and 123:
Tableau 66 Table des formes fléchi
Page 124 and 125:
Tableau 68 Exemple d'annotation aut
Page 126 and 127:
définition restrictive des interac
Page 128 and 129:
Tableau 69 Interactions extraites p
Page 130 and 131:
Figure 2 Formulaire d’annotations
Page 132 and 133:
Chapitre 3 Évaluation et propositi
Page 134 and 135:
Exemple 29 Résumé de difficulté
Page 136 and 137:
Un traitement possible consisterait
Page 138 and 139:
quart des faux positifs (26 %). L
Page 140 and 141:
1. Méthodes basées sur le nombre
Page 142 and 143:
exigeant sur les IVI des phrases qu
Page 144 and 145:
Ce processus prend en compte 252 ph
Page 146 and 147:
Figure 13 Comparaison du critère r
Page 148 and 149:
Tableau 73 Faible effectif des inte
Page 150 and 151:
Tableau 74 Exemple d’identificati
Page 152 and 153:
Problèmes - + Tot.Sex comb on midl
Page 154 and 155:
Chapitre 1 Bilan du travailLes conn
Page 156 and 157:
Chapitre 2 Améliorations envisagé
Page 158 and 159:
LISTE DES TABLEAUX, FIGURES, EXEMPL
Page 160 and 161:
Figure 2 Formulaire d’annotations
Page 162 and 163:
INDEX DES TERMES2G.................
Page 164 and 165:
BIBLIOGRAPHIEACHARD F, BARILLOT E.
Page 166 and 167:
JACQUEMIN Christian, ZWEIGENBAUM Pi
Page 168 and 169:
SHATKAY Hagit, EDWARDS Stephen, WIL
Page 170 and 171:
PLAN DÉTAILLÉPartie 1 État de l
Page 172 and 173:
1. Les termes qui ne décrivent pas
Page 174 and 175:
d. Préparation de l’indexation d
Page 176 and 177:
ANNEXETableau 76 Les contradictions
Page 178 and 179:
Label Gène 1 Gène 2ne nicked eye
Page 180 and 181:
Tableau 78 Liste des labels de type
Page 182 and 183:
Tableau 85 Labels de type de reconn
Page 184 and 185:
SeuilTableau 88 Données du grapiqu
Page 186 and 187:
SeuilAutomatiqueExpertConfirnéeRap
Page 188 and 189:
188
Page 190:
Résumé :La thèse propose des sol
show all

X - Luc Quoniam

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?