X - Luc Quoniam

More documents

Recommendations

Info

Cependant dans un autre travail auquel ANDRADE a participé, portant cette fois surl’extraction d’informations sur les interactions entre protéines, les auteurs parviennent às’abstraire de ce problème en travaillant sur un petit nombre de gènes (BLASCHKE et alii,1999). Dans ce travail, les auteurs construisent des graphes de labels co-occurrents, c’est àdire des labels qui apparaissent dans les mêmes textes.Le fait que le système soit utilisé sur un petit nombre de gènes permet de travailler avec uneliste de synonymes incomplète. Dans ce système, Medline est interrogé avec ce petit nombrede protéines, que l’on sait être impliquées dans un même processus. La lecture des résumésobtenus permet de rajouter des synonymes à la liste de départ. Une nouvelle interrogationde Medline est alors faite avec le nouvel ensemble de noms de protéine.Nous remarquons que le système proposé ne prend pas intégralement en compte lephénomène de synonymie, puisque dans le graphe ce n’est pas les protéines qui sontreprésentés mais les labels. Ainsi, il se peut que deux nœuds différents du grapheconcernent en réalité la même protéine.Le problème des homonymes (protéine ayant le même nom) est aussi remarqué par lesauteurs. Là encore l’interrogation sur un petit nombre de protéines permet de contourner leproblème. Les éventuels gènes homonymes sont, sauf cas exceptionnel, impliqués dans desphénomènes très différents du phénomène étudié. Ils seront donc cités dans d’autresrésumés. Ainsi, il n’existera pas de résumé citant à la fois un gène d’intérêt et un gènehomonyme. Le graphe de gènes co-occurrents, qui est le résultat final de l’analyse, sera doncexact.PathBinder, qui est un système d’extraction d’informations sur les interactions, est unexemple de système qui se concentre sur une liste de gènes définie par avance (QI et alii,2000). La recherche sur un ou plusieurs gènes donnés est élargie grâce à des listes desynonymes. Ces synonymes sont extraits de la nomenclature maintenue par le HUGOGene Nomenclature Committee et par la base de données OMIM. Chaque synonyme estprésenté à l’utilisateur pour vérification.HUGO est une organisation internationale qui organise la coopération autour duséquençage et de la cartographie du génome humain. Elle possède un comité pour aider à lastandardisation des noms de gènes. Ce comité rédige des recommandations et maintientune base de données sur la nomenclature des gènes.Medminer est un système de recherche d’information sur la fonction des gènes et leursrelations à partir de résumés Medline (TANABE et alii, 1999). Il permet de sélectionner desrésumés sur la base de la présence de certains mots clefs et de certains gènes ou couples degènes. Ce système prend en compte la synonymie grâce aux informations extraites deGenecards. Les synonymes sont présentés à l’utilisateur pour validation. De ce fait, le systèmeest adapté à la recherche sur un petit nombre de gènes.A l’inverse des travaux présentés précédemment, PubGene travaille d’emblée sur un trèsgrand nombre de gènes, ce qui lui permet de présenter des résultats basés sur desstatistiques (JENSSEN et alii, 2001). PubGene est un système d’extraction d’informations surles relations entre les gènes humains. Il travaille à partir de résumés issus de Medline. Ilexploite la cooccurrence, c’est à dire le fait que plusieurs gènes soient cités dans le mêmetexte. Il est donc important que les alias soient reconnus et correctement attribués auxgènes associés. Le système prend donc en charge la synonymie. Les informations sur la26
nomenclature des gènes humains ont été obtenues par compilation de données provenantde différentes bases de données. Les bases de données utilisées sont : la base de donnée duHUGO Gene Nomenclature Committee, GDB, GENATLAS et LocusLink 14 . Cettedernière est une base de données sur la localisation chromosomique des gènes.STEPHENS et alii proposent un système analogue (2001). Il s’agit d’extraction d’informationssur les relations qu’entretiennent les gènes. Le système utilise aussi un lexique défini avanttoute expérience de nom de gènes ou de protéines.Cependant la tâche d’identification des gènes dans les textes n’a pas été évaluée en tant quetelle. C’est le résultat final, à savoir le réseau des gènes co-occurrents qui est évalué. Ceréseau est évalué du point de vue de sa pertinence pour le biologiste.RINDFLECH et alii, dans leur travail en recherche d’informations sur les liaisons moléculairesentre macro-molécules, détectent les noms des objets en interactions grâce à leur fonctiongrammaticale dans la phrase et les identifient à des entrées de GenBank quand cela estpossible (1999). Dans son travail sur l’extraction de relations entre médicaments, gènes etcellules, les noms de gènes sont reconnus comme tels grâce à l’utilisation d’un thésaurus(RINDFLESCH et alii, 2000). Ce thésaurus, l’UMLS Metathesaurus (HUMPHREYS et alii,1998), est spécialisé dans le domaine médical. Il lui permet de reconnaître des objets de typecellule, médicament ou gène et de faire la distinction entre ces trois types d’objets. Pour lesgènes, une liste de noms synonymes est adjointe à l’aide de GeneCards.L’université de Tokyo développe un système d’extraction d’informations sur les interactionsprotéine-protéine (ONO et alii, 2001). Dans ce système, la reconnaissance des noms deprotéines se fait par l’utilisation d’un dictionnaire sur les protéines. Ce dictionnaire a étécréé semi-automatiquement par une analyse de la littérature sur laquelle nous reviendronsdans la partie réservée à l’étude de la bibliographie sur la création automatique dedictionnaire à partir de textes (YOSHIDA et alii, 2000).En France, on peut noter le travail de TURNER et alii sur la création de liens entre SwissProtet Medline (2000). Dans ce travail, les résumés sont indexés avec des mots clefs extraits deSwissProt. Cette indexation permet de créer des liens d’un résumé vers des donnéesfactuelles contenues dans SwissProt. Les noms de protéines sont utilisés comme mots clefspour indexer les résumés Medline. Le système est évalué du point de vue de la représentationdocumentaire. La question est de savoir si l’indexation des résumés est pertinente du pointde vue d’une interrogation documentaire. Les auteurs n’ont pas évalué, en terme de rappelet de précision, leur technique de reconnaissance des protéines.B. TRAVAUX SUR LA RECONNAISSANCE DES GÈNES OU DE LEURS PRODUITSN’UTILISANT PAS DE LEXIQUESPour éviter d’avoir à construire des dictionnaires ou des lexiques spécifiques au domaine, uncertain nombre d’auteurs mettent au point des méthodes qui n’en nécessitent pas. Cesméthodes sont basées sur le fait que les noms de gènes ont une place spécifique dans laconstruction grammaticale de la phrase. Elles utilisent aussi les propriétés morphologiquesdes noms de gènes ou de protéines.L’argument utilisé pour ne pas utiliser de dictionnaire est le suivant : les dictionnairesappropriés n’existent pas toujours. Une méthode générale doit donc pouvoir s’en passer.14 Accessible sur http://www.ncbi.nlm.nih.gov/LocusLink/27
Page 1 and 2: 01AIX30085U NIVERSITÉ D’AIX-MARS
Page 3 and 4: II. Réflexions sur la méthode d
Page 5 and 6: REMERCIEMENTJe voudrais tout d'abor
Page 7: Elle permet aussi de repérer des r
Page 10 and 11: Partie 1État de l’Art
Page 12 and 13: L’étude que nous proposons sur l
Page 14 and 15: similaires. On fait donc la distinc
Page 16 and 17: structure spatiale est essentielle
Page 18 and 19: La comparaison des séquences est u
Page 20 and 21: Le premier volet de notre travail,
Page 22 and 23: IV. LE COUPLAGE DES BASES DE DONNÉ
Page 24 and 25: d’information. Dans le cas de la
Page 28 and 29: De plus, quand ces dictionnaires ex
Page 30 and 31: système est utilisé pour construi
Page 32 and 33: Elle doit aussi permettre de quanti
Page 34 and 35: famille. Pour un terme donné, on d
Page 36 and 37: gènes en relation sont ainsi mis e
Page 38 and 39: protéines et Action est un verbe a
Page 40 and 41: spécifique aux phrases décrivant
Page 42 and 43: Voyons-le sur l’exemple suivant :
Page 44 and 45: Tableau 2 Vocabulaire spécifique d
Page 46 and 47: Figure 1 Résultat de la méthode d
Page 48 and 49: 3. Calcul de l’IVI par l’analys
Page 50 and 51: l’utilisation des données statis
Page 52 and 53: Partie 2Réalisation et résultats
Page 54 and 55: B. COMPLEXITÉ DE LA NOMENCLATURE1.
Page 56 and 57: Tableau 7 Importance relative de ch
Page 58 and 59: Voici un exemple de phrase où cett
Page 60 and 61: Tableau 12 Confusion avec des terme
Page 62 and 63: Tableau 14 Labels et mots videsLes
Page 64 and 65: interprété comme une référence
Page 66 and 67: Tableau 18 Occurrence de gène de m
Page 68 and 69: 2. Les variations orthographiquesCe
Page 70 and 71: Par ailleurs, il est important de n
Page 72 and 73: d. Importance relative des variante
Page 74 and 75: Exemple 10 Préférence donnée à
Page 76 and 77:
Exemple 12 Utilisation du contexte
Page 78 and 79:
Exemple 15 Contexte et ambiguïté
Page 80 and 81:
Tableau 30 Invalidation des variant
Page 82 and 83:
Exemple 20 Interaction non ordonné
Page 84 and 85:
Tableau 32 Interaction et nombre d
Page 86 and 87:
Tableau 34 Labels faiblement ambigu
Page 88 and 89:
LabelTableau 36 Orthographie absent
Page 90 and 91:
Tableau 37 Définitions aberrantesC
Page 92 and 93:
Chapitre 2 Mise en œuvreNous trait
Page 94 and 95:
pour une autre, de ne pas tenir com
Page 96 and 97:
Tableau 42 Table des phrases extrai
Page 98 and 99:
Tableau 44 Table des entités biolo
Page 100 and 101:
Tableau 48 Table des inclusionsUn e
Page 102 and 103:
Tableau 49 Table type de reconnaiss
Page 104 and 105:
ExemplesConfirmerInterpréterDésin
Page 106 and 107:
Tableau 53 Table des définitionsUn
Page 108 and 109:
2e) Structure de donné pour prendr
Page 110 and 111:
B. MÉTHODE D’IDENTIFICATION DES
Page 112 and 113:
− Le label à supprimer éventuel
Page 114 and 115:
Tableau 60 Table phrase FlybaseCe t
Page 116 and 117:
c. Mise en forme relationnelleLes d
Page 118 and 119:
3. Acquisition de nouvelles connais
Page 120 and 121:
Tableau 62 Table reconnaissance des
Page 122 and 123:
Tableau 66 Table des formes fléchi
Page 124 and 125:
Tableau 68 Exemple d'annotation aut
Page 126 and 127:
définition restrictive des interac
Page 128 and 129:
Tableau 69 Interactions extraites p
Page 130 and 131:
Figure 2 Formulaire d’annotations
Page 132 and 133:
Chapitre 3 Évaluation et propositi
Page 134 and 135:
Exemple 29 Résumé de difficulté
Page 136 and 137:
Un traitement possible consisterait
Page 138 and 139:
quart des faux positifs (26 %). L
Page 140 and 141:
1. Méthodes basées sur le nombre
Page 142 and 143:
exigeant sur les IVI des phrases qu
Page 144 and 145:
Ce processus prend en compte 252 ph
Page 146 and 147:
Figure 13 Comparaison du critère r
Page 148 and 149:
Tableau 73 Faible effectif des inte
Page 150 and 151:
Tableau 74 Exemple d’identificati
Page 152 and 153:
Problèmes - + Tot.Sex comb on midl
Page 154 and 155:
Chapitre 1 Bilan du travailLes conn
Page 156 and 157:
Chapitre 2 Améliorations envisagé
Page 158 and 159:
LISTE DES TABLEAUX, FIGURES, EXEMPL
Page 160 and 161:
Figure 2 Formulaire d’annotations
Page 162 and 163:
INDEX DES TERMES2G.................
Page 164 and 165:
BIBLIOGRAPHIEACHARD F, BARILLOT E.
Page 166 and 167:
JACQUEMIN Christian, ZWEIGENBAUM Pi
Page 168 and 169:
SHATKAY Hagit, EDWARDS Stephen, WIL
Page 170 and 171:
PLAN DÉTAILLÉPartie 1 État de l
Page 172 and 173:
1. Les termes qui ne décrivent pas
Page 174 and 175:
d. Préparation de l’indexation d
Page 176 and 177:
ANNEXETableau 76 Les contradictions
Page 178 and 179:
Label Gène 1 Gène 2ne nicked eye
Page 180 and 181:
Tableau 78 Liste des labels de type
Page 182 and 183:
Tableau 85 Labels de type de reconn
Page 184 and 185:
SeuilTableau 88 Données du grapiqu
Page 186 and 187:
SeuilAutomatiqueExpertConfirnéeRap
Page 188 and 189:
188
Page 190:
Résumé :La thèse propose des sol
show all

X - Luc Quoniam

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?