X - Luc Quoniam

More documents

Recommendations

Info

système est utilisé pour construire un thésaurus spécialisé. La méthode appliquée est laclassification hiérarchique des termes. Dans cette classification, les termes sont regroupéss’ils partagent les mêmes contextes dans la littérature.Signalons que l’extraction de terminologie se heurte à un problème classique en traitementautomatique des langues : la résolution de la collocation. Il s’agit de reconnaître quandplusieurs mots contigus forment une unité de sens. Le système proposé est capable de lesrésoudre par des méthodes statistiques (YAMAMOTO et alii, 1996). Cela permet d’extraire desnoms de protéine qui sont composés de plusieurs termes.Dans ce travail, les auteurs soulignent le rôle central que jouent les dictionnaires spécialiséspour l’analyse des textes de biologie.YOSHIDA et alii proposent un système d’aide à la création de dictionnaire de noms deprotéines (1998). Il s’agit de la création d’un dictionnaire d’acronymes.Un des problèmes dans la manipulation de lexiques est que l’on ne sait pas quand deuxtermes distincts désignent la même chose. Souvent la relation entre les deux termes est unlien d’abréviation. L’objectif du travail de YOSHIDA et alii est de repérer ces relationsd’abréviation quand elles sont explicitement indiquées dans les textes. Ce travail est trèsutile, car nous avons pu constater que ce type de relations est effectivement indiqué defaçon tout à fait explicite. Concrètement, les auteurs donnent le nom abrégé immédiatementaprès le nom complet et entre parenthèse. L’auteur cite en exemple Thyrotrophin-releasing hormone(TRH).Le logiciel présenté par YOSHIDA et alii détecte la présence de ces explicitationsd’abréviation, qu’il nomme parenthetical paraphrase. Le logiciel repère la présence desparenthèses et la relation d’abréviation (YOSHIDA et alii, 2000). Cette relation d’abréviationpeut consister à prendre les premières lettres de chaque mot comme dans l’exemple cidessus.Il y a cependant d’autres cas de figures qui sont pris en charge par le système. Cetteméthode a été utilisée pour créer un dictionnaire sur les protéines de la levure Saccharomyceset de la bactérie Escherichia coli. Ces dictionnaires sont mis en œuvre pour extraire desinformations sur les interactions entre protéines (ONO et alii, 2001).Dans un échantillon de 112 résumés que nous avons annoté avec précision, nous avons puconstater que 62 résumés sont concernés par ce phénomène, soit plus de la moitié.L’explicitation d’abréviation utilisée par YOSHIDA et alii est donc fréquente, ce qui rend sontravail extrêmement intéressant.Nous verrons dans la partie réalisation (section Partie 2) comment nous utilisons, nousaussi, le phénomène. Il s’agira pour nous, soit de valider des interprétations possibles dutexte, soit de compléter automatiquement le dictionnaire dont nous disposons.Concernant la construction de nomenclature de gènes rigoureuse, nous signalons le travailde LICCIULLI (1999) et de CATALANO (2000) sur les séquences génétiques. Ce travailconsiste à mettre de l’ordre dans la terminologie utilisée pour décrire les séquences dans lesbases de données de séquences. Les auteurs ont travaillé sur la base de données deséquences nucléique de l’EMBL 15 (STOESSER, 2001). Dans ce type de base de données, lesséquences sont associées à des noms de gènes et à des noms de protéines mais la15 Accessible sur http://www.ebi.ac.uk/embl/30
nomenclature utilisée n’est pas extrêmement rigoureuse. Cela est dû au fait que levocabulaire n’est pas contrôlé. Les auteurs sont libres dans la description des séquencesqu’ils soumettent. Chacun va utiliser son propre vocabulaire pour énumérer gènes etprotéines associés à la séquence. Le résultat est qu’un gène ou une protéine peut avoir étédésigné par différents noms. Inversement un même nom peut désigner des gènes ou desprotéines qui n’ont rien à voir. Les auteurs distinguent deux causes dans l’inconsistance dela terminologie. La première est biologique. Une même protéine pourra être désignée dedifférentes façons selon le contexte biologique. La seconde est sémantique. Il existeplusieurs orthographes possibles pour le nom complet d’une protéine et plusieurs façonsd’abréger ce nom.Ce manque de rigueur dans la description des séquences par des mots clefs rendl’information disponible plus difficilement exploitable. L’auteur propose des solutions à ceproblème. Il procède par classification des mots clefs. Cette classification va rassembler desmots clefs associés à des séquences identiques ou impliquées dans des fonctions similaires.La navigation dans cette classification doit permettre à l’utilisateur de mieux connaître laterminologie utilisée pour désigner les gènes qui l’intéressent. Ce type de recherche est doncexploitable pour construire des dictionnaires de gènes, mais cette construction n’est pasautomatique, elle est simplement assistée par l’informatique.D. CONCLUSION SUR LES TRAVAUX CONCERNANT LA RECHERCHE DE GÈNES OU DELEURS PRODUITS DANS DES TEXTESLa majeure partie des travaux sur la reconnaissance de labels porte sur les protéines. Uneoriginalité de notre travail consiste à s’intéresser aux noms des gènes et de leurs produits.Les études faites sur la reconnaissance des gènes ou de leurs produits permettent d’isoler uncertain nombre de problèmes. Premièrement, la présence de nombreux noms synonymes vientcompliquer l’identification d’un gène précis dans une liste préalablement définie.Deuxièmement, l’existence de gènes homonymes peut constituer une source d’erreurs.Troisièmement, la présence de labels ambigus pose le problème d’une reconnaissancecontextuelle.Rares sont les systèmes qui prennent intégralement en charge le phénomène de synonymie.La plupart des systèmes se contentent de poser une marque à chaque occurrence d’un label.Ils ne se préoccupent pas d’associer le label à un gène unique en prenant en compte le faitque plusieurs labels puissent renvoyer à un même gène.Les systèmes proposés utilisent des listes de noms synonymes extraites de base de donnéesmais nous n’avons pas trouvé d’études quantitatives sur les carences de ces listes.Les conséquences de l’homonymie dans la nomenclature et de l’ambiguïté de certains labelsne semblent pas non plus avoir été quantitativement évaluées.Ainsi, il manque une étude sur la possibilité d’utiliser une base de données pour identifierles gènes dans les textes. Cette base de données devrait contenir les divers noms synonymes desgènes et de leurs produits.Cette étude doit permettre de montrer qu’il est possible d’identifier des gènes dans destextes sans faire appel à des techniques linguistiques infiniment plus sophistiquées quel’utilisation d’un dictionnaire.31
Page 1 and 2: 01AIX30085U NIVERSITÉ D’AIX-MARS
Page 3 and 4: II. Réflexions sur la méthode d
Page 5 and 6: REMERCIEMENTJe voudrais tout d'abor
Page 7: Elle permet aussi de repérer des r
Page 10 and 11: Partie 1État de l’Art
Page 12 and 13: L’étude que nous proposons sur l
Page 14 and 15: similaires. On fait donc la distinc
Page 16 and 17: structure spatiale est essentielle
Page 18 and 19: La comparaison des séquences est u
Page 20 and 21: Le premier volet de notre travail,
Page 22 and 23: IV. LE COUPLAGE DES BASES DE DONNÉ
Page 24 and 25: d’information. Dans le cas de la
Page 26 and 27: Cependant dans un autre travail auq
Page 28 and 29: De plus, quand ces dictionnaires ex
Page 32 and 33: Elle doit aussi permettre de quanti
Page 34 and 35: famille. Pour un terme donné, on d
Page 36 and 37: gènes en relation sont ainsi mis e
Page 38 and 39: protéines et Action est un verbe a
Page 40 and 41: spécifique aux phrases décrivant
Page 42 and 43: Voyons-le sur l’exemple suivant :
Page 44 and 45: Tableau 2 Vocabulaire spécifique d
Page 46 and 47: Figure 1 Résultat de la méthode d
Page 48 and 49: 3. Calcul de l’IVI par l’analys
Page 50 and 51: l’utilisation des données statis
Page 52 and 53: Partie 2Réalisation et résultats
Page 54 and 55: B. COMPLEXITÉ DE LA NOMENCLATURE1.
Page 56 and 57: Tableau 7 Importance relative de ch
Page 58 and 59: Voici un exemple de phrase où cett
Page 60 and 61: Tableau 12 Confusion avec des terme
Page 62 and 63: Tableau 14 Labels et mots videsLes
Page 64 and 65: interprété comme une référence
Page 66 and 67: Tableau 18 Occurrence de gène de m
Page 68 and 69: 2. Les variations orthographiquesCe
Page 70 and 71: Par ailleurs, il est important de n
Page 72 and 73: d. Importance relative des variante
Page 74 and 75: Exemple 10 Préférence donnée à
Page 76 and 77: Exemple 12 Utilisation du contexte
Page 78 and 79: Exemple 15 Contexte et ambiguïté
Page 80 and 81:
Tableau 30 Invalidation des variant
Page 82 and 83:
Exemple 20 Interaction non ordonné
Page 84 and 85:
Tableau 32 Interaction et nombre d
Page 86 and 87:
Tableau 34 Labels faiblement ambigu
Page 88 and 89:
LabelTableau 36 Orthographie absent
Page 90 and 91:
Tableau 37 Définitions aberrantesC
Page 92 and 93:
Chapitre 2 Mise en œuvreNous trait
Page 94 and 95:
pour une autre, de ne pas tenir com
Page 96 and 97:
Tableau 42 Table des phrases extrai
Page 98 and 99:
Tableau 44 Table des entités biolo
Page 100 and 101:
Tableau 48 Table des inclusionsUn e
Page 102 and 103:
Tableau 49 Table type de reconnaiss
Page 104 and 105:
ExemplesConfirmerInterpréterDésin
Page 106 and 107:
Tableau 53 Table des définitionsUn
Page 108 and 109:
2e) Structure de donné pour prendr
Page 110 and 111:
B. MÉTHODE D’IDENTIFICATION DES
Page 112 and 113:
− Le label à supprimer éventuel
Page 114 and 115:
Tableau 60 Table phrase FlybaseCe t
Page 116 and 117:
c. Mise en forme relationnelleLes d
Page 118 and 119:
3. Acquisition de nouvelles connais
Page 120 and 121:
Tableau 62 Table reconnaissance des
Page 122 and 123:
Tableau 66 Table des formes fléchi
Page 124 and 125:
Tableau 68 Exemple d'annotation aut
Page 126 and 127:
définition restrictive des interac
Page 128 and 129:
Tableau 69 Interactions extraites p
Page 130 and 131:
Figure 2 Formulaire d’annotations
Page 132 and 133:
Chapitre 3 Évaluation et propositi
Page 134 and 135:
Exemple 29 Résumé de difficulté
Page 136 and 137:
Un traitement possible consisterait
Page 138 and 139:
quart des faux positifs (26 %). L
Page 140 and 141:
1. Méthodes basées sur le nombre
Page 142 and 143:
exigeant sur les IVI des phrases qu
Page 144 and 145:
Ce processus prend en compte 252 ph
Page 146 and 147:
Figure 13 Comparaison du critère r
Page 148 and 149:
Tableau 73 Faible effectif des inte
Page 150 and 151:
Tableau 74 Exemple d’identificati
Page 152 and 153:
Problèmes - + Tot.Sex comb on midl
Page 154 and 155:
Chapitre 1 Bilan du travailLes conn
Page 156 and 157:
Chapitre 2 Améliorations envisagé
Page 158 and 159:
LISTE DES TABLEAUX, FIGURES, EXEMPL
Page 160 and 161:
Figure 2 Formulaire d’annotations
Page 162 and 163:
INDEX DES TERMES2G.................
Page 164 and 165:
BIBLIOGRAPHIEACHARD F, BARILLOT E.
Page 166 and 167:
JACQUEMIN Christian, ZWEIGENBAUM Pi
Page 168 and 169:
SHATKAY Hagit, EDWARDS Stephen, WIL
Page 170 and 171:
PLAN DÉTAILLÉPartie 1 État de l
Page 172 and 173:
1. Les termes qui ne décrivent pas
Page 174 and 175:
d. Préparation de l’indexation d
Page 176 and 177:
ANNEXETableau 76 Les contradictions
Page 178 and 179:
Label Gène 1 Gène 2ne nicked eye
Page 180 and 181:
Tableau 78 Liste des labels de type
Page 182 and 183:
Tableau 85 Labels de type de reconn
Page 184 and 185:
SeuilTableau 88 Données du grapiqu
Page 186 and 187:
SeuilAutomatiqueExpertConfirnéeRap
Page 188 and 189:
188
Page 190:
Résumé :La thèse propose des sol
show all

X - Luc Quoniam

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?