X - Luc Quoniam

More documents

Recommendations

Info

famille. Pour un terme donné, on définit F comme la proportion des résumés qui utilisent leterme. La moyenne et l’écart type de la variable F sont calculés sur les familles à termeconstant. On définit le score du terme dans la famille par la formule :F − Fz =σDans le cas où le terme ne serait utilisé que dans une famille, il ne serait pas possible decalculer l’écart type. Dans ce cas, on prend un score égal à dix fois F (ANDRADE et alii,2001). Les mots clefs sont, par définition, les mots dont le score est supérieur à un certainseuil. Le score de la phrase est obtenu en faisant la moyenne des scores des mots qui lacomposent. Les phrases clefs sont les phrases dont le score est supérieur à un certain seuil.Cette technique, qui permet de trouver des mots clefs et des phrases clefs caractéristiquesd’un ensemble de protéines, a aussi été utilisée pour interpréter les données d’expressionsdes gènes. BLASCHKE et alii (2000) proposent le système GEISHA 17 . Ces donnéesd’expression sont le résultat d’expériences sur puces à ADN. La comparaison des donnéesd’expressions permet d’identifier des groupes ayant des profils semblables. Ces données declassification doivent être interprétées. L’utilisation de la littérature est un moyen d’obtenirdes mots clefs caractéristiques de chaque groupe. Des méthodes de statistiques textuellessimilaires à celles précédemment exposées sont utilisées. L’interface proposée à l’utilisateurpermet de lier les mots clefs aux résumés et donc au contexte d’utilisation de ces mots clefs.Les mots clefs sont aussi reliés entre eux de façon à pouvoir naviguer entre les mots clefspour explorer l’échantillon étudié.La relation entre profils d’expression comparable et similarité fonctionnelle a été étudiée parJUAN CARLOS OLIVEROS et alii. (2000). Les auteurs montrent que des gènes ayant mêmesprofils d’expression auront des contextes textuels semblables dans Medline. Cette proximitédans les textes signe d’après les auteurs une similarité fonctionnelle.La méthode mise en œuvre dans AbXtract a été adaptée à la mise à jour automatique desinformations contenues dans les bases de données. Il s’agit d’extraire de la littérature desmots clefs pour décrire des données présentes dans la base de données OMIM (ANDRADE,2000). L’utilisation de la littérature permet de garantir la fraîcheur des données.BLASCHKE et alii ont aussi utilisé AbXtract pour mettre au point un système d’extractiond’informations sur les protéines (1999). Le logiciel a servi à établir une liste de verbespertinents. Nous y reviendrons dans la suite.TANABE et alii proposent Medminer 18 , un système de recherche d’informations sur lesgènes et leurs implications dans des pathologies (1999). Ce système permet de rechercher etde classer des résumés issus de Medline. Ce logiciel est donc une aide à la lecture. Il permetde mettre en avant des textes pertinents pour une question particulière. Cette question estdéfinie par avance. Il s’agit de la fonction des gènes, de leurs interactions et de leursimplications dans des pathologies. La sélection et le classement des résumés se font selondes mots clefs. Un petit nombre de thèmes de classement est proposé. Pour chacun de cesthèmes, une petite liste de mots clefs est dressée. Les textes qui utilisent ces mots clefs sontsélectionnés et regroupés dans les thèmes correspondants. Les thèmes et les mots clefs17 Accessible sur http://www.pdg.cnb.uam.es/blaschke/cgi-bin/geisha18 Accessible sur http://discover.nci.nih.gov/textmining/main.html34
associés sont définis avant toute expérience, contrairement aux méthodes présentéesprécédemment. Ce sont donc toujours les mêmes, alors que dans AbXtract les mots clefssont différents pour chaque famille de protéines. Un des thèmes pris en charge correspondà l’interaction moléculaire et les mots clefs associés sont : bind*, cataly*, cleav* et transcri*, oùl’astérisque représente une troncature. Un autre thème correspond à l’inhibition et les motsclefs associés sont : Downregulat*, block*, deplet*, deficien*, decreas*, inhibit*, reduc* et absen*.Comme on peut le constater, les mots clefs sont souvent des verbes. L’utilisateur a lapossibilité d’interroger le système avec des noms de gènes ou de protéines. Le système estadapté à l’étude des relations que peuvent entretenir deux gènes entre eux grâce à lapossibilité qui est offerte d’effectuer une interrogation avec un couple de labels. Dans cecas, une phrase va être considérée comme pertinente si elle contient un des deux labels et siun mot clef est utilisé. Un résumé sera considéré comme pertinent s’il contient une phrasepertinente et si les deux labels sont cités. Le résultat d’une interrogation est consultable enhypertexte.B. MÉTHODES BASÉES SUR DES ÉTUDES STATISTIQUES D’APPARITION DE MOTS CLEFSPOUR EXTRAIRE DES INFORMATIONS SUR LES INTERACTIONS GÉNÉTIQUES OUMOLÉCULAIRESUn autre courant de recherche utilise la statistique textuelle pour obtenir des informationssynthétiques sur la fonction des gènes. Les statistiques sont effectuées sur des mots du texteou sur des descripteurs.SHATKAY et alii proposent un système pour caractériser des ensembles de gènes par desmots clefs (2000). Les auteurs font appel à des modèles statistiques qui décrivent lafréquence des mots dans les documents. Les documents sont représentés par les mots qu’ilsutilisent. La question qui est posée est celle de trouver les termes qui représentent le mieuxun ensemble de documents donnés. Le système est utilisé pour interpréter des donnéesd’expression issues de puces à ADN.MASYS et alii proposent un système analogue d’interprétation de données d’expressions(2001). Il s’agit aussi d’interpréter les résultats d’expériences issues de puces à ADN. Lesgroupes de gènes, ayant des profils similaires, sont caractérisés grâce à des données issuesde Medline. Les informations extraites de Medline sont les termes MeSH qui servent àl’indexation des résumés. Ainsi les profils d’expressions sont associés à des termes MeSH.Les auteurs utilisent en particulier la classification hiérarchique des enzymes que propose leMeSH. Nous avons là un exemple très intéressant de liens établis entre des donnéesd’expériences et des données de type encyclopédique. Ces liens sont établis parl’intermédiaire des publications. Il s’agit de composer deux liens. Le premier lien va desdonnées d’expérience vers les données de publications. Il s’agit de trouver les publicationsqui donnent des informations sur les gènes dont on a des données d’expressions. Ledeuxième lien va des publications vers des données de classification. Il s’agit d’unedescription des documents faite par Medline. Le résultat est une description très riche desdonnées d’expériences.Biobibliometrics 19 est un système d’extraction d’informations sur les fonctions des gènesbasé sur des statistiques de cooccurrences des labels (STAPLEY et alii, 2000). Le système estbasé sur le fait que les gènes n’apparaissent pas « au hasard » dans les textes. Il y a descorrélations. Le traitement statistique vise à découvrir ces corrélations. Des couples de19 Accessible sur http://www.bmm.icnet.uk/~stapleyb/biobib/35
Page 1 and 2: 01AIX30085U NIVERSITÉ D’AIX-MARS
Page 3 and 4: II. Réflexions sur la méthode d
Page 5 and 6: REMERCIEMENTJe voudrais tout d'abor
Page 7: Elle permet aussi de repérer des r
Page 10 and 11: Partie 1État de l’Art
Page 12 and 13: L’étude que nous proposons sur l
Page 14 and 15: similaires. On fait donc la distinc
Page 16 and 17: structure spatiale est essentielle
Page 18 and 19: La comparaison des séquences est u
Page 20 and 21: Le premier volet de notre travail,
Page 22 and 23: IV. LE COUPLAGE DES BASES DE DONNÉ
Page 24 and 25: d’information. Dans le cas de la
Page 26 and 27: Cependant dans un autre travail auq
Page 28 and 29: De plus, quand ces dictionnaires ex
Page 30 and 31: système est utilisé pour construi
Page 32 and 33: Elle doit aussi permettre de quanti
Page 36 and 37: gènes en relation sont ainsi mis e
Page 38 and 39: protéines et Action est un verbe a
Page 40 and 41: spécifique aux phrases décrivant
Page 42 and 43: Voyons-le sur l’exemple suivant :
Page 44 and 45: Tableau 2 Vocabulaire spécifique d
Page 46 and 47: Figure 1 Résultat de la méthode d
Page 48 and 49: 3. Calcul de l’IVI par l’analys
Page 50 and 51: l’utilisation des données statis
Page 52 and 53: Partie 2Réalisation et résultats
Page 54 and 55: B. COMPLEXITÉ DE LA NOMENCLATURE1.
Page 56 and 57: Tableau 7 Importance relative de ch
Page 58 and 59: Voici un exemple de phrase où cett
Page 60 and 61: Tableau 12 Confusion avec des terme
Page 62 and 63: Tableau 14 Labels et mots videsLes
Page 64 and 65: interprété comme une référence
Page 66 and 67: Tableau 18 Occurrence de gène de m
Page 68 and 69: 2. Les variations orthographiquesCe
Page 70 and 71: Par ailleurs, il est important de n
Page 72 and 73: d. Importance relative des variante
Page 74 and 75: Exemple 10 Préférence donnée à
Page 76 and 77: Exemple 12 Utilisation du contexte
Page 78 and 79: Exemple 15 Contexte et ambiguïté
Page 80 and 81: Tableau 30 Invalidation des variant
Page 82 and 83: Exemple 20 Interaction non ordonné
Page 84 and 85:
Tableau 32 Interaction et nombre d
Page 86 and 87:
Tableau 34 Labels faiblement ambigu
Page 88 and 89:
LabelTableau 36 Orthographie absent
Page 90 and 91:
Tableau 37 Définitions aberrantesC
Page 92 and 93:
Chapitre 2 Mise en œuvreNous trait
Page 94 and 95:
pour une autre, de ne pas tenir com
Page 96 and 97:
Tableau 42 Table des phrases extrai
Page 98 and 99:
Tableau 44 Table des entités biolo
Page 100 and 101:
Tableau 48 Table des inclusionsUn e
Page 102 and 103:
Tableau 49 Table type de reconnaiss
Page 104 and 105:
ExemplesConfirmerInterpréterDésin
Page 106 and 107:
Tableau 53 Table des définitionsUn
Page 108 and 109:
2e) Structure de donné pour prendr
Page 110 and 111:
B. MÉTHODE D’IDENTIFICATION DES
Page 112 and 113:
− Le label à supprimer éventuel
Page 114 and 115:
Tableau 60 Table phrase FlybaseCe t
Page 116 and 117:
c. Mise en forme relationnelleLes d
Page 118 and 119:
3. Acquisition de nouvelles connais
Page 120 and 121:
Tableau 62 Table reconnaissance des
Page 122 and 123:
Tableau 66 Table des formes fléchi
Page 124 and 125:
Tableau 68 Exemple d'annotation aut
Page 126 and 127:
définition restrictive des interac
Page 128 and 129:
Tableau 69 Interactions extraites p
Page 130 and 131:
Figure 2 Formulaire d’annotations
Page 132 and 133:
Chapitre 3 Évaluation et propositi
Page 134 and 135:
Exemple 29 Résumé de difficulté
Page 136 and 137:
Un traitement possible consisterait
Page 138 and 139:
quart des faux positifs (26 %). L
Page 140 and 141:
1. Méthodes basées sur le nombre
Page 142 and 143:
exigeant sur les IVI des phrases qu
Page 144 and 145:
Ce processus prend en compte 252 ph
Page 146 and 147:
Figure 13 Comparaison du critère r
Page 148 and 149:
Tableau 73 Faible effectif des inte
Page 150 and 151:
Tableau 74 Exemple d’identificati
Page 152 and 153:
Problèmes - + Tot.Sex comb on midl
Page 154 and 155:
Chapitre 1 Bilan du travailLes conn
Page 156 and 157:
Chapitre 2 Améliorations envisagé
Page 158 and 159:
LISTE DES TABLEAUX, FIGURES, EXEMPL
Page 160 and 161:
Figure 2 Formulaire d’annotations
Page 162 and 163:
INDEX DES TERMES2G.................
Page 164 and 165:
BIBLIOGRAPHIEACHARD F, BARILLOT E.
Page 166 and 167:
JACQUEMIN Christian, ZWEIGENBAUM Pi
Page 168 and 169:
SHATKAY Hagit, EDWARDS Stephen, WIL
Page 170 and 171:
PLAN DÉTAILLÉPartie 1 État de l
Page 172 and 173:
1. Les termes qui ne décrivent pas
Page 174 and 175:
d. Préparation de l’indexation d
Page 176 and 177:
ANNEXETableau 76 Les contradictions
Page 178 and 179:
Label Gène 1 Gène 2ne nicked eye
Page 180 and 181:
Tableau 78 Liste des labels de type
Page 182 and 183:
Tableau 85 Labels de type de reconn
Page 184 and 185:
SeuilTableau 88 Données du grapiqu
Page 186 and 187:
SeuilAutomatiqueExpertConfirnéeRap
Page 188 and 189:
188
Page 190:
Résumé :La thèse propose des sol
show all

X - Luc Quoniam

Create successful ePaper yourself

Delete template?

Save as template?