11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

De tels travaux existent pour la reconnaissance des labels et nous y reviendrons dans lapartie consacrée aux travaux concernant la reconnaissance de gènes sans lexiques (sectionChapitre 2I.B).• La résolution d’anaphore (co-reference resolution)Il s’agit de repérer quand, dans un texte, il est fait référence plusieurs fois à une mêmeentité, même si cette entité est nommée de façons différentes ou si un pronom personnelest utilisé. Cela recouvre en particulier la détection de lien d’abréviation, avec commeexemple d’utilisation la construction de dictionnaire d’acronymes à partir de corpus. Ce typede tâche est utile pour la reconnaissance des interactions car il est fréquent qu’un gène soitnommé de plusieurs façon dans le même résumé, précisément dans le cas d’utilisationd’abréviation. En revanche, le cas de l’utilisation d’un pronom pour faire référence à ungène semble être très peu fréquent dans notre corpus.Il existe des travaux sur la construction, à partir de corpus, de dictionnaire d’acronymespour les noms de gènes. Nous y reviendrons à la section Chapitre 2I.C.• Le remplissage d’un formulaire simple (template element)Il s’agit de trouver des caractéristiques d’un objet. Par exemple, pour un produit, trouverson nom, la société qui le fabrique, son prix, etc.• La découverte d’une relation (template relationship)Il s’agit de mettre à jour des relations entre les objets. On peut classer l’extractiond’informations sur les interactions dans cette catégorie.• La description d’un évènement (scenario template)Il s’agit de donner les caractéristiques d’un événement dans un texte : objets impliqués etmodalités de réalisation. Par exemple : qui arrive à quel poste dans quelle entreprise. Dans ledomaine de la génétique cela pourrait être : quelle protéine se fixe sur quel site promoteur, àquel stade du développement et quel est le type d’expérience qui a permis d’en apporter lapreuve. Nous n’avons pas connaissance de système aussi élaboré dans le domaine de lagénétique.Nous voyons que l’extraction d’information se concentre sur la compréhension du texte, enévitant de faire référence à des connaissances extérieures. Par exemple, dans la tâche dereconnaissance des personnes, la question est plus de savoir qu’une portion de texte est unnom de personne (reconnaissance d’entité nommée) ou de savoir que plusieurs portions detextes renvoient en fait à un même individu (résolution d’anaphore), plutôt que d’identifierla personne avec une entrée d’un annuaire. Ainsi, la question est de comprendre ce qui estdit dans le texte et non de relier les éléments de compréhension acquis dans le texte à desconnaissances acquises indépendamment.Si le problème consiste à connecter, d’une part, des éléments de compréhension acquis dansle texte à, d’autre part, des connaissances du domaine acquises indépendamment, on setrouve face à d’autres exigences. On est placé dans le domaine de ce que nous appellerons lacréation de liens entre données factuelles et données bibliographiques. Cette thématiquerejoint celles du couplage des bases de données, qu’elles soient bibliographiques oufactuelles.21

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!