05.07.2014 Views

slides - LaLIC - Université Paris-Sorbonne

slides - LaLIC - Université Paris-Sorbonne

slides - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Annotations discursives,<br />

quelques réalisations<br />

Marc Bertin, Antoine Blais,<br />

Jorge Garcia-Flores, Florence Le Priol<br />

<strong>LaLIC</strong>C, <strong>Université</strong> <strong>Paris</strong>-<strong>Sorbonne</strong>/CNRS<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 1


Annotations discursives<br />

Les travaux qui vont être présentés se situent dans la<br />

plateforme EXCOM<br />

<br />

<br />

Permet l'annotation automatique de relations discursives<br />

selon différents points de vue : causalité, définition,<br />

citation, repérage, action...<br />

Basée sur la méthode d'exploration contextuelle<br />

A partir des textes annotées, de nombreuses<br />

applications deviennent possibles<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 2


Les relations de repérage<br />

Travaux menés dans le laboratoire depuis 1993 (Seek,<br />

Seek-java...) et en collaboration avec des entreprises<br />

(Ediat...)<br />

localisation, identification, inclusion, partie-tout...<br />

Les pierres les plus anciennes ont été retrouvées dans les régions<br />

de Sirling et de Perth, en Ecosse.<br />

pierres les plus anciennes -- LOC --> régions de Sirling et de Perth<br />

Applications :<br />

Structuration des connaissances<br />

Aide à la construction d'ontologie à partir de textes...<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 3


Annotation sémantique et<br />

conception de logiciels<br />

Le but : Assister avec des outils linguistiques<br />

la démarche de conception de logiciels, et plus<br />

particulièrement la spécification informatique<br />

de besoins<br />

Extraire<br />

les besoins<br />

Valider et<br />

accorder les<br />

besoins<br />

Spécifier et<br />

documenter<br />

les besoins<br />

Analyser et<br />

modéliser<br />

le logiciel<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 6


Annotation des spécifications<br />

informatiques de besoins avec<br />

EXCOM<br />

Texte de SBI<br />

Texte de SBI<br />

Documents métier<br />

Annotation sémantique par Exploration Contextuelle<br />

Aide à la<br />

lecture<br />

Expert du<br />

domaine<br />

Outils TAL d’aide<br />

à l’extraction<br />

Outils TAL d’aide<br />

à la modélisation<br />

Outils TAL d’aide<br />

à la validation<br />

Concepteur<br />

Texte de SBI<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 7


<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 8


Le résumé automatique<br />

Nécessité de résumé<br />

Le résumé fournit à son lecteur l’information<br />

essentielle qui se dégage d’un texte.<br />

Il permet de parcourir plus rapidement et plus<br />

efficacement des bases de textes.<br />

Choix du corpus à traiter<br />

On travaille sur des textes informatifs (articles<br />

scientifiques et de journaux).<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 9


Le résumé automatique<br />

Consultation<br />

directe<br />

Utilisateur<br />

Base de textes<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 10


Le résumé automatique<br />

Résumé automatique<br />

de textes<br />

Utilisateur<br />

Base de textes<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 11


Le résumé automatique<br />

Historique<br />

Le laboratoire <strong>LaLIC</strong>C (<strong>Paris</strong>-IV <strong>Sorbonne</strong>) a acquis une<br />

expérience dans le domaine du résumé automatique avec un<br />

projet réalisé au travers des travaux suivants :<br />

- SERAPHIN (partenariat EDF) 1995<br />

- SAFIR (partenariat EDF) 1996<br />

- CONTEXTO 2002<br />

- EXCOM (partenariat France Telecom) 2005<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 12


Le résumé automatique<br />

Principe de fonctionnement<br />

On cherche à repérer les segments textuels les plus<br />

pertinents à partir de la présence de marqueurs<br />

linguistiques de surfaces.<br />

Ces marqueurs linguistiques de surfaces font<br />

apparaître une fonction discursive associée au<br />

segment textuel.<br />

Il faut établir une carte des catégories discursives<br />

les plus pertinentes pour le résumé automatique.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 13


Le résumé automatique<br />

Quelques catégories discursives :<br />

Annonce<br />

thématique<br />

Présentation<br />

Thématique<br />

Description<br />

Thématique<br />

Proposition /<br />

Hypothèse<br />

Objectif<br />

Résumé<br />

automatique<br />

Remarque<br />

conclusive<br />

Appréciation<br />

Navigation<br />

conceptuelle<br />

Conclusion<br />

Récapitulation<br />

Soulignement<br />

Opinion<br />

Conséquence<br />

Reformulation<br />

Rappel<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 14


Le résumé automatique<br />

Processus général<br />

2. Extraction des termes thématiques dans le titre (et les soustitres<br />

éventuellement).<br />

3. Annotation automatique du document à l’aide de règles<br />

d’exploration contextuelle.<br />

4. Stratégie de résumé : Extraction des segments annotés les<br />

plus pertinents en fonction de :<br />

a) leur valeur discursive<br />

b) leur position<br />

c) la présence de termes thématiques<br />

4. Nettoyage du résumé pour améliorer la lisibilité.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 15


Le résumé automatique<br />

Notre approche est indépendante des<br />

domaines.<br />

Les catégories discursives choisies sont<br />

présentes dans tous les types d’article :<br />

linguistique, psychologie, biologie...<br />

Les marqueurs tendent à avoir un usage fixe,<br />

indépendant du style qu’adopte l’auteur.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 16


Le résumé automatique<br />

Approche multilingue du RA<br />

Les catégories discursives pertinentes pour le<br />

résumé et le processus résumant tendent à être<br />

indépendants des langues.<br />

Seules les ressources linguistiques varient : les<br />

marqueurs linguistiques et les règles d’exploration<br />

contextuelle.<br />

La phase de nettoyage peut être différente dans<br />

certains types de traitement suivant les langues.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 17


Le résumé automatique<br />

Exemple de repérage d’une présentation thématique en<br />

français :<br />

« Je vais montrer à <strong>Paris</strong> mes nouvelles histoires. »<br />

⇒ Aucun indice pour dire que c’est une présentation<br />

thématique.<br />

« Je vais montrer dans cet article une démonstration du<br />

théorème de Fermat. »<br />

⇒ Deux indices lèvent l’indétermination, c’est une<br />

présentation thématique.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 18


Résumé de textes informatifs<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 19


Le résumé automatique<br />

Exemple de repérage d’une présentation thématique<br />

en anglais :<br />

« This paper's goal is to propose a working<br />

defnition of both concepts. »<br />

⇒ Deux indices lèvent l’indétermination, c’est une<br />

présentation thématique.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 20


<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 21


Le résumé automatique<br />

Exemple de repérage d’une présentation thématique en<br />

Bulgare (d'après les travaux de Yana Anatasova) :<br />

“В тази глава са изложени също и основните принципи<br />

на моделиране на съставните съюзи с да от гледна точка<br />

на техните конституенти и на непосредствения<br />

контекст.”<br />

« Dans ce chapitre sont également présentés les principes de<br />

base de la modélisation des conjonctions complexes avec да<br />

du point de vue de leurs constituants et du contexte<br />

immédiat. »<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 22


<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 23


Le résumé automatique<br />

Exemple de repérage d’une présentation thématique en<br />

chinois (d'après les travaux de Mimi Zhang) :<br />

“ 我 在 这 里 介 绍 (indicateur),...... ”<br />

( 我 : je ; 介 绍 : présenter; 在 : se trouver; 这 里 :ici )<br />

« Je présente ici… »<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 24


<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 25


Le résumé automatique<br />

Etude de cas sur un texte<br />

On choisit ici la préface de Maurice Gross des<br />

Notes de cours de syntaxe de Zellig Harris (Editions<br />

du Seuil 1976).<br />

Le texte comporte 89 phrases et on souhaite<br />

résumer celui-ci à 15%.<br />

Le texte est traduit en différentes langues : Français,<br />

coréen, bulgare et chinois.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 26


Le résumé automatique<br />

Résultat (pour le français)<br />

On a construit automatiquement un résumé<br />

composé de :<br />

- 3 présentations thématiques<br />

- 1 description thématique<br />

- 6 appréciations (soulignements et opinions)<br />

- 2 récapitulations<br />

- 2 conséquences<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 27


<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 28


Le résumé automatique<br />

Conclusion<br />

On a présenté une méthode par extraction qui extrait les<br />

segments textuels les pertinents.<br />

La pertinence des segments est évaluée en fonction de<br />

l’appartenance du segment à une catégorie discursive<br />

pertinente.<br />

Les catégories discursives pertinentes et le processus<br />

résumant sont indépendants des domaines.<br />

L’annotation automatique du texte permet en plus de<br />

présenter à l’utilisateur que certaines catégories de phrases<br />

qu’il souhaite voir : les opinions ou les conclusions, par<br />

exemple.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 29


Merci de votre attention !<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 30


La Bibliosémantique<br />

« The number of references a paper has is measured by the number of<br />

items in its bibliography as endnotes and footnotes, etc., while the<br />

number of citations a paper has is found by looking it up on some sort<br />

of citation index and seeing how many other papers mention it.»<br />

Derek J. de Solla Price, Little Science, Big Science...and Beyond<br />

« In a nutshell, citations symbolize the conceptual association of<br />

scientific ideas as recognized by publishing research authors. By the<br />

references they cite in their papers, authors make explicit linkages<br />

between their current research and prior work in the archive of<br />

scientific literature.»<br />

Eugene Garfield, The Concept of Citation Indexing:<br />

A Unique and Innovative Tool for Navigating the Research Literature<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 31


La Bibliosémantique<br />

Les citations créent une interconnectivité qui permet d'identifier<br />

des travaux de référence.<br />

Derek de Solla Price (voir référence) et Eugène Garfield postulent<br />

que les articles très fréquemment cités constituent le coeur de la<br />

littérature scientifique.<br />

Le tissu dense de citations autour de ce noyau atteste de<br />

l'utilisation des travaux qui le constitute et révèle leur excellence.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 32


La Bibliosémantique<br />

Price 1950 propose la définition suivante :<br />

Article = Quantum d’information scientifique<br />

Le produit final du travail d’un scientifique est l’article qu’il<br />

publie.<br />

Il exprime la possibilité d’utiliser le nombre d’article comme une<br />

indication quantitative de l’activité de la Recherche<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 33


La Bibliosémantique<br />

« On étudie le comportement d'un gaz à différentes conditions de<br />

température et de pression. On ne s'intéresse pas à une molécule<br />

appelée Georges, se déplaçant à une vitesse spécifique et située en un<br />

endroit spécifique à un instant donné; on considère seulement la<br />

moyenne de l'ensemble total des molécules où certaines sont plus<br />

rapides que d'autres, où elles sont situées au hasard et se déplaçant en<br />

différentes directions »<br />

Price, Little Science, Big Science, 1963 p.IV-V<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 34


La Bibliosémantique<br />

Les indicateurs bibliométriques les plus usuels sont :<br />

Production scientifique en terme de nombre de publication<br />

Impact de la recherche en terme de nombre de citations<br />

Investissement en ressources humaines et financières<br />

Coopération<br />

Distribution géographique<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 35


La Bibliosémantique<br />

Les limitations du facteur d'impact.<br />

Le maximum se situe après deux ans pour les « lettres », de deux à<br />

trois ans pour les articles originaux, et cinq à six ans pour les<br />

revues de synthèse .<br />

De plus, il y a un faibles taux de citations durant les deux<br />

premières années en biologie « classique » comme la physiologie,<br />

zoologie, botanique ou encore l'écologie car les articles se<br />

démodent moins rapidement.<br />

Travaux de M. Amin et M. Mabe sur le taux de citation<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 36


La Bibliosémantique<br />

Les limitations du facteur d'impact.<br />

Aussi le FI est plus légitime pour évaluer la performance d’un<br />

pays, puisque les distorsions montrées ci-dessus sont alors<br />

plus diluées et biaisent moins le résultat.<br />

Cependant, le facteur d’impact s’est progressivement imposé<br />

comme un indicateur-clé de l’évaluation scientifique,<br />

grâce à l’antériorité de la base de données de l’ISI et à<br />

l’absence d’autres critères quantitatifs ou qualitatifs.<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 37


La Bibliosémantique<br />

Price a été le premier à le reconnaître : « On ne peut pas tabler<br />

sur la rigueur, la cohérence et la conscience absolue de tous les<br />

auteurs dans la notation de leurs sources ».<br />

Ce qui signifie qu'il faut tenir compte « des méfaits de certains<br />

auteurs citant de préférence leurs propres articles, ceux de leurs<br />

amis ou ceux de savants puissants ou importants conférant un<br />

statut à leur travail »<br />

« la pratique consistant à écrire d'abord l'article, puis à ajouter<br />

pour la décoration le quota orthodoxe d'une douzaine de<br />

références, ne fausse pas sensiblement en moyenne le souci<br />

consciencieux de rendre justice aux articles sur lesquels s'est<br />

appuyé le travail ».<br />

Aux sources de la scientométrie Palanco<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 38


La Bibliosémantique<br />

« En même temps, le gros de la recherche entreprise dans ce domaine<br />

est composé d'expériences qui exposent les apprenants à un nombre<br />

limité d'occurrences des items lexicaux cibles et qui utilisent le terme<br />

"mot" comme le font les profanes ([ChunPlass96a] ; [DeRidder02] ;<br />

[HulstijnHollander96]).»<br />

« Bien que certaines études récentes la remettent en cause<br />

([Chodkiewicz01] ; [LauferNation01]), l'idée que la lecture est une<br />

source importante d'acquisition de vocabulaire en L1, comme en L2,<br />

continue à être largement répandue dans le milieu scientifique (voir<br />

les discussions chez [Bogaards01] ; [Krashen89] ; [Watanabe97]).»<br />

Les effets des hyperliens visibles ou invisibles sur l'acquisition lexicale et sur la compréhension<br />

en lecture chez des apprenants intermédiaires et avancés en langue étrangère<br />

Ofelia R. NIKOLOVA<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 39


La Bibliosémantique<br />

« Leurs conclusions mettent en évidence l'importance d'une variété<br />

dans les formes de présentation des gloses de manière à répondre à la<br />

diversité des préférences des apprenants ([LauferHill00] ; [Lomicka98]<br />

; [LymanHagerDavis96] ; [PlassChunMayer98]).»<br />

« Certains chercheurs [Nagata99] suggèrent l'utilisation de gloses<br />

électroniques interactives pour améliorer l'acquisition de vocabulaire<br />

en L2.»<br />

« Certains chercheurs [MondriaWitdeBoer91] croient que les<br />

apprenants qui infèrent correctement la signification des mots<br />

n'apportent pas suffisamment d'attention au lien entre forme et sens en<br />

phase d'apprentissage.»<br />

Les effets des hyperliens visibles ou invisibles sur l'acquisition lexicale et sur la compréhension<br />

en lecture chez des apprenants intermédiaires et avancés en langue étrangère<br />

Ofelia R. NIKOLOVA<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 40


La Bibliosémantique<br />

Définition<br />

Comparaison<br />

Similitude<br />

Hypothèse<br />

Autrui<br />

Dissimilitude<br />

Analyse<br />

Quotation<br />

Information<br />

Méthode<br />

Résultat<br />

Soi-même<br />

Point de vue<br />

Prise de position<br />

Citation<br />

Accord<br />

Contre-exemple<br />

Appréciation<br />

Désaccord<br />

Descles et Krushkov 2005<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 41


La Bibliosémantique<br />

Définition<br />

Comparaison<br />

Similitude<br />

Hypothèse<br />

Autrui<br />

Dissimilitude<br />

Analyse<br />

Quotation<br />

Information<br />

Méthode<br />

Résultat<br />

Soi-même<br />

Point de vue<br />

Prise de position<br />

Citation<br />

Accord<br />

Contre-exemple<br />

Appréciation<br />

Désaccord<br />

Descles et Krushkov 2005<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 42


La Bibliosémantique<br />

En-tête<br />

Article segmenté (par Segatex)<br />

...[AUT06]...<br />

Programme perl<br />

d'extraction<br />

des données<br />

Auteur<br />

Date de publication<br />

Segment textuel annoté<br />

sémantiquement et<br />

automatiquement par EXCOM<br />

Extraction et identification des renvois<br />

bibliographiques par un automate<br />

Renvois Bibliographiques<br />

Bibliographie<br />

Auteurs<br />

Dates de publication<br />

Programme perl d'extraction de la bibliographie<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 43


La Bibliosémantique<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 44


La Bibliosémantique<br />

Si l'indicateur est présent<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 45


La Bibliosémantique<br />

Si les indices linguistiques sont présents<br />

et bien localisés (droit|gauche)<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 46


La Bibliosémantique<br />

Alors l'action est d'annoter sémantiquement<br />

le segment textuel<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 47


La Bibliosémantique<br />

Définition<br />

Comparaison<br />

Similitude<br />

Hypothèse<br />

Autrui<br />

Dissimilitude<br />

Analyse<br />

Quotation<br />

Information<br />

Méthode<br />

Résultat<br />

Soi-même<br />

Point de vue<br />

Prise de position<br />

Citation<br />

Accord<br />

Contre-exemple<br />

Appréciation<br />

Désaccord<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 48


La Bibliosémantique<br />

Indicateurs<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 49


La Bibliosémantique<br />

Segment textuel<br />

Indicateurs<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 50


La Bibliosémantique<br />

Segment textuel<br />

Indices linguistiques<br />

Indicateurs<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 51


La Bibliosémantique<br />

Auteur<br />

Date de publication<br />

Auteur<br />

Segment textuel annoté<br />

sémantiquement et<br />

automatiquement par EXCOM<br />

Extraction et identification des renvois<br />

bibliographiques par un automate<br />

Xml<br />

Résultat<br />

Définition<br />

Méthode<br />

Renvois Bibliographiques<br />

Auteurs<br />

Dates de publication<br />

Programme perl d'extraction<br />

de la bibliographie<br />

Biblio<br />

Analyse Prise de position<br />

Désaccord<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 52


La Bibliosémantique<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 53


La Bibliosémantique<br />

Les indicateurs bibliométriques peuvent être enrichis par des<br />

indicateurs linguistiques offrant ainsi de nouvelles possibilités.<br />

Bibliométrie<br />

Grands nombres de documents<br />

Approche Statistique<br />

Document secondaire<br />

Quantitatif<br />

Nation – pays<br />

Indexation par mots-clés<br />

Bibliosémantique<br />

Un document suffit<br />

Approche Linguistique<br />

Document primaire<br />

Qualitatif<br />

Individu – Laboratoire<br />

Indexation par segment textuel<br />

<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 54

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!