slides - LaLIC - Université Paris-Sorbonne
slides - LaLIC - Université Paris-Sorbonne
slides - LaLIC - Université Paris-Sorbonne
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Annotations discursives,<br />
quelques réalisations<br />
Marc Bertin, Antoine Blais,<br />
Jorge Garcia-Flores, Florence Le Priol<br />
<strong>LaLIC</strong>C, <strong>Université</strong> <strong>Paris</strong>-<strong>Sorbonne</strong>/CNRS<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 1
Annotations discursives<br />
Les travaux qui vont être présentés se situent dans la<br />
plateforme EXCOM<br />
<br />
<br />
Permet l'annotation automatique de relations discursives<br />
selon différents points de vue : causalité, définition,<br />
citation, repérage, action...<br />
Basée sur la méthode d'exploration contextuelle<br />
A partir des textes annotées, de nombreuses<br />
applications deviennent possibles<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 2
Les relations de repérage<br />
Travaux menés dans le laboratoire depuis 1993 (Seek,<br />
Seek-java...) et en collaboration avec des entreprises<br />
(Ediat...)<br />
localisation, identification, inclusion, partie-tout...<br />
Les pierres les plus anciennes ont été retrouvées dans les régions<br />
de Sirling et de Perth, en Ecosse.<br />
pierres les plus anciennes -- LOC --> régions de Sirling et de Perth<br />
Applications :<br />
Structuration des connaissances<br />
Aide à la construction d'ontologie à partir de textes...<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 3
Annotation sémantique et<br />
conception de logiciels<br />
Le but : Assister avec des outils linguistiques<br />
la démarche de conception de logiciels, et plus<br />
particulièrement la spécification informatique<br />
de besoins<br />
Extraire<br />
les besoins<br />
Valider et<br />
accorder les<br />
besoins<br />
Spécifier et<br />
documenter<br />
les besoins<br />
Analyser et<br />
modéliser<br />
le logiciel<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 6
Annotation des spécifications<br />
informatiques de besoins avec<br />
EXCOM<br />
Texte de SBI<br />
Texte de SBI<br />
Documents métier<br />
Annotation sémantique par Exploration Contextuelle<br />
Aide à la<br />
lecture<br />
Expert du<br />
domaine<br />
Outils TAL d’aide<br />
à l’extraction<br />
Outils TAL d’aide<br />
à la modélisation<br />
Outils TAL d’aide<br />
à la validation<br />
Concepteur<br />
Texte de SBI<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 7
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 8
Le résumé automatique<br />
Nécessité de résumé<br />
Le résumé fournit à son lecteur l’information<br />
essentielle qui se dégage d’un texte.<br />
Il permet de parcourir plus rapidement et plus<br />
efficacement des bases de textes.<br />
Choix du corpus à traiter<br />
On travaille sur des textes informatifs (articles<br />
scientifiques et de journaux).<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 9
Le résumé automatique<br />
Consultation<br />
directe<br />
Utilisateur<br />
Base de textes<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 10
Le résumé automatique<br />
Résumé automatique<br />
de textes<br />
Utilisateur<br />
Base de textes<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 11
Le résumé automatique<br />
Historique<br />
Le laboratoire <strong>LaLIC</strong>C (<strong>Paris</strong>-IV <strong>Sorbonne</strong>) a acquis une<br />
expérience dans le domaine du résumé automatique avec un<br />
projet réalisé au travers des travaux suivants :<br />
- SERAPHIN (partenariat EDF) 1995<br />
- SAFIR (partenariat EDF) 1996<br />
- CONTEXTO 2002<br />
- EXCOM (partenariat France Telecom) 2005<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 12
Le résumé automatique<br />
Principe de fonctionnement<br />
On cherche à repérer les segments textuels les plus<br />
pertinents à partir de la présence de marqueurs<br />
linguistiques de surfaces.<br />
Ces marqueurs linguistiques de surfaces font<br />
apparaître une fonction discursive associée au<br />
segment textuel.<br />
Il faut établir une carte des catégories discursives<br />
les plus pertinentes pour le résumé automatique.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 13
Le résumé automatique<br />
Quelques catégories discursives :<br />
Annonce<br />
thématique<br />
Présentation<br />
Thématique<br />
Description<br />
Thématique<br />
Proposition /<br />
Hypothèse<br />
Objectif<br />
Résumé<br />
automatique<br />
Remarque<br />
conclusive<br />
Appréciation<br />
Navigation<br />
conceptuelle<br />
Conclusion<br />
Récapitulation<br />
Soulignement<br />
Opinion<br />
Conséquence<br />
Reformulation<br />
Rappel<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 14
Le résumé automatique<br />
Processus général<br />
2. Extraction des termes thématiques dans le titre (et les soustitres<br />
éventuellement).<br />
3. Annotation automatique du document à l’aide de règles<br />
d’exploration contextuelle.<br />
4. Stratégie de résumé : Extraction des segments annotés les<br />
plus pertinents en fonction de :<br />
a) leur valeur discursive<br />
b) leur position<br />
c) la présence de termes thématiques<br />
4. Nettoyage du résumé pour améliorer la lisibilité.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 15
Le résumé automatique<br />
Notre approche est indépendante des<br />
domaines.<br />
Les catégories discursives choisies sont<br />
présentes dans tous les types d’article :<br />
linguistique, psychologie, biologie...<br />
Les marqueurs tendent à avoir un usage fixe,<br />
indépendant du style qu’adopte l’auteur.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 16
Le résumé automatique<br />
Approche multilingue du RA<br />
Les catégories discursives pertinentes pour le<br />
résumé et le processus résumant tendent à être<br />
indépendants des langues.<br />
Seules les ressources linguistiques varient : les<br />
marqueurs linguistiques et les règles d’exploration<br />
contextuelle.<br />
La phase de nettoyage peut être différente dans<br />
certains types de traitement suivant les langues.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 17
Le résumé automatique<br />
Exemple de repérage d’une présentation thématique en<br />
français :<br />
« Je vais montrer à <strong>Paris</strong> mes nouvelles histoires. »<br />
⇒ Aucun indice pour dire que c’est une présentation<br />
thématique.<br />
« Je vais montrer dans cet article une démonstration du<br />
théorème de Fermat. »<br />
⇒ Deux indices lèvent l’indétermination, c’est une<br />
présentation thématique.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 18
Résumé de textes informatifs<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 19
Le résumé automatique<br />
Exemple de repérage d’une présentation thématique<br />
en anglais :<br />
« This paper's goal is to propose a working<br />
defnition of both concepts. »<br />
⇒ Deux indices lèvent l’indétermination, c’est une<br />
présentation thématique.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 20
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 21
Le résumé automatique<br />
Exemple de repérage d’une présentation thématique en<br />
Bulgare (d'après les travaux de Yana Anatasova) :<br />
“В тази глава са изложени също и основните принципи<br />
на моделиране на съставните съюзи с да от гледна точка<br />
на техните конституенти и на непосредствения<br />
контекст.”<br />
« Dans ce chapitre sont également présentés les principes de<br />
base de la modélisation des conjonctions complexes avec да<br />
du point de vue de leurs constituants et du contexte<br />
immédiat. »<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 22
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 23
Le résumé automatique<br />
Exemple de repérage d’une présentation thématique en<br />
chinois (d'après les travaux de Mimi Zhang) :<br />
“ 我 在 这 里 介 绍 (indicateur),...... ”<br />
( 我 : je ; 介 绍 : présenter; 在 : se trouver; 这 里 :ici )<br />
« Je présente ici… »<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 24
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 25
Le résumé automatique<br />
Etude de cas sur un texte<br />
On choisit ici la préface de Maurice Gross des<br />
Notes de cours de syntaxe de Zellig Harris (Editions<br />
du Seuil 1976).<br />
Le texte comporte 89 phrases et on souhaite<br />
résumer celui-ci à 15%.<br />
Le texte est traduit en différentes langues : Français,<br />
coréen, bulgare et chinois.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 26
Le résumé automatique<br />
Résultat (pour le français)<br />
On a construit automatiquement un résumé<br />
composé de :<br />
- 3 présentations thématiques<br />
- 1 description thématique<br />
- 6 appréciations (soulignements et opinions)<br />
- 2 récapitulations<br />
- 2 conséquences<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 27
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 28
Le résumé automatique<br />
Conclusion<br />
On a présenté une méthode par extraction qui extrait les<br />
segments textuels les pertinents.<br />
La pertinence des segments est évaluée en fonction de<br />
l’appartenance du segment à une catégorie discursive<br />
pertinente.<br />
Les catégories discursives pertinentes et le processus<br />
résumant sont indépendants des domaines.<br />
L’annotation automatique du texte permet en plus de<br />
présenter à l’utilisateur que certaines catégories de phrases<br />
qu’il souhaite voir : les opinions ou les conclusions, par<br />
exemple.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 29
Merci de votre attention !<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 30
La Bibliosémantique<br />
« The number of references a paper has is measured by the number of<br />
items in its bibliography as endnotes and footnotes, etc., while the<br />
number of citations a paper has is found by looking it up on some sort<br />
of citation index and seeing how many other papers mention it.»<br />
Derek J. de Solla Price, Little Science, Big Science...and Beyond<br />
« In a nutshell, citations symbolize the conceptual association of<br />
scientific ideas as recognized by publishing research authors. By the<br />
references they cite in their papers, authors make explicit linkages<br />
between their current research and prior work in the archive of<br />
scientific literature.»<br />
Eugene Garfield, The Concept of Citation Indexing:<br />
A Unique and Innovative Tool for Navigating the Research Literature<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 31
La Bibliosémantique<br />
Les citations créent une interconnectivité qui permet d'identifier<br />
des travaux de référence.<br />
Derek de Solla Price (voir référence) et Eugène Garfield postulent<br />
que les articles très fréquemment cités constituent le coeur de la<br />
littérature scientifique.<br />
Le tissu dense de citations autour de ce noyau atteste de<br />
l'utilisation des travaux qui le constitute et révèle leur excellence.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 32
La Bibliosémantique<br />
Price 1950 propose la définition suivante :<br />
Article = Quantum d’information scientifique<br />
Le produit final du travail d’un scientifique est l’article qu’il<br />
publie.<br />
Il exprime la possibilité d’utiliser le nombre d’article comme une<br />
indication quantitative de l’activité de la Recherche<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 33
La Bibliosémantique<br />
« On étudie le comportement d'un gaz à différentes conditions de<br />
température et de pression. On ne s'intéresse pas à une molécule<br />
appelée Georges, se déplaçant à une vitesse spécifique et située en un<br />
endroit spécifique à un instant donné; on considère seulement la<br />
moyenne de l'ensemble total des molécules où certaines sont plus<br />
rapides que d'autres, où elles sont situées au hasard et se déplaçant en<br />
différentes directions »<br />
Price, Little Science, Big Science, 1963 p.IV-V<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 34
La Bibliosémantique<br />
Les indicateurs bibliométriques les plus usuels sont :<br />
Production scientifique en terme de nombre de publication<br />
Impact de la recherche en terme de nombre de citations<br />
Investissement en ressources humaines et financières<br />
Coopération<br />
Distribution géographique<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 35
La Bibliosémantique<br />
Les limitations du facteur d'impact.<br />
Le maximum se situe après deux ans pour les « lettres », de deux à<br />
trois ans pour les articles originaux, et cinq à six ans pour les<br />
revues de synthèse .<br />
De plus, il y a un faibles taux de citations durant les deux<br />
premières années en biologie « classique » comme la physiologie,<br />
zoologie, botanique ou encore l'écologie car les articles se<br />
démodent moins rapidement.<br />
Travaux de M. Amin et M. Mabe sur le taux de citation<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 36
La Bibliosémantique<br />
Les limitations du facteur d'impact.<br />
Aussi le FI est plus légitime pour évaluer la performance d’un<br />
pays, puisque les distorsions montrées ci-dessus sont alors<br />
plus diluées et biaisent moins le résultat.<br />
Cependant, le facteur d’impact s’est progressivement imposé<br />
comme un indicateur-clé de l’évaluation scientifique,<br />
grâce à l’antériorité de la base de données de l’ISI et à<br />
l’absence d’autres critères quantitatifs ou qualitatifs.<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 37
La Bibliosémantique<br />
Price a été le premier à le reconnaître : « On ne peut pas tabler<br />
sur la rigueur, la cohérence et la conscience absolue de tous les<br />
auteurs dans la notation de leurs sources ».<br />
Ce qui signifie qu'il faut tenir compte « des méfaits de certains<br />
auteurs citant de préférence leurs propres articles, ceux de leurs<br />
amis ou ceux de savants puissants ou importants conférant un<br />
statut à leur travail »<br />
« la pratique consistant à écrire d'abord l'article, puis à ajouter<br />
pour la décoration le quota orthodoxe d'une douzaine de<br />
références, ne fausse pas sensiblement en moyenne le souci<br />
consciencieux de rendre justice aux articles sur lesquels s'est<br />
appuyé le travail ».<br />
Aux sources de la scientométrie Palanco<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 38
La Bibliosémantique<br />
« En même temps, le gros de la recherche entreprise dans ce domaine<br />
est composé d'expériences qui exposent les apprenants à un nombre<br />
limité d'occurrences des items lexicaux cibles et qui utilisent le terme<br />
"mot" comme le font les profanes ([ChunPlass96a] ; [DeRidder02] ;<br />
[HulstijnHollander96]).»<br />
« Bien que certaines études récentes la remettent en cause<br />
([Chodkiewicz01] ; [LauferNation01]), l'idée que la lecture est une<br />
source importante d'acquisition de vocabulaire en L1, comme en L2,<br />
continue à être largement répandue dans le milieu scientifique (voir<br />
les discussions chez [Bogaards01] ; [Krashen89] ; [Watanabe97]).»<br />
Les effets des hyperliens visibles ou invisibles sur l'acquisition lexicale et sur la compréhension<br />
en lecture chez des apprenants intermédiaires et avancés en langue étrangère<br />
Ofelia R. NIKOLOVA<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 39
La Bibliosémantique<br />
« Leurs conclusions mettent en évidence l'importance d'une variété<br />
dans les formes de présentation des gloses de manière à répondre à la<br />
diversité des préférences des apprenants ([LauferHill00] ; [Lomicka98]<br />
; [LymanHagerDavis96] ; [PlassChunMayer98]).»<br />
« Certains chercheurs [Nagata99] suggèrent l'utilisation de gloses<br />
électroniques interactives pour améliorer l'acquisition de vocabulaire<br />
en L2.»<br />
« Certains chercheurs [MondriaWitdeBoer91] croient que les<br />
apprenants qui infèrent correctement la signification des mots<br />
n'apportent pas suffisamment d'attention au lien entre forme et sens en<br />
phase d'apprentissage.»<br />
Les effets des hyperliens visibles ou invisibles sur l'acquisition lexicale et sur la compréhension<br />
en lecture chez des apprenants intermédiaires et avancés en langue étrangère<br />
Ofelia R. NIKOLOVA<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 40
La Bibliosémantique<br />
Définition<br />
Comparaison<br />
Similitude<br />
Hypothèse<br />
Autrui<br />
Dissimilitude<br />
Analyse<br />
Quotation<br />
Information<br />
Méthode<br />
Résultat<br />
Soi-même<br />
Point de vue<br />
Prise de position<br />
Citation<br />
Accord<br />
Contre-exemple<br />
Appréciation<br />
Désaccord<br />
Descles et Krushkov 2005<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 41
La Bibliosémantique<br />
Définition<br />
Comparaison<br />
Similitude<br />
Hypothèse<br />
Autrui<br />
Dissimilitude<br />
Analyse<br />
Quotation<br />
Information<br />
Méthode<br />
Résultat<br />
Soi-même<br />
Point de vue<br />
Prise de position<br />
Citation<br />
Accord<br />
Contre-exemple<br />
Appréciation<br />
Désaccord<br />
Descles et Krushkov 2005<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 42
La Bibliosémantique<br />
En-tête<br />
Article segmenté (par Segatex)<br />
...[AUT06]...<br />
Programme perl<br />
d'extraction<br />
des données<br />
Auteur<br />
Date de publication<br />
Segment textuel annoté<br />
sémantiquement et<br />
automatiquement par EXCOM<br />
Extraction et identification des renvois<br />
bibliographiques par un automate<br />
Renvois Bibliographiques<br />
Bibliographie<br />
Auteurs<br />
Dates de publication<br />
Programme perl d'extraction de la bibliographie<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 43
La Bibliosémantique<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 44
La Bibliosémantique<br />
Si l'indicateur est présent<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 45
La Bibliosémantique<br />
Si les indices linguistiques sont présents<br />
et bien localisés (droit|gauche)<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 46
La Bibliosémantique<br />
Alors l'action est d'annoter sémantiquement<br />
le segment textuel<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 47
La Bibliosémantique<br />
Définition<br />
Comparaison<br />
Similitude<br />
Hypothèse<br />
Autrui<br />
Dissimilitude<br />
Analyse<br />
Quotation<br />
Information<br />
Méthode<br />
Résultat<br />
Soi-même<br />
Point de vue<br />
Prise de position<br />
Citation<br />
Accord<br />
Contre-exemple<br />
Appréciation<br />
Désaccord<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 48
La Bibliosémantique<br />
Indicateurs<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 49
La Bibliosémantique<br />
Segment textuel<br />
Indicateurs<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 50
La Bibliosémantique<br />
Segment textuel<br />
Indices linguistiques<br />
Indicateurs<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 51
La Bibliosémantique<br />
Auteur<br />
Date de publication<br />
Auteur<br />
Segment textuel annoté<br />
sémantiquement et<br />
automatiquement par EXCOM<br />
Extraction et identification des renvois<br />
bibliographiques par un automate<br />
Xml<br />
Résultat<br />
Définition<br />
Méthode<br />
Renvois Bibliographiques<br />
Auteurs<br />
Dates de publication<br />
Programme perl d'extraction<br />
de la bibliographie<br />
Biblio<br />
Analyse Prise de position<br />
Désaccord<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 52
La Bibliosémantique<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 53
La Bibliosémantique<br />
Les indicateurs bibliométriques peuvent être enrichis par des<br />
indicateurs linguistiques offrant ainsi de nouvelles possibilités.<br />
Bibliométrie<br />
Grands nombres de documents<br />
Approche Statistique<br />
Document secondaire<br />
Quantitatif<br />
Nation – pays<br />
Indexation par mots-clés<br />
Bibliosémantique<br />
Un document suffit<br />
Approche Linguistique<br />
Document primaire<br />
Qualitatif<br />
Individu – Laboratoire<br />
Indexation par segment textuel<br />
<strong>Paris</strong>-<strong>Sorbonne</strong> Octobre 2006 54