19.01.2013 Views

Télécharger l'intégralité du fascicule en PDF - Université de Caen ...

Télécharger l'intégralité du fascicule en PDF - Université de Caen ...

Télécharger l'intégralité du fascicule en PDF - Université de Caen ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Schedae<br />

Prépublications <strong>de</strong> l’<strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie<br />

Colloque International<br />

Discours et Docum<strong>en</strong>t<br />

Fascicule n° 1 2006<br />

International Symposium<br />

Discourse and Docum<strong>en</strong>t<br />

Presses<br />

universitaires<br />

<strong>de</strong> Ca<strong>en</strong><br />

I


Schedae, 2006<br />

Présid<strong>en</strong>ts <strong>du</strong> colloque<br />

M.-P. PÉRY-WOODLEY, U. Toulouse 2 ;<br />

P. ENJALBERT, U. Ca<strong>en</strong> ;<br />

M. GAIO, U. Pau et Pays <strong>de</strong> l’Adour.<br />

Comité <strong>de</strong> programme<br />

J. BATEMAN, U. Brem<strong>en</strong>, Allemagne ; D. BATTISTELLI, U. Paris 4, France ; Y. BESTGEN, U. C. Lou-<br />

vain, Belgique ; B. BOGURAEV, IBM T.J. Watson Research C<strong>en</strong>ter, USA ; A. BORILLO, U. Tou-<br />

louse 2, France ; N. BOUAYAD-AGHA, U. Pompeu Fabra, Barcelona, Espagne ; F. CERBAH,<br />

Dassault Aviation, France ; M. CHAROLLES, U. Paris 3, France ; D. CRISTEA, U. Iasi, Romania ;<br />

L. DEGAND, U. C. Louvain, Belgique ; D. DUTOIT, Sté Memodata, France ; P. ENJALBERT, U. Ca<strong>en</strong>,<br />

France ; S. FERRARI, U. Ca<strong>en</strong>, France ; O. FERRET, CEA, France ; M. GAIO, U. Pau, France ;<br />

B. GRAU, U. Paris-Sud, France ; N. HERNANDEZ, U. Ca<strong>en</strong>, France ; G. LAPALME, U. Montréal,<br />

Québec, Canada ; A. LE DRAOULEC, U. Toulouse 2, France ; A. LEHMAM, Sté Pertin<strong>en</strong>ce<br />

Mining.com, France ; D. LEGALLOIS, U. Ca<strong>en</strong>, France ; N. LUCAS, U. Ca<strong>en</strong> et CNRS, France ;<br />

F. MAUREL, U. Ca<strong>en</strong>, France ; A. MAX, U. Paris-Sud, France ; J.-L. MINEL, U. Paris 4, France ;<br />

M. MOJAHID, U. Toulouse 3, France ; M.-P. PÉRY WOODLEY, U. Toulouse 2, France ; H. SAGGION,<br />

U. Sheffield, Angleterre ; I. SALEH, U. Paris 8, France ; S. SALMON, Alt ATILF-CNRS, France ;<br />

L. SARDA, CNRS, LATTICE, France ; D. SCOTT, Op<strong>en</strong> University, Angleterre.<br />

Comité d’organisation<br />

S. FERRARI, Coordinateur ; F. BILHAUT ; N. HERNANDEZ ; A. WIDLÖCHER.<br />

GREYC – Groupe <strong>de</strong> Recherche <strong>en</strong> Informatique,<br />

Image, Automatique et Instrum<strong>en</strong>tation <strong>de</strong> Ca<strong>en</strong><br />

Statut : Unité mixte <strong>de</strong> recherche université, CNRS et ENSICAEN – UMR 6072<br />

Directeur : Régis CARIN<br />

Fascicule n° 1<br />

Colloque International : Discours et Docum<strong>en</strong>t<br />

International Symposium: Discourse and Docum<strong>en</strong>t<br />

Responsable : Patrice ENJALBERT<br />

L’objectif <strong>du</strong> colloque Discours et Docum<strong>en</strong>t est <strong>de</strong> rassembler <strong>de</strong>s chercheurs intéressés<br />

par ce qu'on peut appeler le « niveau docum<strong>en</strong>t » <strong>en</strong> linguistique <strong>du</strong> discours, <strong>en</strong><br />

TAL ou <strong>en</strong> ingénierie docum<strong>en</strong>taire. Ce <strong>fascicule</strong> regroupe les communications prés<strong>en</strong>tées<br />

au colloque.<br />

Directeur-adjoint : Éti<strong>en</strong>ne GRANDJEAN<br />

Axes <strong>de</strong> recherches: algorithmique, sécurité, information, langage, interface homme-machine,<br />

image, automatique, instrum<strong>en</strong>tation, capteurs, électronique<br />

III


Schedae,<br />

2006<br />

Sommaire<br />

Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .<br />

Session 1 : Organisation discursive : étu<strong>de</strong>s <strong>de</strong> corpus et modélisation<br />

Marie-Paule JACQUES<br />

& Josette REBEYROLLE<br />

:<br />

Titres et structuration <strong>de</strong>s docum<strong>en</strong>ts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

Farida AOULADOMAR,<br />

Leila AMGOUD,<br />

Patrick SAINT-DIZIER<br />

:<br />

On Argum<strong>en</strong>tation in Proce<strong>du</strong>ral Texts.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

Sophie PIÉRARD<br />

& Yves BESTGEN<br />

:<br />

Adverbiaux temporels et expressions référ<strong>en</strong>tielles<br />

comme marqueurs <strong>de</strong> segm<strong>en</strong>tation : emploi simultané ou exclusif ? . . . . . 23<br />

Sandrine STEIN-ZINTZ<br />

:<br />

De l’altérité spatiale à l’organisation textuelle :<br />

la locution d’une part… d’autre part . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

Susanne HEMPEL<br />

& Liesbeth DEGAND<br />

:<br />

The use of sequ<strong>en</strong>cers in aca<strong>de</strong>mic writing:<br />

a comparative study of Fr<strong>en</strong>ch and English . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

Session 2 : Discours, docum<strong>en</strong>t, et TAL<br />

Frédérik BILHAUT<br />

:<br />

Intro<strong>du</strong>cteurs intra-prédicatifs d’univers <strong>de</strong> discours<br />

et leur détection automatique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

Marion LAIGNELET<br />

:<br />

Les titres et les intro<strong>du</strong>cteurs <strong>de</strong> cadres comme indices pour le repérage<br />

<strong>de</strong> segm<strong>en</strong>ts d’information évolutive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

Dominique LEGALLOIS<br />

& Stéphane FERRARI<br />

:<br />

Vers une grammaire <strong>de</strong> l’évaluation <strong>de</strong>s objets culturels . . . . . . . . . . . . . . . 57<br />

Nadia ZERIDA,<br />

Nadine LUCAS,<br />

Bruno CRÉMILLEUX<br />

:<br />

Combinaison <strong>de</strong> <strong>de</strong>scripteurs linguistiques<br />

et <strong>de</strong> structure pour la fouille d’articles biomédicaux . . . . . . . . . . . . . . . . . . 69<br />

Amanda BOUFFIER<br />

:<br />

Segm<strong>en</strong>tation <strong>de</strong> textes procé<strong>du</strong>raux pour l’ai<strong>de</strong> à la modélisation<br />

<strong>de</strong> connaissances : le rôle <strong>de</strong> la structure visuelle . . . . . . . . . . . . . . . . . . . . . 79<br />

Christophe PIMM<br />

:<br />

Quelle plus-value linguistique pour la segm<strong>en</strong>tation automatique <strong>de</strong> texte ? 85<br />

Session 3: Nouveaux types <strong>de</strong> docum<strong>en</strong>ts,<br />

nouveaux mo<strong>de</strong>s d’accès à l’information textuelle<br />

Clara MANCINI<br />

& Donia SCOTT<br />

:<br />

Hyper-Docum<strong>en</strong>t Structure: Maintaining Discourse Coher<strong>en</strong>ce<br />

in Non-Linear Docum<strong>en</strong>ts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />

Javier COUTO<br />

Fascicule n° 1<br />

& Jean-Luc MINEL<br />

:<br />

SEXTANT, un langage <strong>de</strong> modélisation <strong>de</strong>s connaissances<br />

pour la navigation textuelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

Birgitta BEXTEN<br />

:<br />

Hypertext and Plurilinearity: Chall<strong>en</strong>ging an Old-fashioned Discourse Mo<strong>de</strong>l 117<br />

VII<br />

V


VI<br />

Thomas KRECZANIK<br />

:<br />

Modélisation <strong>de</strong> parcours dans <strong>de</strong>s hypertextes pédagogiques :<br />

typage <strong>de</strong>s ressources et <strong>de</strong>s li<strong>en</strong>s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

Olivier LE<br />

DEUFF<br />

:<br />

Des bons mots au bon docum<strong>en</strong>t.<br />

Comm<strong>en</strong>t é<strong>du</strong>quer à l’usage <strong>de</strong>s mots-clés efficaces<br />

pour accé<strong>de</strong>r à la pertin<strong>en</strong>ce docum<strong>en</strong>taire . . . . . . . . . . . . . . . . . . . . . . . . . 129<br />

Session 4 : Systèmes <strong>de</strong> TAL, démonstrations<br />

Ab<strong>de</strong>rrafih LEHMAM<br />

:<br />

Solutions <strong>de</strong> traitem<strong>en</strong>t <strong>du</strong> docum<strong>en</strong>t textuel<br />

avec prise <strong>en</strong> charge <strong>de</strong> ressources linguistiques . . . . . . . . . . . . . . . . . . . . . 135<br />

Frédérik BILHAUT<br />

& Antoine WIDLÖCHER<br />

:<br />

Analyse <strong>de</strong> structures discursives avec la plate-forme LinguaStream . . . . . . 141<br />

Ágnes SÁNDOR,<br />

Aaron KAPLAN,<br />

Gilbert RONDEAU<br />

:<br />

Discourse and citation analysis with concept-matching . . . . . . . . . . . . . . . . 147<br />

Confér<strong>en</strong>ce invitée<br />

Simone TEUFEL<br />

:<br />

Discourse structure in sci<strong>en</strong>tific articles: argum<strong>en</strong>tation and citation (à v<strong>en</strong>ir) . . 153


Schedae,<br />

2006<br />

Fascicule n° 1<br />

Preface<br />

ISDD 2006: aims and scope<br />

In connection with the <strong>de</strong>velopm<strong>en</strong>t of digital docum<strong>en</strong>ts, discourse linguistics, docum<strong>en</strong>t<br />

<strong>en</strong>gineering and NLP are increasingly converging: applying corpus analysis methods to<br />

discourse calls for greater use of NLP techniques while new mo<strong>de</strong>s of access to the cont<strong>en</strong>ts<br />

of docum<strong>en</strong>ts place more emphasis on exploiting discourse structure. This converg<strong>en</strong>ce is<br />

manifest in a number of joint studies, and results in cross fertilisation of the disciplines. This is<br />

the analysis which led us, in the call for papers for Discourse and Docum<strong>en</strong>t 2006, to explicitly<br />

reach out towards researchers concerned with “the docum<strong>en</strong>t level” in discourse linguistics,<br />

computational linguistics, and docum<strong>en</strong>t-<strong>en</strong>gineering.<br />

We pres<strong>en</strong>t in this volume tw<strong>en</strong>ty contributions by authors who must have recognised<br />

themselves in this way of setting out the issues. The aim of the symposium is to build on the<br />

converg<strong>en</strong>ce of questions and objectives which clearly emerge from these contributions.<br />

Beyond their specific sci<strong>en</strong>tific interest, the chall<strong>en</strong>ge is to arrive at a usable <strong>de</strong>finition of an<br />

emerg<strong>en</strong>t research field, with implications both in discourse linguistic and docum<strong>en</strong>t <strong>en</strong>gineering<br />

areas.<br />

The first two sessions can be <strong>de</strong>scribed as pres<strong>en</strong>ting differ<strong>en</strong>t takes on docum<strong>en</strong>t organisation.<br />

Each paper t<strong>en</strong>ds to focus on a particular view of what may be semantically important<br />

in discourse processing. One such view is that docum<strong>en</strong>ts are organised in topics (in the<br />

s<strong>en</strong>se of “what is being talked about”), and can be segm<strong>en</strong>ted in terms of this organisation<br />

(whether via automatic proce<strong>du</strong>res to id<strong>en</strong>tify breaks in lexical cohesion or via analyses of<br />

refer<strong>en</strong>ce chains). Other approaches stress argum<strong>en</strong>tative structure, and id<strong>en</strong>tify segm<strong>en</strong>ts<br />

that fulfil particular argum<strong>en</strong>tative or rhetorical functions. In both these views, the organisation<br />

is assumed to be largely implicit: various techniques are brought to bear to id<strong>en</strong>tify the<br />

shifts betwe<strong>en</strong> continuity and discontinuity, to tease out discourse function on the basis of<br />

surface markers. Another take is to consi<strong>de</strong>r explicit clues to docum<strong>en</strong>t organisation, such<br />

as metadiscursive expressions, or elem<strong>en</strong>ts of the so-called “logical structure”.<br />

These questions are consi<strong>de</strong>red in a largely <strong>de</strong>scriptive manner in the first session, while<br />

the second focuses on the <strong>de</strong>sign of NLP proce<strong>du</strong>res to id<strong>en</strong>tify such structures in text. In<strong>de</strong>ed<br />

a major field in NLP is the <strong>de</strong>velopm<strong>en</strong>t of systems concerned with facilitating access to the<br />

information stored in docum<strong>en</strong>ts, and there is a growing awar<strong>en</strong>ess of the need to take better<br />

account of the organisation of the docum<strong>en</strong>ts being processed. Another facet of this evolution<br />

is that researchers into discourse organisation gra<strong>du</strong>ally move towards more empirical<br />

methods and require computational instrum<strong>en</strong>ts to analyse large volumes of data. The third<br />

session provi<strong>de</strong>s a very concrete illustration of these tr<strong>en</strong>ds, through the pres<strong>en</strong>tation and<br />

<strong>de</strong>monstration of NLP systems, originating in both aca<strong>de</strong>mic and in<strong>du</strong>strial contexts.<br />

VII


VIII<br />

Finally, new docum<strong>en</strong>t types - hyper-docum<strong>en</strong>ts - raise radically new questions about discourse<br />

organisation and the interaction betwe<strong>en</strong> semiotic functions. What makes such docum<strong>en</strong>ts<br />

cohere (or not)? How are they read and un<strong>de</strong>rstood? How can this reading process<br />

be ma<strong>de</strong> easier, more effici<strong>en</strong>t? But further, what new insight into the organisation of “ordinary”<br />

text can be gained through the comparison with these new non linear textual forms?<br />

Some of these questions apply equally at the level of docum<strong>en</strong>t bases - now wi<strong>de</strong>ly accessible<br />

thanks to internet and other electronic <strong>de</strong>vices -, which can be se<strong>en</strong> as “macro-texts”<br />

through which the user has to wan<strong>de</strong>r as s/he scours for relevant information. And the notion<br />

of navigation is also at stake in the case of “classical” texts, with new NLP techniques going<br />

into the <strong>de</strong>sign of much nee<strong>de</strong>d tools to assist the rea<strong>de</strong>r in non-linear text browsing. From<br />

linear docum<strong>en</strong>t to hyper-docum<strong>en</strong>t to docum<strong>en</strong>t bases, and back to non-linear mo<strong>de</strong>s of<br />

access to “classical” docum<strong>en</strong>ts, we've gone full circle… These are some of the stimulating<br />

questions which are addressed in the final session.<br />

Tak<strong>en</strong> as a whole, the tw<strong>en</strong>ty papers pres<strong>en</strong>ted at ISDD'06 provi<strong>de</strong> a rich and accurate<br />

view of a number of complem<strong>en</strong>tary aspects of discourse structure in relation with the functional<br />

notion of docum<strong>en</strong>t. A promising area of research is outlined, an area which, as it ext<strong>en</strong>ds<br />

across discipline boundaries, requires a sci<strong>en</strong>tific community to gra<strong>du</strong>ally form, with a common<br />

language and common refer<strong>en</strong>ces. The organisers of ISDD 2006 hope this symposium<br />

is a step in the right direction.<br />

We thank the authors for their interest in taking part in this project, and the Programme<br />

Committee members for their precious contribution with formulating the scope of the symposium<br />

and refereeing the papers. We also thank our sponsors: the GREYC laboratory, the University<br />

of Ca<strong>en</strong>, the CNRS, the City of Ca<strong>en</strong> and the Council of the Region of Basse-Normandie.<br />

And finally the Organisation Committee whose work allowed ISDD'06 to become reality.<br />

ISDD'06 Chair<br />

Patrice Enjalbert Mauro Gaio Marie-Paule Pery-Woodley


session 1<br />

Organisation discursive :<br />

étu<strong>de</strong>s <strong>de</strong> corpus et modélisation


Schedae, 2006<br />

Prépublication n° 1 Fascicule n° 1<br />

Titres et structuration <strong>de</strong>s docum<strong>en</strong>ts<br />

Marie-Paule Jacques & Josette Rebeyrolle<br />

ERSS (UMR5610)/Maison <strong>de</strong> la Recherche<br />

<strong>Université</strong> Toulouse-Le Mirail – 5, allées A. Machado – 31058 Toulouse Ce<strong>de</strong>x 9<br />

mpjacques@univ-tlse2.fr, rebeyrol@univ-tlse2.fr<br />

Résumé :<br />

La structuration d’un docum<strong>en</strong>t peut être assurée, <strong>en</strong>tre autres moy<strong>en</strong>s, par un découpage <strong>en</strong><br />

sections et sous-sections, généralem<strong>en</strong>t dotées d’un titre. Nous nous focalisons sur ces titres et<br />

sur la façon dont, <strong>en</strong> plus d’assurer la segm<strong>en</strong>tation et l’organisation visuelle <strong>du</strong> texte, ils contribu<strong>en</strong>t<br />

à la construction <strong>de</strong> son cont<strong>en</strong>u sémantique. Nos travaux antérieurs nous ayant permis <strong>de</strong><br />

dégager <strong>de</strong>ux grands types d’implication <strong>de</strong>s titres dans cette construction, la question ess<strong>en</strong>tielle<br />

est ici <strong>de</strong> mettre au jour les corrélats formels qui permett<strong>en</strong>t <strong>de</strong> distinguer ces <strong>de</strong>ux types<br />

d’implication et <strong>de</strong> montrer que selon le registre <strong>de</strong> textes l’implication <strong>de</strong>s titres est différ<strong>en</strong>te.<br />

Mots-clés : titres, docum<strong>en</strong>t, linguistique <strong>du</strong> discours, structuration <strong>du</strong> texte, analyse <strong>de</strong><br />

corpus.<br />

Abstract :<br />

Textual organization of a docum<strong>en</strong>t inclu<strong>de</strong>s material characteristics such as sections which usually<br />

have a heading. We are particularly interested in headings and especially in how headings<br />

contribute to the construction of the meaning of a text. In previous work a functional approach of<br />

headings was pres<strong>en</strong>ted in <strong>de</strong>tail. In the pres<strong>en</strong>t paper, our study is meant to id<strong>en</strong>tify in corpora<br />

linguistic correlates of the two types of heading implication in discourse : refer<strong>en</strong>tial/thematic. The<br />

final corpus analysis shows how the headings are distributed in the texts of the corpus.<br />

Keywords : headings, docum<strong>en</strong>t, discourse linguistics, text structure, corpus analysis.<br />

Sommairem<strong>en</strong>t<br />

Sans <strong>en</strong>trer dans la délicate question <strong>de</strong> définir rigoureusem<strong>en</strong>t ce qu’est un docum<strong>en</strong>t<br />

1 , nous considérerons qu’un docum<strong>en</strong>t écrit est un texte i. qui forme un tout (même<br />

si l’on peut y repérer une certaine intertextualité et/ou <strong>de</strong>s référ<strong>en</strong>ces et r<strong>en</strong>vois à d’autres<br />

docum<strong>en</strong>ts), ii. qui prés<strong>en</strong>te une organisation interne, notamm<strong>en</strong>t dans le cas <strong>de</strong> ce que<br />

1. Voir la réflexion <strong>de</strong> Roger T. Pédauque (2003), Docum<strong>en</strong>t : forme, signe et médium, les re-formulations <strong>du</strong><br />

numérique, disponible sur http://archivesic.ccsd.cnrs.fr/sic_00000413.html page consultée le 13-05-06.<br />

Marie-Paule Jacques & Josette Rebeyrolle<br />

« Titres et structuration <strong>de</strong>s docum<strong>en</strong>ts »<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

1


2<br />

l’on peut appeler <strong>de</strong>s docum<strong>en</strong>ts longs tels que rapports, thèses, articles sci<strong>en</strong>tifiques,<br />

ouvrages, etc.<br />

Nous proposons ici une analyse <strong>de</strong>scriptive <strong>de</strong> ce que nous p<strong>en</strong>sons être <strong>de</strong>s constituants<br />

ess<strong>en</strong>tiels <strong>de</strong> cette structuration : les titres <strong>de</strong> section. La suite explique moins sommairem<strong>en</strong>t<br />

la problématique.<br />

Le docum<strong>en</strong>t : un tout structuré<br />

Aux <strong>de</strong>ux caractéristiques formelles <strong>du</strong> docum<strong>en</strong>t postulées ci-<strong>de</strong>ssus correspond<strong>en</strong>t<br />

<strong>de</strong>ux propriétés sémantiques : un docum<strong>en</strong>t prés<strong>en</strong>te un niveau <strong>de</strong> cont<strong>en</strong>u sémantique<br />

et, simultaném<strong>en</strong>t, un niveau abstrait <strong>de</strong> structuration <strong>de</strong> ce cont<strong>en</strong>u. Nous voulons dire<br />

par là que le docum<strong>en</strong>t ne délivre pas son cont<strong>en</strong>u sémantique « <strong>en</strong> vrac », mais comme<br />

cont<strong>en</strong>u organisé, structuré, hiérarchisé. C’est <strong>de</strong> cet <strong>en</strong>semble que le lecteur construit un<br />

discours, c’est-à-dire un modèle m<strong>en</strong>tal <strong>de</strong> ce qui est <strong>en</strong> train <strong>de</strong> s’énoncer, au fur et à<br />

mesure qu’il lit le docum<strong>en</strong>t.<br />

Divers mo<strong>de</strong>s <strong>de</strong> structuration discursive font l’objet <strong>de</strong> recherches, notamm<strong>en</strong>t les<br />

moy<strong>en</strong>s <strong>de</strong> cohésion lexicale, qui construis<strong>en</strong>t <strong>de</strong>s chaînes référ<strong>en</strong>tielles (Cornish 2003) ou<br />

les expressions intro<strong>du</strong>ctrices <strong>de</strong> cadres <strong>de</strong> discours, qui construis<strong>en</strong>t <strong>de</strong>s univers <strong>de</strong> discours<br />

particuliers, les cadres : « plusieurs propositions apparaissant dans le fil d’un texte<br />

<strong>en</strong>treti<strong>en</strong>n<strong>en</strong>t un même rapport avec un certain critère et sont, <strong>de</strong> ce fait, regroupables à<br />

l’intérieur d’unités que nous appellerons <strong>de</strong>s cadres. » (Charolles 1997). À côté <strong>de</strong> ceux-là,<br />

d’autres moy<strong>en</strong>s <strong>de</strong> structuration discursive sont <strong>en</strong>core assez peu étudiés comme tels,<br />

hormis par le même M. Charolles (2002). Il s’agit <strong>de</strong> la segm<strong>en</strong>tation matérielle <strong>du</strong> texte<br />

écrit <strong>en</strong> paragraphes, sections et sous-sections, ces <strong>de</strong>rnières étant généralem<strong>en</strong>t dotées<br />

d’un titre.<br />

Ce découpage fournit au lecteur une structuration visuelle <strong>du</strong> texte qui, avant même<br />

d’<strong>en</strong>trer dans son cont<strong>en</strong>u, lui permet <strong>de</strong> comm<strong>en</strong>cer à construire la structuration discursive :<br />

le lecteur perçoit <strong>de</strong>s blocs, <strong>de</strong>s <strong>en</strong>châssem<strong>en</strong>ts, qu’il peut utiliser comme autant <strong>de</strong> « cases<br />

<strong>de</strong> l’esprit » 2 dans lesquelles classer les élém<strong>en</strong>ts <strong>du</strong> discours <strong>en</strong> train <strong>de</strong> se construire. Et<br />

si les segm<strong>en</strong>ts perceptibles visuellem<strong>en</strong>t sont titrés, alors les différ<strong>en</strong>ts blocs ne constitu<strong>en</strong>t<br />

plus d’anonymes étagères ou tiroirs pour ordonner le propos, classer et ranger les élém<strong>en</strong>ts<br />

<strong>du</strong> discours, ils tir<strong>en</strong>t aussi <strong>de</strong> leur titre d’autres élém<strong>en</strong>ts pour la structuration, qui sont précisém<strong>en</strong>t<br />

l’objet <strong>de</strong> notre étu<strong>de</strong>.<br />

Nous avons fait remarquer que ces moy<strong>en</strong>s visuels d’organisation <strong>du</strong> texte n’ont guère<br />

été étudiés <strong>en</strong> tant que moy<strong>en</strong>s <strong>de</strong> structuration discursive, ce qui ne veut pas dire qu’ils n’ont<br />

pas été étudiés <strong>du</strong> tout. Au contraire, le Modèle d’Architecture Textuelle (Luc & Virbel 2001)<br />

est un cadre théorique qui r<strong>en</strong>d compte <strong>du</strong> fait que, tout texte écrit étant inscrit sur un support,<br />

il possè<strong>de</strong> <strong>de</strong>s caractéristiques matérielles qui peuv<strong>en</strong>t jouer un rôle au plan textuel<br />

(plus récemm<strong>en</strong>t, voir aussi le travail <strong>de</strong> Power, Scott & Bouyad-Agah 2003). Par exemple,<br />

on peut réaliser une énumération <strong>de</strong> diverses manières, <strong>en</strong> utilisant <strong>de</strong>s marqueurs lexicaux<br />

<strong>du</strong> type le premier, le <strong>de</strong>uxième, le troisième, ou bi<strong>en</strong> <strong>en</strong> utilisant exclusivem<strong>en</strong>t <strong>de</strong>s moy<strong>en</strong>s<br />

visuels : disposition dans l’espace <strong>du</strong> support, ind<strong>en</strong>tation, puces ou numéros… La figure<br />

ci-<strong>de</strong>ssous représ<strong>en</strong>te ces <strong>de</strong>ux types d’énumération.<br />

2. Précisons que cette expression ne véhicule aucune hypothèse sur notre conception <strong>de</strong> l’esprit. Nous la<br />

repr<strong>en</strong>ons d’une communication d’Anne Le Draoulec, qui elle-même l’emprunte à Heinrich Weil (1844), De<br />

l’ordre <strong>de</strong>s mots dans les langues anci<strong>en</strong>nes comparées aux langues mo<strong>de</strong>rnes. Question <strong>de</strong> grammaire<br />

générale. Paris, Didier Érudition, réédition 1991.<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).


XXX__________________________________________________________________. Premièrem<strong>en</strong>t,<br />

_________________________________________. Deuxièmem<strong>en</strong>t,_______________________________<br />

_____________________________________________________________________. Troisièmem<strong>en</strong>t, _____<br />

________________________________________________________________________.<br />

XXX___________________________________________________.<br />

1. ___________________________________________________________<br />

2. ___________________________________________________________<br />

3. ___________________________________________________________<br />

En pr<strong>en</strong>ant cette matérialité au sérieux, autrem<strong>en</strong>t dit <strong>en</strong> <strong>en</strong> faisant une composante à<br />

part <strong>en</strong>tière <strong>du</strong> texte, le Modèle d’Architecture Textuelle définit <strong>de</strong>s objets textuels qui se<br />

caractéris<strong>en</strong>t par un contraste <strong>de</strong> mise <strong>en</strong> forme matérielle avec le reste <strong>du</strong> texte et par une<br />

fonction au sein <strong>du</strong> texte. Sans développer outre mesure, parmi les objets textuels id<strong>en</strong>tifiés<br />

dans le cadre <strong>de</strong> ce modèle, citons dans le désordre les énumérations, les paragraphes,<br />

les titres.<br />

Dans cet <strong>en</strong>semble plus vaste que ces quelques exemples, nous nous focalisons sur<br />

les titres <strong>de</strong> section car ils prés<strong>en</strong>t<strong>en</strong>t la particularité d’être un objet à <strong>de</strong>ux faces.<br />

Les titres <strong>de</strong> section, objet à <strong>de</strong>ux faces<br />

L’une <strong>de</strong> leurs faces est constituée <strong>de</strong> cette propriété matérielle d’être un objet contrastant<br />

avec le reste <strong>du</strong> texte et opérant ainsi une segm<strong>en</strong>tation, une délimitation <strong>en</strong> sections,<br />

sous-sections, sous-sous-sections, etc. Notons que les séparations ainsi marquées ne<br />

sont pas <strong>de</strong> simples bornes <strong>de</strong> segm<strong>en</strong>ts <strong>de</strong> textes car les titres sont hiérarchisés – une hiérarchie<br />

elle aussi marquée par <strong>de</strong>s moy<strong>en</strong>s typo-dispositionnels – et cette hiérarchisation se<br />

répercute sur les sections titrées. De ce fait, nous l’avons déjà souligné, le texte peut être<br />

appréh<strong>en</strong>dé non comme une suite linéaire <strong>de</strong> blocs <strong>de</strong> natures diverses, mais comme une<br />

structure faite d’élém<strong>en</strong>ts <strong>de</strong> plus haut niveau <strong>en</strong>globant d’autres élém<strong>en</strong>ts, hiérarchie qui<br />

n’est assurém<strong>en</strong>t pas neutre.<br />

Les titres prés<strong>en</strong>t<strong>en</strong>t aussi une secon<strong>de</strong> face, non plus matérielle mais sémantique, liée<br />

au fait que les titres sont composés d’unités lexicales et syntaxiques, porteuses elles-mêmes<br />

d’une signification. Ce qui implique que les titres particip<strong>en</strong>t doublem<strong>en</strong>t à la construction<br />

<strong>de</strong> la sémantique <strong>du</strong> docum<strong>en</strong>t, non seulem<strong>en</strong>t ils segm<strong>en</strong>t<strong>en</strong>t et hiérarchis<strong>en</strong>t, mais leur<br />

propre cont<strong>en</strong>u sémantique interagit avec le cont<strong>en</strong>u sémantique <strong>du</strong> reste <strong>du</strong> texte. En un<br />

certain s<strong>en</strong>s, les titres sont à la fois dans et hors <strong>du</strong> texte. Dans parce que nous allons montrer<br />

maint<strong>en</strong>ant qu’ils sont partie pr<strong>en</strong>ante <strong>du</strong> cont<strong>en</strong>u <strong>du</strong> texte, qu’ils rempliss<strong>en</strong>t certaines<br />

fonctions discursives ; hors parce qu’ils ont ce statut particulier <strong>de</strong> se distinguer <strong>du</strong> corps<br />

<strong>de</strong> texte, <strong>de</strong> jouer ce rôle d’organisateur textuel visuel.<br />

Nous exposons maint<strong>en</strong>ant les modalités pratiques <strong>de</strong> notre étu<strong>de</strong> : quels textes, quelle<br />

méthodologie ; puis nous indiquerons les résultats actuels <strong>de</strong> notre analyse. Dans la <strong>de</strong>rnière<br />

partie, nous abordons un autre aspect <strong>de</strong> notre problématique : la relation <strong>en</strong>tre formefonction<br />

<strong>de</strong>s titres et registre <strong>de</strong> textes.<br />

Méthodologie, corpus et tout ça…<br />

Figure 1 : Énumérations discursive et visuelle.<br />

Pour compr<strong>en</strong>dre quel est le rôle <strong>de</strong>s titres sur le plan <strong>de</strong> la structuration discursive <strong>de</strong><br />

docum<strong>en</strong>ts textuels, il est ess<strong>en</strong>tiel <strong>de</strong> disposer <strong>de</strong> docum<strong>en</strong>ts textuels dans lesquels il y a<br />

<strong>de</strong>s titres et d’indicateurs <strong>de</strong> la fonction discursive <strong>de</strong>s titres. Le premier point qui pourrait<br />

paraître une bouta<strong>de</strong> n’<strong>en</strong> est qu’à moitié une et nous sert à souligner que nous avons résolum<strong>en</strong>t<br />

inscrit notre étu<strong>de</strong> dans le cadre d’une analyse <strong>de</strong> corpus, c’est-à-dire que nous avons<br />

réuni un <strong>en</strong>semble <strong>de</strong> textes auth<strong>en</strong>tiques, comportant <strong>de</strong>s titres <strong>de</strong> sections, nous allons<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

3


4<br />

y rev<strong>en</strong>ir. Le second point n’est pas plus trivial : analyser les fonctions discursives <strong>de</strong>s titres,<br />

soit, mais avec quels instrum<strong>en</strong>ts d’analyse ? À quoi s’apprécie le rôle joué par un titre au<br />

niveau discursif ? Les <strong>de</strong>ux choses sont liées dans la mesure où le type <strong>de</strong> support <strong>de</strong> l’analyse<br />

détermine <strong>en</strong> partie le type d’indicateurs.<br />

Nous avons réuni trois <strong>en</strong>sembles <strong>de</strong> textes <strong>de</strong> prov<strong>en</strong>ances diverses : articles sci<strong>en</strong>tifiques<br />

<strong>de</strong>s domaines <strong>de</strong> l’ingénierie <strong>de</strong>s connaissances et <strong>de</strong> la géopolitique ; écrits élaborés<br />

dans un cadre professionnel <strong>de</strong> gestion <strong>de</strong>s déplacem<strong>en</strong>ts : comptes r<strong>en</strong><strong>du</strong>s, rapports,<br />

projets, <strong>de</strong>scription <strong>de</strong> tâches… Ce corpus a été constitué <strong>de</strong> telle manière que chaque<br />

<strong>en</strong>semble prés<strong>en</strong>te un nombre équival<strong>en</strong>t <strong>de</strong> titres <strong>de</strong> section, pas tout à fait 350 pour chaque,<br />

avec un total <strong>de</strong> 1 041 titres.<br />

Si nous avions suivi une façon <strong>de</strong> faire bi<strong>en</strong> établie dans les étu<strong>de</strong>s sur le discours, nous<br />

aurions travaillé à l’id<strong>en</strong>tification <strong>de</strong>s fonctions <strong>de</strong>s titres à partir d’un petit nombre d’exemples,<br />

auth<strong>en</strong>tiques ou fabriqués pour nos besoins, dont nous aurions proposé un classem<strong>en</strong>t<br />

<strong>de</strong> nature à illustrer <strong>de</strong>s fonctions discursives. Le nombre considéré ici se prête à une autre<br />

démarche : non un classem<strong>en</strong>t global <strong>de</strong> chaque titre selon l’interprétation que l’on peut <strong>en</strong><br />

donner, mais une saisie plus analytique <strong>de</strong> traits formels. Cette démarche répond à diverses<br />

exig<strong>en</strong>ces :<br />

1 plus on s’appuie sur <strong>de</strong>s traits formels, moins on fait <strong>en</strong>trer <strong>en</strong> jeu la subjectivité<br />

et donc la dép<strong>en</strong>dance d’un jugem<strong>en</strong>t à l’égard d’un analyste ;<br />

2 on peut saisir ainsi plus facilem<strong>en</strong>t les variations qui ne concern<strong>en</strong>t qu’un ou<br />

<strong>de</strong>ux <strong>de</strong>s traits pris <strong>en</strong> considération, ce qui n’est guère facile lorsque le classem<strong>en</strong>t<br />

repose sur un jugem<strong>en</strong>t global ;<br />

3 on obti<strong>en</strong>t une quantification <strong>de</strong> chaque trait, à partir <strong>de</strong> laquelle on peut procé<strong>de</strong>r<br />

à <strong>de</strong>s traitem<strong>en</strong>ts statistiques qui permett<strong>en</strong>t <strong>de</strong> mesurer les phénomènes<br />

<strong>de</strong> corrélation, <strong>de</strong> co-variation ou d’indép<strong>en</strong>dance ;<br />

4 les fonctions décrites le sont non <strong>en</strong> terme d’interprétation, mais <strong>en</strong> terme <strong>de</strong><br />

corrélats linguistiques <strong>de</strong> nature formelle ;<br />

5 il est possible <strong>de</strong> faire émerger diverses configurations <strong>de</strong> traits statistiquem<strong>en</strong>t<br />

vali<strong>de</strong>s et <strong>de</strong> les mettre <strong>en</strong> rapport avec le g<strong>en</strong>re <strong>de</strong> textes, comme on le verra<br />

dans la <strong>de</strong>rnière partie <strong>de</strong> l’article.<br />

La clé <strong>de</strong> voûte <strong>de</strong> la démarche rési<strong>de</strong> alors dans le choix <strong>de</strong>s traits formels à pr<strong>en</strong>dre<br />

<strong>en</strong> considération. Comme notre analyse vise les fonctions discursives <strong>de</strong>s titres et la façon<br />

dont ils contribu<strong>en</strong>t à l’organisation <strong>du</strong> discours et à la construction <strong>de</strong> la sémantique <strong>du</strong> texte,<br />

les traits choisis concern<strong>en</strong>t d’une part <strong>de</strong>s élém<strong>en</strong>ts factuels liés au titre indép<strong>en</strong>damm<strong>en</strong>t<br />

<strong>de</strong> son co-texte, tels que la forme et le niveau <strong>du</strong> titre (par exemple, SN, SV, SP, niveau 1,<br />

2, 3 ou 4), d’autre part <strong>de</strong>s élém<strong>en</strong>ts co-textuels que nous supposons aptes à saisir la façon<br />

dont le titre s’intègre au texte, tels que le fait que le titre ait été préalablem<strong>en</strong>t intro<strong>du</strong>it<br />

dans le discours et/ou qu’il fasse l’objet d’une reprise anaphorique.<br />

S’agissant <strong>de</strong>s premiers, outre la catégorie grammaticale (SN, SV, SP, phrase), nous<br />

avons noté si le titre prés<strong>en</strong>te une partition interne telle qu’une coordination, par exemple :<br />

Nature <strong>de</strong>s savoirs et type <strong>de</strong> connaissance<br />

ou une ponctuation, par exemple :<br />

1. Deux gran<strong>de</strong>s approches : l’ouverture ou la substitution aux importations.<br />

Ceci nous permet <strong>de</strong> distinguer ce que nous avons appelé les titres bipartites <strong>de</strong>s titres<br />

qui sont formés d’un bloc syntaxique unique comme La question agricole ou P<strong>en</strong>ser la guerre<br />

totale.<br />

Pour ce qui est <strong>de</strong>s seconds, notre <strong>de</strong>scription la plus aboutie à ce jour porte sur les<br />

reprises. Lorsque le titre fait l’objet d’une anaphore, on note :<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).


– la forme <strong>de</strong> la reprise :<br />

• strictem<strong>en</strong>t id<strong>en</strong>tique ;<br />

• la totalité <strong>du</strong> lexique <strong>du</strong> titre mais pas nécessairem<strong>en</strong>t à l’id<strong>en</strong>tique ;<br />

• une partie seulem<strong>en</strong>t <strong>du</strong> titre ;<br />

• un pronom ;<br />

• une phrase prés<strong>en</strong>tative ou autre (il s’agit…).<br />

– l’« éparpillem<strong>en</strong>t <strong>de</strong> la reprise » : reprise unique ou reprises à <strong>de</strong>s <strong>en</strong>droits épars ;<br />

– une év<strong>en</strong>tuelle conversion, par ex. comparaison repris par le verbe comparer ;<br />

– la localisation <strong>de</strong> la reprise :<br />

•1 ère phrase <strong>de</strong> la section ;<br />

• ailleurs dans le paragraphe.<br />

– la position sujet ou non <strong>de</strong> la reprise ;<br />

– la prés<strong>en</strong>ce d’un autre titre et une év<strong>en</strong>tuelle reprise dans cet autre titre.<br />

L’annotation <strong>de</strong> ces modalités <strong>de</strong> reprise nous permet <strong>de</strong> construire un modèle théorique<br />

<strong>de</strong>s fonctions <strong>de</strong>s titres. Nous exposons maint<strong>en</strong>ant ce modèle tel qu’il s’est élaboré<br />

au fur et à mesure <strong>de</strong> l’analyse <strong>de</strong>s titres, et dans la section suivante, nous montrerons comm<strong>en</strong>t<br />

l’analyse statistique corrobore <strong>en</strong> partie ce modèle.<br />

Modèle <strong>de</strong>s fonctions discursives <strong>de</strong>s titres<br />

Pour classer les titres, nous nous appuyons sur leur type d’implication dans l’organisation<br />

<strong>du</strong> cont<strong>en</strong>u textuel (cf. Ho-Dac, Jacques & Rebeyrolle 2004 (classification inspirée <strong>de</strong><br />

Halliday 1985)). Et nous distinguons <strong>de</strong>ux grands types d’implication : une implication référ<strong>en</strong>tielle,<br />

c’est-à-dire une contribution <strong>du</strong> titre à la gestion <strong>de</strong>s référ<strong>en</strong>ts <strong>du</strong> discours, et une<br />

implication thématique, c’est-à-dire une délimitation <strong>du</strong> thème général dans lequel s’inscrit<br />

ce dont on va parler : un domaine d’activité, un domaine <strong>de</strong> connaissances, un point <strong>de</strong> vue,<br />

une situation spatio-temporelle, etc., spécifiques. Ces <strong>de</strong>ux pôles r<strong>en</strong>voi<strong>en</strong>t à <strong>de</strong>s processus<br />

interprétatifs différ<strong>en</strong>ts : il s’agit dans le premier cas, d’attirer l’att<strong>en</strong>tion <strong>du</strong> lecteur sur un ou<br />

<strong>de</strong>s référ<strong>en</strong>ts <strong>du</strong> discours particulier(s), dans le second, <strong>de</strong> canaliser certaines <strong>de</strong> ses connaissances<br />

d’arrière-plan.<br />

De l’implication référ<strong>en</strong>tielle…<br />

Les titres à implication référ<strong>en</strong>tielle constitu<strong>en</strong>t un maillon d’une chaîne <strong>de</strong> référ<strong>en</strong>ce<br />

dont les élém<strong>en</strong>ts s’égrèn<strong>en</strong>t au fil <strong>du</strong> texte, parfois avant, toujours après le titre. Celui-ci<br />

assure généralem<strong>en</strong>t la mise <strong>en</strong> saillance <strong>de</strong> ce référ<strong>en</strong>t. Trois types se dégag<strong>en</strong>t :<br />

1. Titres préparatoires<br />

Le référ<strong>en</strong>t exprimé dans le titre fait l’objet d’une intro<strong>du</strong>ction, <strong>en</strong> position saillante, dans<br />

la première (ou év<strong>en</strong>tuellem<strong>en</strong>t la secon<strong>de</strong>) phrase <strong>du</strong> paragraphe. Ce n’est qu’après cette<br />

intro<strong>du</strong>ction, liée souv<strong>en</strong>t à une explicitation ou une justification <strong>de</strong> ce que le référ<strong>en</strong>t a à<br />

voir avec le propos global, que ce référ<strong>en</strong>t <strong>de</strong>vi<strong>en</strong>t le topic <strong>de</strong>s phrases qui suiv<strong>en</strong>t.<br />

5.3. La réutilisation<br />

L’une <strong>de</strong>s techniques proposées pour faciliter le processus <strong>de</strong> modélisation, <strong>en</strong> ingénierie <strong>de</strong>s<br />

besoins comme <strong>en</strong> ingénierie <strong>de</strong>s connaissances, est la réutilisation <strong>de</strong> modèles. Elle <strong>de</strong>vi<strong>en</strong>t un<br />

objectif prépondérant. Il s’agit <strong>de</strong> réutiliser <strong>de</strong>s modèles (ou <strong>de</strong>s parties <strong>de</strong> modèles) conçus<br />

sous une forme générique, précé<strong>de</strong>mm<strong>en</strong>t développés et stockés dans <strong>de</strong>s bibliothèques spécialisées.<br />

2. Titres focalisateurs<br />

Le titre remet au premier plan <strong>de</strong> l’att<strong>en</strong>tion un référ<strong>en</strong>t déjà prés<strong>en</strong>t dans le discours,<br />

qui peut év<strong>en</strong>tuellem<strong>en</strong>t avoir été intro<strong>du</strong>it plusieurs sections ou paragraphes auparavant.<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

5


6<br />

Mais le Kremlin compte à la fois sur le jugem<strong>en</strong>t <strong>de</strong>s dirigeants <strong>de</strong> ces pays et sur la vigilance<br />

<strong>de</strong> leurs autres voisins, principalem<strong>en</strong>t la Chine et l’Iran. L’av<strong>en</strong>ir déci<strong>de</strong>ra <strong>de</strong> la pertin<strong>en</strong>ce <strong>de</strong><br />

ces calculs. [<strong>de</strong>ux paragraphes]<br />

La Chine<br />

Quoique <strong>de</strong> façon moins spectaculaire que la Russie, la République populaire <strong>de</strong> Chine (RPC)<br />

n’a pas, elle non plus, hésité à se joindre à la Sainte-Alliance. […]<br />

Mais la Chine avait <strong>de</strong>ux raisons principales d’affirmer sa solidarité avec les États-Unis au l<strong>en</strong><strong>de</strong>main<br />

<strong>du</strong> 11 septembre. D’une part, elle doit faire face à ses propres problèmes <strong>de</strong> minorité […]<br />

3. Titres installateurs<br />

À la différ<strong>en</strong>ce <strong>du</strong> type précéd<strong>en</strong>t, le référ<strong>en</strong>t n’a pas déjà été intro<strong>du</strong>it dans le discours,<br />

il ne fait pas non plus l’objet d’une intro<strong>du</strong>ction <strong>en</strong> début <strong>de</strong> section titrée, c’est le titre seul<br />

qui installe le référ<strong>en</strong>t dans le discours.<br />

3.3. L’ontologie computationnelle<br />

L’ontologie computationnelle est spécifiée dans le langage DefOnto (Barry et al. [2001]). Elle<br />

est obt<strong>en</strong>ue <strong>en</strong> codant les propositions semi-informelles <strong>en</strong> propositions formelles (voir fig. 4).<br />

… à l’implication thématique<br />

Au pôle opposé, les titres à implication thématique ouvr<strong>en</strong>t un espace thématique qui<br />

est <strong>en</strong>suite déployé dans la section. D’une certaine manière, ces titres cond<strong>en</strong>s<strong>en</strong>t le cont<strong>en</strong>u<br />

<strong>de</strong> la section titrée pour délimiter, canaliser les connaissances et infér<strong>en</strong>ces qui <strong>de</strong>vront<br />

être mobilisées par le lecteur pour une interprétation <strong>de</strong> ce qui suit.<br />

4.2. Adhésion et observance<br />

À l’issue <strong>de</strong>s expérim<strong>en</strong>tations, 70 <strong>en</strong>registrem<strong>en</strong>ts <strong>de</strong> décision ont été exploitables, correspondant<br />

à un total <strong>de</strong> 236 recommandations […]. En ce qui concerne l’adhésion, elle a été<br />

meilleure […]. Quant à l’observance, les résultats obt<strong>en</strong>us…<br />

Chacun <strong>de</strong>s élém<strong>en</strong>ts <strong>du</strong> titre est repris dans un intro<strong>du</strong>cteur <strong>de</strong> cadre (Charolles 1997)<br />

qui ponctue la section titrée et permet d’<strong>en</strong> ordonner le cont<strong>en</strong>u.<br />

Le titre thématique permet aussi <strong>de</strong> ré<strong>du</strong>ire l’univers <strong>de</strong> discours à un domaine <strong>de</strong><br />

connaissance, un point <strong>de</strong> vue, une situation spatio-temporelle :<br />

4.1 Spécificités <strong>du</strong> contexte pédagogique<br />

4.1.1. Du point <strong>de</strong> vue <strong>du</strong> domaine<br />

[…]<br />

4.1.2. Du point <strong>de</strong> vue <strong>de</strong> l’organisation <strong>de</strong> l’activité<br />

[…]<br />

4.1.3. D’un point <strong>de</strong> vue technique<br />

Premièrem<strong>en</strong>t, l’interface a été conçue pour inciter les étudiants à utiliser certains outils […]<br />

Deuxièmem<strong>en</strong>t, l’articulation <strong>de</strong>s outils synchrones et asynchrones ne fait pas l’objet d’un dispositif<br />

technique, mais <strong>de</strong> l’interv<strong>en</strong>tion d’un <strong>de</strong>s étudiants, rôle attribué par émerg<strong>en</strong>ce.<br />

Enfin, la circulation <strong>de</strong>s données <strong>en</strong>tre les étapes ne fait pas l’objet d’un dispositif technique ;<br />

elle est gérée par le tuteur, afin que celui-ci soit partie intégrante <strong>de</strong> l’activité.<br />

Dans ce second exemple, le titre définit littéralem<strong>en</strong>t un point <strong>de</strong> vue à partir <strong>du</strong>quel les<br />

spécificités <strong>du</strong> contexte pédagogique sont abordées. Hormis l’adjectif technique qui réapparaît<br />

<strong>de</strong>ux fois, réaffirmation <strong>de</strong> ce point <strong>de</strong> vue, ce titre ne donne pas lieu à une anaphore.<br />

La bipolarité que nous v<strong>en</strong>ons d’exposer s’est faite jour lors <strong>de</strong> l’analyse manuelle <strong>de</strong>s<br />

titres, au fur et à mesure <strong>de</strong> leur annotation. Elle se fon<strong>de</strong> sur <strong>de</strong>s corrélats formels qui permett<strong>en</strong>t<br />

<strong>de</strong> fixer <strong>de</strong>s prototypes (au s<strong>en</strong>s d’exemplaires typiques) <strong>de</strong> chaque extrémité.<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).


Corrélats formels<br />

La mise au jour <strong>de</strong> corrélats <strong>de</strong> l’implication <strong>de</strong>s titres dans le discours servira <strong>de</strong> base à<br />

la construction <strong>de</strong> variables permettant la vérification sur corpus <strong>de</strong>s hypothèses théoriques.<br />

Pour caractériser formellem<strong>en</strong>t les titres, rappelons que nous disposons <strong>de</strong> <strong>de</strong>ux grands<br />

types <strong>de</strong> traits : <strong>de</strong>s traits liés à la forme <strong>du</strong> titre, <strong>de</strong>s traits liés à ses modalités <strong>de</strong> reprise.<br />

Du côté <strong>de</strong> l’implication référ<strong>en</strong>tielle se positionn<strong>en</strong>t <strong>de</strong>s titres :<br />

– formés d’un bloc unique ;<br />

– <strong>de</strong> type SN ;<br />

– donnant lieu à une reprise :<br />

• consistant <strong>en</strong> une répétition strictem<strong>en</strong>t id<strong>en</strong>tique <strong>du</strong> titre ou <strong>en</strong> une<br />

anaphore pronominale, dans tous les cas une reprise unique ;<br />

• immédiate ;<br />

• <strong>en</strong> position sujet.<br />

Par exemple :<br />

3. Notre métho<strong>de</strong><br />

Notre métho<strong>de</strong> offre un cadre (fig. 1) au sein <strong>du</strong>quel les choix méthodologiques et techniques<br />

proposés rest<strong>en</strong>t ouverts.<br />

2.2.3 SYNTHÈSE DES BOUCHONS<br />

Elle fera l’objet d’une fiche, m<strong>en</strong>tionnant la situation, au mom<strong>en</strong>t <strong>de</strong> la transmission, sur la zone<br />

d’action <strong>du</strong> CETE <strong>du</strong> Sud-Ouest.<br />

Du côté <strong>de</strong> l’implication thématique se positionn<strong>en</strong>t <strong>de</strong>s titres :<br />

– <strong>de</strong> type SP, SV, SN bipartites ou phrases ;<br />

– donnant lieu à une reprise :<br />

• d’une partie ou <strong>de</strong> l’<strong>en</strong>semble <strong>de</strong>s élém<strong>en</strong>ts lexicaux <strong>du</strong> titre, mais<br />

éparpillée dans le texte (reprise multiple) ;<br />

• distante (pas la première phrase <strong>de</strong> la section) ;<br />

• <strong>en</strong> position autre que sujet.<br />

Par exemple :<br />

3.2. Analyse par scénarios et recueil<br />

Concevoir l’ontologie, c’est d’abord id<strong>en</strong>tifier les notions <strong>du</strong> mon<strong>de</strong> que l’on veut représ<strong>en</strong>ter.<br />

Ces notions étant accessibles au travers <strong>du</strong> langage, il s’agit <strong>de</strong> recueillir et d’analyser <strong>de</strong>s corpus<br />

langagiers <strong>en</strong> étant guidé par <strong>de</strong>s scénarios d’utilisation. Les corpus que nous avons<br />

recueillis et analysés sont : […]<br />

Soulignons qu’<strong>en</strong>tre ces <strong>de</strong>ux pôles qui représ<strong>en</strong>t<strong>en</strong>t <strong>de</strong>ux types d’implication tranchés,<br />

la majorité <strong>de</strong>s titres ne prés<strong>en</strong>te qu’une partie <strong>de</strong> ces caractères formels et se range plutôt<br />

sur une position intermédiaire <strong>en</strong>tre implication référ<strong>en</strong>tielle et implication thématique.<br />

Nous éprouvons maint<strong>en</strong>ant la validité <strong>de</strong> ce modèle bipolaire par <strong>de</strong>s moy<strong>en</strong>s statistiques.<br />

Validation statistique <strong>du</strong> modèle<br />

Le modèle fonctionnel <strong>de</strong>s titres <strong>de</strong> section tel que nous l’avons prés<strong>en</strong>té est donc un<br />

modèle qui articule divers traits linguistiques formels. Ainsi conçu le modèle présuppose<br />

qu’une fonction donnée n’est pas liée à une variable unique, mais qu’elle dép<strong>en</strong>d <strong>de</strong><br />

l’influ<strong>en</strong>ce conjointe <strong>de</strong> divers facteurs. Dès lors que l’on <strong>en</strong>visage <strong>de</strong> mesurer statistiquem<strong>en</strong>t<br />

une telle influ<strong>en</strong>ce, c’est une approche multifactorielle qui s’impose. Il s’agit <strong>en</strong> effet<br />

d’une analyse qui permet <strong>de</strong> t<strong>en</strong>ir compte non <strong>du</strong> rôle <strong>de</strong>s variables indép<strong>en</strong>damm<strong>en</strong>t les<br />

unes <strong>de</strong>s autres mais <strong>de</strong> leur influ<strong>en</strong>ce conjointe. Ce type d’analyse statistique permet <strong>de</strong><br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

7


8<br />

confirmer les oppositions posées théoriquem<strong>en</strong>t comme pertin<strong>en</strong>tes <strong>en</strong> validant statistiquem<strong>en</strong>t<br />

ou non la pertin<strong>en</strong>ce <strong>de</strong>s traits linguistiques considérés comme déterminants<br />

pour classer les titres et d’interpréter ces classem<strong>en</strong>ts <strong>en</strong> termes <strong>de</strong> fonctions discursives.<br />

Plus précisém<strong>en</strong>t, l’analyse statistique sera utilisée ici pour regrouper les titres qui partag<strong>en</strong>t<br />

un <strong>en</strong>semble <strong>de</strong> traits communs et pour les opposer à ceux qui partag<strong>en</strong>t d’autres<br />

traits. On pourrait, par exemple, obt<strong>en</strong>ir les regroupem<strong>en</strong>ts suivants : les titres qui ont la<br />

forme d’un SN pourrai<strong>en</strong>t être rassemblés d’un côté, alors que les titres qui ont la forme<br />

d’un SP, d’un SV ou d’un SN bipartite ou <strong>en</strong>core d’une phrase se trouverai<strong>en</strong>t quant à eux<br />

réunis <strong>de</strong> leur côté. Ce type <strong>de</strong> résultat serait un premier pas vers la validation <strong>de</strong> notre<br />

modèle. Mais voyons maint<strong>en</strong>ant les résultats que nous avons obt<strong>en</strong>us…<br />

Deux dim<strong>en</strong>sions<br />

Au terme <strong>de</strong> l’analyse factorielle <strong>de</strong>s correspondances multiples, nous ret<strong>en</strong>ons <strong>de</strong>ux<br />

axes factoriels (que nous appelons dim<strong>en</strong>sions <strong>en</strong> utilisant la terminologie <strong>de</strong> D. Biber) qui<br />

expliqu<strong>en</strong>t 30.5 % (<strong>de</strong> l’inertie totale), soit respectivem<strong>en</strong>t 19.89 %, pour le premier axe et<br />

10.61 %, pour le second.<br />

Dans les tableaux ci-<strong>de</strong>ssous (<strong>de</strong> même que dans les figures qui suiv<strong>en</strong>t), nous faisons<br />

apparaître uniquem<strong>en</strong>t les traits linguistiques qui contribu<strong>en</strong>t le plus fortem<strong>en</strong>t à la définition<br />

<strong>de</strong>s <strong>de</strong>ux dim<strong>en</strong>sions. Pour chaque trait, nous fournissons les coordonnées <strong>de</strong>s variables<br />

- chaque variable est codée <strong>en</strong> oui/non : autrem<strong>en</strong>t dit si un titre a la forme d’un SN,<br />

on co<strong>de</strong>ra « oui », si ce n’est pas le cas la même variable sera codée « non ». Les coordonnées<br />

permett<strong>en</strong>t <strong>de</strong> positionner les modalités <strong>de</strong>s variables sur les axes - et nous indiquons<br />

leur contribution à la définition statistique <strong>de</strong> la dim<strong>en</strong>sion concernée. 3<br />

Dim<strong>en</strong>sion 1 : dim<strong>en</strong>sion formelle Coordonnées Contributions<br />

Côté positif <strong>de</strong> l’axe<br />

le titre a la forme d’un bloc syntaxique unique <strong>de</strong> type SN<br />

SN = non<br />

SN = oui<br />

Côté négatif <strong>de</strong> l’axe<br />

le titre a une forme bipartite (bipartite)<br />

coordination = non<br />

coordination = oui<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

ponctuation médiane = non<br />

ponctuation médiane = oui<br />

la reprise est multiple<br />

non<br />

oui<br />

1,54<br />

-0,53<br />

-0,17<br />

1,73<br />

-0,22<br />

1,90<br />

-0,35<br />

0,66<br />

Tableau 1 : Variables qui ont le plus <strong>de</strong> poids 3 sur la dim<strong>en</strong>sion 1.<br />

Dim<strong>en</strong>sion 2 : dim<strong>en</strong>sion cohésive<br />

Côté positif <strong>de</strong> l’axe<br />

Coordonnées Contributions<br />

la reprise se fait <strong>en</strong> position sujet<br />

11,6<br />

non -0,38<br />

oui 0,35<br />

Côté négatif <strong>de</strong> l’axe<br />

la reprise est lexicale<br />

non<br />

oui<br />

la reprise est id<strong>en</strong>tique<br />

non<br />

oui<br />

-0,30<br />

1,46<br />

0,39<br />

-1,02<br />

Tableau 2 : Variables qui ont le plus <strong>de</strong> poids sur la dim<strong>en</strong>sion 2.<br />

3. Il s’agit <strong>de</strong>s variables qui contribu<strong>en</strong>t le plus fortem<strong>en</strong>t à la définition statistique <strong>de</strong> l’axe.<br />

37,3<br />

13,4<br />

19,1<br />

10,6<br />

21<br />

14,1


On peut interpréter le premier axe comme une dim<strong>en</strong>sion formelle parce qu’il oppose<br />

les titres <strong>en</strong> fonction <strong>de</strong> la forme syntaxique qu’ils revêt<strong>en</strong>t. Les titres placés <strong>du</strong> côté positif<br />

<strong>de</strong> l’axe sont les titres qui ont une structure syntaxique qu’on peut analyser comme bipartite<br />

et ceux qui se trouv<strong>en</strong>t réunis <strong>du</strong> côté négatif sont les titres qui ont la forme d’un syntagme<br />

nominal.<br />

On peut interpréter le second axe comme une dim<strong>en</strong>sion cohésive parce qu’il oppose<br />

les titres <strong>en</strong> fonction <strong>de</strong> la forme sous laquelle s’opère la reprise. Les titres placés <strong>du</strong> côté<br />

positif <strong>de</strong> l’axe sont les titres qui sont repris par le biais d’une reprise lexicale et ceux qui se<br />

trouv<strong>en</strong>t <strong>du</strong> côté négatif <strong>de</strong> l’axe sont ceux qui voi<strong>en</strong>t leur reprise se faire à l’id<strong>en</strong>tique ou<br />

par le biais d’un pronom.<br />

Confirmation <strong>de</strong> l’opposition<br />

<strong>en</strong>tre titres référ<strong>en</strong>tiels et titres thématiques<br />

Rappelons que notre approche <strong>de</strong> la fonction <strong>de</strong>s titres est une approche classificatoire<br />

qui ordonne les titres sur un continuum allant <strong>du</strong> tout référ<strong>en</strong>tiel d’un côté, au tout thématique<br />

<strong>de</strong> l’autre. Plus précisém<strong>en</strong>t, il s’agit d’une catégorisation gra<strong>du</strong>elle qui oppose les<br />

titres maximalem<strong>en</strong>t référ<strong>en</strong>tiels aux titres maximalem<strong>en</strong>t thématiques. Évi<strong>de</strong>mm<strong>en</strong>t, la plupart<br />

<strong>de</strong>s titres ne se trouv<strong>en</strong>t pas au c<strong>en</strong>tre <strong>de</strong> ces <strong>de</strong>ux gran<strong>de</strong>s classes, mais ils se situ<strong>en</strong>t<br />

à la périphérie. En d’autres termes, tous les titres ne rempliss<strong>en</strong>t pas nécessairem<strong>en</strong>t tous<br />

les critères que nous avons définis comme pertin<strong>en</strong>ts. C’est cette hypothèse que nous permet<br />

<strong>de</strong> vérifier l’analyse multifactorielle. Afin <strong>de</strong> faciliter la lecture <strong>de</strong>s résultats obt<strong>en</strong>us, nous<br />

proposons ci-après une figure qui nous permet <strong>de</strong> visualiser l’opposition <strong>en</strong>tre <strong>de</strong>ux gran<strong>de</strong>s<br />

classes <strong>de</strong> titres que nous avons posées. Nous obt<strong>en</strong>ons cette figure <strong>en</strong> croisant nos <strong>de</strong>ux<br />

dim<strong>en</strong>sions. Ce croisem<strong>en</strong>t <strong>de</strong>ssine un plan factoriel sur lequel nous pouvons situer les variables<br />

qui ont les plus fortes contributions.<br />

Les cercles <strong>de</strong>ssinés sur la figure nous serv<strong>en</strong>t à signaler les rapprochem<strong>en</strong>ts statistiques<br />

qui s’opèr<strong>en</strong>t <strong>en</strong>tre <strong>de</strong>s sous-<strong>en</strong>sembles d’indices linguistiques que l’on a théoriquem<strong>en</strong>t<br />

considérés comme définitoires <strong>de</strong> l’implication <strong>de</strong>s titres.<br />

D’un côté, <strong>en</strong> bas et à gauche, se trouv<strong>en</strong>t réunis les titres qui se réalis<strong>en</strong>t syntaxiquem<strong>en</strong>t<br />

sous la forme d’un syntagme nominal (SN) et qui sont repris dans le texte qui suit sous<br />

une forme <strong>en</strong> tout point id<strong>en</strong>tique (reprise id<strong>en</strong>tique) et une seule fois dans la section titrée<br />

(reprise unique). Ces trois élém<strong>en</strong>ts sont caractéristiques <strong>de</strong>s titres dont l’implication dans<br />

le texte a été qualifiée <strong>de</strong> référ<strong>en</strong>tielle.<br />

De l’autre côté, <strong>en</strong> haut et à droite, se trouv<strong>en</strong>t réunis les titres qui partag<strong>en</strong>t les propriétés<br />

suivantes : ils se réalis<strong>en</strong>t syntaxiquem<strong>en</strong>t sous une forme bipartite, ils sont repris sous<br />

la forme <strong>de</strong> l’une <strong>de</strong>s unités lexicales qui les compos<strong>en</strong>t et cela dans diverses phrases <strong>de</strong><br />

la section titrée. Ces trois caractéristiques sont au nombre <strong>de</strong> celles que nous avons décrites<br />

comme définitoires <strong>de</strong>s titres dont l’implication notionnelle dans le texte est <strong>de</strong> type<br />

thématique.<br />

L’interprétation <strong>de</strong> l’analyse multifactorielle nous con<strong>du</strong>it à vali<strong>de</strong>r, au moins <strong>en</strong> partie,<br />

notre modèle théorique. Mais <strong>en</strong> partie seulem<strong>en</strong>t et cela pour <strong>de</strong>ux raisons. D’abord,<br />

parce que certains indices linguistiques n’ont pas participé statistiquem<strong>en</strong>t à la définition<br />

<strong>de</strong>s <strong>de</strong>ux dim<strong>en</strong>sions que nous avons prés<strong>en</strong>tées. Il s’agit <strong>de</strong>s <strong>de</strong>ux variables suivantes : la<br />

variable « localisation <strong>de</strong> la reprise » et la variable « le titre est un SV » (cf. § Méthodologie,<br />

corpus et tout ça…). Ensuite, parce que d’autres indices vont dans le s<strong>en</strong>s inverse <strong>de</strong> notre<br />

modèle. C’est le cas notamm<strong>en</strong>t <strong>de</strong> la variable « position sujet <strong>de</strong> la reprise ». En outre,<br />

contrairem<strong>en</strong>t à ce qu’affirme notre modèle, les reprises qui rempliss<strong>en</strong>t la fonction sujet<br />

n’<strong>en</strong>treti<strong>en</strong>n<strong>en</strong>t pas <strong>de</strong> li<strong>en</strong> statistique avec les autres indices linguistiques caractéristiques<br />

<strong>de</strong> l’implication référ<strong>en</strong>tielle.<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

9


10<br />

titres thématiques<br />

Bloc unique : SN<br />

Dim<strong>en</strong>sion 2 : cohésion<br />

reprise unique<br />

Figure 2 : Validation <strong>de</strong> l’hypothèse d’une opposition <strong>en</strong>tre <strong>de</strong>s titres référ<strong>en</strong>tiels et <strong>de</strong>s titres thématiques.<br />

S’agissant <strong>de</strong>s variables « localisation <strong>de</strong> la reprise » et « position sujet <strong>de</strong> la reprise »,<br />

on observe cep<strong>en</strong>dant une forte corrélation, comme le montre le tableau suivant (X 2 significatif<br />

à .000) :<br />

Première phrase Ailleurs<br />

nbre d’occ % nbre d’occ %<br />

Non sujet 246 45 77 65 323<br />

Sujet 306 55 41 35 347<br />

Total 552 100 % 118 100 %<br />

Tableau 3 : La fonction syntaxique <strong>de</strong> la reprise dép<strong>en</strong>d sa localisation.<br />

Lorsque la reprise s’opère dans la phrase qui suit immédiatem<strong>en</strong>t le titre, elle occupe<br />

la position syntaxique <strong>de</strong> sujet. En revanche, lorsque la reprise est localisée ailleurs dans la<br />

section, elle assumera préfér<strong>en</strong>tiellem<strong>en</strong>t d’autres fonctions syntaxiques. Ce résultat nous<br />

invite à construire une nouvelle variable combinant la fonction et la localisation afin <strong>de</strong> faire<br />

<strong>en</strong>trer dans l’analyse les <strong>de</strong>ux variables conjointes. Nous espérons alors mieux faire apparaître<br />

le li<strong>en</strong> <strong>en</strong>tre la fonction syntaxique <strong>de</strong> sujet et la fonction référ<strong>en</strong>tielle <strong>du</strong> titre.<br />

Titres référ<strong>en</strong>tiels ou thématiques :<br />

<strong>de</strong>s préfér<strong>en</strong>ces selon les g<strong>en</strong>res textuels<br />

Les résultats <strong>de</strong> l’analyse multifactorielle permett<strong>en</strong>t <strong>de</strong> montrer que les titres n’assum<strong>en</strong>t<br />

pas les mêmes fonctions discursives dans tous les textes. Pour s’<strong>en</strong> convaincre, il suffit<br />

d’observer la place qu’occup<strong>en</strong>t les sous-corpus sur les <strong>de</strong>ux dim<strong>en</strong>sions dégagées. Mais<br />

auparavant une précision s’impose. Pour bi<strong>en</strong> compr<strong>en</strong>dre ce qui est <strong>en</strong> jeu ici, il faut se<br />

souv<strong>en</strong>ir que les calculs statistiques ont été réalisés à partir d’informations qui décriv<strong>en</strong>t les<br />

titres eux-mêmes (forme, type <strong>de</strong> reprise, etc.). À ce sta<strong>de</strong>, <strong>en</strong> revanche, il s’agit uniquem<strong>en</strong>t<br />

<strong>de</strong> projeter les sous-corpus d’où sont extraits les titres analysés sur les axes qui ont été calculés.<br />

En d’autres termes, les sous-corpus ne particip<strong>en</strong>t pas à l’analyse statistique, il s’agit<br />

d’une information disponible (on connaît pour chaque titre le corpus d’où il est extrait) que<br />

l’on projette sur les axes pour voir si les titres tirés <strong>de</strong>s mêmes sous-corpus se rassembl<strong>en</strong>t<br />

sur l’espace à <strong>de</strong>ux dim<strong>en</strong>sions défini par l’analyse statistique précéd<strong>en</strong>te. Ce sont précisém<strong>en</strong>t<br />

ces regroupem<strong>en</strong>ts que l’on fait apparaître sur la figure 3 (il s’agit ici <strong>de</strong> représ<strong>en</strong>ter<br />

la place qu’occupe la variable supplém<strong>en</strong>taire « sous-corpus » dans le plan factoriel obt<strong>en</strong>u<br />

par le croisem<strong>en</strong>t <strong>de</strong>s <strong>de</strong>ux dim<strong>en</strong>sions). Pour interpréter cette figure, il faut observer successivem<strong>en</strong>t<br />

les <strong>de</strong>ux axes :<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

position sujet reprise lexicale<br />

reprise id<strong>en</strong>tique<br />

reprise partielle<br />

reprise multiple<br />

Titre bipartite<br />

Dim<strong>en</strong>sion 1 : formelle<br />

titres référ<strong>en</strong>tiels


– sur le premier axe (dim<strong>en</strong>sion 1), <strong>du</strong> côté positif, on observe que se trouv<strong>en</strong>t réunis les<br />

titres <strong>de</strong>s articles <strong>de</strong>s domaines géopolitique et ingénierie <strong>de</strong>s connaissances alors<br />

que les titres extraits <strong>de</strong>s textes professionnels sont regroupés sur le côté négatif <strong>de</strong><br />

l’axe ;<br />

– sur le second axe (dim<strong>en</strong>sion 2), on observe les mêmes regroupem<strong>en</strong>ts : d’un côté, les<br />

titres tirés <strong>de</strong> l’<strong>en</strong>semble <strong>de</strong>s articles sci<strong>en</strong>tifiques et <strong>de</strong> l’autre les titres extraits <strong>de</strong>s<br />

textes professionnels.<br />

titres thématiques<br />

Bloc unique : SN<br />

L’observation <strong>de</strong> la place qu’occup<strong>en</strong>t les corpus sur les <strong>de</strong>ux dim<strong>en</strong>sions nous r<strong>en</strong>seigne<br />

sur les relations <strong>en</strong>tre notre classem<strong>en</strong>t fonctionnel <strong>de</strong>s titres et le g<strong>en</strong>re <strong>de</strong>s textes et<br />

nous con<strong>du</strong>is<strong>en</strong>t à la conclusion suivante : l’implication <strong>de</strong>s titres dans le discours fournit un<br />

indice <strong>du</strong> type <strong>de</strong> texte.<br />

Conclusion<br />

Textes professionnels<br />

reprise unique<br />

position sujet reprise lexicale<br />

reprise id<strong>en</strong>tique<br />

reprise partielle<br />

Articles géopolitique / ingénierie<br />

reprise multiple<br />

Titre bipartite<br />

titres référ<strong>en</strong>tiels<br />

Figure 3 : Projection <strong>de</strong>s sous-corpus sur les axes dégagés par l’analyse multifonctionnelle.<br />

En appréh<strong>en</strong>dant les docum<strong>en</strong>ts écrits sous leur aspect matériel, on est con<strong>du</strong>it à pr<strong>en</strong>dre<br />

<strong>en</strong> compte <strong>de</strong>s élém<strong>en</strong>ts structurants qui s’impos<strong>en</strong>t visuellem<strong>en</strong>t tels que les sections,<br />

paragraphes et leurs titres. Nous nous sommes intéressées au rôle joué par ces <strong>de</strong>rniers dans<br />

la construction <strong>de</strong> la sémantique <strong>du</strong> texte et avons dégagé <strong>de</strong>ux fonctions polaires par rapport,<br />

d’un côté à la gestion <strong>de</strong>s référ<strong>en</strong>ts, <strong>de</strong> l’autre à la thématique. Se construit ainsi <strong>de</strong><br />

l’une à l’autre un continuum sur lequel se plac<strong>en</strong>t les divers titres <strong>du</strong> corpus, <strong>en</strong> fonction <strong>de</strong>s<br />

valeurs <strong>de</strong>s différ<strong>en</strong>ts traits formels utilisés pour les caractériser.<br />

La <strong>de</strong>scription précise <strong>de</strong>s indices linguistiques <strong>de</strong> l’implication <strong>de</strong>s titres dans le discours<br />

suivie <strong>de</strong> leur codage dans un vaste corpus permet <strong>de</strong> quantifier les indices considérés<br />

comme théoriquem<strong>en</strong>t pertin<strong>en</strong>ts. Cette étape <strong>de</strong> validation empirique d’un modèle théorique<br />

a été franchie avec un relatif succès, dans cette étu<strong>de</strong>, puisque les corrélats formels<br />

théoriquem<strong>en</strong>t pertin<strong>en</strong>ts l’ont été aussi statistiquem<strong>en</strong>t. Le travail <strong>de</strong> <strong>de</strong>scription sur la fonction<br />

syntaxique <strong>de</strong> la reprise doit néanmoins être poursuivi afin <strong>de</strong> mieux expliquer les résultats<br />

contradictoires obt<strong>en</strong>us. Par ailleurs, l’<strong>en</strong>semble <strong>de</strong>s titres ne donnant pas lieu à anaphore<br />

doit être caractérisé par les autres traits annotés. L’une <strong>de</strong> nos hypothèses actuelles est qu’ils<br />

s’appar<strong>en</strong>t<strong>en</strong>t à <strong>de</strong>s intro<strong>du</strong>cteurs <strong>de</strong> cadre, elle doit être maint<strong>en</strong>ant explorée.<br />

Le second <strong>en</strong>seignem<strong>en</strong>t que l’on peut tirer <strong>du</strong> travail prés<strong>en</strong>té ici concerne les possibilités<br />

<strong>de</strong> caractérisation <strong>du</strong> cont<strong>en</strong>u textuel via les titres <strong>de</strong> section. L’analyse portant sur un<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).<br />

11


12<br />

corpus diversifié, on peut <strong>en</strong> effet affirmer qu’il existe <strong>de</strong>s affinités <strong>en</strong>tre certains types <strong>de</strong><br />

titres et certains g<strong>en</strong>res ou registres <strong>de</strong> discours. Ce résultat ouvre sur une application possible<br />

<strong>de</strong> ce travail vers le profilage automatique <strong>de</strong> textes (Habert et al. 2000). Si ce résultat<br />

se confirme sur un plus grand nombre <strong>de</strong> corpus, on peut imaginer faire <strong>en</strong>trer les caractéristiques<br />

<strong>de</strong>s titres parmi les différ<strong>en</strong>ts traits <strong>de</strong> surface qui serai<strong>en</strong>t utilisés pour une catégorisation<br />

automatique <strong>de</strong>s textes.<br />

Dans le même g<strong>en</strong>re <strong>de</strong> perspectives, plusieurs applications concrètes sont <strong>en</strong>visageables.<br />

Pour une navigation intradocum<strong>en</strong>taire sélective, le typage <strong>de</strong>s titres s’avérerait fructueux,<br />

ce serait une information supplém<strong>en</strong>taire que le lecteur pourrait utiliser pour déci<strong>de</strong>r<br />

<strong>de</strong> lire ou non telle ou telle portion <strong>de</strong> texte. Pour <strong>de</strong>s tâches automatiques telles que la<br />

recherche d’information, il semble <strong>de</strong> plus <strong>en</strong> plus nécessaire <strong>de</strong> cesser <strong>de</strong> considérer les<br />

textes comme <strong>de</strong>s « sacs <strong>de</strong> phrases » et <strong>de</strong> bâtir <strong>de</strong>s systèmes qui pr<strong>en</strong>n<strong>en</strong>t <strong>en</strong> compte leur<br />

structuration. Les applications impliquant un accès au cont<strong>en</strong>u textuel ont tout à gagner d’une<br />

meilleure compréh<strong>en</strong>sion <strong>du</strong> fonctionnem<strong>en</strong>t <strong>de</strong> ces élém<strong>en</strong>ts <strong>de</strong> structuration.<br />

Bibliographie<br />

BIBER D. (2003), « Variation among University Spok<strong>en</strong> and Writt<strong>en</strong> Registers : a new multi-dim<strong>en</strong>sional<br />

analysis », in Corpus analysis. Language structure and language use, P. Leistyna & C. F. Meyer (éds),<br />

Amsterdam – New York, Rodopi, p. 47-67.<br />

CHAROLLES M. (1997), « L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours : univers, champs, domaines et espaces», Cahier <strong>de</strong><br />

Recherche Linguistique, 6, p. 1-73.<br />

CHAROLLES M. (2002), « Organisation <strong>de</strong>s discours et segm<strong>en</strong>tation <strong>de</strong>s écrits», in Actes <strong>de</strong> la r<strong>en</strong>contre<br />

Inscription Spatiale <strong>du</strong> Langage : structures et processus, Toulouse, p. 31-39.<br />

CORNISH F. (2003), « The roles of (writt<strong>en</strong>) text and anaphor-type distribution in the construction of<br />

discourse », Text, 23, 1, p. 1-26.<br />

HABERT B., ILLOUZ G., LAFON P., FLEURY, S., FOLCH H., HEIDEN S. & PRÉVOST S. (2000), « Profilage <strong>de</strong> textes :<br />

cadre <strong>de</strong> travail et expéri<strong>en</strong>ce », in JADT (Journées Internationales d’Analyse Statistique <strong>de</strong>s Données<br />

Textuelles), M. Rajman (éd.), Lausanne.<br />

HALLIDAY M.A.K. (1985), An intro<strong>du</strong>ction to Functional Grammar, London, Edward Arnold.<br />

HO-DAC M., JACQUES M.-P. & REBEYROLLE J. (2004), « Sur la fonction discursive <strong>de</strong>s titres », in L’unité<br />

texte, S. Porhiel & D. Klingler (éds.), Pleyb<strong>en</strong>, Perspectives, p. 125-152.<br />

LUC C., & VIRBEL J. (2001), « Le modèle d’architecture textuelle Fon<strong>de</strong>m<strong>en</strong>ts et expérim<strong>en</strong>tation »,<br />

Verbum, 23, 1, p. 103-123.<br />

POWER R., SCOTT D. & BOUYAD-AGAH N. (2003), « Docum<strong>en</strong>t structure », Computational Linguistics, 29, 2,<br />

p. 211-260.<br />

Schedae, 2006, prépublication n°1, (<strong>fascicule</strong> n°1, p. 1-12).


Schedae, 2006<br />

Prépublication n° 2 Fascicule n° 1<br />

On Argum<strong>en</strong>tation in Proce<strong>du</strong>ral Texts<br />

Farida Aouladomar, Leila Amgoud, Patrick Saint-Dizier<br />

IRIT-CNRS<br />

118, route <strong>de</strong> Narbonne – 31062 Toulouse Ce<strong>de</strong>x France<br />

aouladom@irit.fr, amgoud@irit.fr, stdizier@irit.fr<br />

Abstract :<br />

Proce<strong>du</strong>ral texts consist of sequ<strong>en</strong>ces of instructions <strong>de</strong>signed to reach an objective. The user<br />

must follow step by step the instructions in or<strong>de</strong>r to reach the results expected. In this paper, we<br />

explore the differ<strong>en</strong>t facets of natural argum<strong>en</strong>tation used in such texts that reinforces the plangoal<br />

structure.<br />

Keywords: proce<strong>du</strong>ral texts, plan-goal structure, natural argum<strong>en</strong>tation.<br />

Résumé:<br />

Les textes procé<strong>du</strong>raux sont composés <strong>de</strong> séqu<strong>en</strong>ces d’instructions visant à atteindre un objectif.<br />

L’utilisateur doit suivre étape par étape les instructions pour atteindre les résultats souhaités.<br />

Dans cet article, nous explorons les différ<strong>en</strong>tes facettes <strong>de</strong> l’argum<strong>en</strong>tation cont<strong>en</strong>ue dans ce<br />

g<strong>en</strong>re textuel servant à r<strong>en</strong>forcer la structure plan-but <strong>de</strong>s textes procé<strong>du</strong>raux.<br />

Mots-clés: textes procé<strong>du</strong>raux, structure plan-but, argum<strong>en</strong>tation.<br />

Intro<strong>du</strong>ction<br />

Proce<strong>du</strong>ral texts consist of a sequ<strong>en</strong>ce of instructions <strong>de</strong>signed with some accuracy in<br />

or<strong>de</strong>r to reach an objective (e.g. assemble a computer). In our perspective, proce<strong>du</strong>ral texts<br />

range from appar<strong>en</strong>tly simple cooking receipes to large maint<strong>en</strong>ance manuals (whose paper<br />

versions are measured in tons e.g. for aircraft maint<strong>en</strong>ance). They also inclu<strong>de</strong> docum<strong>en</strong>ts<br />

as diverse as teaching texts, medical notices, social behavior recomm<strong>en</strong>dations, directions<br />

for use, do-it-yourself and assembly notices, itinerary gui<strong>de</strong>s, advice texts, savoir-faire gui<strong>de</strong>s,<br />

etc.<br />

In most types of proce<strong>du</strong>ral texts, in particular social behavior, communication, etc.<br />

proce<strong>du</strong>ral discourse has two dim<strong>en</strong>sions: an explicative compon<strong>en</strong>t, constructed around<br />

rational and objective elem<strong>en</strong>ts (goals and plans), and a se<strong>du</strong>ction compon<strong>en</strong>t whose goal<br />

is (1) to <strong>en</strong>courage the user, (2) to help him revise his opinions, (3) to <strong>en</strong>rich the goals and<br />

the purposes, by outlining certain properties or qualities or consequ<strong>en</strong>ces of a certain action<br />

or prev<strong>en</strong>tion. This se<strong>du</strong>ction compon<strong>en</strong>t closely associated with the rational elem<strong>en</strong>ts,<br />

forms, in particular, the argum<strong>en</strong>tative structure of the proce<strong>du</strong>ral text.<br />

Farida Aouladomar, Leila Amgoud, Patrick Saint-Dizier<br />

« On Argum<strong>en</strong>tation in Proce<strong>du</strong>ral Texts »<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).<br />

13


14<br />

Another important feature, which is rather implicit, is the way instructions or groups of<br />

instructions are organized and follow each other, and both the logic (objective aspect) and<br />

the connotations (subjective aspects) that un<strong>de</strong>rlie this organization (sequ<strong>en</strong>tial, parallel,<br />

concurr<strong>en</strong>t, conditional, etc.).<br />

In proce<strong>du</strong>ral texts, goals are, roughly, reached by means of sequ<strong>en</strong>ces of instructions.<br />

These sequ<strong>en</strong>ces are meaningful ess<strong>en</strong>tially w.r.t. the goals to reach. Similarly, the argum<strong>en</strong>tative<br />

structure supports the execution of the instructions in various ways. Argum<strong>en</strong>ts<br />

get also their meaning w.r.t. the goal-sequ<strong>en</strong>ces of instruction structure.<br />

The diversity of proce<strong>du</strong>ral texts, their objectives and the way they are writt<strong>en</strong> is the<br />

source of a large variety of natural argum<strong>en</strong>ts. We briefly pres<strong>en</strong>t them in this paper. This<br />

paper basically relates the argum<strong>en</strong>tative structure of proce<strong>du</strong>ral texts as they are in Fr<strong>en</strong>ch.<br />

This study is based on a ext<strong>en</strong>sive corpus study, within a language pro<strong>du</strong>ction perspective.<br />

This approach allows us to integrate logical, linguistic (e.g. Moeschler 1985, Anscombre et<br />

al. 1981) and philosophical views of argum<strong>en</strong>tation. It is basically linguistic and conceptual.<br />

In the remain<strong>de</strong>r of this paper, we briefly outline the theoretical basis of argum<strong>en</strong>tation,<br />

from an AI and cognitive perspective; we th<strong>en</strong> pres<strong>en</strong>t the structure of proce<strong>du</strong>ral texts. Th<strong>en</strong>,<br />

we show the differ<strong>en</strong>t conceptual and linguistic facets of argum<strong>en</strong>ts, as found in our corpora,<br />

and attempt to make explicit and categorize the roles these may play.<br />

Argum<strong>en</strong>tation process and argum<strong>en</strong>t typology<br />

A rational ag<strong>en</strong>t can express claims and judgm<strong>en</strong>ts, aiming at reaching a <strong>de</strong>cision, a<br />

conclusion, or informing, convincing, negotiating with other ag<strong>en</strong>ts. Pertin<strong>en</strong>t information<br />

may be insuffici<strong>en</strong>t or conversely there may be too much, but partially incoher<strong>en</strong>t information.<br />

In case of multi-ag<strong>en</strong>t interactions, conflicts of interest are unavoidable. Ag<strong>en</strong>ts can<br />

be assisted by argum<strong>en</strong>tation, a process based on the exchange and the valuation of interacting<br />

argum<strong>en</strong>ts which support opinions, claims, proposals, <strong>de</strong>cisions,…<br />

According to Dung (1995), an argum<strong>en</strong>tation framework is <strong>de</strong>fined as a pair consisting of<br />

a set of argum<strong>en</strong>ts and a binary relation repres<strong>en</strong>ting the <strong>de</strong>feasibility relationship betwe<strong>en</strong><br />

argum<strong>en</strong>ts.<br />

Definition 1. An argum<strong>en</strong>tation framework is a pair where A is a set of argum<strong>en</strong>ts<br />

and R is a binary relation repres<strong>en</strong>ting a <strong>de</strong>feasibility relationship betwe<strong>en</strong> argum<strong>en</strong>ts, i.e.<br />

R ⊆ A × A. (a, b) ∈ R or equival<strong>en</strong>tly “a R b” means that the argum<strong>en</strong>t a <strong>de</strong>feats b.<br />

Among all the conflicting argum<strong>en</strong>ts, it is important to know which argum<strong>en</strong>ts will be<br />

kept for inferring conclusions and for making <strong>de</strong>cisions. In (Dung, 1995), differ<strong>en</strong>t semantics<br />

for the notion of acceptability have be<strong>en</strong> proposed. Let's recall them here.<br />

Definition 2. (Conflict-free, Def<strong>en</strong>ce) Let B ⊆ A.<br />

– B is conflict-free iff there exist no a i , a j in B such that a i R a j ;<br />

– B <strong>de</strong>f<strong>en</strong>ds an argum<strong>en</strong>t ai iff for each argum<strong>en</strong>t aj ∈ A, if aj R ai , th<strong>en</strong> there exists ak ∈ B<br />

such that ak R aj .<br />

Definition 3. (Acceptability semantics) Let B be a conflict-free set of argum<strong>en</strong>ts, and let<br />

F: 2 A→ 2 A be a function such that F(B) = {a | B <strong>de</strong>f<strong>en</strong>ds a}.<br />

– B is admissible iff B ⊆ F(B);<br />

– B is a complete ext<strong>en</strong>sion iff B = F(B);<br />

– B is a groun<strong>de</strong>d ext<strong>en</strong>sion iff it is the minimal (w.r.t. set-inclusion) complete ext<strong>en</strong>sion;<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).


– B is a preferred ext<strong>en</strong>sion iff it is a maximal (w.r.t. set-inclusion) complete ext<strong>en</strong>sion;<br />

– B is a stable ext<strong>en</strong>sion iff it is a preferred ext<strong>en</strong>sion that <strong>de</strong>feats all argum<strong>en</strong>ts in A\B.<br />

Let E = {E1 , …, En } be the set of all possible ext<strong>en</strong>sions un<strong>de</strong>r a giv<strong>en</strong> semantics.<br />

Note that there is only one groun<strong>de</strong>d ext<strong>en</strong>sion. It contains all the argum<strong>en</strong>ts which<br />

are not <strong>de</strong>feated and also the argum<strong>en</strong>ts which are <strong>de</strong>f<strong>en</strong><strong>de</strong>d directly or indirectly by non<strong>de</strong>feated<br />

argum<strong>en</strong>ts.<br />

In the above framework, an argum<strong>en</strong>t is an abstract <strong>en</strong>tity whose role is only <strong>de</strong>termined<br />

by its relation to other argum<strong>en</strong>ts. Th<strong>en</strong> its structure and its origin are not known. However,<br />

in many applications of argum<strong>en</strong>tation, for instance for handling inconsist<strong>en</strong>cy in knowledge<br />

bases, argum<strong>en</strong>ts take the form of explanations, called in (Amgoud & Pra<strong>de</strong> 2005) explanatory<br />

argum<strong>en</strong>ts. However, rec<strong>en</strong>t works on negotiation have argued that argum<strong>en</strong>tation can<br />

play a key role in finding a compromise. In<strong>de</strong>ed, an offer supported by a `good’ argum<strong>en</strong>t<br />

has a better chance to be accepted by another ag<strong>en</strong>t. Argum<strong>en</strong>tation may also lead an ag<strong>en</strong>t<br />

to change its goals and finally may constrain an ag<strong>en</strong>t to respond in a particular way. In<br />

addition to explanatory argum<strong>en</strong>ts studied in classical argum<strong>en</strong>tation frameworks, works<br />

on argum<strong>en</strong>tation-based negotiation have emphasized other types of argum<strong>en</strong>ts such as<br />

threats, rewards, tips and warnings (see section 5). For example, if an ag<strong>en</strong>t receives a threat,<br />

this ag<strong>en</strong>t may accept the offer ev<strong>en</strong> if it is not really acceptable for him (because otherwise<br />

really important goals would be threat<strong>en</strong>ed). The figure below shows clearly the differ<strong>en</strong>ces<br />

betwe<strong>en</strong> the four types of argum<strong>en</strong>ts.<br />

Statem<strong>en</strong>t: If ‘a’ th<strong>en</strong> ‘b’, where ‘a’ is a pot<strong>en</strong>tial action of hearer<br />

Is ‘b’ <strong>de</strong>sirable or un<strong>de</strong>sirable for hearer<br />

<strong>de</strong>sirable un<strong>de</strong>sirable<br />

Is ‘b’ a pot<strong>en</strong>tial action of speaker ? Is ‘b’ a pot<strong>en</strong>tial action of speaker ?<br />

no yes yes no<br />

Tip Reward Threat Warning<br />

The Context: Proce<strong>du</strong>ral text structure<br />

Un<strong>de</strong>r the heading of proce<strong>du</strong>ral texts, there is a quite large diversity of texts. Proce<strong>du</strong>ral<br />

texts can be grouped into families according to their main objectives and style (Adam 2001).<br />

We have, for example, regulatory texts (Mortara Garavelli 1988), proce<strong>du</strong>ral texts (Longacre<br />

1982), ‘programmatory’ texts (Greimas 1983), instructional-prescriptive texts (Werhlich 1975),<br />

injunctive texts (Adam 1987), advice texts (Lüger 1995) and receipe texts (Qamar 1996), etc.<br />

All these views share common structures: specification of goals, <strong>de</strong>scription of ingredi<strong>en</strong>ts/<br />

materials to use, and <strong>de</strong>scription of sequ<strong>en</strong>ces of instructions. Proce<strong>du</strong>ral texts obey to a<br />

number of structural criteria which are quite well-<strong>de</strong>fined. They in<strong>de</strong>ed share common stylistic<br />

forms, e.g. prefer<strong>en</strong>ce for imperative forms, and a number of typographic elem<strong>en</strong>ts<br />

such as <strong>en</strong>umerations.<br />

Proce<strong>du</strong>ral texts explain how to realize a certain goal by means of actions which are at<br />

least partially temporally organized; they also outline the way these actions can be realized,<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).<br />

15


16<br />

with advices and prefer<strong>en</strong>ces. The organization of a proce<strong>du</strong>ral text is in g<strong>en</strong>eral ma<strong>de</strong> visible<br />

by means of linguistic and typographic marks.<br />

Another feature is that proce<strong>du</strong>ral texts t<strong>en</strong>d to minimize the distance betwe<strong>en</strong> language<br />

and action. The main structure of proce<strong>du</strong>ral texts can refer to plans and goals theory in IA<br />

theory. In proce<strong>du</strong>ral texts, plans to realize a goal are ma<strong>de</strong> as immediate and explicit as<br />

necessary, the objective being to re<strong>du</strong>ce the infer<strong>en</strong>ces that the user will have to make before<br />

acting. Texts are thus ori<strong>en</strong>ted towards action, they therefore combine instructions with icons,<br />

images, graphics, summaries, prev<strong>en</strong>tions, advices, etc.<br />

We based our studies of proce<strong>du</strong>ral texts on their discursive aspects in or<strong>de</strong>r to id<strong>en</strong>tify<br />

and isolate the main informational mo<strong>du</strong>les that will be useful for answering proce<strong>du</strong>ral questions<br />

on the web in a QA system (see (Aouladomar 2005) for more <strong>de</strong>tails).<br />

Instructions may be sequ<strong>en</strong>tial, or may have a more complex structure including, for<br />

example, options, alternatives or operations to realize in parallel with others. This level also<br />

inclu<strong>de</strong>s the analysis of markers proper to certain types of instructions and markers that<br />

connect instructions.<br />

The goal-plan structure of proce<strong>du</strong>ral texts has be<strong>en</strong> <strong>de</strong>scribed using a grammar formalism<br />

that pres<strong>en</strong>ts the main elem<strong>en</strong>ts composing proce<strong>du</strong>ral texts, that we use for annotating<br />

them.<br />

The goals and sub-goals of proce<strong>du</strong>ral texts repres<strong>en</strong>t the skeletal structure of those<br />

texts. Every structure id<strong>en</strong>tified contributes to the realization of those goals.<br />

Methodology<br />

The methodology we use to repres<strong>en</strong>t the structure of proce<strong>du</strong>ral texts is based on<br />

corpora analysis. Our corpus is built following two steps: (1) a user-c<strong>en</strong>tred method, (2) an<br />

<strong>en</strong>hancem<strong>en</strong>t of this first corpus wh<strong>en</strong> important categories of proce<strong>du</strong>ral texts were missing.<br />

First, we collect proce<strong>du</strong>ral queries from queries inv<strong>en</strong>tories on the web, which we use<br />

to select associated proce<strong>du</strong>ral texts. At the <strong>en</strong>d of this stage, we gathered 78 texts from<br />

ess<strong>en</strong>tially technical (ex: computer assembly) and communication domains (how to write a<br />

CV). Th<strong>en</strong>, we ad<strong>de</strong>d 47 proce<strong>du</strong>ral texts from important missing categories (recipes, injunctions,<br />

etc.). The work pres<strong>en</strong>ted below corresponds to a manual analysis of proce<strong>du</strong>ral texts<br />

in or<strong>de</strong>r to <strong>de</strong>scribe their organization. The <strong>de</strong>scription is based on example/counter example<br />

method.<br />

A Discursive analysis of proce<strong>du</strong>ral texts<br />

Proce<strong>du</strong>ral texts can be a simple, or<strong>de</strong>red list of instructions to perform to reach a goal,<br />

but they can also be less linear, outlining differ<strong>en</strong>t ways to realize something, with argum<strong>en</strong>ts,<br />

conditions. They oft<strong>en</strong> also contain a number of recomm<strong>en</strong>dations, warnings, and comm<strong>en</strong>ts<br />

of various sorts.<br />

Here is, repres<strong>en</strong>ted by means of a grammar, the structure we have elaborated for proce<strong>du</strong>ral<br />

texts from a corpora analysis.<br />

Structures reported below ess<strong>en</strong>tially correspond to the organization of the informational<br />

cont<strong>en</strong>ts. Elem<strong>en</strong>ts concerning the layout (e.g. textual organizers such as: titles, <strong>en</strong>umerations,<br />

etc.), and linguistic marks of various sorts are used as triggers or <strong>de</strong>limiters in the implem<strong>en</strong>tation<br />

of this grammar. In what follows, par<strong>en</strong>theses express optionality, + iteration, {}<br />

express the compulsory character of an elem<strong>en</strong>t but which is not always realized linguistically,<br />

the comma is just a separator with no temporal connotation a priori, / is an or and the operator<br />

< indicates a preferred preced<strong>en</strong>ce. Each symbol corresponds to an XML-tag, allowing<br />

us to annotate proce<strong>du</strong>ral texts.<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).


– Text title, (summary), (warning)+, (pre-requisites)+, (picture) + < objective;<br />

– Summary title+. “Summary” <strong>de</strong>scribes the global organisation of the proce<strong>du</strong>re, it may<br />

be useful wh<strong>en</strong> proce<strong>du</strong>res are complex (summary can be a set of hyper-links, oft<strong>en</strong><br />

pointing to titles);<br />

– Warning (picture)+, (pre-requisites), (argum<strong>en</strong>ts). “Warnings” repres<strong>en</strong>t global precautions<br />

or prev<strong>en</strong>tions associated with actions or objectives (e.g. switch off electricity prior<br />

to any action);<br />

– Pre-requisites list of objects, (instruction sequ<strong>en</strong>ces). “Pre-requisites” <strong>de</strong>scribe all kinds<br />

of equipm<strong>en</strong>ts nee<strong>de</strong>d to realize the action (e.g. the differ<strong>en</strong>t constitu<strong>en</strong>ts of a receipe)<br />

and preparatory actions;<br />

– Picture <strong>de</strong>scribes a sequ<strong>en</strong>ce of charts and/or schemas of various sorts. They oft<strong>en</strong><br />

interact with instructions by e.g. making them clearer;<br />

– Objective {goal} < (warning), (picture), (pre-requisites), instruction sequ<strong>en</strong>ces+ / objective.<br />

This structure corresponds to the subgoals and sub-plans of proce<strong>du</strong>ral texts. It is<br />

the main structure of proce<strong>du</strong>ral texts, that we use for the answering process of the QA<br />

system;<br />

– Instruction sequ<strong>en</strong>ces instseq < {connector} < instruction sequ<strong>en</strong>ces / instseq;<br />

– Instseq imperative linear sequ<strong>en</strong>ce / optional sequ<strong>en</strong>ce / alternative sequ<strong>en</strong>ce / imperative<br />

co-temporal sequ<strong>en</strong>ce;<br />

– Imperative linear sequ<strong>en</strong>ce instruction < {temporal mark} < imperative linear sequ<strong>en</strong>ce /<br />

instruction. (e.g. cook peeled potatoes and re<strong>du</strong>ce them out of mashed potatoes);<br />

– Optional sequ<strong>en</strong>ce optional expression < imperative linear sequ<strong>en</strong>ce. (e.g. if you<br />

prefer a stronger flavour, add curry pow<strong>de</strong>r and cream);<br />

– Alternative sequ<strong>en</strong>ce (conditional expression), (argum<strong>en</strong>t), imperative linear sequ<strong>en</strong>ce,<br />

(alternative-opposition mark) < instseq / (conditional expression, instseq). (e.g. peel<br />

potatoes, or leave the peel on if it is thin);<br />

– Imperative co-temporal sequ<strong>en</strong>ce Imperative linear sequ<strong>en</strong>ce < co-temporal mark <<br />

imperative co-temporal sequ<strong>en</strong>ce / instruction. A co-temporal sequ<strong>en</strong>ce relates instructions<br />

which must be realized at the same time, or more g<strong>en</strong>erally non-sequ<strong>en</strong>tially<br />

(e.g. mash tomatoes while mixing with garlic and olive oil);<br />

– Instruction (iterative expression), action, (argum<strong>en</strong>t)+, (refer<strong>en</strong>ce)+, (picture)+ (warning).<br />

“Instruction” is the lowest level, instructions can be complex since they may contain<br />

their own goals, warnings, pictures, argum<strong>en</strong>ts, etc.<br />

Besi<strong>de</strong>s this aspect of analysis for QA systems, proce<strong>du</strong>ral texts seem of much interest<br />

for other various linguistic analysis: one can explore their layout structure, temporal structure,<br />

rhetorical structure (Kosseim 2000, Van<strong>de</strong>r Lind<strong>en</strong> 1995, Rosner 1992), argum<strong>en</strong>tative<br />

structure, logical structure, etc.<br />

We focus in the rest of this paper on the argum<strong>en</strong>tative aspects of proce<strong>du</strong>ral texts.<br />

Argum<strong>en</strong>tation in proce<strong>du</strong>ral texts<br />

G<strong>en</strong>eral consi<strong>de</strong>rations<br />

Argum<strong>en</strong>tation is a process used by a person to convince an audi<strong>en</strong>ce (Oléron 1983).<br />

Proce<strong>du</strong>ral texts are a form of argum<strong>en</strong>tation structure since they (1) make interact the instructions<br />

pro<strong>du</strong>cer and receiver, (2) are also a process that exert an influ<strong>en</strong>ce on the receiver (the<br />

user must realize the instructions), (3) give justifications or elem<strong>en</strong>ts that prove the appropriat<strong>en</strong>ess<br />

of the instruction, using rational elem<strong>en</strong>ts (see our argum<strong>en</strong>t typology below).<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).<br />

17


18<br />

Proce<strong>du</strong>ral texts are specific forms of discourse, satisfying constraints of economy of<br />

means, accuracy, etc. They are in g<strong>en</strong>eral based on a specific discursive logic, ma<strong>de</strong> up of<br />

presuppositions, causes and consequ<strong>en</strong>ces, goals, in<strong>du</strong>ctions, warnings, anaphoric networks,<br />

etc., and more psychological elem<strong>en</strong>ts (e.g. to stimulate a user). The goal is to optimize<br />

a logical sequ<strong>en</strong>cing of instructions and make the user feel safe and confid<strong>en</strong>t with<br />

respect to the goal(s) he wants to achieve (e.g. clean an oil filter, learn how to organize a<br />

customer meeting). Proce<strong>du</strong>ral texts, from this point of view, can be analyzed not only just<br />

as sequ<strong>en</strong>ces of mere instructions, but as effici<strong>en</strong>t, one-way (i.e. no contradiction, no negotiation)<br />

argum<strong>en</strong>tative discourses, <strong>de</strong>signed to help a user to reach a goal, making the best<br />

<strong>de</strong>cisions (see e.g. Amgoud et al. 2001, 2005).<br />

Pro<strong>du</strong>cing explanations is a rather synthetic activity whose goal is to use the elem<strong>en</strong>ts<br />

intro<strong>du</strong>ced by knowledge explicitation mechanisms to in<strong>du</strong>ce g<strong>en</strong>eralizations, subsumptions,<br />

<strong>de</strong><strong>du</strong>ctions, relations betwe<strong>en</strong> objects or activities and the goals to reach. This is particularly<br />

visible in the lexical choices ma<strong>de</strong> and in the choice of some constructions, including<br />

typographic. Proce<strong>du</strong>ral discourse is basically interactive: it communicates, teaches, justifies,<br />

explains, warns, forbids, stimulates, evaluates. It contains a number of facets, which all are<br />

associated in a way to argum<strong>en</strong>tation.<br />

The author of proce<strong>du</strong>ral texts must consi<strong>de</strong>r differ<strong>en</strong>t dim<strong>en</strong>sions (Donin et al. 1992),<br />

among others: (1) cognitive: notions referred to must be mastered and un<strong>de</strong>rstood by the<br />

target users, (2) epistemic: take into account, possibly to d<strong>en</strong>y them, the beliefs of those<br />

users. The pro<strong>du</strong>cer of proce<strong>du</strong>ral texts starts from a number of assumptions or presuppositions<br />

about pot<strong>en</strong>tial users, about their knowledge, abilities and skills, but also about their<br />

beliefs, prefer<strong>en</strong>ces, opinions, ability to g<strong>en</strong>eralize and adapt (to adapt instructions to their<br />

own situation, which is never exactly the one <strong>de</strong>scribed in the proce<strong>du</strong>re), perception of<br />

g<strong>en</strong>eric situations, and ability to follow discursive processes.<br />

The pro<strong>du</strong>cer of proce<strong>du</strong>ral texts has th<strong>en</strong>, from this basis, to re-inforce or weak<strong>en</strong> presuppositions,<br />

to specify some extra knowledge and know-how, possibly beliefs or opinions.<br />

He has to convince the rea<strong>de</strong>r that his text will certainly lead to the success of the target<br />

goal, mo<strong>du</strong>lo the restrictions he inclu<strong>de</strong>s. Texts are also expected to be locally and globally<br />

coher<strong>en</strong>t, with no contradictions, and no space for hesitation or negotiation.<br />

Giv<strong>en</strong> a certain goal, it is also of much interest to compare or contrast the means used<br />

by differ<strong>en</strong>t authors, possibly for differ<strong>en</strong>t audi<strong>en</strong>ces. Resorting to argum<strong>en</strong>ts for the pro<strong>du</strong>cer<br />

of proce<strong>du</strong>ral texts can thus <strong>de</strong>p<strong>en</strong>d on several factors: the author beliefs, the type<br />

and the complexity of proce<strong>du</strong>ral texts (i.e. technical proce<strong>du</strong>ral texts are very rich in argum<strong>en</strong>ts<br />

compared to receipes), or the expertise level of users (i.e. a text <strong>de</strong>signed for experts<br />

may contain less argum<strong>en</strong>ts than for non-experts of a domain).<br />

Argum<strong>en</strong>tation in proce<strong>du</strong>ral texts is found in the expression of objectives, in the expression<br />

of disjunction, alternatives, warnings, and within instructions (see the grammar above).<br />

Argum<strong>en</strong>ts are thus structurally and semantically <strong>de</strong>p<strong>en</strong>d<strong>en</strong>t of the local structures or the<br />

g<strong>en</strong>eral plans and goals structure they are associated with.<br />

Definitions of argum<strong>en</strong>ts<br />

Two families of argum<strong>en</strong>ts are found in the logical and psychological literature of argum<strong>en</strong>tation,<br />

<strong>de</strong>p<strong>en</strong>ding on the involvem<strong>en</strong>t of the pro<strong>du</strong>cer of the argum<strong>en</strong>t: advices and<br />

in<strong>du</strong>cem<strong>en</strong>ts. In proce<strong>du</strong>ral texts, those argum<strong>en</strong>ts <strong>de</strong>scribe the reason why users could,<br />

should or must do the prescribed instructions.<br />

– In<strong>du</strong>cem<strong>en</strong>ts are speech acts uttered in an attempt to make another person do, or<br />

refrain from doing some actions (Fill<strong>en</strong>baum 1986). They consists of either promises<br />

(rewards) or threats:<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).


• A promise <strong>en</strong>courages an action p by offering q as a reward. (i.e. s<strong>en</strong>d the<br />

formula on time, and you will get a free installation of your phone line);<br />

• A threat aims to <strong>de</strong>ter behavior by pointing to pot<strong>en</strong>tial punishm<strong>en</strong>t. (i.e. it<br />

is forbidd<strong>en</strong> to smoke, to eat and to drink in the library. Non respecting<br />

these rules will lead to the immediate exclusion from the library).<br />

– Advices involve recomm<strong>en</strong>dations about future behaviors. They consist of tips or warnings:<br />

• A tip un<strong>de</strong>rlines pot<strong>en</strong>tially positive consequ<strong>en</strong>ces for the addressee<br />

resulting from the satisfaction of p. (i.e. use total sunblock with a high<br />

protecting coeffici<strong>en</strong>t, you will have a smooth skin ev<strong>en</strong> if white for long<br />

time);<br />

• A warning highlights either (1) a negative consequ<strong>en</strong>ce that will surely<br />

follow an action p unless one refrains from doing p or (2) a negative<br />

consequ<strong>en</strong>ce that will likely <strong>en</strong>sue if one doesn’t realize p. (i.e. Versez<br />

gra<strong>du</strong>ellem<strong>en</strong>t le lait froid, <strong>en</strong> fouettant vivem<strong>en</strong>t pour éviter la formation<br />

<strong>de</strong> grumeaux, N’utilisez pas d’aci<strong>de</strong>s <strong>de</strong> solutions chlorées, ces pro<strong>du</strong>its<br />

peuv<strong>en</strong>t détériorer les sangles et nuire à l’intégrité <strong>de</strong> l’appareil. (gloss:<br />

pour gra<strong>du</strong>ally cold milk, whipping firmly in or<strong>de</strong>r to prev<strong>en</strong>t the forming<br />

of lumps; don’t use chlored solutions, these pro<strong>du</strong>cts may damage straps<br />

and harm the integrity of the machine).<br />

Promises and threats express a more certain less probabilistic relationship betwe<strong>en</strong><br />

anteced<strong>en</strong>t and consequ<strong>en</strong>t than do tips and warnings (Ohm 2005).<br />

Besi<strong>de</strong>s these argum<strong>en</strong>ts, explanations are a neutral form of argum<strong>en</strong>tation. They provi<strong>de</strong><br />

a motivation and an internal coher<strong>en</strong>ce to proce<strong>du</strong>ral texts. Explanations are the only<br />

argum<strong>en</strong>ts in proce<strong>du</strong>ral texts that can be used with any other kind of argum<strong>en</strong>ts. For example,<br />

in N’utilisez pas <strong>de</strong> laques pour les cheveux car elles ne sont pas adaptées au type <strong>de</strong><br />

poil et risqu<strong>en</strong>t à la longue <strong>de</strong> le « casser », (gloss: don’t use hair spray because it is not<br />

adapted to the type of hair and it may break it), the first part argues for not doing p, the<br />

second part is an explanation and the last part is a warning that both aims to motivate why<br />

the user must not realize p.<br />

From the analysis, mainly psychological or cognitive, of the differ<strong>en</strong>t forms of proce<strong>du</strong>ral<br />

texts m<strong>en</strong>tioned above (see section 3), we categorize proce<strong>du</strong>ral discourse into 4 main categories<br />

for our purpose:<br />

– Proce<strong>du</strong>res, e.g.: receipes, maint<strong>en</strong>ance and construction manuals, some medical<br />

texts, etc.<br />

– Injunctions, e.g.: or<strong>de</strong>rs, regulations, rules, security measures, etc.<br />

– Advices/communication, e.g.: beauty advices, ways to fill in forms, administrative proce<strong>du</strong>res,<br />

to behave in certain <strong>en</strong>vironm<strong>en</strong>ts, how to manage a meeting, etc.<br />

– Question answer pairs extracted from differ<strong>en</strong>t FAQ’s on the web.<br />

The table below summarizes the <strong>de</strong>finitions of argum<strong>en</strong>ts, the author strategies and<br />

the proce<strong>du</strong>ral texts involved for each category of argum<strong>en</strong>ts.<br />

Types of Explanations In<strong>du</strong>cem<strong>en</strong>ts advises<br />

argum<strong>en</strong>ts<br />

Promises Threats Tips warnings<br />

Definitions Provi<strong>de</strong> Encourage an <strong>de</strong>ter behavior Highlight Highlight<br />

coher<strong>en</strong>ce to action p by by pointing to positive negative<br />

actions. offering a reward pot<strong>en</strong>tial consequ<strong>en</strong>ces consequ<strong>en</strong>ces<br />

q punishm<strong>en</strong>t of an action of an action<br />

Results of the Realization of Realization of Abs<strong>en</strong>ce of a Realization of Abs<strong>en</strong>ce of a<br />

wanted actions the action to the action to bad the action to bad<br />

reach a reach a positive consequ<strong>en</strong>ce reach a consequ<strong>en</strong>ce<br />

positive result result<br />

positive result<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).<br />

19


20<br />

Involvem<strong>en</strong>t of<br />

the speaker in the<br />

consequ<strong>en</strong>ces of<br />

an action p<br />

Types of<br />

proce<strong>du</strong>ral texts<br />

involved<br />

Typology of Argum<strong>en</strong>ts in proce<strong>du</strong>ral texts<br />

Let us review here the 4 major forms of argum<strong>en</strong>ts we found frequ<strong>en</strong>tly in corpora. Verb<br />

classes referred to are in g<strong>en</strong>eral those specified in WordNet (Fellbaum 1998):<br />

– explanations are the most usual ones. We find them in any kind of proce<strong>du</strong>ral texts.<br />

They usually intro<strong>du</strong>ce a set of sequ<strong>en</strong>ces or more locally an instruction implem<strong>en</strong>ted<br />

in the “goal” symbol of the grammar.<br />

The abstract schemas are the following: (1) purpose connectors-infinitive verbs, (2) causal<br />

connectors-<strong>de</strong>verbals and (3) titles.<br />

The most frequ<strong>en</strong>tly used causal connectors are: pour, afin <strong>de</strong>, car, c’est pourquoi, etc.<br />

(to, in or<strong>de</strong>r to) (e.g. to remove the bearings, for lubrification of the universal joint shafts,<br />

because it may be prematurely worn <strong>du</strong>e to the failure of another compon<strong>en</strong>t).<br />

– warning argum<strong>en</strong>ts embed<strong>de</strong>d mostly either in a “negative” formulation. They are<br />

particularly rich in technical domains.<br />

Their role is basically to explain and to justify. Negative formulation is easy to id<strong>en</strong>tify:<br />

there are prototypical expressions that intro<strong>du</strong>ce the argum<strong>en</strong>ts.<br />

Negative formulation follows the abstract schemas: negative causal connectors-infinitive<br />

risk verbs; negative causal marks-risk VP; positive causal connectors-VP negative syntaxic<br />

forms, positive causal connectors-prev<strong>en</strong>tion verbs.<br />

• negative connectors: sous peine <strong>de</strong>, sinon, car sinon, sans quoi, etc.<br />

(otherwise, un<strong>de</strong>r the risk of) (e.g. sous peine d'attaquer la teinte <strong>du</strong> bois);<br />

• risk class verbs: risquer, causer, nuire, commettre etc. (e.g. pour ne pas<br />

commettre d'erreur);<br />

• prev<strong>en</strong>tion verbs: éviter, prév<strong>en</strong>ir, etc. (e.g. afin d'éviter que la carte se<br />

déchausse lorsqu'on la visse au châssis}, gloss: in or<strong>de</strong>r to prev<strong>en</strong>t the<br />

card from skipping off its rack);<br />

• Positive causal mark and negative syntaxic forms: <strong>de</strong> facon à ne pas, pour<br />

ne pas, pour que… ne… pas etc. (in or<strong>de</strong>r not to) (e.g. pour ne pas le<br />

r<strong>en</strong>dre brillant, gloss: in or<strong>de</strong>r not to make it too bright).<br />

– Tip argum<strong>en</strong>ts: these argum<strong>en</strong>ts are less imperative than the other ones, they are<br />

advices, evaluations. They are particularly rich in communication texts.<br />

The corresponding abstract schemas are: causal connectors-performing NP; causal<br />

connectors-performing verbs; causal connectors-modal-performing verbs; performing<br />

proposition.<br />

• performing verbs: e.g. permettre, améliorer, etc. allow, improve;<br />

• performing PPs: e.g. Pour une meilleure finition; pour <strong>de</strong>s raisons <strong>de</strong><br />

performances;<br />

• performing proposition: e.g. Have small bills. It's easier to tip and to pay<br />

your bill that way.<br />

– threat<strong>en</strong>ing argum<strong>en</strong>ts and reward argum<strong>en</strong>ts: these argum<strong>en</strong>ts have a strong impact<br />

on the user's int<strong>en</strong>tion to realize the instruction provi<strong>de</strong>d, the instruction is almost ma<strong>de</strong><br />

compulsory by using this kind of argum<strong>en</strong>t. This is the injunctive form.<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).<br />

neutrality Involvem<strong>en</strong>t Involvem<strong>en</strong>t Neutrality Neutrality<br />

Technical<br />

texts<br />

Advises texts<br />

Medical texts<br />

Injunctions<br />

Receipes<br />

QA pairs<br />

QA pairs<br />

Injunctions<br />

QA pairs<br />

Injunctions<br />

Technical texts<br />

Advises texts<br />

Medical texts<br />

Injunctions<br />

Receipes<br />

QA pairs<br />

Technical<br />

texts<br />

Advises texts<br />

Medical texts<br />

Injunctions<br />

Receipes<br />

QA pairs


We could not find any of these types of argum<strong>en</strong>ts in proce<strong>du</strong>ral texts, except in QA<br />

pairs and injunctions texts (e.g. rules) where the author and the adressee are clearly id<strong>en</strong>tified.<br />

Therefore, in those argum<strong>en</strong>ts we oft<strong>en</strong> find personal pronouns like “nous” “vous” (we,<br />

you). For threat<strong>en</strong>ing argum<strong>en</strong>ts, it follows the following schemas: otherwise connectorsconsequ<strong>en</strong>ce<br />

proposition; otherwise negative expression-consequ<strong>en</strong>ce proposition:<br />

• otherwise connectors: sinon;<br />

• otherwise negative expression: si… ne… pas… (e.g. si vous ne le faites<br />

pas, nous le périmerons automatiquem<strong>en</strong>t après trois semaines <strong>en</strong> ligne).<br />

For reward argum<strong>en</strong>ts, the schemas associated are the following: personal pronouns –<br />

reward proposition:<br />

• reward proposition: using possession transfer verbs (gagner, donner,<br />

bénéficier, etc. (win, give, b<strong>en</strong>efit …)<br />

Besi<strong>de</strong>s these four main types of argum<strong>en</strong>ts, we found some forms of stimulation-evaluation<br />

(what you only have to do now...), and evaluation.<br />

Conclusion<br />

In this paper, we have shown the variety of natural argum<strong>en</strong>tation forms found in proce<strong>du</strong>ral<br />

texts. To get a more accurate view of the diversity of argum<strong>en</strong>tation in this type of<br />

text, we need to also consi<strong>de</strong>r more subtle language forms such as: modalisators, tonality,<br />

opinion marks, evaluation marks, illocutionary force in argum<strong>en</strong>ts, etc.<br />

Let us conclu<strong>de</strong> with some interesting observations and remarks that need to be<br />

<strong>de</strong>veloped by comparative analysis of differ<strong>en</strong>t proce<strong>du</strong>ral texts.<br />

– Using emphasizing argum<strong>en</strong>ts to express the importance of following instructions, can<br />

<strong>de</strong>p<strong>en</strong>d on the nature of proce<strong>du</strong>ral texts. Preliminary observations t<strong>en</strong>d to show that<br />

technical proce<strong>du</strong>ral texts are richer in argum<strong>en</strong>tation than, for instance, receipes. Argum<strong>en</strong>ts<br />

in proce<strong>du</strong>ral texts seem to <strong>de</strong>p<strong>en</strong>d also on the complexity or “dangerousness”<br />

of the proce<strong>du</strong>re. Further investigations in those directions but also in the exist<strong>en</strong>ce of<br />

specific syntactic and semantic schemas of argum<strong>en</strong>ts proper to differ<strong>en</strong>t types of proce<strong>du</strong>ral<br />

texts would be interesting to carry out;<br />

– Argum<strong>en</strong>ts can <strong>de</strong>p<strong>en</strong>d on the user’s expertise or familiarity with the domain. In that<br />

case, argum<strong>en</strong>ts are means, for the pro<strong>du</strong>cer, of adapting his writing strategies according<br />

to the user.<br />

All these consi<strong>de</strong>rations can lead to recomm<strong>en</strong>dations for writing assistance tools. Results<br />

can also help to <strong>de</strong>velop differ<strong>en</strong>t strategies wh<strong>en</strong> g<strong>en</strong>erating answers to proce<strong>du</strong>ral questions<br />

by: (1) adding argum<strong>en</strong>ts in the answer of a QA system which is a way to give justifications<br />

to the g<strong>en</strong>erated answer; (2) using argum<strong>en</strong>ts adapted to user levels.<br />

Bibliography<br />

ADAM J.-M. (2001), “Types <strong>de</strong> texts ou g<strong>en</strong>res <strong>de</strong> discours? Comm<strong>en</strong>t classer les textes qui dis<strong>en</strong>t <strong>de</strong> et<br />

comm<strong>en</strong>t faire?”, Langages, 141 (Les discours procé<strong>du</strong>raux), p. 10-27.<br />

ADAM J.-M. (1987), “Types <strong>de</strong> séqu<strong>en</strong>ces textuelles élém<strong>en</strong>taires”, Pratiques, 56.<br />

AMGOUD L. & PRADE H. (2005), “Handling threats, rewards and explanatory argum<strong>en</strong>ts, in a unified<br />

setting”, International Journal Of Intellig<strong>en</strong>t Systems, 20, 12, p. 1195-1218.<br />

AMGOUD L., PARSONS S., MAUDET N. (2001), “Argum<strong>en</strong>ts, dialogue, and negotiation”, in Proceedings of<br />

the 14th European Confer<strong>en</strong>ce on Artificial Intellig<strong>en</strong>ce, Berlin.<br />

AMGOUD L., BONNEFON J.F., PRADE H. (2005), “An argum<strong>en</strong>tation-based approach to multiple criteria<br />

<strong>de</strong>cision”, in Proceedings of the 8th European Confer<strong>en</strong>ce on Symbolic and Quantitative Approaches<br />

to Reasoning with Uncertainty (ECSQARU'2005), Barcelona.<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).<br />

21


22<br />

ANSCOMBRE J.-C., DUCROT O. (1981), “Interrogation et Argum<strong>en</strong>tation”, Langue française, 52 (L'interrogation),<br />

p. 5-22.<br />

AOULADOMAR F. (2005), “Towards answering proce<strong>du</strong>ral questions”, in Proceedings of IJCAI05 Workshop<br />

on Knowledge and Reasoning for Answering Questions (KRAQ’05), F. B<strong>en</strong>amara, M.F. Mo<strong>en</strong>s, and<br />

P. Saint-dizier (eds), Edinburgh, p. 21-32.<br />

AOULADOMAR F., SAINT-DIZIER P. (2005), “An exploration of the diversity of natural argum<strong>en</strong>tation in<br />

instructional Texts”, in Proceedings of IJCAI05 Workshop on Computational Mo<strong>de</strong>ls of Natural<br />

Argum<strong>en</strong>t (CMNA’05), C. Reed (ed), Edinburgh, p. 69-72.<br />

DONIN J., BRACEWELL R. J., FREDERIKSEN C. H., DILLINGER M. (1992), “Stud<strong>en</strong>ts’ strategies for writing<br />

instructions: organizing conceptual information in text”, Writt<strong>en</strong> Communication, 9, p. 209-236.<br />

DUONG P. M. (1995), “On the acceptability of argum<strong>en</strong>ts and its fundam<strong>en</strong>tal role in nonmonotonic<br />

reasoning, logic programming and n-person games”, Artificial Intellig<strong>en</strong>ce Journal, 77, p. 321-357.<br />

FELLBAUM C. (1998), WordNet An Electronic Lexical Database, The MIT Press.<br />

FILLENBAUM S. (1986), “The use of conditionals in in<strong>du</strong>cem<strong>en</strong>ts and <strong>de</strong>terr<strong>en</strong>ts”, in On conditionals,<br />

E.C. Traugott, A.T. Meul<strong>en</strong>, J.S. Reilly & C.A. Ferguson (eds), Cambridge, Cambridge University Press,<br />

p. 179-195.<br />

GREIMAS A. (1983), “La soupe au pistou ou la conversation d’un objet <strong>de</strong> valeur”, in Du s<strong>en</strong>s II, Paris, Seuil.<br />

KOSSEIM L., LAPALME G. (2000), “Choosing rhetorical structure to plan instructional texts”, in Computational<br />

intellig<strong>en</strong>ce, Boston, Blackwell.<br />

LONGACRE R. (1982), “Discourse typology in relation to language typology”, in Text processing,<br />

proceeding of nobel symposium 51, Sture All<strong>en</strong> (ed.), Stocholm, Almquist and Wiksell, p. 457-486.<br />

LUGER H.H. (1995), Pressesprache, Tubing<strong>en</strong>, Niemeyer.<br />

MOESCHLER J. (1985), Argum<strong>en</strong>tation et conversation, élém<strong>en</strong>ts pour une analyse pragmatique <strong>du</strong><br />

discours, Paris, Hatier/Credif.<br />

MORTARA GARAVELLI B. (1988), “Tipologia <strong>de</strong>i testi”, in Lexicon <strong>de</strong>r romanistisch<strong>en</strong> linguisti, G. Ho<strong>du</strong>s et<br />

al. (eds), IV, Tübing<strong>en</strong>, Niemeyer.<br />

OHM E. (2005), The relationship betwe<strong>en</strong> formal and informal reasoning, Thesis, University of Saskatchewan,<br />

Saskatoon, Canada.<br />

OLERON P. (1983), L'argum<strong>en</strong>tation, Paris, Presses Universitaires <strong>de</strong> France.<br />

QAMAR H. (1996), Quand dire c’est: écrire-comm<strong>en</strong>t-faire. Un autre type <strong>de</strong> texte: le RECETTAL, Thesis,<br />

<strong>Université</strong> Lumière Lyon II.<br />

ROSNER D., STEDE M. (1992), “Customizing RST for the automatic pro<strong>du</strong>ction of technical manual”, in<br />

Proceedings of the 6th International Workshop on Natural Language G<strong>en</strong>eration, R. Dale, E. Hovy, D.<br />

Rösner and O. Stock (eds), Berlin, Springer Verlag, p. 199-214.<br />

VANDER LINDEN K., MARTIN J. (1995), “Expressing local rhetorical relations in instructional Text: a case<br />

study of the purposes relation”, Computational Linguistics, 21, 1, p. 29-57.<br />

WERLICH E. (1975), Typologie <strong>de</strong>r texte, Hei<strong>de</strong>lberg, Quelle and Meyer.<br />

Schedae, 2006, prépublication n°2, (<strong>fascicule</strong> n°1, p. 13-22).


Schedae, 2006<br />

Prépublication n° 3 Fascicule n° 1<br />

Adverbiaux temporels<br />

et expressions référ<strong>en</strong>tielles<br />

comme marqueurs <strong>de</strong> segm<strong>en</strong>tation :<br />

emploi simultané ou exclusif ?<br />

Sophie Piérard & Yves Bestg<strong>en</strong> 1<br />

<strong>Université</strong> catholique <strong>de</strong> Louvain<br />

Place Cardinal Mercier, 10 ; 1348 Louvain-la-Neuve – Belgique<br />

sophie.pierard@psp.ucl.ac.be<br />

Résumé :<br />

Cette recherche essaye d’éclaircir une question initiée par une recherche <strong>de</strong> Vonk et al. (1992)<br />

sur l’utilisation simultanée ou non <strong>de</strong> <strong>de</strong>ux types <strong>de</strong> marqueurs <strong>de</strong> la segm<strong>en</strong>tation : les expressions<br />

temporelles et les anaphores nominales. Par une analyse <strong>de</strong> corpus, nous montrons que ces<br />

<strong>de</strong>ux types d’expressions apparaiss<strong>en</strong>t simultaném<strong>en</strong>t et permett<strong>en</strong>t <strong>de</strong> confirmer l’intérêt <strong>de</strong>s<br />

recherches <strong>de</strong> détection automatique <strong>de</strong>s ruptures thématiques basées sur le cumul d’indices.<br />

Mots-clés : adverbiaux temporels, expressions référ<strong>en</strong>tielles, nom propre, marqueur <strong>de</strong> la<br />

structure.<br />

Abstract :<br />

This research tries to answer a question initiated by Vonk et al. (1992) on the simultaneous use or<br />

not of two types of segm<strong>en</strong>tation markers : temporal expressions and nominal anaphora. A corpus<br />

analysis shows that these two types of expressions appear simultaneously to highlight a paragraph<br />

shift. This observations confirm the interest of automatic text segm<strong>en</strong>tation proce<strong>du</strong>res that are<br />

based on the coccurr<strong>en</strong>ce of indices.<br />

Keywords : temporal adverbials, refer<strong>en</strong>tial expressions, proper name, segm<strong>en</strong>tation<br />

markers.<br />

De nombreux moy<strong>en</strong>s linguistiques sont à la disposition <strong>de</strong> l’auteur d’un texte pour<br />

signaler les ruptures thématiques. Il s’agit par exemple <strong>de</strong>s adverbiaux temporels et <strong>de</strong>s<br />

expressions référ<strong>en</strong>tielles (Charolles 1997, Laignelet 2004). D’une manière générale, nos<br />

1. Yves Bestg<strong>en</strong> est chercheur qualifié <strong>du</strong> Fonds national <strong>de</strong> la recherche sci<strong>en</strong>tifique (FNRS). Cette recherche<br />

est financée par une « Action <strong>de</strong> Recherche concertée » <strong>du</strong> Gouvernem<strong>en</strong>t <strong>de</strong> la Communauté française<br />

<strong>de</strong> Belgique.<br />

Sophie Piérard & Yves Bestg<strong>en</strong><br />

« Adverbiaux temporels et expressions référ<strong>en</strong>tielles comme marqueurs <strong>de</strong> segm<strong>en</strong>tation : emploi simultané ou exclusif ? »<br />

Schedae, 2006, prépublication n°3, (<strong>fascicule</strong> n°1, p. 23-28).<br />

23


24<br />

travaux vis<strong>en</strong>t à étudier l’emploi <strong>de</strong> ces marqueurs dans <strong>de</strong> grands corpus <strong>de</strong> textes (Piérard &<br />

Bestg<strong>en</strong> 2005). Sont-ils bi<strong>en</strong> associés à <strong>de</strong>s ruptures thématiques ? Certaines expressions<br />

sont-elles <strong>de</strong> meilleurs signaux ? Pour id<strong>en</strong>tifier les ruptures <strong>de</strong> thème, nous employons un<br />

indice qui tra<strong>du</strong>it, au moins partiellem<strong>en</strong>t, les int<strong>en</strong>tions <strong>de</strong> l’auteur d’un texte : les changem<strong>en</strong>ts<br />

<strong>de</strong> paragraphe (Hofmann 1989, Longacre 1979). Nous utiliserons dans cette recherche<br />

une technique d’analyse qui fait l’objet d’un regain d’intérêt (Hoey 2005).<br />

En plus <strong>de</strong> répondre à ces questions, la prés<strong>en</strong>te étu<strong>de</strong> vise un objectif plus spécifique :<br />

étudier les relations <strong>en</strong>tre <strong>de</strong>ux types <strong>de</strong> marqueurs <strong>de</strong> la segm<strong>en</strong>tation d’un texte : les adverbiaux<br />

temporels et les expressions référ<strong>en</strong>tielles (nom propre, pronom, nom avec déterminant<br />

indéfini, défini, démonstratif et possessif <strong>de</strong> la 3e personne). La question principale à<br />

laquelle nous voulons répondre trouve son origine dans une recherche <strong>de</strong> Vonk et al. (1992).<br />

Ces auteurs s’intéress<strong>en</strong>t au rôle <strong>de</strong>s expressions référ<strong>en</strong>tielles comme marqueurs <strong>de</strong> la structure.<br />

En effet, selon ceux-ci, une expression référ<strong>en</strong>tielle plus spécifique que nécessaire<br />

indique un changem<strong>en</strong>t <strong>de</strong> thème. Des expressions, telles que le pronom personnel, sont<br />

utilisées dans <strong>de</strong>s situations <strong>de</strong> continuité <strong>de</strong> thème. Par contre, <strong>de</strong>s expressions nominales<br />

(comme « Jacky » mais aussi « le pharmaci<strong>en</strong> »), lorsqu’elles sont utilisées alors que l’accessibilité<br />

à l’antécéd<strong>en</strong>t est forte, indiqu<strong>en</strong>t une transition vers une nouvelle unité <strong>du</strong> discours.<br />

Les expressions nominales sont donc <strong>de</strong>s signaux <strong>de</strong> changem<strong>en</strong>t <strong>de</strong> thème lorsqu’elles<br />

sont employées alors que le contexte ne le nécessite pas (Fox 1984). Dans une <strong>de</strong> leurs<br />

expéri<strong>en</strong>ces, Vonk et al. (1992) ont <strong>de</strong>mandé à leurs participants d’écrire une suite à <strong>de</strong><br />

courtes histoires <strong>de</strong> <strong>de</strong>ux lignes mettant <strong>en</strong> scène un personnage. Dans l’une <strong>de</strong>s conditions<br />

expérim<strong>en</strong>tales, les chercheurs imposai<strong>en</strong>t aux participants d’écrire une suite <strong>en</strong> rupture ou<br />

<strong>en</strong> continuité thématique par rapport au début <strong>du</strong> texte. Ils ont observé que les ruptures<br />

<strong>de</strong> thème étai<strong>en</strong>t liées à l’emploi d’anaphores plus spécifiques que nécessaire, c’est-à-dire<br />

d’anaphores nominales. De plus, ils ont observé que lorsqu’il y a un changem<strong>en</strong>t <strong>de</strong> thème<br />

dans une narration, l’auteur a t<strong>en</strong>dance à employer soit une expression temporelle <strong>en</strong> début<br />

<strong>de</strong> phrase et un pronom soit un nom seul. Ils expliqu<strong>en</strong>t cette observation <strong>en</strong> sout<strong>en</strong>ant que<br />

la prés<strong>en</strong>ce d’un marqueur temporel <strong>de</strong> la segm<strong>en</strong>tation ré<strong>du</strong>it les chances d’observer une<br />

expression référ<strong>en</strong>tielle plus spécifique que nécessaire. Ils conclu<strong>en</strong>t donc qu’il n’y a pas<br />

d’emploi simultané <strong>de</strong> ces <strong>de</strong>ux dispositifs qui indiqu<strong>en</strong>t un changem<strong>en</strong>t <strong>de</strong> thème.<br />

Ces résultats ont été obt<strong>en</strong>us au travers d’une tâche relativem<strong>en</strong>t artificielle (imposer<br />

aux participants <strong>de</strong> pro<strong>du</strong>ire <strong>de</strong>s suites <strong>en</strong> continuité ou <strong>en</strong> rupture thématique). Dans la<br />

prés<strong>en</strong>te recherche, nous voulons déterminer si ce même emploi exclusif <strong>de</strong> ces <strong>de</strong>ux types<br />

<strong>de</strong> marqueurs peut être mis <strong>en</strong> évid<strong>en</strong>ce par une analyse <strong>de</strong> corpus.<br />

Le corpus<br />

Le corpus qui a été utilisé est composé <strong>de</strong> textes littéraires extraits <strong>de</strong>s bases ABU,<br />

Intratext et Wordthèque. Il conti<strong>en</strong>t 67 romans (<strong>du</strong> XIX e et XX e siècle) et approximativem<strong>en</strong>t<br />

4 300 000 mots. Les textes ont été découpés <strong>en</strong> phrases et lemmatisés au moy<strong>en</strong> <strong>du</strong> programme<br />

TreeTagger <strong>de</strong> Schmid (1994). Nous avons retiré <strong>du</strong> corpus les paragraphes qui<br />

cont<strong>en</strong>ai<strong>en</strong>t <strong>de</strong>s dialogues afin <strong>de</strong> focaliser les analyses sur l’emploi <strong>de</strong>s indicateurs <strong>de</strong> la<br />

structure <strong>du</strong> discours écrit.<br />

Expressions temporelles et paragraphe<br />

Dans un premier temps, nous avons employé une procé<strong>du</strong>re d’extraction d’expressions<br />

régulières pour sélectionner <strong>de</strong> manière automatique les phrases cont<strong>en</strong>ant une expression<br />

temporelle comme une date (le 4 janvier), une partie <strong>de</strong> journée (dès le matin), une indication<br />

d’heure (vers midi), un délai (une heure/semaine/année plus tard), etc. Au total, les<br />

Schedae, 2006, prépublication n°3, (<strong>fascicule</strong> n°1, p. 23-28).


phrases sélectionnées représ<strong>en</strong>t<strong>en</strong>t 3 % <strong>de</strong>s phrases <strong>de</strong> notre corpus. Nous avons classé ces<br />

phrases selon que l’expression temporelle est prés<strong>en</strong>te au début, au milieu ou <strong>en</strong> fin <strong>de</strong><br />

phrase. Ensuite, nous nous sommes intéressés au positionnem<strong>en</strong>t <strong>de</strong> ces phrases dans les<br />

paragraphes. Afin d’avoir un point <strong>de</strong> référ<strong>en</strong>ce, nous avons calculé le pourc<strong>en</strong>tage <strong>de</strong><br />

chance qu’a une phrase, cont<strong>en</strong>ant ou non une expression temporelle, d’arriver <strong>en</strong> tête <strong>de</strong><br />

paragraphe : ce pourc<strong>en</strong>tage est <strong>de</strong> 26 % 2 . Lorsqu’une phrase conti<strong>en</strong>t une expression temporelle,<br />

elle apparaît dans 38 % <strong>de</strong>s cas <strong>en</strong> tête <strong>de</strong> paragraphe. Ce pourc<strong>en</strong>tage masque<br />

une gran<strong>de</strong> disparité selon la position qu’occupe l’expression temporelle dans la phrase :<br />

51 % <strong>de</strong>s phrases intro<strong>du</strong>ites par une expression temporelle sont <strong>en</strong> début <strong>de</strong> paragraphe<br />

contre 37 % pour les phrases qui se termin<strong>en</strong>t par ce g<strong>en</strong>re d’expressions et 31 % lorsque<br />

l’expression est au milieu <strong>de</strong> la phrase. Cette observation confirme l’importance <strong>de</strong> la position<br />

initiale dans la phrase pour qu’une expression temporelle signale efficacem<strong>en</strong>t un changem<strong>en</strong>t<br />

thématique (Costermans & Bestg<strong>en</strong> 1991, Charolles 1997, Virtan<strong>en</strong> 1992).<br />

Nous avons égalem<strong>en</strong>t observé <strong>de</strong>s différ<strong>en</strong>ces <strong>en</strong>tre les types d’expressions temporelles<br />

prés<strong>en</strong>tes <strong>en</strong> début <strong>de</strong> phrase. En effet, certains types <strong>de</strong> marqueurs apparaiss<strong>en</strong>t<br />

beaucoup plus souv<strong>en</strong>t <strong>en</strong> tête <strong>de</strong> paragraphe (Chi2 (7) = 31.704, p < 0.0001), comme nous<br />

pouvons le constater dans le tableau ci-<strong>de</strong>ssous. 3<br />

Exemples <strong>de</strong>s types d’expressions temporelles Nombre <strong>de</strong> phrases <strong>en</strong><br />

tête <strong>de</strong> paragraphe<br />

Expressions référ<strong>en</strong>tielles et paragraphe<br />

Nombre <strong>de</strong> phrases<br />

non <strong>en</strong> tête <strong>de</strong><br />

paragraphe<br />

« le 1er juillet »… 41 19<br />

« le l<strong>en</strong><strong>de</strong>main »… 150 87<br />

« le soir », « l’avant-midi »… 200 214<br />

« vers 14 heures »… 79 88<br />

« une heure après », « <strong>de</strong>ux jours après »… 89 114<br />

« une heure/jour/mois plus tard »… 20 31<br />

« <strong>en</strong> 1975 »,… 7 11<br />

« <strong>en</strong> été » 3… 2 2<br />

Dans un second temps, nous nous sommes intéressés aux expressions référ<strong>en</strong>tielles<br />

prés<strong>en</strong>tes dans tous le corpus. Nous avons déterminé, au moy<strong>en</strong> d’une série d’heuristiques<br />

syntaxiques, quel était le sujet <strong>du</strong> premier verbe conjugué <strong>de</strong> chacune <strong>de</strong>s phrases. Puis,<br />

nous avons observé si les phrases dont le sujet est un syntagme avec un article indéfini, un<br />

déterminant possessif, etc. étai<strong>en</strong>t plus souv<strong>en</strong>t <strong>en</strong> tête <strong>de</strong> paragraphe ou pas. Les phrases<br />

dont le sujet est un nom propre ont 38 % <strong>de</strong> chances d’apparaître <strong>en</strong> début <strong>de</strong> paragraphe<br />

(contre 26 %, quelle que soit le sujet <strong>de</strong> la phrase). Les pronoms, à titre <strong>de</strong> comparaison,<br />

ont 21 % <strong>de</strong> chances d’apparaître <strong>en</strong> tête <strong>de</strong> paragraphe (Chi 2 (1) = 1437.2, p < 0.0001).<br />

Nous avons effectué ces mêmes calculs sur un sous <strong>en</strong>semble <strong>de</strong> notre corpus, à savoir,<br />

sur les phrases cont<strong>en</strong>ant une expression temporelle. Pour chaque position <strong>de</strong> l’expression<br />

temporelle dans la phrase (début, milieu, fin), nous avons égalem<strong>en</strong>t observé comm<strong>en</strong>t se<br />

distribuai<strong>en</strong>t les phrases selon leur sujet grammatical.<br />

Comme on peut le voir dans le tableau, seul le nom propre est plus souv<strong>en</strong>t le sujet<br />

d’une phrase <strong>en</strong> tête <strong>de</strong> paragraphe. Les sujets grammaticaux d’autres catégories apparaiss<strong>en</strong>t<br />

plus souv<strong>en</strong>t dans les phrases qui ne sont pas <strong>en</strong> tête <strong>de</strong> paragraphe, et ce, <strong>de</strong><br />

2. Cette valeur correspond à <strong>de</strong>s paragraphes d’<strong>en</strong> moy<strong>en</strong>ne 3,84 phrases.<br />

3. Comme cette catégorie rassemble peu d’occurr<strong>en</strong>ces, nous avons égalem<strong>en</strong>t calculé le Chi 2 sans celle-ci ;<br />

le Chi 2 reste toujours aussi significatif : Chi 2 (6) = 31.703, p < 0.0001.<br />

Schedae, 2006, prépublication n°3, (<strong>fascicule</strong> n°1, p.23-28).<br />

25


26<br />

Catégorie grammaticale <strong>du</strong> sujet <strong>du</strong> premier<br />

verbe conjugué d’une phrase cont<strong>en</strong>ant une<br />

expression temporelle<br />

manière statistiquem<strong>en</strong>t significative (Chi 2 (6) = 114.627, p = 0.001). Le nom propre fonctionne<br />

donc comme un marqueur <strong>de</strong> la structure. Cette constatation rejoint les observations<br />

<strong>de</strong> Hofmann (1989) et <strong>de</strong> Schne<strong>de</strong>cker (1997) pour lesquels l’« unité paragraphique »<br />

coïnci<strong>de</strong> avec d’autres traits linguistiques dont les syntagmes nominaux. Ceux-ci apparaiss<strong>en</strong>t<br />

aux points <strong>de</strong> fracture <strong>du</strong> texte. 4<br />

Expressions temporelles et expressions référ<strong>en</strong>tielles<br />

La <strong>de</strong>rnière analyse vise à répondre à notre question spécifique : l’emploi <strong>de</strong> marqueurs<br />

temporels <strong>en</strong> tête <strong>de</strong> paragraphe ré<strong>du</strong>it-il l’apparition d’expressions référ<strong>en</strong>tielles plus spécifiques<br />

comme un nom propre par rapport à un pronom. Selon cette thèse, on <strong>de</strong>vrait observer<br />

moins <strong>de</strong> noms propres sujets et plus <strong>de</strong> pronoms sujets lorsque l’expression temporelle<br />

est <strong>en</strong> tête <strong>de</strong> phrase et <strong>en</strong> tête <strong>de</strong> paragraphe ne vont pas dans ce s<strong>en</strong>s. Lorsque le marqueur<br />

temporel est <strong>en</strong> tête <strong>de</strong> phrase, on observe 175 noms propres sujets <strong>de</strong> phrases <strong>en</strong><br />

tête <strong>de</strong> paragraphe et 87 noms propres sujets <strong>de</strong> phrases qui ne sont pas <strong>en</strong> tête <strong>de</strong> paragraphe.<br />

D’autre part, on observe 127 pronoms sujets <strong>de</strong> phrases <strong>en</strong> tête <strong>de</strong> paragraphe et<br />

192 pronoms sujets <strong>de</strong> phrases qui ne sont pas <strong>en</strong> tête <strong>de</strong> paragraphe (Chi2 (1) = 41.96, p<br />

< 0.0001). En poussant plus loin l’analyse, on remarque égalem<strong>en</strong>t que le nom propre prés<strong>en</strong>t<br />

dans une phrase débutant par un marqueur temporel, est dans 58 % <strong>de</strong>s cas une reprise<br />

d’un nom propre cité dans les 10 phrases qui précéd<strong>en</strong>t. Il apparaît que l’utilisation d’un type<br />

<strong>de</strong> marqueurs <strong>de</strong> rupture comme les adverbiaux temporels n’empêche pas l’utilisation d’autres<br />

types <strong>de</strong> marques comme une expression référ<strong>en</strong>tielle plus spécifique, tel le nom propre,<br />

contrairem<strong>en</strong>t à l’idée avancée par Vonk et al. (1992). Ce résultat est <strong>en</strong> accord avec les<br />

observations faites par Hofmann (1989) et Schne<strong>de</strong>cker (1997). Les indices <strong>de</strong> segm<strong>en</strong>tation<br />

textuelle, comme la marque <strong>de</strong> paragraphe, in<strong>du</strong>is<strong>en</strong>t le lecteur à conclure le traitem<strong>en</strong>t d’un<br />

bloc d’information et à <strong>en</strong> initialiser un nouveau. Ce nouveau bloc peut débuter par différ<strong>en</strong>ts<br />

types d’expressions et parmi celles-ci, nous pouvons citer les marqueurs temporels.<br />

Cette opération implique une accessibilité moins importante <strong>de</strong>s <strong>en</strong>tités cont<strong>en</strong>ues dans le<br />

paragraphe qui vi<strong>en</strong>t d’être clôturé. Il est donc nécessaire d’utiliser <strong>de</strong>s marqueurs <strong>de</strong> plus<br />

faible accessibilité, comme les noms propres.<br />

Conclusion<br />

Cette recherche avait pour objectif d’étudier l’emploi simultané ou exclusif <strong>de</strong> <strong>de</strong>ux types<br />

d’expression qui signal<strong>en</strong>t une rupture thématique, à savoir les expressions temporelles et<br />

Schedae, 2006, prépublication n°3, (<strong>fascicule</strong> n°1, p. 23-28).<br />

Nombre <strong>de</strong> phrases <strong>en</strong><br />

tête <strong>de</strong> paragraphe<br />

cont<strong>en</strong>ant l’expression<br />

Nombre <strong>de</strong> phrases<br />

qui ne sont pas <strong>en</strong> tête<br />

<strong>de</strong> paragraphe<br />

cont<strong>en</strong>ant l’expression<br />

Déterminant défini + syntagme nominal 247 404<br />

Déterminant démonstratif + syntagme nominal 30 56<br />

Déterminant possessif + syntagme nominal 20 47<br />

Déterminant indéfini + syntagme nominal 65 113<br />

Nom propre 368 299<br />

Pronom personnel 307 712<br />

Autre4 271 492<br />

Total 1308 2123<br />

4. Cette catégorie repr<strong>en</strong>d les sujets grammaticaux qui ne sont pas repris dans les autres catégories, comme<br />

par exemple, le « on » impersonnel.


les anaphores nominales. Nous avons analysé, au moy<strong>en</strong> <strong>de</strong> procé<strong>du</strong>res automatiques, un<br />

corpus <strong>de</strong> textes littéraires. Nos résultats plaid<strong>en</strong>t pour une utilisation combinée <strong>de</strong> ces <strong>de</strong>ux<br />

types d’indices. Le caractère additif <strong>de</strong> ce type d’expressions dans le marquage <strong>de</strong> la segm<strong>en</strong>tation<br />

d’un texte confirme l’intérêt <strong>de</strong> développer <strong>de</strong> procé<strong>du</strong>res d’id<strong>en</strong>tification <strong>de</strong>s<br />

ruptures basées sur l’accumulation d’indices.<br />

Bibliographie<br />

CHAROLLES M. (1997), « L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours – univers, champs, domaines et espaces », Cahier <strong>de</strong><br />

recherche linguistique, 6, p. 1-73.<br />

COSTERMANS J. & BESTGEN Y. (1991), « The role of temporal markers in the segm<strong>en</strong>tation of narrative<br />

discourse », Cahiers <strong>de</strong> Psychologie Cognitive, 11, p. 349-370.<br />

FOX B.A. (1984), « Anaphora in popular writt<strong>en</strong> English narratives », in Coher<strong>en</strong>ce and grounding in<br />

discourse, R.S. Tomlin (éd.), 11 (Typological studies in language), Amsterdam, B<strong>en</strong>jamins.<br />

HOEY M. (2005), Lexical priming : a new theory of words and language, Londres, Routledge.<br />

HOFMANN T.R. (1989), « Paragraphs, & anaphora », Journal of Pragmatics, 13, p. 239-250.<br />

LAIGNELET M. (2004), Les titres et les cadres <strong>de</strong> discours temporels, Mémoire <strong>de</strong> DEA <strong>en</strong> Sci<strong>en</strong>ces <strong>du</strong><br />

langage, <strong>Université</strong> <strong>de</strong> Toulouse 2 – Le Mirail, 196 pages (dactyl.).<br />

LONGACRE R. E. (1979), « The paragraph as a grammatical unit », in Syntax and Semantics, 12 (Discourse<br />

and Syntax), T. Givón (éd.), New York, Aca<strong>de</strong>mic Press, p. 115-134.<br />

PIÉRARD S. & BESTGEN Y. (2005), « Deux indices pour l’étu<strong>de</strong> <strong>de</strong>s marqueurs <strong>de</strong> la continuité thématique<br />

dans <strong>de</strong> grands corpus », Communication prés<strong>en</strong>tée aux 4es journées <strong>de</strong> Linguistique <strong>de</strong> Corpus,<br />

<strong>Université</strong> <strong>de</strong> Bretagne-Sud, Septembre 2005.<br />

SCHMID H. (1994), « Probabilistic Part-of-speech tagging using <strong>de</strong>cision trees », in Proceedings of<br />

International Confer<strong>en</strong>ce on New Methods in Language Processing.<br />

SCHNEDECKER C. (1997), Nom propre et chaînes <strong>de</strong> référ<strong>en</strong>ce, Paris, Klincksieck.<br />

VIRTANEN T. (1992), Discourse functions of adverbial placem<strong>en</strong>t in English, Åbo, Åbo Aka<strong>de</strong>mi University<br />

Press.<br />

VONK W., HUSTINX L.G. & SIMONS W.H. (1992), « The use of refer<strong>en</strong>tial expressions in structuring<br />

discourse », Language and cognitive processes, 7, 3/4, p. 301-333.<br />

Schedae, 2006, prépublication n°3, (<strong>fascicule</strong> n°1, p.23-28).<br />

27


28<br />

Schedae, 2006, prépublication n°3, (<strong>fascicule</strong> n°1, p. 23-28).


Schedae, 2006<br />

Prépublication n° 4 Fascicule n° 1<br />

De l’altérité spatiale<br />

à l’organisation textuelle :<br />

la locution d’une part… d’autre part<br />

Sandrine Stein-Zintz<br />

<strong>Université</strong> Paul-Verlaine Metz,<br />

Ile <strong>du</strong> Saucy – 57000 Metz<br />

c<strong>en</strong>taurian@voila.fr<br />

Résumé :<br />

La locution adverbiale d’une part… d’autre part dont il est question dans cette étu<strong>de</strong> est très largem<strong>en</strong>t<br />

décrite so us l’angle <strong>de</strong> la série. Dans les faits, un certain nombre d’énoncés sont compatibles<br />

avec une analyse sérielle. Néanmoins, certaines configurations discursives dans lesquelles<br />

apparaît d’une part… d’autre part échapp<strong>en</strong>t à une telle analyse. Sans vouloir totalem<strong>en</strong>t remettre<br />

<strong>en</strong> cause le fonctionnem<strong>en</strong>t sériel <strong>de</strong> d’une part… d’autre part, nous aimerions montrer que<br />

cette locution nécessite pourtant un exam<strong>en</strong> qui va au-<strong>de</strong>là <strong>de</strong> ce type d’emplois.<br />

Mots-clés : organisateurs textuels, marqueurs d’intégration linéaire, série.<br />

Abstract :<br />

The fr<strong>en</strong>ch adverb d’une part… d’autre part is usually <strong>de</strong>scribed like a serial adverb. In fact, some<br />

examples seem to be compatible with a serial analysis. However, some discur configurations in<br />

wich appear d’une part… d’autre part can’t be <strong>de</strong>scribed with the notion of series. We would like<br />

to show that d’une part… d’autre part had to be analysed beyond its serial employem<strong>en</strong>ts.<br />

Keywords : fr<strong>en</strong>ch adverb, series.<br />

Intro<strong>du</strong>ction<br />

A. Auchlin (1981), dans le cadre d’une analyse sur les marqueurs <strong>de</strong> structuration <strong>de</strong> la<br />

conversation, est le premier à s’intéresser à la locution adverbiale d’une part… d’autre part<br />

qu’il baptise « marqueur d’intégration linéaire » 1 . G. Turco et D. Coltier (1988) feront <strong>de</strong>s MIL<br />

une catégorie <strong>de</strong> marqueurs linguistiques à part <strong>en</strong>tière qui, dis<strong>en</strong>t-ils, « accompagn<strong>en</strong>t l’énumération<br />

sans fournir <strong>de</strong> précision autre que le fait que le segm<strong>en</strong>t discursif qu’ils intro<strong>du</strong>is<strong>en</strong>t<br />

1. Désormais MIL.<br />

Sandrine Stein-Zintz<br />

« De l’altérité spatiale à l’organisation textuelle : la locution d’une part… d’autre part »<br />

Schedae, 2006, prépublication n°4, (<strong>fascicule</strong> n°1, p. 29-34).<br />

29


30<br />

est à intro<strong>du</strong>ire <strong>de</strong> façon linéaire dans la série » (1988 : 57). G. Turco et D. Coltier (1988) propos<strong>en</strong>t<br />

égalem<strong>en</strong>t un premier inv<strong>en</strong>taire <strong>de</strong> la catégorie <strong>de</strong>s MIL. Ils <strong>en</strong> dénombr<strong>en</strong>t quatre :<br />

<strong>de</strong>ux MIL dont l’origine morphosémantique est le lieu (d’une part… d’autre part et d’un<br />

côté… d’un autre côté), un MIL dont l’origine morphosémantique est le temps (d’abord…<br />

<strong>en</strong>suite… <strong>en</strong>fin) et un MIL dont l’origine morphosémantique est la numération (premièrem<strong>en</strong>t…<br />

<strong>de</strong>uxièmem<strong>en</strong>t… troisièmem<strong>en</strong>t).<br />

L’aspect sériel <strong>de</strong> d’une part… d’autre part sera par la suite très largem<strong>en</strong>t relayé.<br />

M. Nøjgaard (1992) <strong>en</strong> fait d’ailleurs une caractéristique ess<strong>en</strong>tielle, classant cette locution<br />

parmi ce qu’il nomme les « adverbes sériels corrélatifs ». Pourtant, nous n’avons à l’heure<br />

actuelle aucune <strong>de</strong>scription précise <strong>du</strong> type <strong>de</strong> série <strong>en</strong>cadrée par cette locution. Il s’agira<br />

pour nous <strong>de</strong> compléter ces travaux <strong>en</strong> nous interrogeant dans un premier temps sur les<br />

emplois <strong>de</strong> d’une part… d’autre part dans les configurations discursives sérielles. Dans un<br />

second temps, nous verrons qu’un certain nombre d’emplois <strong>de</strong> la locution échapp<strong>en</strong>t à<br />

une analyse <strong>en</strong> termes <strong>de</strong> série 2 .<br />

1. Un fonctionnem<strong>en</strong>t sériel…<br />

1.1. Taille <strong>de</strong> la configuration <strong>en</strong>cadrée par d’une part… d’autre part<br />

La locution d’une part… d’autre part <strong>en</strong>cadre au moins <strong>de</strong>ux constituants discursifs. La<br />

prés<strong>en</strong>ce <strong>de</strong> d’une part dans un énoncé crée <strong>en</strong> effet un s<strong>en</strong>tim<strong>en</strong>t d’att<strong>en</strong>te fort. Si cette<br />

att<strong>en</strong>te n’est pas comblée, le résultat est étrange :<br />

(1) ? J’aime bi<strong>en</strong> Pierre. D’une part, il est serviable.<br />

Il suffit <strong>de</strong> rétablir la <strong>de</strong>uxième partie <strong>de</strong> la locution pour r<strong>en</strong>dre cet énoncé acceptable :<br />

(2) J’aime bi<strong>en</strong> Pierre. D’une part, il est serviable. D’autre part, il est généreux.<br />

Il est égalem<strong>en</strong>t possible pour d’une part… d’autre part d’<strong>en</strong>cadrer une configuration discursive<br />

<strong>de</strong> plus <strong>de</strong> <strong>de</strong>ux élém<strong>en</strong>ts, <strong>en</strong> <strong>en</strong>trant <strong>en</strong> combinaison avec un autre MIL comme <strong>en</strong>fin.<br />

Dans l’exemple (3), sont énumérées trois raisons à la disparition <strong>de</strong>s costumes folkloriques :<br />

(3) L’essor <strong>de</strong> la confection in<strong>du</strong>strielle d’une part, celui <strong>de</strong>s communications <strong>de</strong> masse d’autre part,<br />

<strong>en</strong>fin la dynamique <strong>de</strong>s styles <strong>de</strong> vie et <strong>de</strong>s valeurs mo<strong>de</strong>rnes ont, <strong>en</strong> effet, <strong>en</strong>traîné non seulem<strong>en</strong>t<br />

la disparition <strong>de</strong>s multiples costumes régionaux folkloriques, mais aussi l’atténuation <strong>de</strong>s<br />

différ<strong>en</strong>tiations hétérogènes dans l’habillem<strong>en</strong>t […] (G. Lipovetsky 1987 dans Frantext)<br />

Les emplois <strong>de</strong> d’une part… d’autre part répond<strong>en</strong>t donc à une première contrainte<br />

numérique, permettant une analyse sous l’angle <strong>de</strong> la série : l’<strong>en</strong>cadrem<strong>en</strong>t d’au moins <strong>de</strong>ux<br />

constituants discursifs.<br />

1.2. Homogénéité <strong>de</strong> la configuration<br />

<strong>en</strong>cadrée par d’une part… d’autre part<br />

D’une part… d’autre part apparaît dans <strong>de</strong>s configurations caractérisées par une équival<strong>en</strong>ce<br />

<strong>de</strong>s segm<strong>en</strong>ts textuels mis <strong>en</strong> relation. Cette équival<strong>en</strong>ce est le résultat d’un fort<br />

parallélisme syntaxique mais égalem<strong>en</strong>t d’une homogénéité à la fois sémantique et énonciative.<br />

2. Cette étu<strong>de</strong> n’est pas à proprem<strong>en</strong>t parler une analyse <strong>de</strong> corpus. Nous avons néanmoins essayé <strong>de</strong> traiter<br />

un maximum d’exemples dont certains sont issus <strong>de</strong> la base textuelle Frantext. Par ailleurs, notre travail<br />

ne s’accompagne d’aucunes données numériques.<br />

Schedae, 2006, prépublication n°4, (<strong>fascicule</strong> n°1, p. 29-34).


Au plan syntaxique d’abord, on observe que les constituants mis <strong>en</strong> relation par d’une<br />

part… d’autre part relèv<strong>en</strong>t d’une même catégorie grammaticale, par exemple <strong>de</strong>s syntagmes<br />

prépositionnels dans (4), <strong>de</strong>s syntagmes nominaux dans (5) :<br />

(4) La perception <strong>de</strong>s performances <strong>de</strong> l’économie japonaise est largem<strong>en</strong>t biaisée par la t<strong>en</strong>tation<br />

d’une part, <strong>de</strong> la référ<strong>en</strong>ce historique, qui la confronte à ses propres succès passés, et, d’autre<br />

part, <strong>de</strong> la comparaison géographique, qui la mesure à l’aune <strong>de</strong> l’insol<strong>en</strong>te prospérité américaine<br />

(Le Mon<strong>de</strong> <strong>du</strong> 09.12.1997)<br />

(5) Elles (les constructions détachées) compr<strong>en</strong>n<strong>en</strong>t d’une part un GN, d’autre part un adjectif, un<br />

GP ou un participe prédicatif (Grammaire méthodique <strong>du</strong> français p. 192)<br />

Au plan énonciatif, d’une part… d’autre part articule <strong>de</strong>s constituants obligatoirem<strong>en</strong>t<br />

dans un rapport monologique. Cette locution ne peut pas <strong>en</strong>cadrer <strong>de</strong>ux constituants pro<strong>du</strong>its<br />

par <strong>de</strong>ux énonciateurs différ<strong>en</strong>ts (cf. Auchlin 1981 à ce propos) :<br />

(6) A : J’aime bi<strong>en</strong> Pierre. D’une part, il est serviable.<br />

?? B : D’autre part, il est généreux<br />

Quant à l’homogénéité sémantique <strong>de</strong>s constituants <strong>en</strong>cadrés par d’une part… d’autre<br />

part, elle peut se manifester <strong>de</strong> différ<strong>en</strong>tes façons. Dans l’exemple suivant, c’est la répétition<br />

<strong>du</strong> substantif cotisation qui assure l’id<strong>en</strong>tité sémantique :<br />

(7) Les charges <strong>de</strong> la section <strong>de</strong>s salariés sont couvertes, d’une part, par les cotisations proportionnelles<br />

à l’<strong>en</strong>semble <strong>de</strong>s rémunérations […] et d’autre part, par les cotisations et ressources<br />

affectées aux prestations familiales (La réforme <strong>de</strong> la sécurité sociale 1968 dans Frantext)<br />

L’homogénéité sémantique peut égalem<strong>en</strong>t être garantie par un élém<strong>en</strong>t prés<strong>en</strong>t dans<br />

le cotexte gauche <strong>de</strong> la locution, un élém<strong>en</strong>t baptisé classifieur, à l’origine d’une « idée fédératrice<br />

» (Jackiewicz 2003 : 4). Dans l’exemple (8), c’est le substantif raison qui joue le rôle<br />

<strong>de</strong> classifieur. Accompagné <strong>de</strong> l’adjectif numéral <strong>de</strong>ux il nous r<strong>en</strong>seigne sur la longueur et<br />

l’homogénéité <strong>de</strong> la série, composée <strong>de</strong>s <strong>de</strong>ux raisons expliquant pourquoi le locuteur aime<br />

Pierre :<br />

(8) J’aime Pierre pour <strong>de</strong>ux raisons. D’une part il est serviable, d’autre part il est généreux.<br />

2. … partiellem<strong>en</strong>t remis <strong>en</strong> question<br />

Pourtant, malgré la compatibilité <strong>de</strong> d’une part… d’autre part avec les configurations<br />

discursives sérielles, certains élém<strong>en</strong>ts nous montr<strong>en</strong>t qu’il faut approfondir l’analyse <strong>de</strong> cette<br />

locution, dont le fonctionnem<strong>en</strong>t est plus complexe qu’il n’y paraît.<br />

2.1. Une configuration dont la longueur est limitée<br />

Si d’une part… d’autre part peut participer à la mise <strong>en</strong> relation <strong>de</strong> plus <strong>de</strong> <strong>de</strong>ux constituants<br />

discursifs, <strong>en</strong> s’associant avec un autre MIL, ce type <strong>de</strong> configuration est pourtant<br />

contraint. Les configurations auxquelles particip<strong>en</strong>t d’une part… d’autre part sembl<strong>en</strong>t <strong>en</strong><br />

effet être limitées à trois élém<strong>en</strong>ts : nous n’avons trouvé aucun exemple dans lequel d’une<br />

part… d’autre part participe à une configuration discursive composée <strong>de</strong> quatre élém<strong>en</strong>ts<br />

(ou plus). Il s’agit d’une caractéristique qui distingue d’une part… d’autre part <strong>de</strong>s adverbiaux<br />

ordinaux, susceptibles <strong>de</strong> se « multiplier à l’infini » (Nøjggard 1992 : 246). C. Schne<strong>de</strong>cker<br />

(2001) note cep<strong>en</strong>dant que « dans la pratique, les séries (d’adverbes ordinaux) sont pourtant<br />

limitées à un maximum <strong>de</strong> quatre unités […]. Au-<strong>de</strong>là, il semble qu’on leur préfère les<br />

chiffres » (Schne<strong>de</strong>cker 2001 :282).<br />

Schedae, 2006, prépublication n°4, (<strong>fascicule</strong> n°1, p. 29-34).<br />

31


32<br />

2.2. Une configuration non ordonnée<br />

Les combinaisons <strong>en</strong>tre MIL attest<strong>en</strong>t d’une part d’une souplesse d’emploi, d’autre part<br />

<strong>de</strong> l’homogénéité <strong>de</strong> cette catégorie d’organisateurs textuels. Nous l’avons vu supra, d’une<br />

part… d’autre part se combine avec <strong>en</strong>fin 3 . Cette souplesse se manifeste égalem<strong>en</strong>t dans<br />

les possibilités <strong>de</strong> permutation d’une partie <strong>de</strong> la locution avec un autre MIL. Par exemple,<br />

d’une part peut être associé, non pas à d’autre part, mais à d’un autre côté :<br />

(9) Si elle manque à ce point d’humour, <strong>de</strong> t<strong>en</strong>dresse, <strong>de</strong> poésie, c’est tout bonnem<strong>en</strong>t, d’une part,<br />

qu’elle a pour unique objet l’intelligible, et que, d’un autre côté, l’intelligible, n’est ni amusant,<br />

ni émouvant, ni poétique (Brémond 1926 dans Frantext).<br />

Une contrainte pèse cep<strong>en</strong>dant sur ces possibilités <strong>de</strong> permutation : d’une part ne<br />

semble pas pouvoir <strong>en</strong>trer dans une configuration dans laquelle d’autre part est remplacé<br />

par adverbial ordinal. Cette contrainte pèse égalem<strong>en</strong>t sur d’une part qui permute difficilem<strong>en</strong>t<br />

avec premièrem<strong>en</strong>t :<br />

(10) ? J’aime bi<strong>en</strong> Pierre : premièrem<strong>en</strong>t il est serviable, d’autre part il est généreux.<br />

(11) ? J’aime bi<strong>en</strong> Pierre : d’une part il est serviable, <strong>de</strong>uxièmem<strong>en</strong>t il est généreux.<br />

Il s’agit d’une différ<strong>en</strong>ce importante <strong>en</strong>tre d’une part… d’autre part et les autres MIL :<br />

seuls les MIL premièrem<strong>en</strong>t… <strong>de</strong>uxièmem<strong>en</strong>t et d’abord… <strong>en</strong>suite… <strong>en</strong>fin sembl<strong>en</strong>t pouvoir<br />

ordonner une configuration discursive. D’une part… d’autre part se rapproche ici d’un<br />

autre MIL, d’un côté… d’un autre côté qui prés<strong>en</strong>te les mêmes restrictions d’emploi : on ne<br />

peut pas remplacer d’un côté ou d’un autre côté par un adverbial ordinal.<br />

2.3. Une homogénéité sémantique non imposée<br />

Certains exemples échapp<strong>en</strong>t à l’homogénéité sémantique qui caractérisait les énoncés<br />

(7) et (8). Dans l’exemple suivant, d’une part est associé, non pas à d’autre part, mais à<br />

l’adverbe inversem<strong>en</strong>t :<br />

(12) Si, d’une part, le sémiologue est toujours vigilant <strong>de</strong>rrière le chroniqueur d’actualité (dont les<br />

articles sont <strong>de</strong> véritables travaux <strong>de</strong> sémiotique qui relèv<strong>en</strong>t <strong>de</strong> ce que l’on pourrait appeler<br />

une sémiotique militante, <strong>en</strong>gagée), inversem<strong>en</strong>t, on voit poindre l’humour concret et l’ironie<br />

caustique <strong>du</strong> polémiste dans les recherches théoriques <strong>du</strong> sémiologue (cité par Turco & Coltier<br />

1988 : 69).<br />

Il est difficile d’analyser <strong>de</strong> type d’exemple sous l’angle <strong>de</strong> la série : le cont<strong>en</strong>u sémantique<br />

<strong>de</strong>s constituants <strong>en</strong>cadrés n’est pas dans une relation d’id<strong>en</strong>tité, mais plutôt dans une<br />

relation d’opposition : la vigilance <strong>du</strong> sémiologue opposée à l’humour et l’ironie <strong>du</strong> polémiste.<br />

Ici, d’une part et inversem<strong>en</strong>t permut<strong>en</strong>t facilem<strong>en</strong>t avec d’un côté… d’un autre côté, qui<br />

n’impose pas une id<strong>en</strong>tité sémantique <strong>en</strong>tre les constituants mis <strong>en</strong> relation. À l’inverse, d’une<br />

part et inversem<strong>en</strong>t ne peuv<strong>en</strong>t pas permuter avec premièrem<strong>en</strong>t… <strong>de</strong>uxièmem<strong>en</strong>t.<br />

Cette abs<strong>en</strong>ce d’homogénéité sémantique s’observe égalem<strong>en</strong>t pour les emplois <strong>de</strong><br />

d’une part associé à d’autre part. Dans l’exemple (13), les verbes nourrir et atrophier sont<br />

dans une relation sémantique d’antonymie :<br />

(13) Elle (la culture <strong>de</strong> masse) fantomalise le spectateur, projette son esprit dans la pluralité <strong>de</strong>s univers<br />

imagés ou imaginaires, fait essaimer son âme dans les innombrables doubles qui viv<strong>en</strong>t<br />

pour lui… D’une part, la culture <strong>de</strong> masse nourrit la vie, d’autre part, elle atrophie la vie (Lipovetsky<br />

1987 dans Frantext).<br />

3. Nous limitons notre propos à d’une part… d’autre part. Il est cep<strong>en</strong>dant important <strong>de</strong> noter que les possibilités<br />

<strong>de</strong> combinaisons caractéris<strong>en</strong>t tous les MIL (cf. Turco & Coltier 1988)<br />

Schedae, 2006, prépublication n°4, (<strong>fascicule</strong> n°1, p. 29-34).


Conclusions<br />

La locution adverbiale d’une part… d’autre part peut <strong>en</strong>trer dans <strong>de</strong>s configurations<br />

discursives sérielles : elle <strong>en</strong>cadre au moins <strong>de</strong>ux constituants discursifs dans une relation<br />

d’équival<strong>en</strong>ce (énonciative, sémantique, syntaxique). Pourtant, ce fonctionnem<strong>en</strong>t sériel<br />

soulève un certain nombre <strong>de</strong> questions. Tout d’abord une question d’ordre numérique : la<br />

longueur <strong>de</strong> la série à laquelle participe d’une part… d’autre part semble <strong>en</strong> effet être limitée<br />

à un maximum <strong>de</strong> trois élém<strong>en</strong>ts. Ensuite, d’une part… d’autre part n’ordonne pas la<br />

configuration à laquelle cette locution participe : peut-on, dans ce cas, <strong>en</strong>core parler <strong>de</strong><br />

série ? Si l’on se base sur les travaux réc<strong>en</strong>ts <strong>en</strong> traitem<strong>en</strong>t automatique <strong>de</strong>s textes, l’ordre<br />

est pourtant une caractéristique ess<strong>en</strong>tielle <strong>de</strong>s configurations sérielles. L’insertion <strong>de</strong> la<br />

locution dans une configuration sérielle n’est d’ailleurs pas une contrainte d’emploi. C’est<br />

ce qu’indiqu<strong>en</strong>t par exemple les <strong>de</strong>rniers énoncés examinés, qui exclu<strong>en</strong>t totalem<strong>en</strong>t une<br />

analyse sérielle, l’homogénéité sémantique n’étant pas respectée. Pourtant, dans tous ses<br />

emplois, la locution d’une part… d’autre part témoigne d’un fonctionnem<strong>en</strong>t binaire : c’est<br />

seulem<strong>en</strong>t sous certaines conditions qu’elle peut participer à <strong>de</strong>s configurations discursives<br />

sérielles.<br />

L’apport sémantique <strong>de</strong> autre explique ce fonctionnem<strong>en</strong>t avant tout binaire : autre<br />

implique l’exist<strong>en</strong>ce d’un premier élém<strong>en</strong>t. Cet aspect rétroactif <strong>de</strong> autre fonctionne parfaitem<strong>en</strong>t<br />

dans d’une part… d’autre part, même s’il s’agit d’une locution figée. D’autre part<br />

est <strong>en</strong> effet associé à d’une part que l’on retrouve dans le cotexte gauche. Même si les possibilités<br />

<strong>de</strong> combinaison <strong>en</strong>tre MIL permett<strong>en</strong>t la substitution <strong>de</strong> d’une part par un autre<br />

MIL, le fonctionnem<strong>en</strong>t rétroactif <strong>de</strong> d’autre part n’est pas remis <strong>en</strong> question. C’est égalem<strong>en</strong>t<br />

le cas quand d’autre part est employé <strong>de</strong> façon isolée, sans d’une part ou un autre<br />

organisateur textuel : le fonctionnem<strong>en</strong>t binaire est toujours activé, pour preuve, l’impossibilité<br />

pour d’autre part d’initier un énoncé. Mais il ne faudrait pas oublier l’apport sémantique<br />

<strong>de</strong> part : part signifiait côté <strong>en</strong> anci<strong>en</strong> français. Ce s<strong>en</strong>s originel locatif ne survit que<br />

dans un certain nombre <strong>de</strong> locutions adverbiales figées, par exemple <strong>de</strong> toutes parts, <strong>de</strong><br />

part <strong>en</strong> part. Cette origine spatiale explique d’ailleurs la proximité <strong>de</strong> d’une part… d’autre<br />

part avec la locution d’un côté… d’un autre côté : comme pour d’une part… d’autre part,<br />

l’analyse <strong>de</strong> d’un côté… d’un autre côté <strong>en</strong> termes <strong>de</strong> série pose problème. Mais, alors que<br />

d’une part… d’autre part peut participer à une configuration discursive sérielle, cette possibilité<br />

semble tout à fait exclue pour d’un côté… d’un autre côté, ess<strong>en</strong>tiellem<strong>en</strong>t à cause<br />

<strong>de</strong> l’opposition que cette locution exprime, incompatible avec le caractère homogène d’une<br />

série.<br />

Bibliographie<br />

AUCHLIN A. (1981), « Réflexions sur les marqueurs <strong>de</strong> structuration <strong>de</strong> la conversation », Étu<strong>de</strong>s <strong>de</strong> linguistique<br />

appliquée, 44, p. 88-103.<br />

JACKIEWICZ A. & MINEL J-L. (2003), « L’id<strong>en</strong>tification <strong>de</strong>s structures discursives <strong>en</strong>g<strong>en</strong>drées par les cadres<br />

organisationnels », TALN, 1, p. 155-164.<br />

NØJGAARD M. (1992), Les adverbes <strong>du</strong> français : essai <strong>de</strong> <strong>de</strong>scription fonctionnelle, Historisk-filosofiske<br />

Med<strong>de</strong>lelser, 66, 1.<br />

SCHNEDECKER C. (1998), « Les corrélats anaphoriques : une <strong>en</strong>trée <strong>en</strong> matière », Recherches linguistiques,<br />

22, p. 3-36.<br />

SCHNEDECKER C. (2001), « Adverbes ordinaux et intro<strong>du</strong>cteurs <strong>de</strong> cadre », Lingvisticae Investigationes, 2,<br />

24, p. 257-287.<br />

TURCO G. & COLTIER D. (1988), «Des ag<strong>en</strong>ts doubles <strong>de</strong> l’organisation textuelle, les marqueurs d’intégration<br />

linéaire », Pratiques, 57, p. 57-79.<br />

Schedae, 2006, prépublication n°4, (<strong>fascicule</strong> n°1, p. 29-34).<br />

33


34<br />

Schedae, 2006, prépublication n°4, (<strong>fascicule</strong> n°1, p. 29-34).


Schedae, 2006<br />

Prépublication n° 5 Fascicule n° 1<br />

The use of sequ<strong>en</strong>cers in aca<strong>de</strong>mic writing:<br />

a comparative study of Fr<strong>en</strong>ch and English<br />

Susanne Hempel & Liesbeth Degand<br />

<strong>Université</strong> catholique <strong>de</strong> Louvain<br />

Abstract:<br />

This paper pres<strong>en</strong>ts the results of a parametric and frequ<strong>en</strong>cy analysis of discourse structuring<br />

<strong>de</strong>vices in writt<strong>en</strong> texts. We pres<strong>en</strong>t a typology of organisational metadiscourse markers and<br />

examine one specific category of these markers – sequ<strong>en</strong>cers - in more <strong>de</strong>tail (Jackiewicz 2002,<br />

2003). A manual corpus analysis, allying <strong>de</strong>scriptive and quantitative analyses, gives a <strong>de</strong>tailed<br />

picture of how sequ<strong>en</strong>cers are used in the specific g<strong>en</strong>re of aca<strong>de</strong>mic writing by native authors<br />

of Fr<strong>en</strong>ch and English.<br />

Keywords: comparative study, organisational metadiscourse markers, corpus analysis,<br />

text pro<strong>du</strong>ction.<br />

Résumé:<br />

Ce travail prés<strong>en</strong>te les résultats d’une analyse paramétrique et fréqu<strong>en</strong>tielle d’élém<strong>en</strong>ts linguistiques<br />

structurant <strong>de</strong>s textes écrits. Nous établissons une typologie <strong>de</strong> marqueurs organisationnels<br />

métadiscursifs, ainsi qu’une <strong>de</strong>scription détaillée d’une catégorie <strong>de</strong> ces marqueurs – les<br />

séqu<strong>en</strong>ceurs (Jackiewicz 2002, 2003). Par une analyse <strong>de</strong> corpus manuelle, alliant analyse <strong>de</strong>scriptive<br />

et quantitative (Degand & Bestg<strong>en</strong> 2004), nous réalisons une étu<strong>de</strong> comparative <strong>de</strong> l’emploi<br />

<strong>de</strong>s séqu<strong>en</strong>ceurs <strong>en</strong> anglais et <strong>en</strong> français dans le g<strong>en</strong>re spécifique <strong>de</strong>s textes académiques.<br />

Mots-clés: étu<strong>de</strong> comparative, marqueurs organisationnels métadiscursifs, analyse <strong>de</strong><br />

corpus, pro<strong>du</strong>ction <strong>de</strong> texte.<br />

The primary objective of our paper is to analyse how textual organisation works on the<br />

metadiscourse level. To do this, we pres<strong>en</strong>t a <strong>de</strong>scriptive corpus analysis of one specific<br />

type of text structuring <strong>de</strong>vices, namely sequ<strong>en</strong>cers, in two differ<strong>en</strong>t languages (Fr<strong>en</strong>ch and<br />

English) and their actual use in the g<strong>en</strong>re of aca<strong>de</strong>mic writing.<br />

Consi<strong>de</strong>r the following examples:<br />

1 “Les s<strong>en</strong>tim<strong>en</strong>ts ont été classés selon <strong>de</strong>ux critères. D'une part, leur structure<br />

actantielle: ego passif, réflexif, actif sur un ou plusieurs congénères ou objets;<br />

d'autre part, le taxème où ils sont in<strong>de</strong>xés.” (Fr<strong>en</strong>ch_Aca<strong>de</strong>mic)<br />

2 “Since the union organisations are part of PRI, they have a <strong>du</strong>al function: firstly,<br />

as a pressure group lobbying for a greater share of social b<strong>en</strong>efits for labour;<br />

secondly, as an apparatus of political control of the working class.” (BNC World<br />

Edition)<br />

Susanne Hempel & Liesbeth Degand<br />

« The use of sequ<strong>en</strong>cers in aca<strong>de</strong>mic writing: a comparative study of Fr<strong>en</strong>ch and English »<br />

Schedae, 2006, prépublication n°5, (<strong>fascicule</strong> n°1, p. 35-40).<br />

35


36<br />

In both examples, the i<strong>de</strong>ational cont<strong>en</strong>t of the text is structured by linguistic items (d’une<br />

part/ d’autre part; firstly/ secondly). These sequ<strong>en</strong>cing <strong>de</strong>vices are items belonging to the<br />

domain of textual metadiscourse, whose function is to allow the un<strong>de</strong>rstanding of the primary<br />

message by making explicit the organisational structure of the propositional cont<strong>en</strong>t (Hyland<br />

1998). Building our conception of metadiscourse on Hyland’s typology 1 , we focus on his<br />

category of frame markers as they best repres<strong>en</strong>t what we call organisational metadiscourse<br />

markers. A further categorisation of these markers has be<strong>en</strong> <strong>de</strong>veloped: Our new subdivision<br />

consists of sequ<strong>en</strong>cers (elem<strong>en</strong>ts used to intro<strong>du</strong>ce a sequ<strong>en</strong>ce in the discourse), topicalisers<br />

(elem<strong>en</strong>ts indicating the intro<strong>du</strong>ction of a new subject), illocution markers (elem<strong>en</strong>ts<br />

indicating the illocutionary act the writer has be<strong>en</strong> realising in the discourse) and reviews/<br />

previews (elem<strong>en</strong>ts anticipating or repeating a stage in the discourse).<br />

Our un<strong>de</strong>rstanding of sequ<strong>en</strong>cers is based on the theoretical framework of discourse and<br />

cognition proposed by Charolles (1997) and on the methodological outline of MIL (marqueurs<br />

d’intégration linéaires) <strong>de</strong>scribed by Jackiewicz (2002). Following these authors’ approach,<br />

sequ<strong>en</strong>cers can be classified into three types: spatial sequ<strong>en</strong>cers (linguistic elem<strong>en</strong>ts relative<br />

to space), temporal sequ<strong>en</strong>cers (intro<strong>du</strong>cing a temporal sequ<strong>en</strong>ce) and numerical sequ<strong>en</strong>cers<br />

(elem<strong>en</strong>ts relative to <strong>en</strong>umeration).<br />

The series of a sequ<strong>en</strong>ce follow certain structural parameters. We <strong>de</strong>fined a refer<strong>en</strong>ce<br />

structure of a sequ<strong>en</strong>ce, drawing both on the analysis of some instances of these structures and<br />

on the study of differ<strong>en</strong>t theoretical mo<strong>de</strong>ls, notably the one by Jackiewicz & Minel (2003).<br />

– A typical sequ<strong>en</strong>ce has to be intro<strong>du</strong>ced by an intro<strong>du</strong>ctory phrase, clearly stating the<br />

main fe<strong>de</strong>rative i<strong>de</strong>a with the help of a quantifier and a classifier. The intro<strong>du</strong>ctory phrase<br />

can be a separate phrase before the organisational frame, it can be a proposition at the<br />

head of the same phrase containing the sequ<strong>en</strong>cer, or it can be situated after the several<br />

series of the sequ<strong>en</strong>ce;<br />

– Each series constitutes an organisational frame, and each organisational frame has to<br />

be op<strong>en</strong>ed explicitly by a sequ<strong>en</strong>cer, or implicitly by another linguistic item which signposts<br />

the beginning of its series;<br />

– The sequ<strong>en</strong>cers are organised as follows: the first sequ<strong>en</strong>cer is the ‘indicator’, followed<br />

by the ‘intermediate’ sequ<strong>en</strong>cer and the ‘closing sequ<strong>en</strong>cer’. If there are only two sequ<strong>en</strong>cers<br />

in a sequ<strong>en</strong>ce, the last sequ<strong>en</strong>cer automatically makes up the ‘closing sequ<strong>en</strong>cer’;<br />

– A sequ<strong>en</strong>ce should prefer<strong>en</strong>tially be homog<strong>en</strong>eous; it is not homog<strong>en</strong>eous if it contains<br />

constitu<strong>en</strong>ts belonging to two differ<strong>en</strong>t series, if the sequ<strong>en</strong>ce is incomplete or not explicitly<br />

closed, or if the sequ<strong>en</strong>ce pres<strong>en</strong>ts a certain variability concerning the classifier;<br />

– A minimal sequ<strong>en</strong>ce should be two-fold, but there is no restriction as to a maximum of<br />

series in a sequ<strong>en</strong>ce;<br />

– The sequ<strong>en</strong>cers are in<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t of the propositional cont<strong>en</strong>t of the phrase, and as such<br />

are supposed to be mostly placed at the beginning of the s<strong>en</strong>t<strong>en</strong>ce, either without or<br />

before a punctuation marker;<br />

– The scope of the indivi<strong>du</strong>al sequ<strong>en</strong>cers can be on an intra-s<strong>en</strong>t<strong>en</strong>tial level, or on an inters<strong>en</strong>t<strong>en</strong>tial<br />

level;<br />

– Another sequ<strong>en</strong>ce can be embed<strong>de</strong>d in the main sequ<strong>en</strong>ce, and if this is the case, the<br />

same structural parameters apply to it.<br />

I<strong>de</strong>ally, following these parameters, a sequ<strong>en</strong>ce should look like this:<br />

1. Hyland’s taxonomy of textual metadiscourse is five-fold, containing transitions, frame markers, <strong>en</strong>dophoric<br />

markers and co<strong>de</strong> glosses (Hyland 1998).<br />

Schedae, 2006, prépublication n°5, (<strong>fascicule</strong> n°1, p. 35-40).


3 He gives three main reasons for his doubts –<br />

• Firstly, he could not reconcile his own experi<strong>en</strong>ce with the <strong>de</strong>scriptions<br />

of conversion giv<strong>en</strong> in books on the subject, such as Rep<strong>en</strong>tance by<br />

William Perkins;<br />

• Secondly, he was disturbed by the fact that spiritual truths didn’t stir his<br />

emotions or grip his imagination as Perkins;<br />

• Thirdly, he was concerned about the possibility that his faith was merely<br />

an intellectual un<strong>de</strong>rstanding coupled with a fear of God, and that he<br />

was not truly reg<strong>en</strong>erate. (BNC World Edition).<br />

In a preceding corpus analysis of English (Hempel & Degand 2005), the actual use of<br />

sequ<strong>en</strong>cers has be<strong>en</strong> analysed with respect to this refer<strong>en</strong>ce mo<strong>de</strong>l. We <strong>de</strong>rived a <strong>de</strong>tailed<br />

picture of how native authors use sequ<strong>en</strong>cers in their texts, and how they are distributed<br />

among differ<strong>en</strong>t text g<strong>en</strong>res. The results showed that the actual use of sequ<strong>en</strong>cers does not<br />

correspond to the prescription of manuals for L1 writers. While such gui<strong>de</strong>s urge them to use<br />

structuring <strong>de</strong>vices in or<strong>de</strong>r to be more coher<strong>en</strong>t and recomm<strong>en</strong>d homog<strong>en</strong>eous/ complete<br />

series of metadiscourse markers, concrete texts do not apply those rules. Furthermore, writers<br />

are obviously not precise wh<strong>en</strong> using specific series of sequ<strong>en</strong>cers and complete sequ<strong>en</strong>ces.<br />

Moreover, g<strong>en</strong>re proved to be a <strong>de</strong>cisive factor concerning the choice of structuring <strong>de</strong>vices.<br />

Our hypothesis that aca<strong>de</strong>mic writing is the g<strong>en</strong>re the most structured by metadiscourse<br />

markers proved to be right. We are therefore interested in a comparative study of how<br />

sequ<strong>en</strong>cers are used in this specific g<strong>en</strong>re, both in English and Fr<strong>en</strong>ch.<br />

The methodology we used to con<strong>du</strong>ct our study consists in a parametric and statistical<br />

analysis of the giv<strong>en</strong> corpus data (Degand & Bestg<strong>en</strong> 2004, Pit 2003, Pan<strong>de</strong>r Maat & Degand<br />

2001, Spoor<strong>en</strong>, San<strong>de</strong>rs, Huiskes, Degand, in press). It allows us to combine a quantitative<br />

approach – or more precisely, a frequ<strong>en</strong>cy analysis – with a qualitative one – that is to say,<br />

a parametric analysis of our data. This method is situated on a continuum where “intuition<br />

and data collection work hand in hand” (Partington 1998: 1): betwe<strong>en</strong> a strictly <strong>de</strong><strong>du</strong>ctive<br />

approach, exclusively relying on the researcher’s intuition as a native speaker, and a strictly<br />

in<strong>du</strong>ctive approach, exclusively foun<strong>de</strong>d on the linguistic facts. The corpus we used for the<br />

pres<strong>en</strong>t study in English is a sub-corpus of aca<strong>de</strong>mic writing of 28 421 624 words, retrieved<br />

from the BNC. The Fr<strong>en</strong>ch corpus (1 380 956 words) is an assembly of freely available online<br />

papers, stemming from three sources: the publications from IFRI, and from the online journals<br />

Methodos and Texto 2 .<br />

The results of our frequ<strong>en</strong>cy analysis show how the chos<strong>en</strong> sequ<strong>en</strong>cers are distributed<br />

among the two languages. As our corpora were not of equal size, it was necessary to apply<br />

a coeffici<strong>en</strong>t to harmonise results over one million words (Table 1).<br />

FRENCH 1 380 956 ENGLISH 28 421 624<br />

occurr<strong>en</strong>ces /1 000 000 /1 000 000 occurr<strong>en</strong>ces<br />

D’une part 146 105,72 15,66 445 On the one hand<br />

D’autre part 133 96,31 52,04 1479 On the other hand<br />

Premièrem<strong>en</strong>t 29 21,00 18,19 517 Firstly<br />

Deuxièmem<strong>en</strong>t 28 20,28 31,49 895 Secondly<br />

Troisièmem<strong>en</strong>t 7 5,07 9,53 271 Thirdly<br />

D’abord 243 175,97 11,65 331 At first<br />

Ensuite 210 152,07 143,83 4088 Th<strong>en</strong><br />

Enfin 523 378,72 62,87 1787 Finally<br />

Table 1: Frequ<strong>en</strong>cy Analysis.<br />

2. We would like to thank Lydia-Mai Ho-Dac (University of Toulouse) and Paula Chesley (University at Buffalo)<br />

for making these data available to us.<br />

Schedae, 2006, prépublication n°5, (<strong>fascicule</strong> n°1, p. 35-40).<br />

37


38<br />

As we can see, there is a differ<strong>en</strong>ce in Fr<strong>en</strong>ch and in English concerning the homog<strong>en</strong>eous<br />

use of sequ<strong>en</strong>cers. In Fr<strong>en</strong>ch, the spatial sequ<strong>en</strong>ce d’une part/ d’autre part is used<br />

in a homog<strong>en</strong>eous way, the indicator d’une part co-occuring quasi systematically with the<br />

closing sequ<strong>en</strong>ce d’autre part, whereas in English, the un<strong>de</strong>r-use of the indicator (on the<br />

one hand) is appar<strong>en</strong>t. The same differ<strong>en</strong>ce has be<strong>en</strong> noticed with the numerical sequ<strong>en</strong>ce,<br />

whose chronological or<strong>de</strong>r is respected in Fr<strong>en</strong>ch, but not in English. And as to the temporal<br />

sequ<strong>en</strong>ce, English again shows an un<strong>de</strong>r-use of the indicator wh<strong>en</strong> compared to Fr<strong>en</strong>ch.<br />

It can be said that in Fr<strong>en</strong>ch, the sequ<strong>en</strong>ces seem to be more homog<strong>en</strong>eous or complete<br />

than in English, wh<strong>en</strong> consi<strong>de</strong>ring the amount of indicators and intermediate sequ<strong>en</strong>cers.<br />

Our parametric study yiel<strong>de</strong>d interesting results as well (Table 2). It can be observed<br />

that the use of the three sequ<strong>en</strong>cer types is principally similar in both languages. Minor differ<strong>en</strong>ces<br />

concern the intro<strong>du</strong>ction of a sequ<strong>en</strong>ce by a preceding phrase, s<strong>en</strong>t<strong>en</strong>tial scope,<br />

complet<strong>en</strong>ess and the number of series in a sequ<strong>en</strong>ce. However, a major differ<strong>en</strong>ce has<br />

be<strong>en</strong> noticed concerning syntax: it appears that English authors make use of a bigger variety<br />

of syntactic position in their texts. As to spatial sequ<strong>en</strong>cers, they also show a bigger variety<br />

of the position of punctuation markers than in Fr<strong>en</strong>ch. This un<strong>de</strong>r-use of syntactic possibilities<br />

in Fr<strong>en</strong>ch seems odd, especially if one consi<strong>de</strong>rs the relative liberty in Fr<strong>en</strong>ch syntax. As it<br />

seems easier to juggle with the syntactic position of metadiscourse markers in Fr<strong>en</strong>ch, a concrete<br />

study in text pro<strong>du</strong>ction has to be un<strong>de</strong>rtak<strong>en</strong>. This result confirms the observation in<br />

our frequ<strong>en</strong>cy analysis, namely that Fr<strong>en</strong>ch authors apply the parameters of our refer<strong>en</strong>ce<br />

mo<strong>de</strong>l more rigorously than English authors, and t<strong>en</strong>d to pro<strong>du</strong>ce more complete sequ<strong>en</strong>ces.<br />

Sequ<strong>en</strong>cer<br />

type<br />

Spatial<br />

sequ<strong>en</strong>cer<br />

Numerical<br />

sequ<strong>en</strong>cer<br />

Temporal<br />

sequ<strong>en</strong>cer<br />

Parameters ENGLISH FRENCH<br />

Common<br />

Intro<strong>du</strong>ctory phrase<br />

Nb. of series in sequ<strong>en</strong>ce<br />

Homog<strong>en</strong>eity/ complet<strong>en</strong>ess<br />

Syntactic position<br />

Punctuation<br />

Scope<br />

Classifier<br />

Quantifier<br />

Intro<strong>du</strong>ctory phrase<br />

Nb. of series in sequ<strong>en</strong>ce<br />

Homog<strong>en</strong>eity/ complet<strong>en</strong>ess<br />

Syntactic position<br />

Punctuation<br />

Scope<br />

Classifier<br />

Quantifier<br />

Intro<strong>du</strong>ctory phrase<br />

Nb. of series in sequ<strong>en</strong>ce<br />

Homog<strong>en</strong>eity/ complet<strong>en</strong>ess<br />

Syntactic position<br />

Punctuation<br />

Scope<br />

Classifier<br />

Quantifier<br />

The results of this study, i.e. the differ<strong>en</strong>ces and common points betwe<strong>en</strong> Fr<strong>en</strong>ch and<br />

English as to the use of metadiscursive items, will serve as an interesting baseline for future<br />

research in L2. We would like to examine how language learners of both languages handle<br />

these differ<strong>en</strong>ces wh<strong>en</strong> transferring from their mother tongue to L2. How are the differ<strong>en</strong>ces<br />

transferred, and how are the common characteristics transferred? How does metadiscourse<br />

influ<strong>en</strong>ce L2 pro<strong>du</strong>ction? These questions will need further analysis.<br />

Schedae, 2006, prépublication n°5, (<strong>fascicule</strong> n°1, p. 35-40).<br />

yes no<br />

2 series<br />

yes<br />

initial/ middle middle<br />

abs<strong>en</strong>t/ after/ <strong>en</strong>closing after<br />

intra-s<strong>en</strong>t<strong>en</strong>tial<br />

yes no<br />

no<br />

yes<br />

3 series 2 series / +3 series<br />

yes/no yes<br />

initial<br />

after<br />

inter-s<strong>en</strong>t<strong>en</strong>tial<br />

yes<br />

specified<br />

no<br />

2 series 1 /2 /3 series<br />

no<br />

initial/ middle middle<br />

abs<strong>en</strong>t<br />

intra-s<strong>en</strong>t<strong>en</strong>tial inter-s<strong>en</strong>t<strong>en</strong>tial<br />

no<br />

no<br />

Table 2. Parametric Analysis.


Bibliography<br />

CHAROLLES M. (1997), “L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours – Univers, champ, domaines et espace”, Cahier <strong>de</strong><br />

recherche linguistique, 6.<br />

DEGAND L. & BESTGEN Y. (2004), “Connecteurs et analyse <strong>de</strong> corpus: <strong>de</strong> l’analyse manuelle à l’analyse<br />

automatisée”, in L’Unité Texte, S. Porhiel and D. Klingler (eds), France, Perspective, p. 49-73.<br />

HEMPEL S. & DEGAND L. (2005), “Qualitative analysis of sequ<strong>en</strong>cers in three text g<strong>en</strong>res: aca<strong>de</strong>mic writing,<br />

journalese and fiction” (submitted).<br />

HYLAND K. (1998), “Persuasion and Context: The pragmatics of aca<strong>de</strong>mic discourse”, Journal of Pragmatics,<br />

30, p. 437-455.<br />

HYLAND K. & TSE P. (2004), “Metadiscourse in Aca<strong>de</strong>mic Writing: A Reappraisal”, Applied Linguistics, 25, 2,<br />

p. 156-177.<br />

JACKIEWICZ A. (2002), “Repérage et délimitation <strong>de</strong>s cadres organisationnels pour la segm<strong>en</strong>tation<br />

automatique <strong>de</strong>s textes”, in Actes <strong>de</strong> CIFT’02, Hammamet, Tunisia, p. 95-105.<br />

JACKIEWICZ A. & MINEL J. (2003), “L’id<strong>en</strong>tification <strong>de</strong>s structures discursives <strong>en</strong>g<strong>en</strong>drées par les cadres<br />

organisationnels”, in Actes <strong>de</strong> la 10e Confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN 2003),<br />

Batz-sur-Mer, p. 155-164.<br />

PANDER MAAT H. & DEGAND L. (2001), “Scaling causal relations and connectives in terms of Speaker<br />

Involvem<strong>en</strong>t”, Cognitive Linguistics, 12, p. 211-245.<br />

PIT M. (2003), How to express yourself with a causal connective – Subjectivity and causal connectives in<br />

Dutch, German and Fr<strong>en</strong>ch, Amsterdam – New York, Rodopi – USL&C.<br />

SPOOREN W., SANDERS T., HUISKES M. & DEGAND L. (to appear), “Subjectivity and Causality: A Corpus Study<br />

of Spok<strong>en</strong> Language”, in Empirical and Experim<strong>en</strong>tal Methods in Cognitive/Functional Research, S. Rice<br />

and J. Newman (eds), CSLI Publications.<br />

TURCO G. & COLTIER D. (1988), “Des ag<strong>en</strong>ts doubles <strong>de</strong> l’organisation textuelle, les marqueurs d’intégration<br />

linéaire”, Pratiques, 57, p. 57-79.<br />

Schedae, 2006, prépublication n°5, (<strong>fascicule</strong> n°1, p. 35-40).<br />

39


40<br />

Schedae, 2006, prépublication n°5, (<strong>fascicule</strong> n°1, p. 35-40).


session 2<br />

Discours, docum<strong>en</strong>t et TAL


Schedae, 2006<br />

Prépublication n° 6 Fascicule n° 1<br />

Intro<strong>du</strong>cteurs intra-prédicatifs d’univers<br />

<strong>de</strong> discours et leur détection automatique<br />

Frédérik Bilhaut<br />

GREYC (CNRS – UMR 6 072) – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie<br />

fbilhaut@info.unica<strong>en</strong>.fr<br />

Résumé :<br />

Cet article concerne le modèle <strong>de</strong> l’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours et plus particulièrem<strong>en</strong>t les univers<br />

<strong>de</strong> discours. En nous basant sur <strong>de</strong>s exemples, nous questionnons l’exist<strong>en</strong>ce d’intro<strong>du</strong>cteurs<br />

d’univers qui ne serai<strong>en</strong>t pas détachés syntaxiquem<strong>en</strong>t, mais qui jouerai<strong>en</strong>t sous certaines conditions<br />

un rôle analogue aux intro<strong>du</strong>cteurs tels que considérés habituellem<strong>en</strong>t. Dans un second<br />

temps, nous <strong>en</strong>visageons différ<strong>en</strong>ts critères susceptibles <strong>de</strong> con<strong>du</strong>ire à leur détection automatique<br />

dans le cadre <strong>de</strong> l’analyse thématique <strong>du</strong> discours.<br />

Mots-clés: <strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours, analyse thématique, analyse automatique <strong>du</strong> discours.<br />

Abstract :<br />

This paper relates to the discourse framing theory, and more precisely to discourse universes.<br />

Basing on excerpts, we call into question the exist<strong>en</strong>ce of universe intro<strong>du</strong>cers that would not<br />

be syntactically <strong>de</strong>tached, but that would play, un<strong>de</strong>r some circumstances, a similar role. In a<br />

second time, we consi<strong>de</strong>r the various criteria that may pertain to their automatic analysis in the<br />

context of thematic analysis of discourse.<br />

Keywords : discourse framing, thematic analysis, automatic discourse analysis.<br />

Intro<strong>du</strong>ction<br />

Au sein <strong>de</strong>s réc<strong>en</strong>ts travaux visant l’annotation automatique <strong>de</strong> structures discursives,<br />

l’hypothèse <strong>de</strong> l’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours <strong>de</strong> Michel Charolles (1997) a souv<strong>en</strong>t été mise à<br />

contribution (Jackiewicz 2003, Ferret 2001, Bilhaut et al. 2003), généralem<strong>en</strong>t avec <strong>de</strong>s visées<br />

applicatives telles que la recherche d’information ou le résumé automatique. Rappelons<br />

que ce modèle décrit <strong>de</strong>s segm<strong>en</strong>ts dits « cadres <strong>de</strong> discours », homogènes par rapport a<br />

un critère sémantique (par exemple une localisation spatiale ou temporelle) spécifié par une<br />

expression détachée <strong>en</strong> initiale <strong>de</strong> phrase dite « intro<strong>du</strong>cteur <strong>de</strong> cadre » (dorénavant IC). Les<br />

IC sont prés<strong>en</strong>tés comme <strong>de</strong>s marqueurs d’in<strong>de</strong>xation « permettant <strong>de</strong> répartir les cont<strong>en</strong>us<br />

propositionnels dans <strong>de</strong>s blocs homogènes relativem<strong>en</strong>t à un critère spécifié par le cont<strong>en</strong>u<br />

<strong>de</strong> l’intro<strong>du</strong>cteur » (Charolles 1997 p. 24).<br />

Frédérik Bilhaut<br />

« Intro<strong>du</strong>cteurs intra-prédicatifs d’univers <strong>de</strong> discours et leur détection automatique »<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).<br />

41


42<br />

On peut dire que la reconnaissance par la communauté <strong>du</strong> TAL <strong>de</strong> l’intérêt majeur <strong>de</strong><br />

l’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours dans les contextes applicatifs qui sont les si<strong>en</strong>s constitue une certaine<br />

forme <strong>de</strong> validation <strong>de</strong> ce modèle. Ou <strong>du</strong> moins les premiers résultats obt<strong>en</strong>us par les<br />

différ<strong>en</strong>ts travaux m<strong>en</strong>tionnés plus haut laiss<strong>en</strong>t-ils à p<strong>en</strong>ser que l’évaluation qualitative extrinsèque<br />

(auprès d’utilisateurs réels) <strong>de</strong>s systèmes qui <strong>en</strong> découleront pourra contribuer, outre les<br />

expéri<strong>en</strong>ce psycho-linguistiques proprem<strong>en</strong>t dites, à affirmer l’hypothèse <strong>de</strong> l’<strong>en</strong>cadrem<strong>en</strong>t.<br />

En contrepartie, la formalisation rigoureuse que requiert le développem<strong>en</strong>t <strong>de</strong> systèmes<br />

d’annotation automatique <strong>de</strong>s cadres sur corpus, et surtout le processus d’observation et<br />

d’évaluation <strong>de</strong>s résultats obt<strong>en</strong>us fourniss<strong>en</strong>t une opportunité non négligeable <strong>de</strong> constituer<br />

<strong>de</strong>s observables susceptibles <strong>de</strong> faire évoluer le modèle lui-même.<br />

Le travail ici prés<strong>en</strong>té relève <strong>de</strong> cette démarche. Dans la perspective <strong>de</strong> l’analyse automatique<br />

<strong>de</strong> thèmes discursifs, nous avons été am<strong>en</strong>é à nous essayer à l’analyse automatique<br />

<strong>de</strong> cadres temporels dans les docum<strong>en</strong>ts géographiques (Bilhaut et al. 2003), <strong>en</strong> nous<br />

appuyant sur <strong>de</strong>s travaux portant plus précisém<strong>en</strong>t sur cette composante <strong>de</strong> l’organisation<br />

discursive (Le Draoulec & Péry-Woodley 2001, Ho-Dac et al. 2001). Nous avons par la suite<br />

élargi notre étu<strong>de</strong> à d’autres structures discursives et d’autres domaines <strong>de</strong> spécialité, ce<br />

qui nous a con<strong>du</strong>it à intro<strong>du</strong>ire les notions <strong>de</strong> « thème composite » et d’« axe sémantique »<br />

(Bilhaut & Enjalbert 2005). C’est ainsi que nous avons été am<strong>en</strong>é à considérer différ<strong>en</strong>tes<br />

structures semblant fonctionner comme <strong>de</strong>s cadres <strong>de</strong> discours, sans pour autant se conformer<br />

strictem<strong>en</strong>t à la définition <strong>de</strong> M. Charolles.<br />

Nous allons ici nous conc<strong>en</strong>trer sur un type particulier <strong>de</strong> structure, qui nous apparaît<br />

comme un « cadre » dont l’intro<strong>du</strong>cteur serait bi<strong>en</strong> <strong>en</strong> position initiale, mais pas détachée, et<br />

faisant même partie <strong>de</strong> la prédication principale au sein <strong>de</strong> la phrase qui l’héberge. À partir<br />

d’exemples, nous nous efforcerons dans un premier temps <strong>de</strong> mettre <strong>en</strong> lumière certaines<br />

propriétés <strong>de</strong> ces pseudo-intro<strong>du</strong>cteurs que nous appellerons ici intro<strong>du</strong>cteurs d’univers<br />

intra-prédicatifs (dorénavant IUIP ). Dans un second temps, nous montrerons comm<strong>en</strong>t certaines<br />

<strong>de</strong> ces propriétés peuv<strong>en</strong>t être exploitées <strong>en</strong> combinaison avec <strong>de</strong>s connaissances <strong>de</strong><br />

domaine pour reconnaître ces intro<strong>du</strong>cteurs automatiquem<strong>en</strong>t, et si possible évaluer leur<br />

portée. Précisons que nous nous limitons ici aux cadres particuliers dits « univers <strong>de</strong> discours »<br />

(temporels, spatiaux, praxéologiques, etc.).<br />

Intro<strong>du</strong>cteurs intra-prédicatifs<br />

Comme nous le rappelions plus haut, l’hypothèse <strong>de</strong> M. Charolles procè<strong>de</strong> tout d’abord<br />

à la caractérisation <strong>de</strong> ce qui peut constituer <strong>de</strong>s intro<strong>du</strong>cteurs <strong>de</strong> cadres, syntagmes prépositionnels<br />

particuliers car susceptibles d’intro<strong>du</strong>ire un cadre, c’est à dire d’avoir une portée.<br />

Il s’agit typiquem<strong>en</strong>t <strong>de</strong> constituants extra-prédicatifs détachés <strong>en</strong> initiale <strong>de</strong> phrase, év<strong>en</strong>tuellem<strong>en</strong>t<br />

précédés d’un connecteur <strong>de</strong> discours. Voici un exemple prés<strong>en</strong>tant <strong>de</strong>ux cadres<br />

successifs :<br />

§ [ {Dans l’<strong>en</strong>seignem<strong>en</strong>t primaire, on assiste à une forte diminution <strong>du</strong> taux <strong>de</strong> retard scolaire.<br />

Cette baisse est <strong>en</strong> partie attribuable à la ré<strong>du</strong>ction <strong>du</strong> nombre d’élèves par classe, qui […]} S1<br />

{Dans le secondaire, on assiste au contraire à une augm<strong>en</strong>tation s<strong>en</strong>sible <strong>du</strong> taux <strong>de</strong> retard.<br />

Celle-ci est principalem<strong>en</strong>t imputable à […]} S2] S0<br />

Nous sommes ici <strong>en</strong> prés<strong>en</strong>ce d’intro<strong>du</strong>cteurs « typiques », répondant bi<strong>en</strong> à la <strong>de</strong>scription<br />

que nous v<strong>en</strong>ons <strong>de</strong> m<strong>en</strong>tionner. Ils intro<strong>du</strong>is<strong>en</strong>t <strong>de</strong>ux univers <strong>de</strong> discours liés à <strong>de</strong>ux<br />

niveaux <strong>du</strong> système é<strong>du</strong>catif, correspondant aux <strong>de</strong>ux segm<strong>en</strong>ts S1 et S2 , le segm<strong>en</strong>t S0 dans<br />

son <strong>en</strong>semble étant quant à lui relatif au thème <strong>du</strong> « retard scolaire ».<br />

On r<strong>en</strong>contre toutefois <strong>de</strong>s structures qui paraiss<strong>en</strong>t analogues bi<strong>en</strong> que ne prés<strong>en</strong>tant<br />

pas toujours <strong>de</strong>s cadres « prototypiques » comme les précéd<strong>en</strong>ts. Il semblerait, pour <strong>de</strong>s<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).


aisons que l’on peut supposer liées à <strong>de</strong>s contraintes d’ordre stylistique, que les successions<br />

<strong>de</strong> cadres comme la précéd<strong>en</strong>te cèd<strong>en</strong>t fréquemm<strong>en</strong>t la place à <strong>de</strong>s structures plus hétérogènes.<br />

Voici par exemple une version légèrem<strong>en</strong>t différ<strong>en</strong>te <strong>de</strong> l’exemple précéd<strong>en</strong>t :<br />

§ { {L’<strong>en</strong>seignem<strong>en</strong>t primaire (P1) a connu une forte diminution <strong>du</strong> taux <strong>de</strong> retard scolaire ces<br />

<strong>de</strong>rnières années.} U1 Cette baisse est <strong>en</strong> partie attribuable à la ré<strong>du</strong>ction <strong>du</strong> nombre d’élèves<br />

par classe, qui […]} S1 {Dans le secondaire (P2), on assiste au contraire à une augm<strong>en</strong>tation s<strong>en</strong>sible<br />

<strong>du</strong> taux <strong>de</strong> retard. Celle-ci est principalem<strong>en</strong>t imputable à […]} S2<br />

Dans cette version, le segm<strong>en</strong>t S1 n’est plus intro<strong>du</strong>it par un intro<strong>du</strong>cteur <strong>de</strong> cadre stricto<br />

s<strong>en</strong>su : « l’<strong>en</strong>seignem<strong>en</strong>t primaire » apparaît ici comme sujet <strong>de</strong> la prédication, et n’est donc<br />

plus syntaxiquem<strong>en</strong>t détaché. Il est toutefois évid<strong>en</strong>t que, tout comme dans l’exemple précéd<strong>en</strong>t,<br />

P1 fait ici écho à P2 , et que l’<strong>en</strong>semble <strong>du</strong> passage reste organisé pour opposer ces<br />

<strong>de</strong>ux niveaux scolaires. La fonction discursive <strong>de</strong> P1 paraît analogue à celle <strong>du</strong> premier intro<strong>du</strong>cteur<br />

<strong>de</strong> la version précéd<strong>en</strong>te, dans la mesure où il spécifie bi<strong>en</strong> un critère d’interprétation<br />

s’appliquant au propos c<strong>en</strong>tral <strong>du</strong> discours (« le retard scolaire »), et que ce critère vaut<br />

pour plusieurs propositions sans être explicitem<strong>en</strong>t repris.<br />

Tout se passe donc comme si P1 bénéficiait d’une portée comparable à celle d’un intro<strong>du</strong>cteur<br />

syntaxiquem<strong>en</strong>t détaché, et nous le considérons donc ici comme un IUIP . Notre hypothèse<br />

est que nous sommes ici <strong>en</strong> prés<strong>en</strong>ce d’une structure discursive fonctionnellem<strong>en</strong>t<br />

équival<strong>en</strong>te à la précéd<strong>en</strong>te, et que P1 y joue bi<strong>en</strong> un rôle équival<strong>en</strong>t à un intro<strong>du</strong>cteur. Différ<strong>en</strong>ts<br />

facteurs sembl<strong>en</strong>t pouvoir expliquer ce phénomène.<br />

i) Il convi<strong>en</strong>t tout d’abord <strong>de</strong> considérer avec att<strong>en</strong>tion l’antécéd<strong>en</strong>t <strong>du</strong> syntagme pronominal<br />

« cette baisse » : il est clair dans ce cas qu’il ne repr<strong>en</strong>d pas seulem<strong>en</strong>t le référ<strong>en</strong>t <strong>de</strong><br />

la « forte diminution <strong>du</strong> retard scolaire », mais bi<strong>en</strong> l’<strong>en</strong>semble <strong>du</strong> cont<strong>en</strong>u propositionnel<br />

<strong>de</strong> l’énoncé qui précè<strong>de</strong> U1 , qui pourrait s’exprimer par « la diminution <strong>du</strong> retard scolaire<br />

dans le primaire ». De ce fait, on peut considérer que l’objet sémantique auquel se rapporte<br />

la chaîne <strong>de</strong> référ<strong>en</strong>ce <strong>du</strong> segm<strong>en</strong>t S1 est bi<strong>en</strong> une structure complexe, c<strong>en</strong>trée sur la « forte<br />

diminution », mais emportant avec lui « le primaire ».<br />

ii) La forme même <strong>du</strong> cont<strong>en</strong>u propositionnel <strong>de</strong> U1 est particulière. En effet, l’acception<br />

ici employée <strong>du</strong> verbe « connaître » correspond ici à un méta-prédicat, c’est à dire un<br />

prédicat dont le second argum<strong>en</strong>t est lui-même un prédicat. Celui-ci est exprimé par la nominalisation<br />

<strong>du</strong> verbe « diminuer », et son argum<strong>en</strong>t est spécifié sous la forme <strong>du</strong> complém<strong>en</strong>t<br />

<strong>du</strong> nom « le taux <strong>de</strong> retard scolaire ». Or, ce méta-prédicat est neutre, et la structure sémantique<br />

résultante peut être « ré<strong>du</strong>ite » sans perte d’information, comme nous l’avons représ<strong>en</strong>té<br />

dans la figure 1, <strong>en</strong> une autre structure dont la formulation la plus immédiate serait<br />

« le taux <strong>de</strong> retard scolaire a diminué dans le primaire ».<br />

Vraisemblablem<strong>en</strong>t, le choix par le scripteur d’une construction <strong>du</strong> type « X a connu Y »<br />

dans un cas comme celui-ci vise la topicalisation <strong>de</strong> X, qui apparaît ainsi <strong>en</strong> initiale. Toutefois,<br />

<strong>du</strong> fait <strong>de</strong> son rôle sémantique qui <strong>de</strong>meure « périphérique », il semble que cette topicalisation<br />

ne suffise pas ici à définir l’à propos <strong>de</strong> l’énoncé, tout comme un adverbial détaché<br />

ne définit pas à lui seul le thème au s<strong>en</strong>s <strong>de</strong> l’à propos, comme le remarque Charolles (2004).<br />

Ainsi, dans notre exemple, « l’<strong>en</strong>seignem<strong>en</strong>t primaire » est topicalisé sans pour autant constituer<br />

le noyau thématique <strong>du</strong> segm<strong>en</strong>t S1 ce qui nous semble caractéristique <strong>de</strong> cette fonction<br />

discursive. On peut donc voir ici une forme <strong>de</strong> pseudo-détachem<strong>en</strong>t que l’on pourrait<br />

qualifier <strong>de</strong> « détachem<strong>en</strong>t sémantique ».<br />

iii) Il est égalem<strong>en</strong>t possible <strong>de</strong> faire apparaître ce phénomène <strong>de</strong> pseudo-détachem<strong>en</strong>t<br />

à l’ai<strong>de</strong> <strong>de</strong> la théorie <strong>du</strong> c<strong>en</strong>trage (Grosz et al. 1995) augm<strong>en</strong>tée <strong>de</strong> la notion <strong>de</strong> « coût »<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).<br />

43


44<br />

Figure 1 : Transformations <strong>de</strong> la structure sémantique associée au méta-prédicat « X a connu P ».<br />

intro<strong>du</strong>ite par Strube et Hahn (1999). Pour argum<strong>en</strong>ter ce point, annotons ainsi le début <strong>de</strong><br />

notre exemple :<br />

§ {L’<strong>en</strong>seignem<strong>en</strong>t primaire (P1) a connu une forte diminution <strong>du</strong> taux <strong>de</strong> retard scolaire (P2) ces<br />

<strong>de</strong>rnières années.} U1 {Cette baisse (P3) est <strong>en</strong> partie attribuable à la ré<strong>du</strong>ction <strong>du</strong> nombre d’élèves<br />

par classe, qui […]} U2 Dans le secondaire (P4), on assiste au contraire à […]<br />

Soit E1 l’<strong>en</strong>tité réalisée par le syntagme P1 , E2 l’<strong>en</strong>tité réalisée par les syntagmes P2 et<br />

P3 (E2 est bi<strong>en</strong> l’élém<strong>en</strong>t le plus c<strong>en</strong>tral <strong>de</strong> l’antécéd<strong>en</strong>t <strong>de</strong> P3 , même si, comme nous l’avons<br />

remarqué <strong>en</strong> (i), il ne s’y ré<strong>du</strong>it pas), et E3 l’<strong>en</strong>tité réalisée par P4 . Dans les termes posés par la<br />

théorie <strong>du</strong> c<strong>en</strong>trage, l’<strong>en</strong>semble <strong>de</strong>s c<strong>en</strong>tres anticipateurs <strong>de</strong> l’énoncé U1 est Ca (U1 ) = {E1 , E2 }.<br />

D’autre part, si l’on s’autorise à appliquer au Français la règle d’ordonnancem<strong>en</strong>t donnée<br />

dans (Grosz et al. 1995) pour déterminer le c<strong>en</strong>tre préféré (sujet > objet(s) > autres) 1 , le c<strong>en</strong>tre<br />

préféré <strong>de</strong> U1 est Cp (U1 ) = E1 . Enfin, considérant que l’énoncé U1 n’est précédé d’aucun<br />

autre, son c<strong>en</strong>tre rétroactif est indéterminé : Cr (U1 ) =. Pour l’énoncé U2 , le c<strong>en</strong>tre rétroactif est<br />

Cr (U2 ) = E2 , et pour les même raisons que précé<strong>de</strong>mm<strong>en</strong>t, son c<strong>en</strong>tre préféré est Cp (U2 ) = E2 .<br />

Nous nous trouvons donc dans la situation suivante : Cp (U2 ) = Cr (U2 ) et Cr (U1 ) =. Selon<br />

les critères donnés dans (Walker et al. 1998), il s’agit d’un cas <strong>de</strong> continuation, qui correspond<br />

<strong>en</strong> l’occurr<strong>en</strong>ce à l’instauration <strong>de</strong> E2 comme noyau thématique. Toutefois, on ne pourra<br />

que conv<strong>en</strong>ir <strong>du</strong> statut particulier <strong>de</strong> l’<strong>en</strong>tité E1 qui constitue, <strong>du</strong> point <strong>de</strong> vue <strong>du</strong> c<strong>en</strong>trage<br />

d’att<strong>en</strong>tion, le c<strong>en</strong>tre préféré <strong>de</strong> U1 . Or un c<strong>en</strong>tre préféré constitue par définition « une prédiction<br />

sur le c<strong>en</strong>tre rétroactif <strong>de</strong> l’énoncé suivant » (Ibid.), prédiction ici contrariée par le fait<br />

que E1 n’est pas repris dans l’énoncé U2 : Cr (U2 ) - Cp (U1 ).<br />

Cette configuration, qui nous intéresse ici particulièrem<strong>en</strong>t, n’est pas explicitem<strong>en</strong>t <strong>en</strong>visagée<br />

dans (Grosz et al. 1995), mais est <strong>en</strong> revanche examinée dans (Strube & Hahn 1999)<br />

autour <strong>de</strong> la notion <strong>de</strong> coût attribuée aux relations <strong>en</strong>tre énoncés. Les auteurs considèr<strong>en</strong>t une<br />

transition comme peu coûteuse si Cr (Un + 1 ) = Cp (Un ), et avanc<strong>en</strong>t que les relations<br />

peu coûteuses seront généralem<strong>en</strong>t préférées. Or nous observons ici une continuation<br />

sur E2 dont la particularité est justem<strong>en</strong>t d’être initiée par une relation coûteuse.<br />

Ceci implique que l’interprétation <strong>de</strong> cette transition nécessite un effort cognitif particulier,<br />

qui nous semble r<strong>en</strong>forcer l’effet <strong>de</strong> pseudo-détachem<strong>en</strong>t <strong>de</strong> P1 , comme le figure le schéma<br />

<strong>de</strong> la figure 2, que l’on pourrait cette fois qualifier <strong>de</strong> « détachem<strong>en</strong>t référ<strong>en</strong>tiel ».<br />

1. Cette règle n’est pas donnée comme complète ni universelle, mais paraît suffisante dans le cas simple qui<br />

nous occupe, et les autres règles formulées par la suite aboutirai<strong>en</strong>t ici à la même conclusion.<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).


Figure 2 : Cas <strong>de</strong> « détachem<strong>en</strong>t référ<strong>en</strong>tiel ».<br />

iv) Enfin, la portée <strong>de</strong> P1 nous semble égalem<strong>en</strong>t explicable <strong>en</strong> recourant à la notion<br />

d’univers « virtuel » proposée par Charolles. Il se trouve <strong>en</strong> effet que le syntagme « dans le<br />

secondaire », dont on ne peut douter <strong>du</strong> statut d’intro<strong>du</strong>cteur, projette un univers par<strong>en</strong>t<br />

implicite lié à l’<strong>en</strong>semble <strong>de</strong>s niveaux scolaires <strong>du</strong> système é<strong>du</strong>catif français (pré-élém<strong>en</strong>taire,<br />

primaire, secondaire, supérieur). Or il se trouve que « le primaire » est bi<strong>en</strong> un univers dérivé<br />

<strong>de</strong> cet univers par<strong>en</strong>t, ce qui nous incite probablem<strong>en</strong>t à le considérer <strong>de</strong> façon équival<strong>en</strong>te<br />

à l’univers <strong>du</strong> « secondaire ». Et le fait que l’intro<strong>du</strong>cteur au s<strong>en</strong>s strict apparaisse après celui<br />

que nous qualifions d’intra-prédicatif ne semble pas problématique si l’on adopte comme<br />

Charolles une approche incrém<strong>en</strong>tielle, qui prévoit « <strong>de</strong>s possibilités <strong>de</strong> réanalyse a posteriori<br />

avec mise à jour <strong>de</strong>s interprétations construites » (1997 p. 3).<br />

Nous rejoignons ici la notion d’écho <strong>en</strong>tre ces <strong>de</strong>ux univers, déjà m<strong>en</strong>tionnée plus haut.<br />

Les connaissances <strong>de</strong> domaine sembl<strong>en</strong>t ici jouer un rôle important, puisque la familiarité<br />

supposée <strong>du</strong> lecteur avec les niveaux <strong>du</strong> système scolaire intervi<strong>en</strong>n<strong>en</strong>t dans la reconnaissance<br />

<strong>de</strong> la structure discursive <strong>du</strong> passage comme quasi-énumérative.<br />

Considérons maint<strong>en</strong>ant <strong>de</strong>ux autres exemples qui nous sembl<strong>en</strong>t relever <strong>du</strong> même phénomène.<br />

Le premier est <strong>en</strong> tout point semblable au précéd<strong>en</strong>t, mais fait cette fois interv<strong>en</strong>ir<br />

<strong>de</strong>s univers temporels :<br />

À la fin <strong>de</strong>s années 80, Ullman estimait que ces <strong>de</strong>ux modèles étai<strong>en</strong>t même incompatibles, ce<br />

que confirmai<strong>en</strong>t les faits puisque jusqu’alors les bases <strong>de</strong> données avai<strong>en</strong>t été soit déclaratives<br />

mais ori<strong>en</strong>tées-valeur, soit ori<strong>en</strong>tées-objet mais non-déclaratives. Cep<strong>en</strong>dant, les années 90 ont<br />

vu apparaître plusieurs t<strong>en</strong>tatives <strong>de</strong> conciliations, que nous prés<strong>en</strong>tons brièvem<strong>en</strong>t dans cette<br />

synthèse avant d’<strong>en</strong> développer <strong>de</strong>ux plus longuem<strong>en</strong>t dans le reste <strong>de</strong> ce chapitre. Ces t<strong>en</strong>tatives<br />

peuv<strong>en</strong>t être réparties <strong>en</strong> <strong>de</strong>ux domaines : les bases <strong>de</strong> données (mon<strong>de</strong> système) et les<br />

bases <strong>de</strong> connaissances (mon<strong>de</strong> IA). Au risque d’une simplification excessive, on dira que ces<br />

domaines se distingu<strong>en</strong>t par le fait que le premier privilégie les aspects pratiques et l’efficacité,<br />

et le <strong>de</strong>uxième les aspects théoriques et l’expressivité.<br />

Source : Systèmes d’information logiques, un paradigme logico-contextuel pour interroger, naviguer et appr<strong>en</strong>dre,<br />

Sébasti<strong>en</strong> Ferré<br />

Le second se distingue <strong>de</strong>s précéd<strong>en</strong>ts par le fait qu’il ne recours pas au procédé <strong>du</strong> métaprédicat<br />

et que l’IUIP apparaît ici sous la forme d’une ext<strong>en</strong>sion prépositionnelle dans le syntagme<br />

sujet :<br />

§ Pour ce qui est <strong>du</strong> transport ferroviaire, la législation <strong>en</strong> matière <strong>de</strong> transport <strong>de</strong> marchandises<br />

dangereuses par rail a été r<strong>en</strong>forcée et, à la suite <strong>de</strong> la scission <strong>de</strong> la société nationale <strong>de</strong>s<br />

chemins <strong>de</strong> fer <strong>en</strong> 5 sociétés au début <strong>de</strong> 1999, la restructuration <strong>du</strong> secteur ferroviaire a été<br />

poursuivie <strong>en</strong> 2000. […]<br />

§ Les activités dans le domaine <strong>de</strong> la navigation intérieure ont fort souffert <strong>du</strong> blocage <strong>du</strong> Danube<br />

dû à la crise <strong>du</strong> Kosovo, ce qui a eu pour conséqu<strong>en</strong>ce <strong>de</strong> priver ce secteur <strong>de</strong>s ressources financières<br />

nécessaires à son adaptation à l’acquis <strong>de</strong> l’UE. Les aspects pratiques concernant la conformité<br />

<strong>de</strong>s navires roumains aux normes <strong>de</strong> l’UE pourrai<strong>en</strong>t poser problème pour <strong>de</strong>s motifs<br />

d’ordre économique, eu égard à l’objectif <strong>de</strong>s autorités roumaines d’accès au Rhin. Un décret<br />

ministériel a été adopté afin <strong>de</strong> transposer les règles <strong>de</strong> l’UE relatives à l’accès à la profession<br />

<strong>de</strong> transporteur <strong>de</strong> marchandises par voie navigable. […]<br />

Source : Synthèse d’un rapport <strong>de</strong> la communauté europé<strong>en</strong>ne sur les transports <strong>en</strong> Roumanie<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).<br />

45


46<br />

Il est remarquable ici que malgré sa faible saillance au niveau <strong>de</strong> la phrase qui l’héberge<br />

(Ariel 2001), le syntagme « le domaine la navigation intérieure » ait bi<strong>en</strong> une portée significative.<br />

Alors que dans les précéd<strong>en</strong>ts exemples le phénomène <strong>de</strong> pseudo-détachem<strong>en</strong>t semblait<br />

jouer un rôle non négligeable dans la perception <strong>du</strong> rôle <strong>de</strong>s syntagmes concernés, cet<br />

IUIP apparaît ici dans une position « syntaxiquem<strong>en</strong>t profon<strong>de</strong> » a priori peu favorable à lui<br />

conférer une portée. Il semble pourtant que cette portée soit bi<strong>en</strong> réelle, puisque si le champ<br />

lexical lié à la navigation est significativem<strong>en</strong>t prés<strong>en</strong>t dans texte qui suit, il n’y a aucune<br />

reprise <strong>du</strong> qualitificatif « intérieure », qui est pourtant persistant. D’autre part, il est clair que<br />

cet IUIP possè<strong>de</strong> bi<strong>en</strong> une fonction d’in<strong>de</strong>xation au même titre que « le transport ferroviaire »<br />

auquel il répond 2 . On peut raisonnablem<strong>en</strong>t supposer que dans ce cas l’apparition <strong>en</strong> initiale<br />

<strong>de</strong> paragraphe joue un rôle important, mais là <strong>en</strong>core la relation sémantique <strong>en</strong>tre plusieurs<br />

intro<strong>du</strong>cteurs successifs et comparables au sein d’une structure plus globale semble<br />

à pr<strong>en</strong>dre sérieusem<strong>en</strong>t <strong>en</strong> considération.<br />

Nous risquons l’hypothèse que c’est ess<strong>en</strong>tiellem<strong>en</strong>t la relation sémantique forte et<br />

supposée connue <strong>en</strong>tre ces intro<strong>du</strong>cteurs qui autorise l’un (ou même plusieurs) d’<strong>en</strong>tre eux à<br />

apparaître dans une position qui n’est pas explicitem<strong>en</strong>t détachée. Comme nous le verrons<br />

dans la secon<strong>de</strong> partie, c’est ce <strong>de</strong>rnier critère qui agira <strong>de</strong> façon prédominante dans la détection<br />

automatique <strong>de</strong> ces structures discursives particulières.<br />

Segm<strong>en</strong>tation automatique<br />

exploitant les « cadres » intro<strong>du</strong>its par <strong>de</strong>s IU IP<br />

La détection <strong>de</strong>s cadres <strong>de</strong> discours est d’un intérêt considérable dans le domaine <strong>de</strong><br />

l’analyse automatique <strong>du</strong> discours. En particulier, si l’on adopte une perspective thématique<br />

à même <strong>de</strong> servir les besoins d’in<strong>de</strong>xation dans le domaine <strong>de</strong> la recherche d’information,<br />

l’analyse fine <strong>de</strong> la répartition <strong>du</strong> cont<strong>en</strong>u informationnel nécessite la prise <strong>en</strong> compte <strong>de</strong> ce<br />

type <strong>de</strong> structure.<br />

La notion d’univers <strong>du</strong> discours nous paraît particulièrem<strong>en</strong>t intéressante dans ce contexte,<br />

car elle fait très clairem<strong>en</strong>t apparaître un phénomène thématique totalem<strong>en</strong>t inaccessible<br />

aux métho<strong>de</strong>s d’in<strong>de</strong>xation « classiques », qui ne font pas ou peu interv<strong>en</strong>ir <strong>de</strong><br />

considérations linguistiques. Du point <strong>de</strong> vue <strong>de</strong> l’à propos, le rôle <strong>de</strong>s intro<strong>du</strong>cteurs est <strong>en</strong><br />

effet très particulier dans la mesure où il ne consiste pas à définir le thème proprem<strong>en</strong>t dit,<br />

mais vi<strong>en</strong>t seulem<strong>en</strong>t situer un thème instauré par ailleurs. Pourtant, il paraît inadéquat <strong>de</strong><br />

négliger leur rôle dans l’instauration d’un thème discursif, puisqu’ils particip<strong>en</strong>t clairem<strong>en</strong>t<br />

à l’intro<strong>du</strong>ction <strong>en</strong> discours <strong>de</strong> « ce dont on parle ». Nous considérons donc qu’un IU joue<br />

bi<strong>en</strong> un rôle thématique au s<strong>en</strong>s <strong>de</strong> l’à propos, même si ce rôle n’est pas c<strong>en</strong>tral et doit être<br />

rapporté à un thème « principal ».<br />

C’est ce mo<strong>de</strong> d’organisation thématique <strong>en</strong> discours sur lequel repose l’idée <strong>de</strong> « thème<br />

composite » prés<strong>en</strong>tée dans (Bilhaut & Enjalbert 2005). Nous visons ainsi à exprimer certains<br />

thèmes discursifs sous la forme d’une structure composée d’un noyau thématique et d’un<br />

certain nombre <strong>de</strong> satellites thématiques, le premier étant relatif au thème d’un segm<strong>en</strong>t,<br />

et les seconds aux univers <strong>de</strong> discours associés. Nous avons id<strong>en</strong>tifié une certaine variété <strong>de</strong><br />

configurations discursives susceptibles d’instaurer ces thèmes composites, et développé une<br />

métho<strong>de</strong> <strong>de</strong> segm<strong>en</strong>tation automatique <strong>du</strong> discours se basant sur ces principes, qui permet<br />

in fine d’obt<strong>en</strong>ir une in<strong>de</strong>xation intra-docum<strong>en</strong>taire fine <strong>de</strong>s passages concernés par ce type<br />

<strong>de</strong> structures.<br />

2. Nous considérons bi<strong>en</strong> ici ce <strong>de</strong>rnier comme un IU et non comme un intro<strong>du</strong>cteur <strong>de</strong> cadre thématique,<br />

puisqu’il ne définit pas réellem<strong>en</strong>t le thème <strong>du</strong> cadre qu’il intro<strong>du</strong>it, mais constitue pour nous un « satellite<br />

thématique » au s<strong>en</strong>s que nous préciserons plus loin.<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).


Les cadres <strong>de</strong> discours figur<strong>en</strong>t bi<strong>en</strong>-sûr <strong>en</strong> bonne place parmi les structures discursives<br />

que nous repérons ainsi, dans la mesure où il sembl<strong>en</strong>t constituer la forme préfér<strong>en</strong>tielle<br />

d’établissem<strong>en</strong>t <strong>de</strong> thèmes composites <strong>en</strong> discours. Il a toutefois été nécessaire <strong>de</strong> pr<strong>en</strong>dre<br />

<strong>en</strong> considération d’autres structures analogues <strong>de</strong> ce point <strong>de</strong> vue, parmi lesquelles les cadres<br />

intro<strong>du</strong>its par <strong>de</strong>s IUIP . Mais si la détection automatique <strong>de</strong>s intro<strong>du</strong>cteurs détachés est relativem<strong>en</strong>t<br />

aisée et peut être réalisée avec une très bonne précision (Ferrari et al. 2005), la détection<br />

<strong>de</strong>s IUIP est plus complexe dans la mesure où ils sont par définition dans une position<br />

beaucoup moins caractéristique que les premiers.<br />

Parmi les divers critères évoqués dans la section précéd<strong>en</strong>te, se pose la question <strong>de</strong><br />

ceux qui sont à la fois suffisamm<strong>en</strong>t généraux et applicables automatiquem<strong>en</strong>t. Sur ce point,<br />

les détachem<strong>en</strong>ts « sémantique » et « référ<strong>en</strong>tiel » ne sont pas nécessairem<strong>en</strong>t <strong>de</strong> bons candidats,<br />

d’une part parce qu’ils sont difficiles à reconnaître automatiquem<strong>en</strong>t (car impliquant<br />

respectivem<strong>en</strong>t une analyse sémantique profon<strong>de</strong> et une détection fiable <strong>de</strong>s chaînes <strong>de</strong><br />

référ<strong>en</strong>ce), mais surtout parce qu’ils ne sembl<strong>en</strong>t pas systématiquem<strong>en</strong>t associés aux IUIP même s’il on les observe fréquemm<strong>en</strong>t. Il nous semble préférable dans ce contexte <strong>de</strong> considérer<br />

que la prés<strong>en</strong>ce d’une relation sémantique avec d’autres constituants comparables<br />

dans le discours <strong>en</strong>vironnant constitue un indice à la fois plus fiable et plus facilem<strong>en</strong>t repérable<br />

automatiquem<strong>en</strong>t. C’est bi<strong>en</strong> ce qui se pro<strong>du</strong>it (certes parfois <strong>en</strong> conjonction avec d’autres<br />

phénomènes) dans les trois exemples que nous avons repro<strong>du</strong>it plus haut : chacun <strong>de</strong>s IUIP que nous avons r<strong>en</strong>contrés font bi<strong>en</strong> écho à une autre <strong>en</strong>tité apparaissant dans le co-texte<br />

(droit ou gauche) sous la forme d’un intro<strong>du</strong>cteur syntaxiquem<strong>en</strong>t détaché.<br />

Il semble que dans ce cas, la fonction d’in<strong>de</strong>xation d’un référ<strong>en</strong>t <strong>du</strong> discours puisse apparaître<br />

très clairem<strong>en</strong>t au lecteur sans que sa textualisation fasse l’objet d’aucun détachem<strong>en</strong>t,<br />

qu’il soit syntaxique, sémantique ou référ<strong>en</strong>tiel. Notre hypothèse est donc que cette situation<br />

est suffisante à l’apparition d’un IUIP (même si elle n’est pas nécessaire dans la mesure où<br />

l’on peut trouver <strong>de</strong>s exemples analogues ne faisant interv<strong>en</strong>ir aucun intro<strong>du</strong>cteur au s<strong>en</strong>s<br />

strict).<br />

Cette hypothèse est effectivem<strong>en</strong>t mise <strong>en</strong> œuvre dans notre système d’analyse thématique<br />

automatique, qui permet quand cela est nécessaire <strong>de</strong> t<strong>en</strong>ir compte <strong>de</strong> connaissances<br />

d’ordre ontologique. Celles-ci sont formalisées sous forme d’axes sémantiques, qui<br />

correspond<strong>en</strong>t à <strong>de</strong>s espaces notionnels susceptibles <strong>de</strong> participer à l’in<strong>de</strong>xation <strong>de</strong> l’information<br />

dans les textes considérés. Il pourra s’agir d’axes génériques comme le temps ou espace,<br />

ou d’axes plus spécifiques à un domaine ou à une pratique (axe <strong>de</strong>s niveaux scolaires, <strong>de</strong>s<br />

types <strong>de</strong> transports, etc.). Les axes sont fournis au système par différ<strong>en</strong>tes métho<strong>de</strong>s selon<br />

les cas : il s’agit le plus souv<strong>en</strong>t d’<strong>en</strong>trées lexicales simples, mais <strong>de</strong>s ressources plus complexes<br />

sont parfois nécessaires, comme pour les expressions temporelles ou spatiales.<br />

Dans le cas où <strong>de</strong>s ressources lexicales sont jugées suffisantes, les axes sont représ<strong>en</strong>tés<br />

par <strong>de</strong>s <strong>en</strong>sembles structurés : les termes qui compos<strong>en</strong>t un axe donné sont organisés <strong>de</strong><br />

façon à pouvoir faire état d’un év<strong>en</strong>tuel <strong>de</strong>gré d’équival<strong>en</strong>ce ou <strong>de</strong> recouvrem<strong>en</strong>t <strong>en</strong>tre <strong>de</strong>ux<br />

items. En pratique, chaque axe sera représ<strong>en</strong>té par une structure arboresc<strong>en</strong>te, même si<br />

d’autres mo<strong>de</strong>s <strong>de</strong> représ<strong>en</strong>tation pourrai<strong>en</strong>t facilem<strong>en</strong>t être intégrés au système.<br />

Dans le cas où une analyse syntagmatique <strong>de</strong>s expressions concernées est nécessaire,<br />

nous faisons appel à <strong>de</strong>s métho<strong>de</strong>s d’analyse sémantique compositionnelle. Le procédé <strong>de</strong><br />

comparaison <strong>en</strong>tre <strong>de</strong>ux items dép<strong>en</strong>d alors <strong>de</strong> la forme <strong>de</strong>s représ<strong>en</strong>tations symboliques<br />

effectivem<strong>en</strong>t utilisées pour représ<strong>en</strong>ter lesdites expressions. Concernant l’analyse <strong>de</strong>s<br />

expressions spatiales et temporelles, nous faisons appel à <strong>de</strong>s grammaires locales d’unification<br />

(Charnois 2003), et les expressions sont représ<strong>en</strong>tées in fine par <strong>de</strong>s intervalles à une<br />

ou <strong>de</strong>ux dim<strong>en</strong>sions, sur lesquels on peut aisém<strong>en</strong>t procé<strong>de</strong>r à <strong>de</strong>s calculs d’intersection.<br />

À l’ai<strong>de</strong> <strong>de</strong> ces ressources, le système est capable <strong>de</strong> reconnaître non seulem<strong>en</strong>t <strong>de</strong>s<br />

<strong>en</strong>tités apparaissant comme intro<strong>du</strong>cteurs d’univers syntaxiquem<strong>en</strong>t détachés (ceux-ci sont<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).<br />

47


48<br />

détectables relativem<strong>en</strong>t facilem<strong>en</strong>t, à l’ai<strong>de</strong> <strong>de</strong> critères ess<strong>en</strong>tiellem<strong>en</strong>t positionnels), mais<br />

aussi <strong>de</strong>s <strong>en</strong>tités qui leur sont comparables sans pour autant apparaître dans <strong>de</strong>s positions<br />

caractéristiques, comme <strong>de</strong>s IUIP . Dès lors qu’un intro<strong>du</strong>cteur explicite est détecté, <strong>de</strong>s <strong>en</strong>tités<br />

appart<strong>en</strong>ant au même axe sémantique sont recherchées dans les co-textes droit et gauche,<br />

ce qui permet dans <strong>de</strong> nombreux cas <strong>de</strong> détecter <strong>de</strong>s IUIP qui serai<strong>en</strong>t pas accessibles<br />

<strong>en</strong> tant que tels à l’analyse automatique. À partir <strong>de</strong>s différ<strong>en</strong>ts intro<strong>du</strong>cteurs détectés, le<br />

système peut alors procé<strong>de</strong>r à la phase <strong>de</strong> segm<strong>en</strong>tation qui se limite pour l’heure, la question<br />

<strong>de</strong> l’analyse automatique <strong>de</strong> leur portée étant loin d’être résolue <strong>en</strong> toute généralité,<br />

à fermer un cadre lorsqu’un nouveau cadre <strong>du</strong> même type est ouvert, ou que la fin <strong>de</strong> paragraphe<br />

est r<strong>en</strong>contrée. On notera que ce procédé <strong>de</strong> segm<strong>en</strong>tation s’inscrit dans un système<br />

d’analyse thématique <strong>du</strong> discours plus général, qui procè<strong>de</strong> à l’analyse d’autres types <strong>de</strong><br />

structure discursives, et qui vise aussi bi<strong>en</strong> la segm<strong>en</strong>tation proprem<strong>en</strong>t dite que la <strong>de</strong>scription<br />

<strong>de</strong>s thèmes <strong>de</strong>s segm<strong>en</strong>ts (cf. Bilhaut & Enjalbert 2005). L’<strong>en</strong>semble <strong>du</strong> système a été<br />

élaboré sous LinguaStream (Bilhaut & Widlöcher 2006).<br />

Conclusion<br />

Nous déf<strong>en</strong>dons ici l’hypothèse que <strong>de</strong>s constituants non détachés syntaxiquem<strong>en</strong>t peuv<strong>en</strong>t<br />

dans certains cas constituer <strong>de</strong>s intro<strong>du</strong>cteurs d’univers dotés d’une réelle portée, et spécifier<br />

à ce titre <strong>de</strong>s critères d’interprétation portant sur plusieurs propositions sans faire appel<br />

aux mécanismes référ<strong>en</strong>tiels. Nous avons montré à travers plusieurs exemples que <strong>de</strong>s mécanismes<br />

<strong>de</strong> pseudo-détachem<strong>en</strong>t peuv<strong>en</strong>t interv<strong>en</strong>ir (détachem<strong>en</strong>t « sémantique » ou « référ<strong>en</strong>tiel<br />

»), mais aussi que la saillance présupposée <strong>de</strong> certaines relations sémantiques avec<br />

un autre intro<strong>du</strong>cteur semble autoriser une abs<strong>en</strong>ce <strong>de</strong> marque <strong>de</strong> détachem<strong>en</strong>t explicite.<br />

Il nous semble que cette approche « assouplie » <strong>de</strong> ce qui peut constituer un intro<strong>du</strong>cteur<br />

d’univers est particulièrem<strong>en</strong>t intéressante si l’on considère ces <strong>de</strong>rniers <strong>du</strong> point <strong>de</strong> vue<br />

<strong>de</strong> l’à propos, <strong>en</strong> cherchant à évaluer leur fonction thématique au niveau textuel <strong>en</strong> tant que<br />

complém<strong>en</strong>t d’un thème « principal ». Ce point <strong>de</strong> vue amène <strong>en</strong> effet à considérer avec<br />

att<strong>en</strong>tion ce qui peut constituer, pour repr<strong>en</strong>dre les termes <strong>de</strong> Hutchins (1977), <strong>de</strong>s « points<br />

<strong>de</strong> contact » <strong>en</strong>tre le texte et les connaissances propres <strong>du</strong> lecteur. Il peut alors être intéressant<br />

<strong>de</strong> considérer que le pouvoir d’in<strong>de</strong>xation <strong>de</strong>s intro<strong>du</strong>cteurs d’univers est d’autant plus<br />

fort que les référ<strong>en</strong>ts impliqués apparaiss<strong>en</strong>t clairem<strong>en</strong>t comme « connus » ou « donnés » au<br />

lecteur, même s’ils n’apparaiss<strong>en</strong>t pas comme « thématiques » ou « topicaux » au s<strong>en</strong>s propre,<br />

ce qui peut être pris <strong>en</strong> considération <strong>en</strong> conjonction avec le <strong>de</strong>gré <strong>de</strong> détachem<strong>en</strong>t.<br />

Bibliographie<br />

ARIEL M. (2001), « Accessibility Theory : Overview », in Text Repres<strong>en</strong>tation : Linguistic and Psycholinguistic<br />

Aspects, T. San<strong>de</strong>rs, J. Schilperoord & W. Spoor<strong>en</strong> (éds), Amsterdam, B<strong>en</strong>jamins.<br />

CHAROLLES M. (1997), « L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> dicours – Univers, champs, domaines et espace », Cahiers <strong>de</strong><br />

recherche linguistique, 6.<br />

CHAROLLES M. (2003), « De la topicalité <strong>de</strong>s adverbiaux détachés <strong>en</strong> tete <strong>de</strong> phrase », in Adverbiaux et<br />

topiques, M. Charolles et S. Prevost (éds), Travaux <strong>de</strong> Linguistique (47), Louvain la Neuve.<br />

BILHAUT F., HO-DAC L.-M., BORILLO A., CHARNOIS T., ENJALBERT P., LE DRAOULEC A., MATHET Y., MIGUET H.,<br />

PERY-WOODLEY M.-P. et SARDA L. (2003), «In<strong>de</strong>xation discursive pour la navigation intradocum<strong>en</strong>taire: cadres<br />

temporels et spatiaux dans l’information géographique», in Actes <strong>de</strong> la 10e Confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique<br />

<strong>du</strong> Langage Naturel (TALN’03), Batz-sur-Mer, France.<br />

BILHAUT F. et ENJALBERT P. (2005), «Discourse Thematic Organisation Reveals Domain Knowledge Structure»,<br />

in Proceedings of the 2nd Indian International Confer<strong>en</strong>ce on Artificial Intellig<strong>en</strong>ce (IICAI’05), Pune, India.<br />

BILHAUT F. & WIDLÖCHER A. (2006), «LinguaStream: An Integrated Environm<strong>en</strong>t for Computational Linguistics<br />

Experim<strong>en</strong>tation », in Proceedings of the 11th Confer<strong>en</strong>ce of the European Chapter of the Association of<br />

Computational Linguistics, Tr<strong>en</strong>to, Italy.<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).


CHARNOIS T., MATHET Y., ENJALBERT P., BILHAUT F. (2003). « Geographic Refer<strong>en</strong>ce Analysis for Geographic<br />

Docum<strong>en</strong>t Querying», Workshop on the Analysis of Geographic Refer<strong>en</strong>ces, Human Language Technology<br />

Confer<strong>en</strong>ce (NAACL-HLT), Edmonton, Alberta, Canada.<br />

FERRARI S., BILHAUT F., WIDLÖCHER A. & LAIGNELET M. (2005), « Une plate-forme logicielle et une démarche<br />

pour la validation <strong>de</strong> ressources linguistiques sur corpus : application à l’évaluation <strong>de</strong> la détection automatique<br />

<strong>de</strong> cadres temporels », in Actes <strong>de</strong>s 4es Journées <strong>de</strong> linguistique <strong>de</strong> corpus, G. WILLIAMS (éd.), à<br />

paraître aux Presses Universitaires <strong>de</strong> R<strong>en</strong>nes.<br />

FERRET O., GRAU B., MINEL J.-L. & PORHIEL S. (2001), «Repérage <strong>de</strong> structures thématiques dans <strong>de</strong>s textes»,<br />

in Actes <strong>de</strong> la 8e Confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN’01), Tours, France.<br />

GROSZ B. J., JOSHI A. K., & WEISTEIN S. (1995), « C<strong>en</strong>tering : A framework for mo<strong>de</strong>lling the local coher<strong>en</strong>ce<br />

of discourse », Computational Linguistics, 21 (2).<br />

HO-DAC L.-M., LE DRAOULEC A. & PERY-WOODLEY M.-P. (2001), « Cohabitation <strong>de</strong>s dim<strong>en</strong>sions temps,<br />

espace et « phénomènes » dans un texte géographique », Cahiers <strong>de</strong> Grammaire, 26.<br />

HUTCHINS W. (1977), « On the Problem of Aboutness in Docum<strong>en</strong>t Analysis », Journal of Informatics, 1, 1.<br />

LE DRAOULEC A. & PERY-WOODLEY M.-P. (2001), « Corpus-based id<strong>en</strong>tification of temporal organisation in<br />

discourse », in Proceedings of the Corpus Linguistics 2001 Confer<strong>en</strong>ce, P. Rayson, A. Wilson, T. McEnery,<br />

A. Hardie & S. Khoja (éds.), Lancaster.<br />

JACKIEWICZ A. & MINEL J.-L. (2003), « L’id<strong>en</strong>tification <strong>de</strong>s structures discursives <strong>en</strong>g<strong>en</strong>drees par les cadres<br />

organisationnels », in Actes <strong>de</strong> la 10e Confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN’03),<br />

Batz-sur-Mer, France.<br />

STRUBE M. & HAHN U. (1999), « Functional C<strong>en</strong>tering : Grounding Refer<strong>en</strong>tial Coher<strong>en</strong>ce in Information<br />

Structure », Computational Linguistics, 25 (3).<br />

WALKER M. A., JOSHI A. K., & PRINCE E. (1998), C<strong>en</strong>tering theory in discourse, Oxford, Oxford University Press.<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).<br />

49


50<br />

Schedae, 2006, prépublication n°6, (<strong>fascicule</strong> n°1, p. 41-50).


Schedae, 2006<br />

Prépublication n° 7 Fascicule n° 1<br />

Les titres et les intro<strong>du</strong>cteurs <strong>de</strong> cadres<br />

comme indices pour le repérage<br />

<strong>de</strong> segm<strong>en</strong>ts d’information évolutive<br />

Marion Laignelet<br />

ERSS – <strong>Université</strong> Toulouse 2 – Le Mirail, Toulouse<br />

et Société INITIALES, Montpellier<br />

marion.laignelet@univ-tlse2.fr<br />

Résumé :<br />

Nous supposons que la combinaison d’une analyse discursive à une analyse linguistique plus<br />

locale peut permettre le repérage automatique <strong>de</strong> segm<strong>en</strong>ts textuels cont<strong>en</strong>ant <strong>de</strong> l’information<br />

susceptible d’évoluer dans le temps dans le cas <strong>de</strong> textes <strong>en</strong>cyclopédiques. Dans cet article, nous<br />

prés<strong>en</strong>tons comm<strong>en</strong>t l’hypothèse <strong>de</strong> l’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours ainsi que le rôle <strong>de</strong>s titres apporte<br />

un gain qualitatif non négligeable pour l’objectif visé. Cet objectif s’inscrit dans un projet in<strong>du</strong>striel<br />

visant la création d’une application ayant pour but l’ai<strong>de</strong> à la mise à jour <strong>de</strong> l’information <strong>de</strong><br />

fiches <strong>en</strong>cyclopédiques <strong>en</strong> français pour le domaine <strong>de</strong> l’édition.<br />

Mots-clés: navigation intra-docum<strong>en</strong>taire, information évolutive, <strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours,<br />

titres.<br />

Abstract :<br />

The purpose of this paper is to find methods to automatically highlight text segm<strong>en</strong>ts containing<br />

information that could evolve in time. In or<strong>de</strong>r to do this, we hypothesize that combining a discourse<br />

analysis with a more local linguistic analysis is a possible method to follow. More precisely<br />

we are going to pres<strong>en</strong>t how a discourse framing hypothesis as well as the role of headings could<br />

be a significant qualitative solution to reach our objective. This objective is part of an in<strong>du</strong>strial<br />

project <strong>de</strong>veloping an application that assists human users in updating <strong>en</strong>cyclopedia file information<br />

in Fr<strong>en</strong>ch for publishing companies.<br />

Keywords : intra-docum<strong>en</strong>t navigation, evolving information, discourse framing hypothesis,<br />

headings.<br />

Le rôle <strong>de</strong>s marqueurs <strong>de</strong> discours au sein <strong>de</strong>s textes est aujourd’hui au c<strong>en</strong>tre <strong>de</strong> nombreux<br />

travaux linguistiques. Nous souhaitons montrer dans cet article que la prise <strong>en</strong> compte<br />

<strong>du</strong> niveau discursif peut être utile à un système <strong>de</strong> TAL visant une application in<strong>du</strong>strielle<br />

précise. Cet article ne prés<strong>en</strong>te qu’un aspect spécifique d’un projet plus global : nous visons<br />

la création d’un prototype logiciel d’ai<strong>de</strong> à la mise à jour <strong>de</strong> l’information <strong>de</strong>s docum<strong>en</strong>ts<br />

Marion Laignelet<br />

« Les titres et les intro<strong>du</strong>cteurs <strong>de</strong> cadres comme indices pour le repérage <strong>de</strong> segm<strong>en</strong>ts d’information évolutive »<br />

Schedae, 2006, prépublication n°7, (<strong>fascicule</strong> n°1, p. 51-56).<br />

51


52<br />

<strong>en</strong>cyclopédiques pour le domaine <strong>de</strong> l’édition 1 . Nous cherchons à déterminer <strong>de</strong>s métho<strong>de</strong>s<br />

et techniques (linguistiques et informatiques) pour le repérage <strong>de</strong> « SEgm<strong>en</strong>ts <strong>de</strong> DIScours<br />

cont<strong>en</strong>ant <strong>de</strong> l’information évolutive (ε) » ou SEDIS-ε. Déterminés et définis par rapport à<br />

un usage concret et réel (la mise à jour éditoriale), les SEDIS-ε sont <strong>de</strong>s portions textuelles<br />

cont<strong>en</strong>ant une ou plusieurs information(s) susceptible(s) d’évoluer dans le temps 2 . Nous ne<br />

nous situons pas dans une problématique d’extraction d’information mais plutôt dans celle<br />

<strong>de</strong> la navigation intra-docum<strong>en</strong>taire : nous cherchons à signaler au rédacteur <strong>de</strong>s zones<br />

pertin<strong>en</strong>tes pour la tâche <strong>de</strong> mise à jour <strong>de</strong> l’information dans le but <strong>de</strong> l’assister et non <strong>de</strong><br />

le remplacer. La mise à jour <strong>de</strong> l’information proprem<strong>en</strong>t dite lui incombe <strong>en</strong>tièrem<strong>en</strong>t.<br />

Pour répondre à cet objectif <strong>de</strong> repérage automatique <strong>de</strong>s SEDIS-ε, nous pr<strong>en</strong>ons le<br />

parti <strong>de</strong> nous baser ess<strong>en</strong>tiellem<strong>en</strong>t sur <strong>de</strong>s connaissances linguistiques, et notamm<strong>en</strong>t sur<br />

les notions <strong>de</strong> marqueurs textuels et discursifs comme les « mots-repères » ou les « motstitres<br />

», notions déjà <strong>en</strong>visagées par Edmundson (1969), les cue phrases (Grosz & Sidner<br />

1986) ou <strong>en</strong>core les élém<strong>en</strong>ts participant <strong>de</strong> l’analyse <strong>de</strong> la structure <strong>de</strong> texte (Marcu 2000).<br />

Dans cet article, nous focalisons notre analyse sur les aspects discursifs <strong>de</strong>s docum<strong>en</strong>ts à<br />

travers <strong>de</strong>ux types <strong>de</strong> marqueurs : les titres et les intro<strong>du</strong>cteurs <strong>de</strong> cadre <strong>de</strong> discours (Charolles<br />

1997). Nous souhaitons montrer que ces <strong>de</strong>ux niveaux <strong>de</strong> structuration « à gros grain »<br />

occup<strong>en</strong>t une place importante dans la <strong>de</strong>scription et le repérage <strong>de</strong>s SEDIS-ε.<br />

Corpus, indices et marqueurs (textuels et discursifs)<br />

Méthodologie générale<br />

Comme nous l’avons précisé <strong>en</strong> intro<strong>du</strong>ction, si nous sommes capable <strong>de</strong> définir un<br />

SEDIS-ε relativem<strong>en</strong>t à l’usage (<strong>de</strong>s segm<strong>en</strong>ts cont<strong>en</strong>ant une information susceptible d’évoluer<br />

dans le temps), notre objectif est d’<strong>en</strong> donner une <strong>de</strong>scription linguistique et formelle<br />

suffisamm<strong>en</strong>t fine et précise dans le but d’automatiser leur repérage. La méthodologie<br />

adoptée a été décrite avec précision dans (Laignelet 2006).<br />

Nous travaillons sur un corpus préliminaire constitué <strong>de</strong> 38 fiches <strong>en</strong>cyclopédiques 3<br />

dans lesquelles nous avons annoté manuellem<strong>en</strong>t les SEDIS-ε (718 SEDIS-ε <strong>de</strong> longueurs<br />

variables, <strong>de</strong> l’expression locale à la phrase ou à un <strong>en</strong>semble <strong>de</strong> phrases). Sur ce corpus<br />

préalablem<strong>en</strong>t annoté, nous projetons un certain nombre d’indices textuels et discursifs 4<br />

(id.) et observons leur distribution au sein <strong>du</strong> docum<strong>en</strong>t (à l’intérieur d’un SEDIS-ε annoté<br />

manuellem<strong>en</strong>t ou non). Nous parlons d’indices <strong>du</strong> fait <strong>de</strong> leur caractère multi-fonctionnel 5<br />

et nous supposons que leur aptitu<strong>de</strong> à délimiter un SEDIS-ε est liée au fait qu’ils vont apparaître<br />

<strong>en</strong>semble, <strong>de</strong> manière conjointe et non isolée. Ainsi, ces indices ne <strong>de</strong>vi<strong>en</strong>n<strong>en</strong>t <strong>de</strong>s<br />

marqueurs <strong>de</strong> SEDIS-ε que dans <strong>de</strong>s conditions particulières et spécifiques que nous cherchons<br />

à déterminer.<br />

1. Contrat CIFRE <strong>en</strong>tre le laboratoire ERSS, Toulouse, et la Société INITIALES, Montpellier.<br />

2. La mise à jour <strong>de</strong> l’information est ici <strong>en</strong>tièrem<strong>en</strong>t liée à <strong>de</strong>s objectifs <strong>de</strong> ré-édition <strong>de</strong>s fiches <strong>en</strong>cyclopédiques<br />

qui ont été éditées une première fois <strong>en</strong> 2001-2003 et qui doiv<strong>en</strong>t être rééditées <strong>en</strong> 2006-2007 ou<br />

plus tard.<br />

3. Les docum<strong>en</strong>ts constituant notre corpus prés<strong>en</strong>t<strong>en</strong>t cette caractéristique commune d’être ancrés dans une<br />

situation spécifique, l’édition <strong>en</strong>cyclopédique, et d’être inscrits sur un support précis, le <strong>fascicule</strong>, support<br />

qui leur confère <strong>de</strong>s caractéristiques matérielles particulières ori<strong>en</strong>tant leur usage et leur signification. Il<br />

s’agit <strong>de</strong> fiches fonctionnant sous forme d’abonnem<strong>en</strong>t ; le cli<strong>en</strong>t s’abonne à un mom<strong>en</strong>t T et p<strong>en</strong>dant une<br />

<strong>du</strong>rée déterminée, il reçoit un nombre déterminé <strong>de</strong> fiches tous les mois. Ce type d’édition <strong>du</strong>re <strong>en</strong> général<br />

<strong>en</strong>tre 5 et 7 ans voire plus si la collection fonctionne bi<strong>en</strong>.<br />

4. Pour le mom<strong>en</strong>t, les indices pris <strong>en</strong> compte sont : <strong>de</strong>s adverbiaux temporels, <strong>de</strong>s argum<strong>en</strong>tatifs, <strong>de</strong>s marqueurs<br />

aspecto-verbaux, <strong>de</strong>s adverbes <strong>de</strong> temps, <strong>de</strong>s indices discursifs (titres, intro<strong>du</strong>cteurs <strong>de</strong> cadres).<br />

5. Les indices pris <strong>en</strong> compte ont plusieurs fonctions dans les textes, nous supposons qu’ils peuv<strong>en</strong>t aussi être<br />

pertin<strong>en</strong>ts pour le repérage <strong>de</strong>s SEDIS-ε.<br />

Schedae, 2006, prépublication n°7, (<strong>fascicule</strong> n°1, p. 51-56).


Le repérage <strong>de</strong>s indices textuels et discursifs se fait <strong>de</strong> manière automatique à l’ai<strong>de</strong> <strong>de</strong><br />

LinguaStream. Cette « plateforme générique pour le TAL » (Widlöcher & Bilhaut 2005) nous<br />

a permis, <strong>en</strong>tre autres, <strong>de</strong> construire <strong>de</strong>s ressources linguistiques spécifiques (notamm<strong>en</strong>t<br />

<strong>de</strong>s lexiques) et d’écrire <strong>de</strong>s grammaires Prolog pour le repérage <strong>de</strong>s adverbiaux temporels<br />

tout <strong>en</strong> leur associant un certain nombre <strong>de</strong> traits sémantiques r<strong>en</strong>seignant sur leur nature<br />

déictique ou non, leur référ<strong>en</strong>ce temporelle, etc. Elle nous permet égalem<strong>en</strong>t <strong>de</strong> récupérer<br />

<strong>de</strong>s informations sur la structure logique <strong>du</strong> docum<strong>en</strong>t grâce au formalisme XML et ainsi <strong>de</strong><br />

travailler sur les élém<strong>en</strong>ts titres. Nous supposons pour la prés<strong>en</strong>te étu<strong>de</strong> que le repérage <strong>de</strong><br />

ces indices est acquis (Laignelet 2006) et nous nous focalisons sur le gain qualitatif que peut<br />

représ<strong>en</strong>ter la prise <strong>en</strong> compte d’une analyse discursive pour l’objectif <strong>du</strong> projet (repérer<br />

automatiquem<strong>en</strong>t <strong>de</strong>s SEDIS-ε et, d’un point <strong>de</strong> vue ergonomique, satisfaire l’utilisateur final).<br />

Définitions et délimitation : les indices <strong>de</strong> nature discursive<br />

L’hypothèse <strong>de</strong> l’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours définit un cadre <strong>de</strong> discours comme un regroupem<strong>en</strong>t<br />

<strong>de</strong> plusieurs propositions sous un critère sémantique véhiculé par une expression<br />

intro<strong>du</strong>ctrice <strong>de</strong> cadre (IC). Un IC est un adverbial situé à l’initiale d’une proposition, généralem<strong>en</strong>t<br />

<strong>en</strong> position détachée. Nous nous focalisons exclusivem<strong>en</strong>t sur les cadres <strong>de</strong> discours<br />

temporels («En 2003… », «Actuellem<strong>en</strong>t… »). Les titres peuv<strong>en</strong>t être <strong>de</strong> natures diverses.<br />

La raison pour laquelle nous traitons précisém<strong>en</strong>t ces <strong>de</strong>ux élém<strong>en</strong>ts <strong>de</strong> discours est<br />

qu’ils particip<strong>en</strong>t <strong>de</strong>s mêmes métafonctions telles que définies par Halliday & Hasan (1976)<br />

(Charolles et al. 2005, Laignelet 2004). En effet, il est possible <strong>de</strong> dire que les cadres <strong>de</strong> discours<br />

et les segm<strong>en</strong>ts titrés revêt<strong>en</strong>t :<br />

– une fonction textuelle : <strong>de</strong>s segm<strong>en</strong>ts discursifs (les parties titrées ou les cadres) sont<br />

mis <strong>en</strong> évid<strong>en</strong>ce par la prés<strong>en</strong>ce <strong>de</strong> titres ou d’intro<strong>du</strong>cteurs <strong>de</strong> cadres qui ont pour<br />

fonction <strong>de</strong> regrouper <strong>de</strong>s segm<strong>en</strong>ts tels que les propositions, les paragraphes ou les<br />

cadres ;<br />

– une fonction idéationnelle : les titres et les intro<strong>du</strong>cteurs <strong>de</strong> cadre pos<strong>en</strong>t un critère<br />

sémantique suivant lequel les propositions suivantes sont à interpréter.<br />

Le rôle <strong>de</strong>s titres et <strong>de</strong>s segm<strong>en</strong>ts titrés nous semble similaire à celui <strong>de</strong>s IC et <strong>de</strong>s<br />

cadres <strong>de</strong> discours au sein <strong>de</strong>s textes, à ceci près qu’ils fonctionn<strong>en</strong>t au sein d’une structure<br />

à « gros grain ».<br />

Intérêt pour l’application : typer les SEDIS-ε<br />

Nous pouvons d’ores et déjà définir <strong>de</strong>ux types <strong>de</strong> SEDIS-ε (réactualisation vs. mise à<br />

jour) ainsi que <strong>de</strong>ux niveaux <strong>de</strong> granularité (SEDIS-ε minimal vs. segm<strong>en</strong>t d’interprétation).<br />

Les SEDIS-ε à réactualiser sont <strong>de</strong>s segm<strong>en</strong>ts dans lesquels l’information restera vraie<br />

dans l’absolu mais, <strong>en</strong> vue d’une ré-édition et d’une diffusion, les événem<strong>en</strong>ts et dates<br />

associés doiv<strong>en</strong>t être modifiés pour faire référ<strong>en</strong>ce à un mom<strong>en</strong>t plus proche <strong>du</strong> mom<strong>en</strong>t<br />

<strong>de</strong> lecture/réédition.<br />

L’organisation mondiale <strong>de</strong> la santé (OMS) estime, <strong>en</strong> effet, à 160 millions le nombre annuel <strong>de</strong><br />

nouveaux cas dans le mon<strong>de</strong> <strong>en</strong> 2002.<br />

Dans cet exemple, le SEDIS-ε minimal correspond à la valeur chiffrée et à la date (expressions<br />

soulignées). A noter que ce g<strong>en</strong>re d’expressions est à la fois indice et SEDIS-ε. Cep<strong>en</strong>dant,<br />

visant une application d’ai<strong>de</strong> à la mise à jour, nous p<strong>en</strong>sons que le contexte <strong>de</strong> la<br />

phrase dans laquelle un SEDIS-ε apparaît est le segm<strong>en</strong>t minimal requis pour que la personne<br />

chargée <strong>de</strong> mettre à jour l’information ait un contexte d’interprétation suffisant.<br />

Schedae, 2006, prépublication n°7, (<strong>fascicule</strong> n°1, p. 51-56).<br />

53


54<br />

D’autre part, nous définissons <strong>de</strong>s SEDISε « à mettre à jour » : dans ce cas, l’information<br />

n’est pot<strong>en</strong>tiellem<strong>en</strong>t plus vraie au mom<strong>en</strong>t <strong>de</strong> lecture/réédition ou alors, étant une prédiction<br />

sur l’av<strong>en</strong>ir <strong>de</strong> la part <strong>du</strong> rédacteur, elle s’est ou non vérifiée.<br />

La découverte <strong>du</strong> virus a permis la mise au point d’une métho<strong>de</strong> <strong>de</strong> dépistage […]. On peut<br />

ainsi savoir qu’une personne est infectée longtemps avant que la maladie ne se déclare. Il<br />

n’existe pas à l’heure actuelle <strong>de</strong> vaccin contre le sida. Si les thérapies actuelles permett<strong>en</strong>t<br />

d’améliorer s<strong>en</strong>siblem<strong>en</strong>t la <strong>du</strong>rée et les conditions <strong>de</strong> vie <strong>du</strong> mala<strong>de</strong>, aucune n’est capable<br />

d’éliminer le virus.<br />

À cette distinction basée sur la nature <strong>de</strong>s segm<strong>en</strong>ts recherchés, nous supposons l’importance<br />

<strong>de</strong> la notion <strong>de</strong> segm<strong>en</strong>t d’interprétation au sein <strong>de</strong>squels IC et titres vont avoir un<br />

rôle c<strong>en</strong>tral. Nous distinguons donc les SEDISε qui sont <strong>de</strong> l’ordre <strong>de</strong> l’expression locale <strong>de</strong><br />

ceux qui correspond<strong>en</strong>t à <strong>de</strong>s segm<strong>en</strong>ts d’interprétation, et qui nécessit<strong>en</strong>t un cadre correspondant<br />

au moins à la phrase.<br />

Exemples et Résultats<br />

Nous avons montré dans (Laignelet 2006) que pr<strong>en</strong>dre <strong>en</strong> considération les indices <strong>de</strong><br />

manière isolée est insuffisant pour déterminer si le segm<strong>en</strong>t ( a minima la phrase) dans laquelle<br />

2<br />

l’indice est prés<strong>en</strong>t peut être considéré comme un SEDISε. Même si le test <strong>du</strong> CHI a montré<br />

que les indices que nous pr<strong>en</strong>ons <strong>en</strong> compte apparaiss<strong>en</strong>t <strong>de</strong> manière significative dans les<br />

SEDISε annotés manuellem<strong>en</strong>t, il semble incontournable <strong>de</strong> les traiter <strong>en</strong> configurations,<br />

i.e. <strong>de</strong> définir <strong>de</strong>s schémas d’indices.<br />

Dans cette optique, la prise <strong>en</strong> compte <strong>de</strong>s IC et <strong>de</strong>s titres nous semble être un gain<br />

(qualitatif) pour le repérage (automatique) <strong>de</strong>s SEDISε dans la mesure où ils sembl<strong>en</strong>t permettre<br />

l’ouverture <strong>de</strong> segm<strong>en</strong>ts d’interprétation. C’est ce que nous pouvons observer dans<br />

les <strong>de</strong>ux exemples suivants.<br />

Texte 1 : Exemple <strong>de</strong> SEDISε intro<strong>du</strong>it par un IC temporel.<br />

Texte 2 : Exemple <strong>de</strong> SEDISε chapeauté par un titre.<br />

Dans le premier exemple ( Texte 1),<br />

le SEDISε s’ouvre sur un intro<strong>du</strong>cteur <strong>de</strong> cadre temporel.<br />

Dans ce cas, il est important <strong>de</strong> noter que toutes les informations cont<strong>en</strong>ues dans ce<br />

Schedae,<br />

2006, prépublication n°7, (<strong>fascicule</strong> n°1, p. 51-56).


segm<strong>en</strong>t ne sont pas à mettre à jour et notamm<strong>en</strong>t les propositions soulignées (<strong>en</strong> on<strong>du</strong>lé),<br />

pour lesquelles une référ<strong>en</strong>ce temporelle différ<strong>en</strong>te est explicitem<strong>en</strong>t signalée. L’intérêt <strong>de</strong><br />

considérer l’IC temporel « En 2003 » (dans l’<strong>en</strong>cadré) est que le critère sémantique (la référ<strong>en</strong>ce<br />

temporelle « 2003 ») qu’il véhicule est valable pour l’<strong>en</strong>semble <strong>du</strong> paragraphe. Ainsi,<br />

les <strong>de</strong>ux valeurs chiffrées dans les ovales ont une relation (temporelle) à travers l’expression<br />

« En 2003 ». Les <strong>de</strong>ux élém<strong>en</strong>ts dans les <strong>en</strong>cadrés arrondis sont égalem<strong>en</strong>t <strong>de</strong>s informations<br />

à mettre à jour <strong>du</strong> fait <strong>de</strong> leur proximité temporelle.<br />

Dans le second exemple (Texte 2), le segm<strong>en</strong>t titré <strong>en</strong> <strong>en</strong>tier constitue un SEDIS-ε. Cep<strong>en</strong>dant,<br />

comme cela apparaît à travers le jeu <strong>de</strong>s <strong>en</strong>cadrés, un certain nombre d’indices permett<strong>en</strong>t<br />

<strong>de</strong> délimiter cinq SEDIS-ε <strong>de</strong> granularité inférieure (<strong>de</strong> longueur d’une phrase chacun).<br />

Le titre « Perspective », qui est <strong>de</strong> niveau 1 et qui, par sa sémantique, ori<strong>en</strong>te une interprétation<br />

vers quelque chose situé dans le futur, influe sur l’<strong>en</strong>semble <strong>de</strong> la section. Enfin, il est<br />

important <strong>de</strong> noter que la position <strong>en</strong> fin <strong>de</strong> docum<strong>en</strong>t, <strong>en</strong> position <strong>de</strong> conclusion dans la<br />

fiche, confère à cet élém<strong>en</strong>t titre un rôle et une fonction particulière au sein <strong>du</strong> docum<strong>en</strong>t<br />

(Marcu 2000).<br />

Quantitativem<strong>en</strong>t, <strong>en</strong>viron 50 % <strong>de</strong>s IC temporels sont inclus dans un SEDIS-ε, ce qui<br />

est loin d’être négligeable étant donné qu’<strong>en</strong> nombre <strong>de</strong> phrases, la proportion <strong>de</strong> SEDIS-ε<br />

au sein <strong>de</strong> notre corpus est d’<strong>en</strong>viron 9 % <strong>du</strong> corpus. Environ 1/3 <strong>de</strong>s IC prés<strong>en</strong>ts dans un<br />

SEDIS-ε ont une portée couvrant plus <strong>de</strong> <strong>de</strong>ux phrases 6 . Concernant les titres, leur proportion<br />

à apparaître avant une série <strong>de</strong> SEDIS-ε est <strong>de</strong> 9 % <strong>en</strong>viron et parmi eux, 25 % sont <strong>en</strong><br />

position <strong>de</strong> conclusion dans la fiche.<br />

Le segm<strong>en</strong>t d’interprétation : un apport plus qualitatif que quantitatif ?<br />

Les IC étant <strong>de</strong>s adverbiaux, et ces <strong>de</strong>rniers étant, comme les valeurs chiffrées, à la fois<br />

<strong>de</strong>s indices et <strong>de</strong>s SEDIS-ε minimaux 7 , c’est le critère positionnel <strong>de</strong> ces expressions à l’initiale<br />

<strong>de</strong> la proposition qui va permettre l’ouverture d’un cadre d’interprétation. La portée <strong>de</strong><br />

l’IC fonctionne généralem<strong>en</strong>t vers l’avant (cf. le s<strong>en</strong>s <strong>de</strong>s flèches sur nos segm<strong>en</strong>ts). Concernant<br />

les titres, leur fonctionnem<strong>en</strong>t est s<strong>en</strong>siblem<strong>en</strong>t différ<strong>en</strong>t. Ainsi, sauf dans quelques cas<br />

bi<strong>en</strong> précis, l’expression cont<strong>en</strong>ue dans le titre n’est pas un SEDIS-ε à proprem<strong>en</strong>t parler et<br />

n’est pas non plus inclus dans le SEDIS-ε. D’un côté, le rôle <strong>de</strong> certains titres est <strong>de</strong> prédire<br />

la prés<strong>en</strong>ce d’un ou plusieurs SEDIS-ε. De l’autre, lorsque plusieurs SEDIS-ε apparaiss<strong>en</strong>t<br />

<strong>en</strong> série dans une même partie, et lorsque le titre apparti<strong>en</strong>t à une classe sémantique spécifique<br />

8 , alors, par propagation (vers l’arrière), l’<strong>en</strong>semble <strong>de</strong> la partie titrée peut être définie<br />

comme un segm<strong>en</strong>t d’interprétation. Dans tous les cas, dans un segm<strong>en</strong>t d’interprétation,<br />

il peut se trouver <strong>de</strong>s segm<strong>en</strong>ts qui ne nécessit<strong>en</strong>t pas <strong>de</strong> mise à jour (cf. ce qui est souligné<br />

<strong>en</strong> on<strong>du</strong>lé dans Texte 1).<br />

Conclusion et Perspectives<br />

La notion <strong>de</strong> cadre d’interprétation nous semble intéressante, à la fois dans une optique<br />

linguistique à travers la <strong>de</strong>scription <strong>du</strong> fonctionnem<strong>en</strong>t <strong>de</strong>s IC et <strong>de</strong>s titres, mais égalem<strong>en</strong>t<br />

pour l’objectif applicatif visé. Il nous semble <strong>en</strong> effet qu’un accès à <strong>de</strong>s mises à jour <strong>de</strong> grains<br />

différ<strong>en</strong>ts (SEDIS-ε minimaux vs. segm<strong>en</strong>ts d’interprétation) peut améliorer l’utilisation d’un<br />

tel outil d’ai<strong>de</strong> à la mise <strong>de</strong> l’information. Il sera néanmoins incontournable <strong>de</strong> procé<strong>de</strong>r à<br />

une évaluation <strong>de</strong> cette distinction auprès d’utilisateurs finaux. Nous projetons le traitem<strong>en</strong>t<br />

6. La portée a été observée et calculée manuellem<strong>en</strong>t.<br />

7. Généralem<strong>en</strong>t, la valeur <strong>de</strong> la référ<strong>en</strong>ce temporelle doit être modifiée.<br />

8. Un travail <strong>de</strong> typage <strong>de</strong>s expressions pouvant occuper la position titre est <strong>en</strong> cours.<br />

Schedae, 2006, prépublication n°7, (<strong>fascicule</strong> n°1, p. 51-56).<br />

55


56<br />

<strong>de</strong>s IC médiatifs (« Selon une étu<strong>de</strong> <strong>du</strong> Ministère… ») et <strong>de</strong>s IC spatiaux (« En France… »), car<br />

il semble qu’ils ont égalem<strong>en</strong>t cette capacité à ouvrir un cadre d’interprétation :<br />

Selon une <strong>en</strong>quête <strong>du</strong> Ministère <strong>du</strong> travail, sur 13,5 millions <strong>de</strong> salariés, 21,3 % déclar<strong>en</strong>t ne pas<br />

<strong>en</strong>t<strong>en</strong>dre une personne qui leur parle normalem<strong>en</strong>t, […]. 27 % serai<strong>en</strong>t même exposés à <strong>de</strong>s<br />

bruits supérieurs à 85 dB, […]. Ces affections représ<strong>en</strong>t<strong>en</strong>t actuellem<strong>en</strong>t près <strong>de</strong> 33 % <strong>de</strong>s r<strong>en</strong>tes<br />

[…].<br />

Enfin, une étu<strong>de</strong> sur un corpus <strong>en</strong>cyclopédique différ<strong>en</strong>t est prévu, ainsi qu’une évaluation<br />

<strong>de</strong> nos analyses.<br />

Bibliographie<br />

CHAROLLES M. (1997), « L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours, univers, champs, domaine et espaces », Cahiers <strong>de</strong><br />

Recherche linguistique, 6.<br />

CHAROLLES M., LE DRAOULEC A., PÉRY-WOODLEY M.-P., SARDA L. (2005), « Temporal and spatial dim<strong>en</strong>sions<br />

of discourse organisation », Journal of Fr<strong>en</strong>ch Language Studies, 15, 2, p. 203-218.<br />

EDMUNDSON H. (1969), « New methods in automatic abstracting », Journal of ACM, 16, 2, p. 264-285.<br />

GOSSELIN L. (2005), Temporalité et modalité, Bruxelles, Éditions Duculot.<br />

GROSZ J. & SIDNER A. (1986), « Att<strong>en</strong>tion, int<strong>en</strong>tions, and the structure of discourse », Computational<br />

linguistics, 3, 12, p. 175-204.<br />

HALLIDAY M.A.K. & HASAN R. (1976), Cohesion in English, Londres, Longman Group Limited.<br />

HO-DAC M., JACQUES M.-P. & REBEYROLLE J. (2004), « Sur la fonction discursive <strong>de</strong>s titres », in L’unité texte,<br />

S. Porhiel et D. Klingler (éds.), Pleyb<strong>en</strong>, Perspectives, p. 125-152.<br />

LAIGNELET M. (2006), «Repérage <strong>de</strong> segm<strong>en</strong>ts d’information évolutive dans <strong>de</strong>s docum<strong>en</strong>ts <strong>de</strong> type <strong>en</strong>cyclopédique<br />

», in Actes <strong>de</strong> la 13e confér<strong>en</strong>ce sur le Traitem<strong>en</strong>t Automatique <strong>de</strong>s Langues Naturelles (RECITAL),<br />

P. Mert<strong>en</strong>s, C. Fairon, A. Dister et P. Watrin (éds.), Presses universitaires <strong>de</strong> Louvain, Belgique, p. 690-699.<br />

LAIGNELET M. (2004), Les titres et les cadres <strong>de</strong> discours temporels – Structuration <strong>de</strong>s discours et organisation<br />

<strong>de</strong> l’information, Mémoire <strong>de</strong> DEA, <strong>Université</strong> Toulouse 2 – Le Mirail.<br />

MARCU D. (2000), «The rhetorical parsing of unrestricted texts: A surface-based approach », Computational<br />

Linguistics, 26, 3, p. 395-448.<br />

WIDLÖCHER A. & BILHAUT F. (2005), « La plate-forme LinguaStream : un outil d’exploration linguistique sur<br />

corpus », in Actes <strong>de</strong> la 12e Confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN), M. Jardino<br />

(éd.), France, ATALA LIMSI, p. 517-522.<br />

Schedae, 2006, prépublication n°7, (<strong>fascicule</strong> n°1, p. 51-56).


Schedae,<br />

2006<br />

Prépublication n° 8 Fascicule n° 1<br />

Vers une grammaire<br />

<strong>de</strong> l’évaluation <strong>de</strong>s objets culturels<br />

Dominique Legallois<br />

CRISCO (CNRS – FRE 2 805) – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie<br />

Dominique.Legallois@unica<strong>en</strong>.fr<br />

Stéphane Ferrari<br />

GREYC (CNRS – UMR 6 072) – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie<br />

Stephane.Ferrari@info.unica<strong>en</strong>.fr<br />

Résumé :<br />

Cette étu<strong>de</strong> traite <strong>de</strong> l’id<strong>en</strong>tification <strong>de</strong>s formes linguistiques <strong>de</strong>stinées à l’expression <strong>de</strong> l’évaluation<br />

<strong>de</strong>s objets culturels. À partir d’un corpus, nous dégageons trois niveaux coordonnés et complém<strong>en</strong>taires<br />

qui, une fois formalisés et implém<strong>en</strong>tés, constitu<strong>en</strong>t une grammaire <strong>de</strong> l’évaluation<br />

à partir <strong>de</strong> laquelle le phénomène peut être abordé (au moins partiellem<strong>en</strong>t) automatiquem<strong>en</strong>t.<br />

Ces trois niveaux sont : le niveau expéri<strong>en</strong>tiel, le niveau lexico-grammatical, le niveau énonciatif.<br />

Nous prés<strong>en</strong>tons une expérim<strong>en</strong>tation informatique montrant la faisabilité <strong>de</strong> l’implém<strong>en</strong>tation, et<br />

ouvrant la voie à un type d’analyse discursive automatisée traitant <strong>du</strong> phénomène <strong>de</strong> l’évaluation.<br />

Mots-clés : expression <strong>de</strong> l’évaluation, grammaire locale, expérim<strong>en</strong>tation sur corpus.<br />

Abstract :<br />

This paper focuses on the id<strong>en</strong>tification of the linguistics objects used to express evaluation. On<br />

the basis of a corpus study, we draw three coordinated and complem<strong>en</strong>tary levels of rules which<br />

constitute a grammar of evaluation once formalized and implem<strong>en</strong>ted. These levels are the experi<strong>en</strong>tial,<br />

the lexico-grammatical and the <strong>en</strong>unciative ones. We pres<strong>en</strong>t a computer experim<strong>en</strong>tation<br />

proving the feasibility of an implem<strong>en</strong>tation, and leading to further <strong>de</strong>velopm<strong>en</strong>ts for an automatic<br />

discourse analyzer taking the evaluation ph<strong>en</strong>om<strong>en</strong>on into account.<br />

Keywords : formulation of evaluation, local grammar, corpus experim<strong>en</strong>tation.<br />

Intro<strong>du</strong>ction<br />

Les sites amazon.fr et fnac.fr offr<strong>en</strong>t la possibilité pour les lecteurs <strong>de</strong> déposer leurs<br />

avis sur les livres lus, afin <strong>de</strong> les recomman<strong>de</strong>r ou <strong>de</strong> les déconseiller aux consommateurs<br />

internautes. Quelques-unes <strong>de</strong> ces critiques, réunies dans un corpus restreint à 51 092 mots<br />

(représ<strong>en</strong>tant approximativem<strong>en</strong>t 400 critiques, ess<strong>en</strong>tiellem<strong>en</strong>t <strong>de</strong> romans, mais aussi <strong>de</strong><br />

Dominique Legallois & Stéphane Ferrari<br />

« Vers une grammaire <strong>de</strong> l’évaluation <strong>de</strong>s objets culturels »<br />

Schedae,<br />

2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

57


58<br />

BD, <strong>de</strong> poésie et d’essais) constitu<strong>en</strong>t un objet d’observation et d’analyse précieux et complexe<br />

pour un travail d’id<strong>en</strong>tification <strong>de</strong>s formes linguistiques <strong>de</strong>stinées à l’expression <strong>de</strong><br />

l’évaluation dans les discours. Évaluation est ici <strong>en</strong>t<strong>en</strong><strong>du</strong> dans une acception large, d’ailleurs<br />

assez difficile à circonscrire : appréciation <strong>de</strong>s qualités esthétiques, pratiques d’un objet, mais<br />

aussi réaction affective, comportem<strong>en</strong>tale, voire somatique face aux qualités <strong>de</strong>s choses,<br />

<strong>de</strong>s personnes et <strong>de</strong>s événem<strong>en</strong>ts, ou <strong>en</strong>core jugem<strong>en</strong>t d’ordre moral ou éthique. Notre<br />

objectif à terme, est l’élaboration d’une grammaire <strong>de</strong> l’évaluation <strong>de</strong>s objets culturels (livres,<br />

films, théâtre, etc.) implém<strong>en</strong>table à <strong>de</strong>s fins d’extraction automatique, pour l’analyse <strong>de</strong><br />

comparaison <strong>en</strong>tre textes : <strong>de</strong>vant la complexité et la perman<strong>en</strong>ce <strong>du</strong> phénomène évaluatif,<br />

nous nous att<strong>en</strong>dons à <strong>de</strong>s mises <strong>en</strong> discours fortem<strong>en</strong>t différ<strong>en</strong>tes <strong>de</strong> son expression selon<br />

les objets évalués et les stratégies évaluatives.<br />

Notre approche est donc fondée sur l’usage discursif 1 , plutôt que sur la <strong>de</strong>scription lexicologique<br />

<strong>en</strong>treprise, par exemple, par certains travaux sur le lexique <strong>de</strong>s s<strong>en</strong>tim<strong>en</strong>ts (cf. le<br />

numéro 105 <strong>de</strong> Langue Française, ou Mathieu 2000) ; elle diffère égalem<strong>en</strong>t <strong>de</strong>s analyses<br />

thématiques (Rastier 1995), fondée sur l’étu<strong>de</strong> lexicométrique, <strong>en</strong> privilégiant les propriétés<br />

lexico-grammaticales et énonciatives d’expressions routinières. En effet, notre corpus compr<strong>en</strong>d<br />

nombre <strong>de</strong> textes largem<strong>en</strong>t stéréotypés, dans lesquelles les expressions dédiées à<br />

l’évaluation sont souv<strong>en</strong>t préconstruites, prédonnées : le langage évaluatif portant sur les<br />

livres est <strong>en</strong> partie formulaire.<br />

Nous reconnaissons à l’évaluation une portée considérable sur <strong>de</strong>s champs linguistiques<br />

<strong>en</strong>tiers : au niveau lexical 2 , un grand nombre <strong>de</strong> lexèmes, quelle que soit leur catégorie, sont<br />

par nature évaluatifs : tragédie, succès, spl<strong>en</strong>di<strong>de</strong>, échouer, réussir, heureusem<strong>en</strong>t, etc. ; au<br />

niveau <strong>de</strong>s constructions, le système comparatif et superlatif constitue une expression grammaticalisée<br />

<strong>de</strong> l’évaluation ; au niveau énonciatif, la pragmatique linguistique inspirée par<br />

Ducrot et Anscombre place la fonction évaluative au cœur même <strong>du</strong> dispositif argum<strong>en</strong>tatif :<br />

c’est un bon livre ne constitue pas d’emblée un énoncé informatif, c’est d’abord un énoncé<br />

argum<strong>en</strong>tatif fondé sur une évaluation 3 ; les marqueurs <strong>en</strong>closifs 4 (une espèce <strong>de</strong>/un vrai/<br />

un véritable N) sont employés dans <strong>de</strong>s énoncés évaluatifs ; <strong>en</strong>fin, un certain type <strong>de</strong> métaphores<br />

nominales, parmi les plus répan<strong>du</strong>es et acceptant les modifications <strong>en</strong>closives, est<br />

ess<strong>en</strong>tiellem<strong>en</strong>t évaluatif (Sophie est une vipère). Mais ces champs ne seront pas étudiés<br />

ici pour eux-mêmes ; notre point <strong>de</strong> départ reste les discours avérés et leur complexité, et<br />

l’évaluation sera considérée comme phénomène textuel plutôt que phénomène inhér<strong>en</strong>t à<br />

la langue elle-même.<br />

Nous prés<strong>en</strong>tons dans ce qui suit, les caractéristiques <strong>de</strong>s niveaux fonctionnels dégagés<br />

par l’observation et l’étu<strong>de</strong> <strong>du</strong> corpus ; nous donnons <strong>en</strong>suite, avant d’exposer la métho<strong>de</strong><br />

d’implém<strong>en</strong>tation employée, l’exemple d’une analyse d’un texte qui illustre l‘<strong>en</strong>chevêtrem<strong>en</strong>t<br />

<strong>de</strong>s niveaux à la base <strong>de</strong> notre grammaire.<br />

Analyse <strong>du</strong> corpus<br />

À l’issu <strong>de</strong> l’exam<strong>en</strong> <strong>de</strong> notre corpus, nous avons considéré trois niveaux fonctionnels<br />

complém<strong>en</strong>taires et interactifs pour la constitution <strong>de</strong> la grammaire <strong>de</strong> l’évaluation :<br />

1. L’analyse linguistique <strong>de</strong> l’acte d’évaluation a fait récemm<strong>en</strong>t l’objet d’un certain nombre d’étu<strong>de</strong>s<br />

« corpus driv<strong>en</strong> approach » dans le domaine anglo-saxon : par exemple, l’ouvrage collectif sous la responsabilité<br />

<strong>de</strong> S. Hunston et G. Thompson (2000) dont les contributions montr<strong>en</strong>t <strong>de</strong>s traitem<strong>en</strong>ts sémantiques<br />

et grammaticaux possibles <strong>de</strong> l’évaluation ; et, <strong>de</strong> façon <strong>en</strong>core plus substantielle, le travail <strong>de</strong> J. Martin et<br />

P. White (2005) sur la notion d’appraisal, dans la perspective <strong>de</strong> la grammaire fonctionnelle systémique.<br />

2. C. Kerbrat-Orecchioni 1997.<br />

3. On pourra lire O. Galatanu (2002) pour l’analyse <strong>de</strong>s valeurs intrinsèques au lexique et leurs effets <strong>en</strong> discours.<br />

4. Cf. Legallois 2002.<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).


– Niveau <strong>de</strong>s cadres expéri<strong>en</strong>tiels ;<br />

– Niveau <strong>de</strong>s séqu<strong>en</strong>ces lexico-grammaticales ;<br />

– Niveau <strong>de</strong>s configurations énonciatives.<br />

Ces trois niveaux correspond<strong>en</strong>t aux méta-fonctions que distingu<strong>en</strong>t Halliday (1996) :<br />

fonction idéationnelle (pour nous, cadre expéri<strong>en</strong>tiel), fonction textuelle (niveau lexicogrammatical),<br />

fonction interpersonnelle (niveau énonciatif).<br />

I Les cadres expéri<strong>en</strong>tiels<br />

Le premier niveau id<strong>en</strong>tifie les aspects <strong>de</strong> l’objet évalué. Une analyse <strong>de</strong> l’évaluation d’un<br />

livre est vite confrontée à un problème inhér<strong>en</strong>t à la constitution <strong>de</strong> l’objet même : on peut<br />

évaluer différ<strong>en</strong>ts aspects ou qualia ; par exemple, le cont<strong>en</strong>u, le style, la satisfaction ou la<br />

déception par rapport à <strong>de</strong>s att<strong>en</strong>tes, etc. L’évaluation peut porter égalem<strong>en</strong>t sur l’auteur <strong>du</strong><br />

livre, sur l’histoire. Autrem<strong>en</strong>t dit, la forme <strong>de</strong> l’expression d’un jugem<strong>en</strong>t est naturellem<strong>en</strong>t<br />

configurée par rapport à ce que nous avons nommé <strong>de</strong>s cadres expéri<strong>en</strong>tiels. Quelques exemples<br />

<strong>de</strong> cadres :<br />

L’emprise <strong>du</strong> livre sur le lecteur : On ne peut plus le lâcher, jusqu’à la fin/Comme beaucoup<br />

d’<strong>en</strong>tre vous, je suis tombée sous le charme <strong>de</strong> la douceur <strong>du</strong> récit <strong>de</strong> Philip Roth.<br />

Les att<strong>en</strong>tes satisfaites ou non <strong>du</strong> lecteur : Je reste <strong>de</strong> loin sur ma faim/Je m’att<strong>en</strong>dais à mieux<br />

<strong>de</strong> K. DICK/J’ai été surprise par le style <strong>de</strong> ce livre/Vivem<strong>en</strong>t la suite !<br />

L’effort investi pour sa lecture : Lisez le livre, il <strong>en</strong> vaut la peine/Le livre se lit facilem<strong>en</strong>t et rapi<strong>de</strong>m<strong>en</strong>t/Il<br />

faut s’accrocher au début<br />

Son impact affectif sur le lecteur : On pleure un peu, on rit, on s’émeut !…<br />

Sa valeur axiologique : L’Aliéniste est avant tout un EXCELLENT roman.<br />

La prescription ou la proscription <strong>du</strong> livre (recomman<strong>de</strong>r un livre est une façon indirecte mais<br />

implacable <strong>de</strong> l’évaluer positivem<strong>en</strong>t) : A conseiller pour ceux qui aim<strong>en</strong>t les thrillers.<br />

Ces cadres, même s’ils sont id<strong>en</strong>tifiés à partir d’un corpus précis, sont suffisamm<strong>en</strong>t<br />

généraux pour être appliqués à l’évaluation d’autres objets culturels ; <strong>en</strong> effet, l’observation<br />

d’avis portant sur <strong>de</strong>s CD musicaux, <strong>de</strong>s jeux vidéos ou <strong>de</strong>s films permet <strong>de</strong> constater la<br />

prés<strong>en</strong>ce <strong>de</strong> cadres id<strong>en</strong>tiques. Ce phénomène s’explique ainsi : l’évaluation porte rarem<strong>en</strong>t<br />

sur les propriétés intrinsèques <strong>de</strong> l’œuvre, mais sur les rapports que les sujets ont avec cette<br />

œuvre. De ce fait, les aspect jugés par la critique livresque sont facilem<strong>en</strong>t transposables à<br />

d’autres objets : efforts, impacts affectifs, prescriptions, att<strong>en</strong>tes, mais aussi style, effets hédoniques<br />

(par ex. passer un agréable mom<strong>en</strong>t : Voici le plus beau recueil <strong>de</strong> lettres au collège<br />

<strong>de</strong> pataphysique. Un réel mom<strong>en</strong>t <strong>de</strong> bonheur <strong>de</strong> découvrir ce mon<strong>de</strong> inexploré (à propos<br />

<strong>de</strong> Je voudrais pas crever <strong>de</strong> B. Vian)), etc. sont autant <strong>de</strong> cadres communs à l’expéri<strong>en</strong>ce<br />

<strong>de</strong>s objets culturels.<br />

II Séqu<strong>en</strong>ces lexico-grammaticales<br />

Le second niveau est celui <strong>de</strong>s séqu<strong>en</strong>ces lexico-grammaticales ; c’est ainsi que nous<br />

proposons une articulation <strong>du</strong> phénomène phraséologique à l’analyse <strong>de</strong> l’évaluation. À<br />

condition <strong>de</strong> ne pas voir dans la phraséologie un <strong>en</strong>semble <strong>de</strong> formes radicalem<strong>en</strong>t figées,<br />

il est possible <strong>de</strong> concevoir <strong>de</strong>s séqu<strong>en</strong>ces lexico-grammaticales récurr<strong>en</strong>tes, bi<strong>en</strong> que<br />

polymorphes, dédiées ici à l’évaluation. Autrem<strong>en</strong>t dit, notre tâche a été <strong>de</strong> rec<strong>en</strong>ser les<br />

expressions « préfabriquées », <strong>de</strong> la simple collocation (par ex. conseiller vivem<strong>en</strong>t) aux<br />

configurations plus larges. Par exemple :<br />

on n’a jamais aussi bi<strong>en</strong> r<strong>en</strong><strong>du</strong> l’amour réciproque/Aucun livre <strong>de</strong> ma connaissance n’a jamais<br />

si bi<strong>en</strong> démontré […] les dégâts […] que peuv<strong>en</strong>t occasionner la vie<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

59


60<br />

ce « pattern » [ne jamais (aus)si bi<strong>en</strong> + verbe <strong>de</strong> représ<strong>en</strong>tation/explication] est ici considéré<br />

comme une construction relativem<strong>en</strong>t ouverte, mais constituant malgré tout une unité<br />

prédonnée, directem<strong>en</strong>t disponible dans la compét<strong>en</strong>ce linguistique <strong>du</strong> locuteur. Les séqu<strong>en</strong>ces<br />

lexico-grammaticales ont <strong>en</strong> partie été repérées grâce au logiciel « Collocates 5 » qui permet<br />

d’id<strong>en</strong>tifier les n-grams <strong>du</strong> corpus ; nous procédons à une vérification afin <strong>de</strong> nous assurer<br />

que les répétitions collocatives sont porteuses d’évaluation ou <strong>en</strong> sont <strong>de</strong>s indices.<br />

Parmi ces séqu<strong>en</strong>ces, certaines sont <strong>en</strong>tièrem<strong>en</strong>t dédiées à un cadre expéri<strong>en</strong>tiel, d’autres<br />

sont beaucoup plus indép<strong>en</strong>dantes et peuv<strong>en</strong>t s’actualiser dans plusieurs cadres. Nous donnons<br />

quelques exemples parmi les dizaines répertoriées (à noter que l’évalué r<strong>en</strong>voie à l’objet<br />

évalué, l’évaluatème à la valeur accordée à l’évalué, le siège à la personne qui « expérim<strong>en</strong>te »<br />

l’évalué – le siège peut être ou non l’évaluateur) :<br />

[à lire absolum<strong>en</strong>t] : cette séqu<strong>en</strong>ce figée, employées 16 fois dans le corpus, s’actualise dans<br />

le cadre « prescription », comme la collocation [[Évaluateur [conseiller vivem<strong>en</strong>t] [Évalué]]<br />

[siège] [ne pas pouvoir lâcher avant/jusque] : cette séqu<strong>en</strong>ce (11 occurr<strong>en</strong>ces) s’actualise dans<br />

le cadre « emprise », et connaît plusieurs réalisations :<br />

Pas question <strong>de</strong> lâcher le bouquin avant la fin.<br />

Je n’ai pas pu le lâcher avant <strong>de</strong> l’avoir terminé.<br />

On ne peut plus le lâcher, jusqu’à la fin.<br />

On ne parvi<strong>en</strong>t à lâcher le roman qu’à la <strong>de</strong>rnière page.<br />

(<strong>en</strong>fin/voilà/voici) un [évalué] qui [évaluatème] : il s’agit d’une construction à phrase averbale<br />

particulièrem<strong>en</strong>t récurr<strong>en</strong>te dans le corpus (22 fois). Cette séqu<strong>en</strong>ce s’actualise dans plusieurs<br />

cadres possibles : un livre qui donne à rêver (cadre « hédonique ») ; un livre qui fait réfléchir (cadre<br />

« valeur intellectuelle ») ; un roman qui tiraille le lecteur <strong>en</strong>tre notamm<strong>en</strong>t l’humour, l’amour, les<br />

rejets, les situations grotesques (cadre « emprise »).<br />

Det ([<strong>en</strong>closure]) [évaluatème]: cette séqu<strong>en</strong>ce s’actualise principalem<strong>en</strong>t dans le cadre «valeur»:<br />

Dix petits nègres est un vrai petit bijou ; un vrai petit Jules Vernes ou Barjavel ; la prés<strong>en</strong>ce <strong>de</strong><br />

l’<strong>en</strong>closure ici, est un indice imparable <strong>de</strong> la fonction évaluative <strong>du</strong> terme subséqu<strong>en</strong>t. Ainsi,<br />

Jules Vernes/Barjavel sont-ils étiquetés évaluatèmes.<br />

Nous rec<strong>en</strong>sons ainsi près d’une tr<strong>en</strong>taine <strong>de</strong> séqu<strong>en</strong>ces évaluatives ou intro<strong>du</strong>ctrices<br />

d’évaluation dont les rôles thématiques sont étiquetées non pas à partir <strong>de</strong> catégories générales<br />

(par ex. ag<strong>en</strong>t, bénéficiaire, etc.), mais à partir <strong>de</strong> rôle propres à l’expression <strong>de</strong> l’évaluation.<br />

Ces séqu<strong>en</strong>ces sont <strong>de</strong> dim<strong>en</strong>sions et <strong>de</strong> natures hétérogènes : <strong>du</strong> syntagme récurr<strong>en</strong>t<br />

à la phrase figée. Là <strong>en</strong>core, une projection sur d’autres textes (projection qui n’est pas <strong>en</strong>core<br />

systématisée à l’heure actuelle) permet <strong>de</strong> voir <strong>de</strong>s constructions fort appar<strong>en</strong>tées sémantiquem<strong>en</strong>t<br />

et grammaticalem<strong>en</strong>t ; par exemple, au sujet <strong>de</strong> l’audition <strong>du</strong> requiem <strong>de</strong> Mozart :<br />

Cette interprétation <strong>du</strong> requiem k626 est un véritable feu d’artifice. J’<strong>en</strong> suis resté scotché sur<br />

mon fauteuil. Bravo ! (amazon.fr)<br />

Ou à propos <strong>du</strong> jeu vidéo Morrowind :<br />

Ce jeu est tout simplem<strong>en</strong>t magnifique : si vous avez une x-box, Morrowind est incontournable.<br />

Les graphismes sont superbes et l’ambiance vous immerge totalem<strong>en</strong>t dans l’univers. Les quêtes<br />

sont très variées et le joueur ne s’<strong>en</strong>nuie jamais : il y a toujours quelque chose à faire !!! Je suis<br />

resté scotché sur ce jeu p<strong>en</strong>dant toute une semaine et je suis même pas au 1/4 <strong>du</strong> jeu ! Je le<br />

recomman<strong>de</strong> même à ceux qui ne sont pas spécialem<strong>en</strong>t fan <strong>du</strong> g<strong>en</strong>re : vous ne serez pas déçu !<br />

(amazon.fr)<br />

Ainsi, dans la perspective d’une implém<strong>en</strong>tation r<strong>en</strong>dant compte <strong>de</strong> l’évaluation <strong>de</strong> tout<br />

objet culturel, il est important d’assigner aux <strong>de</strong>ux séqu<strong>en</strong>ces ne pas pouvoir lâcher/rester<br />

5. Conçu par Michael Barlow.<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).


scotcher une catégorie subsumant les diverses réalisations. C’est par ce travail <strong>de</strong> généralisation<br />

que pourra être établie une systématicité valant pour l’<strong>en</strong>semble <strong>de</strong>s objets culturels.<br />

III Configurations énonciatives<br />

Le niveau énonciatif est fondam<strong>en</strong>tal pour une analyse générale <strong>du</strong> discours évaluatif <strong>de</strong><br />

l’objet culturel 6 . Les évaluations, <strong>en</strong> tant qu’acte <strong>de</strong> discours, doiv<strong>en</strong>t être mesurées selon leur<br />

force illocutoire. C’est à ce niveau que s’articul<strong>en</strong>t et se construis<strong>en</strong>t les stratégies argum<strong>en</strong>tatives<br />

: il s’agit, pour le locuteur, <strong>de</strong> se mettre <strong>en</strong> scène pour faire partager son avis : premier<br />

plan, <strong>en</strong>gagem<strong>en</strong>t, retrait, prise <strong>en</strong> charge faible, etc. Cette mise <strong>en</strong> scène, dans notre corpus,<br />

est relativem<strong>en</strong>t normée dans la mesure où le g<strong>en</strong>re est lui-même partiellem<strong>en</strong>t stéréotypé ;<br />

mais là <strong>en</strong>core, la formalisation <strong>du</strong> niveau énonciatif <strong>de</strong>vra permettre toute projection vers<br />

d’autres objets afin d’élaborer <strong>de</strong>s points <strong>de</strong> comparaisons et <strong>de</strong> différ<strong>en</strong>ces.<br />

Ainsi, par exemple :<br />

Les marqueurs restreignant au seul énonciateur la validation <strong>de</strong> l’énoncé : À mon goût, à mon<br />

avis, selon moi.<br />

Les marqueurs délimitant le public intéressé : une mine d’informations pour tous ceux qui s’intéress<strong>en</strong>t<br />

à la psychologie <strong>en</strong> général.<br />

Les verbes d’attitu<strong>de</strong> propositionnelle (impliquant la modalité épistémique) : Je crois que Philip<br />

Roth a atteint le sommet avec Opération Shylock.<br />

Les tournures concessives : Ce bouquin est certes intéressant au début, mais il <strong>de</strong>vi<strong>en</strong>t très vite<br />

rébarbatif.<br />

Les adverbes int<strong>en</strong>sifs (marquant explicitem<strong>en</strong>t le <strong>de</strong>gré d’<strong>en</strong>gagem<strong>en</strong>t <strong>de</strong> l’énonciateur): Vraim<strong>en</strong>t,<br />

véritablem<strong>en</strong>t, absolum<strong>en</strong>t, impérativem<strong>en</strong>t, totalem<strong>en</strong>t, etc.<br />

Pronoms personnels (l’évaluateur peut s’effacer <strong>de</strong>vant l’expérim<strong>en</strong>tateur, attribuer le jugem<strong>en</strong>t<br />

à une instance collective, projeter une évaluation <strong>du</strong> <strong>de</strong>stinataire, etc.) : Plus vous avancerez<br />

dans la lecture, plus vous serez dégoûtés par ce simili d’érudition prét<strong>en</strong>tieux et bourré<br />

<strong>de</strong> fautes !<br />

Les interjections : Vraim<strong>en</strong>t, beurk…<br />

Ce niveau est le plus complexe <strong>de</strong>s trois à formaliser dans la mesure où les formes sont<br />

extrêmem<strong>en</strong>t hétérogènes, <strong>de</strong> dim<strong>en</strong>sions parfois larges, dépassant le simple énoncé. La<br />

«stratégie» consiste <strong>en</strong> fait à s’appuyer le plus possible sur les séqu<strong>en</strong>ces lexico-grammaticales,<br />

qui constitu<strong>en</strong>t à notre avis, le niveau intermédiaire <strong>en</strong>tre niveau <strong>de</strong>s cadres expéri<strong>en</strong>tiels<br />

et niveau <strong>de</strong>s configurations énonciatives. Nous voudrions illustrer ce phénomène par un<br />

exemple.<br />

IV Exemple d’un traitem<strong>en</strong>t d’un avis<br />

L’exemple tiré <strong>du</strong> corpus est le suivant (à propos <strong>de</strong> Le sang <strong>du</strong> temps <strong>de</strong> Maxime<br />

Chattam) :<br />

je suis déçu par ce livre, on regrette la fameuse trilogie. Malgré cela on se laisse quand même<br />

<strong>en</strong>traîner dans notre lecture mais pas jusqu’à l’<strong>en</strong>voûtem<strong>en</strong>t.<br />

On voit ici les divers niveaux <strong>en</strong>chevêtrés dont nous donnons les élém<strong>en</strong>ts dans un<br />

tableau pour faciliter la lecture :<br />

6. Cf. Charau<strong>de</strong>au 1988.<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

61


62<br />

FORMES CADRES<br />

EXPERIENTIELS<br />

L’illustration par ce simple exemple montre la difficulté mais aussi l’intérêt <strong>de</strong> la tâche.<br />

Dans le même texte, figur<strong>en</strong>t plusieurs cadres expéri<strong>en</strong>tiels ; chaque cadre est cep<strong>en</strong>dant<br />

marqué par <strong>de</strong>s indices lexicaux et grammaticaux propres qui suffis<strong>en</strong>t à id<strong>en</strong>tifier la nature <strong>du</strong><br />

cadre. De même, les valeurs énonciatives accordées aux pronoms sont inférées d’une part,<br />

<strong>de</strong> la forme même <strong>du</strong> pronom (je – on), et, d’autre part, <strong>de</strong> la combinaison <strong>en</strong>tre le pronom et<br />

le verbe, voire <strong>de</strong> la valeur intrinsèque <strong>de</strong> l’adjectif (fameux, dans cet emploi, est un adjectif<br />

médiatif indicateur d’une jugem<strong>en</strong>t collectif). On notera que la notion d’évaluateur collectif<br />

ne r<strong>en</strong>voie pas à une instance énonciative, ni à une source évaluative effective : il s’agit d’une<br />

construction – d’une stratégie – <strong>de</strong> la part <strong>du</strong> locuteur afin <strong>de</strong> minimiser son <strong>en</strong>gagem<strong>en</strong>t personnel,<br />

mais aussi <strong>de</strong> l’inscrire dans une participation collective certes factice mais effici<strong>en</strong>te.<br />

L’étiquetage <strong>de</strong>s séqu<strong>en</strong>ces lexico-grammaticales s’appuie sur les données d’un analyseur<br />

syntaxique (Tree Tagger) ; les données <strong>de</strong> Tree Tagger doiv<strong>en</strong>t pourtant être reconfigurée<br />

dans un format plus « sémantique » dans lequel figur<strong>en</strong>t, par exemple, les rôles thématiques<br />

propres à l’évaluation, ou <strong>en</strong>core la fonction <strong>de</strong> connecteur à portée énonciative.<br />

Ni le tableau, ni l’analyse implém<strong>en</strong>tée ne donn<strong>en</strong>t directem<strong>en</strong>t l’interprétation globale<br />

<strong>de</strong> la nature évaluative ; plutôt, ils fourniss<strong>en</strong>t les indices discursifs généralisés nécessaires à<br />

l’interprétation « humaine », et con<strong>du</strong>is<strong>en</strong>t à une factorisation <strong>de</strong>s données utiles au balisage<br />

<strong>de</strong> parcours interprétatifs.<br />

Expérim<strong>en</strong>tation informatique<br />

Afin d’expérim<strong>en</strong>ter le modèle sur corpus, nous utilisons LinguaStream 7 , une plateforme<br />

<strong>de</strong> TAL qui permet notamm<strong>en</strong>t l’utilisation dans une même chaîne <strong>de</strong> traitem<strong>en</strong>ts <strong>de</strong><br />

différ<strong>en</strong>ts formalismes (Widlöcher & Bilhaut 2005, Enjalbert 2005, chap. 10). L’objectif est<br />

pour nous <strong>de</strong> réaliser un outil informatique facilitant l’observation <strong>de</strong>s régularités lexicogrammaticales<br />

précéd<strong>en</strong>tes, tant sur le corpus d’étu<strong>de</strong> original que sur <strong>de</strong> nouvelles données.<br />

Nous visons à plus long terme la possibilité d’apprécier <strong>de</strong> manière semi-automatisée<br />

la variation <strong>de</strong> l’expression <strong>de</strong> l’évaluation selon les textes.<br />

Une expérim<strong>en</strong>tation comme celle que nous proposons ici suppose <strong>de</strong> reformuler<br />

l’<strong>en</strong>semble <strong>de</strong> nos hypothèses précéd<strong>en</strong>tes, à caractère plutôt <strong>de</strong>scriptif, <strong>en</strong> un modèle opératoire,<br />

à caractère prescriptif, comme montré par Ferrari et al. (2005). Les formalismes mis<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

SÉQUENCES LEXICO-<br />

GRAMMATICALES<br />

je suis déçu par ce livre Att<strong>en</strong>te (déçue) [Évalué] [décevoir]<br />

[Évaluateur]<br />

on regrette la fameuse<br />

trilogie<br />

Att<strong>en</strong>te (déçue) [Évaluateur] [regretter]<br />

[Évaluer]<br />

la fameuse trilogie R<strong>en</strong>ommée [adj. Évaluatème]<br />

[Évalué]<br />

on se laisse quand<br />

même <strong>en</strong>traîner dans<br />

notre lecture<br />

Emprise [Siège <strong>de</strong> l’expéri<strong>en</strong>ce]<br />

[se laisser <strong>en</strong>traîner/<br />

<strong>en</strong>voûter/pr<strong>en</strong>dre]<br />

[dans/par Évalué]<br />

Malgré Connecteur<br />

argum<strong>en</strong>tatif<br />

quand même Connecteur<br />

argum<strong>en</strong>tatif<br />

mais pas jusqu’à<br />

l’<strong>en</strong>voûtem<strong>en</strong>t<br />

7. http://www.linguastream.org/<br />

CONFIGURATIONS<br />

ÉNONCIATIVES<br />

Je = Évaluateur<br />

Énonciateur<br />

On = Évaluateur<br />

collectif<br />

Évaluateur collectif<br />

On = Évaluateur<br />

collectif<br />

concession<br />

concession<br />

Emprise [jusqu’à Évaluatème] Force <strong>de</strong> l’évaluation


à disposition dans LinguaStream laiss<strong>en</strong>t une gran<strong>de</strong> liberté dans l’expression <strong>du</strong> modèle<br />

opératoire, qui peut être mis <strong>en</strong> œuvre tant à l’ai<strong>de</strong> d’automates <strong>de</strong> type expressions régulières<br />

que <strong>de</strong> grammaires <strong>de</strong> type Prolog. Nous avons tiré parti <strong>de</strong> cette offre, certains types<br />

d’analyse étant mieux adaptés à la mise <strong>en</strong> œuvre <strong>de</strong>s patrons lexico-grammaticaux, d’autres<br />

à la « remontée » d’informations sémantiques <strong>de</strong>puis un lexique jusqu’à <strong>de</strong>s élém<strong>en</strong>ts textuels.<br />

Cep<strong>en</strong>dant, ni les formalismes exploités ni les composants développés ne sont le reflet direct<br />

<strong>de</strong> l’analyse précéd<strong>en</strong>te, car les trois niveaux <strong>de</strong> la grammaire proposée sont <strong>en</strong> réalité dispersés<br />

dans <strong>de</strong> multiples composants, réalisés à l’ai<strong>de</strong> <strong>de</strong> formalismes différ<strong>en</strong>ts, d’une part,<br />

et certains cohabit<strong>en</strong>t quelquefois au sein d’un même composant, d’autre part. Enfin, le<br />

corpus d’origine a été préalablem<strong>en</strong>t transcodé <strong>en</strong> XML, selon les métho<strong>de</strong>s préconisées<br />

par Habert et al. (1998). Il conti<strong>en</strong>t désormais <strong>de</strong>s informations sur les élém<strong>en</strong>ts logiques<br />

<strong>de</strong>s avis, selon leur disponibilité : titre, date, lecteur diffusant l’avis, titre et auteur <strong>du</strong> livre<br />

visé… L’extrait <strong>de</strong> la figure 1 permet d’apprécier ces différ<strong>en</strong>ts élém<strong>en</strong>ts.<br />

Figure 1 : extrait <strong>du</strong> corpus <strong>en</strong> version structurée XML. (L’affichage est réalisé à l’ai<strong>de</strong> d’une<br />

feuille <strong>de</strong> style CSS qui différ<strong>en</strong>cie visuellem<strong>en</strong>t les élém<strong>en</strong>ts <strong>de</strong> structure XML. Les avis y<br />

sont regroupés par œuvre, tels que collectés.)<br />

Chaîne <strong>de</strong> traitem<strong>en</strong>ts pour observer l’expression <strong>de</strong> l’évaluation<br />

Parmi les trois niveaux <strong>de</strong> la grammaire précéd<strong>en</strong>te, nous proposons une première mise<br />

<strong>en</strong> œuvre particulièrem<strong>en</strong>t adaptée pour les niveaux I et II, c’est-à-dire le niveau expéri<strong>en</strong>tiel<br />

et le niveau lexico-grammatical. Nous donnons quelques pistes pour permettre une prise <strong>en</strong><br />

considération <strong>du</strong> niveau III <strong>de</strong> l’énonciation.<br />

La chaîne LinguaStream <strong>de</strong> la figure 2 montre les différ<strong>en</strong>ts composants utilisés pour<br />

l’expérim<strong>en</strong>tation. Chaque boîte y représ<strong>en</strong>te un composant ou une ressource, les flèches<br />

<strong>en</strong>tre les boîtes représ<strong>en</strong>t<strong>en</strong>t la transmission d’information <strong>en</strong>tre composants. La première<br />

colonne <strong>de</strong> composants consiste <strong>en</strong> quelque sorte <strong>en</strong> une préparation <strong>du</strong> corpus aux analyses<br />

suivantes. La première boîte représ<strong>en</strong>te une ressource : la version XML <strong>du</strong> corpus (CCL pour<br />

corpus <strong>de</strong> Critiques <strong>de</strong> Livres). La boîte suivante, CCL XML Marker, est un composant Lingua-<br />

Stream permettant <strong>de</strong> sélectionner les élém<strong>en</strong>ts XML pertin<strong>en</strong>ts d’une ressource structurée<br />

pour les analyses ultérieures, et, le cas échéant, <strong>de</strong> les typer ; dans notre cas, nous conc<strong>en</strong>trons<br />

les analyses sur le titre et le corps <strong>de</strong>s avis, les informations concernant par exemple les<br />

dates et les auteurs <strong>de</strong>s avis seront ignorées <strong>de</strong>s analyses m<strong>en</strong>ées ultérieurem<strong>en</strong>t. Les <strong>de</strong>ux<br />

boîtes suivantes représ<strong>en</strong>t<strong>en</strong>t une segm<strong>en</strong>tation <strong>en</strong> mots (Tok<strong>en</strong>izer) et la catégorisation<br />

grammaticale à l’ai<strong>de</strong> <strong>du</strong> tree tagger (Schmid 1994). À l’issue <strong>de</strong> cette première colonne <strong>de</strong><br />

composants, la chaîne d’analyse se poursuit avec la transmission <strong>de</strong> <strong>de</strong>ux informations <strong>en</strong><br />

parallèles : une version <strong>du</strong> docum<strong>en</strong>t d’origine <strong>en</strong>richi au fur et à mesure d’ancres permettant<br />

d’y repérer les différ<strong>en</strong>ts élém<strong>en</strong>ts analysés, et les résultats <strong>de</strong>s analyses, transmis <strong>en</strong> parallèle<br />

et codés dans un fichier indép<strong>en</strong>dant lors d’une sauvegar<strong>de</strong>. Cette première colonne<br />

<strong>de</strong> composants influ<strong>en</strong>ce la qualité <strong>de</strong>s résultats <strong>de</strong>s composants dédiés à la mise <strong>en</strong> œuvre<br />

<strong>de</strong> notre modèle, dans la mesure où ils exploit<strong>en</strong>t une partie <strong>de</strong>s informations qui y ont été<br />

pro<strong>du</strong>ites.<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

63


64<br />

Figure 2 : chaîne <strong>de</strong> composants d’analyse dans LinguaStream.<br />

La <strong>de</strong>uxième colonne <strong>de</strong> composants est celle qui représ<strong>en</strong>te le plus la partie <strong>de</strong>s analyses<br />

qui concerne notre modèle. La boîte RE – Idiom Regexp exploit<strong>en</strong>t <strong>de</strong>s automates pour<br />

une amorce <strong>de</strong> l’analyse <strong>de</strong>s formes lexico-grammaticales, fondée sur la prés<strong>en</strong>ce <strong>de</strong> certains<br />

mots dans un certain ordre, avec vérification <strong>de</strong> la catégorie grammaticale si besoin.<br />

Ainsi, la structure Aucune comparaison avec [comparant] s’y tra<strong>du</strong>it par la règle déclarative<br />

suivante :<br />

privatif () %[0-2] {lemma : comparaison} <br />

/sem {synt : SPpost_avec, sem : aucunecomp, eval : idiom}<br />

et une règle intitulée « privatif » exploitée par la précéd<strong>en</strong>te et disponible pour d’autres :<br />

(« pas » « <strong>de</strong> » | « plus » « <strong>de</strong> » | « guère » « <strong>de</strong> » | {lemma : aucun} | {lemma : nul})<br />

La première règle permet <strong>de</strong> marquer comme élém<strong>en</strong>t idiom un mot dont le lemme<br />

est « comparaison » et qui est précédé d’un privatif, un ou <strong>de</strong>ux mots supplém<strong>en</strong>taires pouvant<br />

s’intercaler. L’information qui est associée à l’élém<strong>en</strong>t découvert est une structure <strong>de</strong> trait<br />

r<strong>en</strong>seignant sur la nature <strong>de</strong> l’élém<strong>en</strong>t repéré et/ou précisant quelle analyse m<strong>en</strong>er <strong>en</strong>suite<br />

pour compléter le patron : eval : idiom permet <strong>de</strong> caractériser ici un type <strong>de</strong> résultat <strong>de</strong> l’analyse<br />

<strong>de</strong> l’évaluation, sem : aucunecomp précise quel patron a été employé, synt : SPpost_avec<br />

sera utilisé par un composant ultérieur pour associer le syntagme prépositionnel suivant<br />

l’expression repérée. La <strong>de</strong>uxième règle a pour objectif <strong>de</strong> généraliser le patron initialem<strong>en</strong>t<br />

observé, afin <strong>de</strong> permettre une certaine variabilité lexicale lors <strong>de</strong> la confrontation à <strong>de</strong> nouveaux<br />

corpus.<br />

La <strong>de</strong>uxième boîte SN DCG Marker représ<strong>en</strong>te un composant d’analyse <strong>de</strong> syntagmes<br />

nominaux. Il s’agit d’une grammaire Prolog 8 dans laquelle nous avons injecté une partie <strong>de</strong><br />

l’information lexicale liée à notre modèle. Les clauses suivantes illustr<strong>en</strong>t la notion pour les<br />

noms prés<strong>en</strong>ts dans notre lexique :<br />

nom (lem : L..E) -- > ls_lookupTok<strong>en</strong> (_,tag : nom..lemma : L,_), ls_lexicon (eval, E, lemma).<br />

nom (lem : L) -- > ls_tok<strong>en</strong> (_,tag : nom..lemma : L).<br />

La première clause, appliquée <strong>en</strong> priorité lors <strong>de</strong> l’appel <strong>du</strong> prédicat nom (), permet <strong>de</strong><br />

récupérer le lemme issu <strong>de</strong>s premières analyses (tree tagger), sans consommer le mot analysé,<br />

8. Composant réalisé <strong>en</strong> collaboration avec T. Charnois, GREYC – CNRS UMR 6 072. Travail <strong>en</strong> cours. Plus<br />

précisém<strong>en</strong>t, les clauses exploit<strong>en</strong>t le formalisme GULP, proposé par Covington (1994), pour permettre la<br />

manipulation <strong>en</strong> Prolog <strong>de</strong>s structures <strong>de</strong> traits.<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).


et <strong>de</strong> combiner à cette information celle prés<strong>en</strong>te dans un lexique <strong>de</strong> formes lemmatisées.<br />

Si le mot analysé n’est pas dans le lexique, la <strong>de</strong>uxième clause s’appliquera alors, se cont<strong>en</strong>tant<br />

<strong>de</strong> récupérer le lemme <strong>du</strong> nom.<br />

Dans cette phase, toute information lexico-sémantique susceptible <strong>de</strong> concerner l’expression<br />

<strong>de</strong> l’évaluation est exploitée. Pour le niveau I, on retrouve par exemple le cadre<br />

expéri<strong>en</strong>tiel <strong>de</strong> la valeur axiologique, avec <strong>de</strong>s adjectifs comme bon, mauvais, superbe,<br />

extraordinaire… Pour le niveau III, on retrouve <strong>de</strong>s informations sur les adverbes int<strong>en</strong>sifs, les<br />

interjections… Pour le niveau II, l’analyse effectue directem<strong>en</strong>t le repérage <strong>de</strong>s structures préconstruites<br />

comme Det ([<strong>en</strong>closure]) vrai/véritable/pur [évaluatème]. Il s’agit à cette étape<br />

<strong>de</strong> l’analyse <strong>de</strong> fournir aux mo<strong>du</strong>les suivants toute information lexicalisée susceptible d’être<br />

exploitée pour un niveau ou pour un autre <strong>de</strong> la grammaire.<br />

Les <strong>de</strong>ux <strong>de</strong>rnières boîtes <strong>de</strong> la <strong>de</strong>uxième colonne <strong>de</strong> composants représ<strong>en</strong>t<strong>en</strong>t un<br />

complém<strong>en</strong>t d’analyse lexicale permettant <strong>de</strong> compléter l’information précéd<strong>en</strong>te notamm<strong>en</strong>t<br />

pour la catégorie verbale, qui n’est pas actuellem<strong>en</strong>t exploitée par le mo<strong>du</strong>le d’analyse<br />

<strong>de</strong>s syntagmes. Ce découpage temporaire <strong>de</strong>s premiers mo<strong>du</strong>les reste quelque peu artificiel,<br />

il est <strong>de</strong>stiné à terme à être remplacé par l’utilisation d’un analyseur syntaxique robuste<br />

et d’une analyse lexicale unique<br />

L’exploitation <strong>de</strong> tous les résultats précéd<strong>en</strong>ts se fait par les composants représ<strong>en</strong>tés par<br />

les <strong>de</strong>ux premières boîtes <strong>de</strong> la troisième colonne, qui consist<strong>en</strong>t <strong>en</strong> un filtrage <strong>de</strong>s informations<br />

précé<strong>de</strong>mm<strong>en</strong>t associées aux syntagmes pour ne conserver que celles <strong>en</strong> rapport avec<br />

notre étu<strong>de</strong>. En effet, sur le corpus <strong>de</strong> critiques <strong>de</strong> livres, conserver l’<strong>en</strong>semble <strong>de</strong>s informations<br />

<strong>de</strong> cette analyse con<strong>du</strong>it à un fichier <strong>de</strong> 30 Mo pour l’affichage dans un navigateur<br />

(prés<strong>en</strong>ce <strong>de</strong> nombreuses divisions HTML cachées cont<strong>en</strong>ant les informations associées aux<br />

syntagmes). Mais ces <strong>de</strong>rniers composants dédiés ont pour objectif ess<strong>en</strong>tiel <strong>de</strong> limiter la<br />

taille <strong>du</strong> fichier <strong>de</strong>stiné à l’affichage ; ri<strong>en</strong> n’empêche <strong>de</strong> stocker par ailleurs la totalité <strong>de</strong>s<br />

informations pour une autre exploitation. Les autres composants représ<strong>en</strong>tés dans la troisième<br />

et la <strong>de</strong>rnière colonne consiste <strong>en</strong> une préparation à l’affichage, con<strong>du</strong>isant aux exemples<br />

prés<strong>en</strong>tés dans la section suivante.<br />

Exemples <strong>de</strong> résultats<br />

Les multiples analyses précéd<strong>en</strong>tes permett<strong>en</strong>t d’associer et <strong>de</strong> combiner différ<strong>en</strong>tes<br />

informations à différ<strong>en</strong>tes unités textuelles. Le résultat consiste la plupart <strong>du</strong> temps <strong>en</strong> l’association<br />

d’une structure <strong>de</strong> traits comme celles <strong>de</strong> la figure 3 à une unité textuelle particulière.<br />

Figure 3 : 2 exemples <strong>de</strong> structures <strong>de</strong> traits et tolérance à l’agrammaticalité.<br />

Dans ces exemple, le groupe nominal « un vrai petit bijou » est repéré comme pertin<strong>en</strong>t<br />

pour notre analyse, c’est-à-dire exprimant l’évaluation ou <strong>en</strong> rapport direct avec un autre<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

65


66<br />

élém<strong>en</strong>t l’exprimant. En consultant la structure <strong>de</strong> traits associés, on remarque la prés<strong>en</strong>ce<br />

d’un adjectif marquant une <strong>en</strong>closure, issu <strong>du</strong> niveau II <strong>de</strong> notre grammaire. Les analyses<br />

m<strong>en</strong>ées permett<strong>en</strong>t <strong>de</strong> repérer aussi cette structure lorsque l’accord est incorrect, comme<br />

dans le <strong>de</strong>uxième extrait <strong>de</strong> la figure 3, « une vrai perle ». En effet, les règles Prolog d’analyse<br />

locale n’exploit<strong>en</strong>t que la catégorie grammaticale principale, sans vérifier ni t<strong>en</strong>ir compte<br />

<strong>de</strong> l’accord <strong>en</strong> g<strong>en</strong>re et <strong>en</strong> nombre. Le filtrage <strong>de</strong>s informations permet d’obt<strong>en</strong>ir <strong>de</strong>s résultats<br />

comme celui <strong>de</strong> la figure 4, où un <strong>de</strong>s verbes associé au cadre expéri<strong>en</strong>tiel <strong>de</strong> l’emprise<br />

est suivi <strong>de</strong> groupes prépositionnels pour lesquels l’information syntaxico-sémantique est<br />

conservée.<br />

Les résultats obt<strong>en</strong>us à l’heure actuelle permett<strong>en</strong>t ess<strong>en</strong>tiellem<strong>en</strong>t <strong>de</strong> vali<strong>de</strong>r les motifs<br />

initialem<strong>en</strong>t proposés et d’<strong>en</strong>visager leur exploitation sur un autre corpus. Les structures<br />

<strong>de</strong> traits qui sont construites à ce sta<strong>de</strong> d’avancem<strong>en</strong>t <strong>de</strong> nos travaux et la nature <strong>de</strong>s élém<strong>en</strong>ts<br />

sur lesquels elles port<strong>en</strong>t n’ont pas <strong>de</strong> fait un caractère définitif. Il reste notamm<strong>en</strong>t<br />

à m<strong>en</strong>er une réflexion sur le type d’information que nous désirons y faire figurer, cela <strong>en</strong><br />

rapport avec un év<strong>en</strong>tuel cadre applicatif particulier. Dans leur état actuel, il est toutefois<br />

déjà possible <strong>de</strong> remonter par exemple sur <strong>de</strong>s unités telles la phrase ou <strong>de</strong>s élém<strong>en</strong>ts <strong>de</strong><br />

structure logique (paragraphe, section et avis dans ce corpus) une information quantifiée<br />

indiquant combi<strong>en</strong> d’élém<strong>en</strong>ts <strong>de</strong> chaque niveau <strong>de</strong> notre grammaire ont été employés au<br />

sein <strong>de</strong> telles unités, ou <strong>en</strong>core quels cadres expéri<strong>en</strong>tiels.<br />

Conclusion générale et perspectives<br />

Nous avons proposé une grammaire locale <strong>de</strong> l’évaluation s’articulant sur trois niveaux :<br />

expéri<strong>en</strong>tiel, lexico-grammatical et énonciatif. Une première expérim<strong>en</strong>tation a montré la<br />

faisabilité <strong>de</strong> la mise <strong>en</strong> œuvre pour les <strong>de</strong>ux premiers niveaux <strong>de</strong> cette grammaire. Cette<br />

expérim<strong>en</strong>tation exploite une chaîne <strong>de</strong> traitem<strong>en</strong>ts fondés sur <strong>de</strong>s formalismes différ<strong>en</strong>ts ;<br />

cette chaîne utilise <strong>de</strong> multiples composants linguistiques déjà développés par ailleurs et<br />

pour d’autres besoins. Le <strong>de</strong>rnier niveau, celui <strong>de</strong> l’énonciation, prés<strong>en</strong>te cep<strong>en</strong>dant un<br />

<strong>de</strong>gré <strong>de</strong> difficulté supérieur. Il nécessite selon nous la manipulation d’unités discursives<br />

diverses pour lesquels les formalismes actuellem<strong>en</strong>t exploités (automates, grammaire Prolog)<br />

ne sont pas les mieux adaptés. Aussi, nous <strong>en</strong>visageons un nouveau composant consacré<br />

à ce niveau, qui permette l’expression <strong>de</strong> contraintes sur <strong>de</strong>s unités variées, sans t<strong>en</strong>ir<br />

compte nécessairem<strong>en</strong>t <strong>de</strong> l’ordre <strong>en</strong>tre ces unités ni <strong>de</strong> l’ordre dans leur traitem<strong>en</strong>t, <strong>en</strong><br />

s’appuyant sur un formalisme tel celui proposé par Widlöcher (2006).<br />

Nous visons une implém<strong>en</strong>tation possédant plusieurs champs d’applications possibles.<br />

Ainsi, nous voudrions examiner les élém<strong>en</strong>ts généraux communs à l’évaluation<br />

d’objets culturels différ<strong>en</strong>ts, afin d’extraire les élém<strong>en</strong>ts constitutifs <strong>du</strong> g<strong>en</strong>re. Les différ<strong>en</strong>ces<br />

spécifiques <strong>de</strong> chaque objet <strong>de</strong>vront bi<strong>en</strong> sûr être théorisées (par exemple, une critique<br />

cinéma peut porter sur le jeu <strong>de</strong>s acteurs, aspect qui n’a pas sa contrepartie dans la<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

Figure 4 : filtrage pour affichage.


critique livresque). Une observation <strong>de</strong>s différ<strong>en</strong>ces <strong>de</strong> modalités évaluatives selon les g<strong>en</strong>res<br />

<strong>de</strong>s livres <strong>de</strong>vra être m<strong>en</strong>ée (intuitivem<strong>en</strong>t, une critique d’un roman paraît différ<strong>en</strong>te d’une<br />

critique d’un essai ou d’une BD).<br />

La projection <strong>du</strong> système pourra permettre égalem<strong>en</strong>t <strong>de</strong> mesurer sur corpus proximités<br />

et différ<strong>en</strong>ces <strong>en</strong>tre critiques « amateurs » et critiques professionnelles (par exemple, au<br />

niveau <strong>de</strong>s cadres expéri<strong>en</strong>tiels) dans l’espoir d’analyser les mo<strong>de</strong>s d’institutionnalisation<br />

<strong>de</strong> la critique. D’autres types <strong>de</strong> textes <strong>de</strong>vront égalem<strong>en</strong>t être pris <strong>en</strong> compte ; nous p<strong>en</strong>sons<br />

à la publicité <strong>de</strong>s objets culturels (<strong>en</strong>cart publicitaire pour tel livre dans tel quotidi<strong>en</strong>) : on<br />

perçoit <strong>de</strong>s li<strong>en</strong>s évid<strong>en</strong>ts <strong>en</strong>tre le langage formulaire <strong>de</strong>s internautes et ceux <strong>de</strong>s publicitaires,<br />

par exemple dans la construction averbale très récurr<strong>en</strong>te : un livre qui + évaluatème.<br />

Enfin, l’implém<strong>en</strong>tation d’une grammaire <strong>de</strong> l’évaluation peut apporter un outil appréciable<br />

pour procé<strong>de</strong>r à une comparaison <strong>en</strong>tre types <strong>de</strong> textes différ<strong>en</strong>ts, mais qui partag<strong>en</strong>t<br />

tous la mise <strong>en</strong> discours <strong>de</strong>s valeurs indivi<strong>du</strong>elles et collectives propres à une société : discours<br />

épidictiques 9 , politiques et idéologiques. Construire <strong>en</strong> discours l’évaluation, c’est toujours<br />

construire sa propre subjectivité (et son ethos) pour l’ori<strong>en</strong>ter dans le champ <strong>de</strong>s valeurs<br />

sociales.<br />

Bibliographie<br />

CHARAUDEAU P. (1988), « La critique cinématographique : faire voir et faire parler », in La presse : pro<strong>du</strong>it,<br />

pro<strong>du</strong>ction, réception, Didier érudition (Langages Discours et Sociétés), p. 47-70.<br />

COVINGTON M. A. (1994), GULP 3.1 : An Ext<strong>en</strong>sion of Prolog for Unification-Based Grammar. Research<br />

Report AI – 1994 – 06, The University of Georgia, Artificial Intellig<strong>en</strong>ce C<strong>en</strong>ter, Ath<strong>en</strong>s, Georgia, USA.<br />

DOMINICY M. & FREDERIC M. (éds.) (2001), La mise <strong>en</strong> scène <strong>de</strong>s valeurs : la rhétorique <strong>de</strong> l’éloge et <strong>du</strong><br />

blâme, Lausanne, Delachaux et Niestlé.<br />

ENJALBERT P. (dir.) (2005), Sémantique et traitem<strong>en</strong>t automatique <strong>du</strong> langage naturel, Hermès Sci<strong>en</strong>ces,<br />

Traité IC2.<br />

FERRARI S., BILHAUT F., WIDLÖCHER A. & LAIGNELET M. (2005), « Une plate-forme logicielle et une démarche<br />

pour la validation <strong>de</strong> ressources linguistiques sur corpus: application à l’évaluation <strong>de</strong> la détection automatique<br />

<strong>de</strong> cadres temporels », in Actes <strong>de</strong>s 4es Journées <strong>de</strong> la Linguistique <strong>de</strong> Corpus, G. WILLIAMS<br />

(éd.), à paraître aux Presses Universitaires <strong>de</strong> R<strong>en</strong>nes.<br />

GALATANU O. (2002), « Le concept <strong>de</strong> modalité : les valeurs dans la langue et dans le discours », in Les<br />

valeurs: séminaire Le li<strong>en</strong> social, Nantes, 11 et 12 juin 2001/organisé par le CALD-GRASP; coord. sci<strong>en</strong>tifique<br />

et prés<strong>en</strong>tation Olga Galatanu, Maison <strong>de</strong>s Sci<strong>en</strong>ces <strong>de</strong> l’Homme Ange Guépin.<br />

GROSS M. (1995), «Une grammaire locale <strong>de</strong> l’expression <strong>de</strong>s s<strong>en</strong>tim<strong>en</strong>ts», Langue Française, 105, p. 70-87.<br />

HABERT B., FABRE C. & ISSAC F. (1998), De l’écrit au numérique : constituer, docum<strong>en</strong>ter, normaliser un<br />

corpus électronique, Paris, InterEditions.<br />

HALLIDAY M. A. K. (1996), An intro<strong>du</strong>ction to functional grammar, Sydney, Arnold.<br />

HUNSTON S. & THOMPSON G. (éds) (2000), Evaluation in Text. Authorial Stance and the Construction of<br />

Discourse, Oxford, Oxford University Press.<br />

KERBRAT-ORECCHIONI C. (1997), L’énonciation : <strong>de</strong> la subjectivité dans le langage, Paris, A. Colin.<br />

LEGALLOIS D. (2002), « Incid<strong>en</strong>ce énonciative <strong>de</strong>s adjectifs vrai et véritable <strong>en</strong> antéposition nominale »,<br />

Langue Française, 136.<br />

MARTIN J. & WHITE P. (2005), The Language of Evaluation : Appraisal in English, Palgrave Macmillan<br />

Hardcover.<br />

MATHIEU Y.Y. (2000), Les verbes <strong>de</strong> s<strong>en</strong>tim<strong>en</strong>t : <strong>de</strong> l’analyse linguistique au traitem<strong>en</strong>t automatique,<br />

Paris, CNRS Éditions.<br />

RASTIER F. (dir.) (1995), L’analyse thématique <strong>de</strong>s données textuelles : l’exemple <strong>de</strong>s s<strong>en</strong>tim<strong>en</strong>ts, Paris,<br />

Didier érudition.<br />

9. Dominicy & Frédéric 2001.<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).<br />

67


68<br />

SCHMID H. (1994), « Probabilistic Part-of-Speech Tagging Using Decision Trees », International Confer<strong>en</strong>ce<br />

on New Methods in Language Processing, Manchester, UK.<br />

WIDLÖCHER A. (2006), « Analyse par contraintes <strong>de</strong> l’organisation <strong>du</strong> discours », in Actes <strong>de</strong> la Confér<strong>en</strong>ce<br />

Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN 2006), Louvain, Presses universitaires <strong>de</strong> Louvain,<br />

Belgique, p. 367-376.<br />

WIDLÖCHER A. & BILHAUT F. (2005), « La plate-forme LinguaStream : un outil d’exploration linguistique<br />

sur corpus », in Actes <strong>de</strong> la 12e Confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN),<br />

M. Jardino (éd.), ATALA LIMSI, Dourdan, France, p. 517-522.<br />

Schedae, 2006, prépublication n°8, (<strong>fascicule</strong> n°1, p. 57-68).


Schedae, 2006<br />

Prépublication n° 9 Fascicule n° 1<br />

Combinaison <strong>de</strong> <strong>de</strong>scripteurs linguistiques<br />

et <strong>de</strong> structure pour la fouille<br />

d’articles biomédicaux<br />

Nadia Zerida, Nadine Lucas, Bruno Crémilleux<br />

GREYC (CNRS – UMR 6 072) – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie<br />

nadia.zerida@info.unica<strong>en</strong>.fr, nadine.lucas@info.unica<strong>en</strong>.fr, bruno.cremilleux@info.unica<strong>en</strong>.fr<br />

Résumé :<br />

Ce travail propose une combinaison originale <strong>de</strong> <strong>de</strong>scripteurs linguistiques et <strong>de</strong> <strong>de</strong>scripteurs <strong>de</strong><br />

structure avec une métho<strong>de</strong> <strong>de</strong> fouille <strong>de</strong> données. L’objectif est <strong>de</strong> montrer l’apport <strong>de</strong> ces <strong>de</strong>scripteurs<br />

pr<strong>en</strong>ant <strong>en</strong> compte la structure <strong>de</strong>s docum<strong>en</strong>ts pour caractériser trois types <strong>de</strong> textes<br />

biomédicaux : articles <strong>de</strong> recherche, articles <strong>de</strong> synthèse et articles <strong>de</strong> clinique. La <strong>de</strong>scription <strong>du</strong><br />

texte est faite à différ<strong>en</strong>ts niveaux, <strong>du</strong> global au local. Nous montrons que l’utilisation <strong>du</strong> plan et<br />

<strong>de</strong> différ<strong>en</strong>ts contextes permet <strong>de</strong> m<strong>en</strong>er à bi<strong>en</strong> la tâche <strong>de</strong> caractérisation <strong>de</strong> ces trois classes.<br />

Nous donnons une évaluation quantitative <strong>de</strong> la caractérisation grâce aux capacités <strong>de</strong>s techniques<br />

<strong>de</strong> fouille <strong>de</strong> données basées sur les motifs émerg<strong>en</strong>ts.<br />

Mots-clés : caractérisation, <strong>de</strong>scripteurs linguistiques, <strong>de</strong>scripteurs <strong>de</strong> plan, fouille <strong>de</strong><br />

données.<br />

Abstract :<br />

This work proposes an original combination of linguistic and structural <strong>de</strong>scriptors with one of data<br />

mining methods. The objective is to show the effectiv<strong>en</strong>ess of <strong>de</strong>scriptors taking into account the<br />

structure of docum<strong>en</strong>ts to characterise three kinds of biomedical texts (reviews, research and clinical<br />

papers). The <strong>de</strong>scription of the text is ma<strong>de</strong> at various levels, from the global level to the local<br />

one. The use of the plan and various contexts makes it possible to characterise the three classes.<br />

The characterisation of the textual resources is carried out quantitatively by using the discriminating<br />

capacity of techniques of data mining based on emerging patterns.<br />

Keywords : characterisation, linguistic <strong>de</strong>scriptors, plan <strong>de</strong>scriptors, data mining.<br />

Intro<strong>du</strong>ction<br />

La confrontation à la masse <strong>de</strong>s docum<strong>en</strong>ts électroniques textuels biomédicaux est un<br />

grand défi. Ce travail exploite d’une part, un <strong>en</strong>semble <strong>de</strong> <strong>de</strong>scripteurs linguistiques et <strong>de</strong><br />

structure, et d’autre part, une métho<strong>de</strong> efficace <strong>de</strong> fouille <strong>de</strong> données pour la caractérisation.<br />

Il est réalisé dans le cadre <strong>du</strong> projet Bases <strong>de</strong> données IN<strong>du</strong>ctives et données GénOmiques,<br />

Nadia Zerida, Nadine Lucas, Bruno Crémilleux<br />

« Combinaison <strong>de</strong> <strong>de</strong>scripteurs linguistiques et <strong>de</strong> structure pour la fouille d’articles biomédicaux »<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).<br />

69


70<br />

Bingo 1 qui a <strong>en</strong>tre autres pour but d’extraire <strong>de</strong>s connaissances biomédicales à partir <strong>de</strong> ressources<br />

textuelles pour mieux exploiter les résultats issus <strong>de</strong> l’extraction <strong>de</strong> connaissances<br />

<strong>de</strong> données d’expression <strong>de</strong> gènes. L’objectif à moy<strong>en</strong> terme <strong>de</strong> notre travail est <strong>de</strong> cibler<br />

le cont<strong>en</strong>u <strong>de</strong>s textes biomédicaux pour pouvoir faire émerger <strong>de</strong> nouvelles connaissances.<br />

Dans cet article, nous prés<strong>en</strong>tons les résultats obt<strong>en</strong>us lors <strong>du</strong> processus <strong>de</strong> fouille <strong>de</strong> textes<br />

mis <strong>en</strong> place.<br />

Dans ce travail, nous considérons les propriétés linguistiques et structurelles <strong>de</strong>s docum<strong>en</strong>ts<br />

comme <strong>de</strong>s critères <strong>de</strong> base. Un savoir <strong>de</strong> nature linguistique est exploité, à partir <strong>de</strong><br />

travaux théoriques tels que (Parsons 1990). On <strong>en</strong> a dérivé une grammaire <strong>du</strong> texte, dans une<br />

approche comparable à celle <strong>de</strong> Kando (1999) ou Karlgr<strong>en</strong> (2005). Nous avons opté pour<br />

l’exploitation <strong>de</strong> l’article <strong>en</strong> <strong>en</strong>tier pour pouvoir gérer <strong>de</strong>s espaces d’observation différ<strong>en</strong>ts,<br />

tels que le corps <strong>de</strong> texte, les parties, les sections, les paragraphes, les phrases et les virgulots<br />

2 , ces unités serv<strong>en</strong>t <strong>en</strong>suite <strong>de</strong> f<strong>en</strong>êtres d’observation multi-échelle. Il ne s’agit pas d’une<br />

simple utilisation <strong>de</strong> mots clés ou d’une analyse distributionnelle <strong>de</strong>s mots, mais d’une analyse<br />

qui met <strong>en</strong> jeu la notion <strong>de</strong> contexte à travers la hiérarchie <strong>de</strong> mise <strong>en</strong> forme matérielle.<br />

C’est <strong>en</strong> ce s<strong>en</strong>s que nous cherchons à donner à nos <strong>de</strong>scripteurs une valeur sémantique.<br />

La pertin<strong>en</strong>ce <strong>de</strong>s associations <strong>en</strong>tre ces <strong>de</strong>scripteurs est automatiquem<strong>en</strong>t extraite par une<br />

technique performante <strong>de</strong> fouille <strong>de</strong> données, les motifs émerg<strong>en</strong>ts (Dong & Li 1999). Nous<br />

montrons que la combinaison d’associations extraites réussit à caractériser les trois principaux<br />

types d’articles biomédicaux (synthèse, recherche et clinique). Ces types d’articles sont<br />

les plus utilisés. Les articles intéressant prioritairem<strong>en</strong>t les biologistes dans le projet sont les<br />

synthèses. Les expérim<strong>en</strong>tations fourniss<strong>en</strong>t une quantification <strong>de</strong>s résultats et montre la<br />

pertin<strong>en</strong>ce <strong>de</strong> l’approche adoptée.<br />

Cet article est organisé <strong>de</strong> la façon suivante. La section 2 prés<strong>en</strong>te les différ<strong>en</strong>tes<br />

familles <strong>de</strong> <strong>de</strong>scripteurs, les gran<strong>de</strong>s lignes <strong>de</strong> notre approche sont décrites à la section 3<br />

et la métho<strong>de</strong> <strong>de</strong> fouille <strong>de</strong> données utilisée à la section 4. Finalem<strong>en</strong>t, les expéri<strong>en</strong>ces à<br />

la section 5 montr<strong>en</strong>t l’efficacité <strong>de</strong> cette approche.<br />

Les différ<strong>en</strong>tes familles <strong>de</strong> <strong>de</strong>scripteurs<br />

La fouille <strong>de</strong> textes <strong>de</strong> spécialité est un domaine <strong>de</strong> recherche qui a récemm<strong>en</strong>t gagné<br />

l’att<strong>en</strong>tion <strong>de</strong> nombreux chercheurs car il fait appel à <strong>de</strong>s techniques capables <strong>de</strong> manipuler<br />

efficacem<strong>en</strong>t un très grand volume <strong>de</strong> données textuelles. Mais la plupart <strong>de</strong>s travaux<br />

ont pour trait commun l’exploitation <strong>de</strong>s titres et <strong>de</strong>s résumés proposés par PubMed 3 et <strong>de</strong><br />

considérer que le texte n’est qu’un simple sac <strong>de</strong> mots sur lequel on peut appliquer l’une<br />

<strong>de</strong>s techniques <strong>de</strong> fouille <strong>de</strong> données classiques faisant référ<strong>en</strong>ce à <strong>de</strong>s ressources thésaurales<br />

telles que MeSH 4 (Hersh et al. 2003, Dayanik et al. 2003). Pour pouvoir extraire <strong>de</strong> la<br />

nouvelle connaissance, la majorité <strong>de</strong> ces travaux se sont ori<strong>en</strong>tés plutôt vers l’évaluation<br />

<strong>de</strong>s techniques <strong>de</strong> représ<strong>en</strong>tation <strong>du</strong> mot dans le docum<strong>en</strong>t (Wilcox & Hripcsak 1995), ou<br />

l’étu<strong>de</strong> <strong>de</strong> la variation <strong>de</strong>s concepts (Ruch et al. 2003). Sinon, parmi le peu <strong>de</strong> travaux qui se<br />

sont intéressés naturellem<strong>en</strong>t à l’utilisation <strong>de</strong> la notion <strong>de</strong> structure et <strong>du</strong> cont<strong>en</strong>u, quelques<br />

uns ont travaillé au niveau <strong>de</strong>s propositions Mesh (Rosario & Hearst 2005), d’autres<br />

1. http://www.info.unica<strong>en</strong>.fr/~bruno/bingo/<br />

2. Espace ponctué par une virgule.<br />

3. http://ncbi.nih.gov/<strong>en</strong>trez/query.fcgi.<br />

4. Medical Subject Heading.<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).


sur l’exploitation <strong>de</strong> la location <strong>de</strong> l’information et la fréqu<strong>en</strong>ce <strong>de</strong>s mots dans les phrases<br />

<strong>de</strong>s résumés (Blott 2003, Kayaalp et al. 2003), et plus rarem<strong>en</strong>t l’exploitation <strong>de</strong> l’article <strong>en</strong><br />

<strong>en</strong>tier <strong>en</strong>richi par <strong>de</strong>s connaissances linguistiques (Ruch et al. 2003).<br />

Dans ce travail, nous formulons l’hypothèse que les différ<strong>en</strong>tes catégories d’articles<br />

(recherche, synthèse, clinique) sont susceptibles d’avoir une certaine organisation <strong>de</strong> l’écrit et<br />

un cont<strong>en</strong>u spécifiques. La construction <strong>de</strong>s <strong>de</strong>scripteurs <strong>de</strong> plan et <strong>de</strong> style vise à exploiter<br />

ces spécificités portant sur l’organisation textuelle <strong>de</strong> l’article. Dans cette section, nous comm<strong>en</strong>çons<br />

par prés<strong>en</strong>ter ces <strong>de</strong>scripteurs. Puis, nous indiquons rapi<strong>de</strong>m<strong>en</strong>t les <strong>de</strong>scripteurs<br />

métriques et lexicaux. Ceux-ci nous seront utiles pour comparer l’apport <strong>de</strong>s <strong>de</strong>scripteurs <strong>de</strong><br />

plan et <strong>de</strong> style par rapport à ces <strong>de</strong>ux <strong>de</strong>rnières familles, les <strong>de</strong>scripteurs lexicaux correspondant<br />

à une approche classique.<br />

Les <strong>de</strong>scripteurs au niveau global<br />

Un premier jeu <strong>de</strong> <strong>de</strong>scripteurs concerne l’organisation textuelle <strong>de</strong> l’article, il s’agit <strong>de</strong>s<br />

<strong>de</strong>scripteurs <strong>de</strong> plan (cf. tableau 1). L’idée sous-jac<strong>en</strong>te est que chaque article est constitué<br />

d’un <strong>en</strong>semble <strong>de</strong> parties qui sont établies pour jouer chacune une fonction bi<strong>en</strong> déterminée,<br />

mais elles sont aussi reliées logiquem<strong>en</strong>t <strong>en</strong>tre elles. Cette relation, exprimée par le plan<br />

<strong>de</strong> l’article, permet <strong>de</strong> construire une structure logique <strong>de</strong> ce <strong>de</strong>rnier. Cette constatation nous<br />

a con<strong>du</strong>it à préserver l’unité globale <strong>de</strong> l’article <strong>de</strong> façon à prés<strong>en</strong>ter une information structurée<br />

logiquem<strong>en</strong>t. Ainsi les intitulés <strong>de</strong>s parties constituant le plan ont été utilisés comme<br />

<strong>de</strong>scripteurs au niveau « article ».<br />

Abstract<br />

Intro<strong>du</strong>ction<br />

Materials & Methods<br />

Results<br />

Footnotes<br />

Les <strong>de</strong>scripteurs stylistiques multi-échelle<br />

Refer<strong>en</strong>ces Discussion<br />

Aknowledgm<strong>en</strong>ts<br />

Conclusion<br />

Keywords<br />

Learn obj<br />

Tableau 1 : Exemples <strong>de</strong> <strong>de</strong>scripteurs <strong>de</strong> plan.<br />

Les étu<strong>de</strong>s linguistiques (voir par exemple Parsons 1990) sont à la base <strong>de</strong> cette<br />

<strong>de</strong>uxième famille <strong>de</strong> <strong>de</strong>scripteurs. Plusieurs étu<strong>de</strong>s se sont intéressées aux <strong>de</strong>scripteurs <strong>de</strong><br />

texte, la plupart <strong>de</strong> ces étu<strong>de</strong>s se bas<strong>en</strong>t sur les mots (Ahmed et al. 2005), quelques recherches<br />

sur les styles et les relations ont été établies par Karlgr<strong>en</strong> (2005). Ses expérim<strong>en</strong>tations<br />

montr<strong>en</strong>t que selon certains scénarios, une polarisation claire vers certains types ou g<strong>en</strong>res<br />

<strong>de</strong> textes peut être trouvée. Partant <strong>de</strong> l’hypothèse que la variation dans le choix lexical<br />

reflète une variation intéressante dans la variation <strong>du</strong> style global, il a défini <strong>de</strong>ux types <strong>de</strong><br />

<strong>de</strong>scripteurs statistiques. Le premier type compr<strong>en</strong>d <strong>de</strong>s statistiques au niveau <strong>du</strong> mot telles<br />

que le nombre <strong>de</strong> mots les plus longs, la longueur moy<strong>en</strong>ne <strong>de</strong>s mots, nombre <strong>de</strong> pronoms<br />

etc. Un <strong>de</strong>uxième type <strong>de</strong> <strong>de</strong>scripteurs est établi au niveau <strong>de</strong> la phrase ; il s’agit <strong>en</strong>tre autres<br />

<strong>de</strong> la longueur <strong>de</strong> la phrase, <strong>de</strong> la moy<strong>en</strong>ne maximale <strong>de</strong> la profon<strong>de</strong>ur d’un arbre syntaxique<br />

d’une phrase, <strong>du</strong> nombre <strong>de</strong> skips dans les phrases, d’un indicateur propositionnel tel<br />

que la moy<strong>en</strong>ne <strong>de</strong> TextTiles 5 , le nombre <strong>de</strong> chaque type pronoms pour prédire le registre 6<br />

<strong>du</strong> texte, la prés<strong>en</strong>ce ou abs<strong>en</strong>ce <strong>de</strong>s contractions (isn’t, does’nt), liste <strong>de</strong>s adverbes pour<br />

r<strong>en</strong>forcer l’assertion <strong>de</strong>s propositions textuelles, la fréqu<strong>en</strong>ce relative <strong>de</strong>s verbes modaux<br />

(seem, appear) utilisés <strong>en</strong> début <strong>de</strong> texte.<br />

5. Nombre <strong>de</strong> segm<strong>en</strong>ts compris comme subtopic, par Hearst 1997.<br />

6. Par exemple familier ou sout<strong>en</strong>u « formal », par Biber 1988.<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).<br />

71


72<br />

À la différ<strong>en</strong>ce <strong>de</strong> ces <strong>de</strong>rniers, les <strong>de</strong>scripteurs <strong>de</strong> style que nous proposons sont établis<br />

pour six niveaux mis <strong>en</strong> relation avec la mise <strong>en</strong> forme matérielle. Ils sont définis à travers<br />

<strong>de</strong>s classes définies pour chaque niveau, et qui compr<strong>en</strong>n<strong>en</strong>t non seulem<strong>en</strong>t <strong>de</strong>s mots mais<br />

aussi <strong>de</strong>s traits discontinus (notion <strong>de</strong> portée <strong>de</strong>s marqueurs discursifs). Notre hypothèse est<br />

que chaque type d’article comporte une variation stylistique propre à ce <strong>de</strong>rnier, l’idée fondatrice<br />

<strong>de</strong> ces <strong>de</strong>scripteurs et que l’information pertin<strong>en</strong>te pour l’utilisateur peut se localiser<br />

dans plusieurs f<strong>en</strong>êtres d’observation. Cette famille <strong>de</strong> <strong>de</strong>scripteurs s’appuie ess<strong>en</strong>tiellem<strong>en</strong>t<br />

sur <strong>de</strong>ux notions <strong>de</strong> base qui sont respectivem<strong>en</strong>t : la notion <strong>de</strong> position et celle <strong>de</strong> l’héritage<br />

<strong>du</strong> contexte (Lucas et al. 2003).<br />

Niveau Descripteurs<br />

Temporel : Now, Pres<strong>en</strong>t, Past, Future, Ever, Curr<strong>en</strong>t, Oft<strong>en</strong>. Superpersonnel : we,<br />

us, I, our, Think, thought, believe, believed, suggest, suggested, that, to, is, are,<br />

as Mo<strong>de</strong> : can, may, should, would<br />

Appel : Appels aux référ<strong>en</strong>ces bibliographiques ou aux figures P<strong>en</strong>ser : think,<br />

thought, believ (e|ed), suggest, suggested Voix : is, was, were, are, ed<br />

NegationList : do not, no FuturList : will, would Passé : ed, had, were, might,<br />

could Aspect : do, has, ed Determinants : these, this, those, that, the, a, an<br />

Connecteurs adverbiaux : moreover, thus, therefore, in<strong>de</strong>ed, in fact, ly Anaphore :<br />

this, these, those, that, the, thus Conjonctions : Because, if, whether, how, for this<br />

reason, although, though, as, as well as, as well, <strong>du</strong>e to, however<br />

Conjonctions : why, because, if, how for this reason, although, though, as well,<br />

<strong>du</strong>e to, however, while, wh<strong>en</strong>, which, where Evaluation_Comparaison : ev<strong>en</strong>, they,<br />

it is, one, most, some, all, a number, several, few, first, second, third, its, their,<br />

such, only, other, otherwise, same<br />

Prepositions : In, At, For, From, to, with, by, of, by contrast, among, within<br />

Adverbiaux : insi<strong>de</strong>, outsi<strong>de</strong>, through, after, before, mean, while, <strong>de</strong>spite, In<strong>de</strong>ed,<br />

in fact, in spite of Evaluation quantifiée : one, most, some, all, a number, several,<br />

few, first, second, third, fourth, fifth, it, they Négation : do not, no Determinants :<br />

this, that, the, a, an Coordination : and, but, also, or, instead, moreover<br />

Ponctuation : … ; : , Adverbes : g<strong>en</strong>erally, particularly, specifically, clearly,<br />

obviously, interestingly, accordingly<br />

Coordination : and, but Reflexif : sel (f|ves)<br />

Passé : ed, ould, ought Forme « ing » : ing Adverbes : ly Forme « s » : s<br />

Determinants : the, a, an Déictique : this, these, those, that, there, thus, therefore,<br />

there is, there are, the other<br />

Ces <strong>de</strong>scripteurs (cf. tableau 2) peuv<strong>en</strong>t s’organiser implicitem<strong>en</strong>t selon une certaine<br />

hiérarchie qui représ<strong>en</strong>te le modèle logique <strong>du</strong> docum<strong>en</strong>t. La combinaison <strong>de</strong> <strong>de</strong>scripteurs<br />

<strong>de</strong> plusieurs niveaux <strong>de</strong> la hiérarchie permet <strong>de</strong> multiplier le poids <strong>de</strong>s <strong>de</strong>scripteurs <strong>de</strong> plus<br />

haut niveau. Ainsi, les mots n’auront pas le même rôle, ni la même importance, suivant leur<br />

place dans le docum<strong>en</strong>t (titre, résumé, intro<strong>du</strong>ction, etc.). Leur importance varie aussi suivant<br />

leur position dans une f<strong>en</strong>être d’observation (partie, paragraphe, section, etc.). Par exemple<br />

parmi les coordinations <strong>de</strong> phrase, and et but – qui sont fréqu<strong>en</strong>ts – seront r<strong>en</strong>forcés au niveau<br />

<strong>du</strong> paragraphe, qui compr<strong>en</strong>d <strong>de</strong>s coordinations comme moreover., qui est plus significatif<br />

lorsqu’il se trouve <strong>en</strong> début <strong>de</strong> phrase. Les indicateurs les plus fréqu<strong>en</strong>ts se retrouv<strong>en</strong>t dans<br />

le niveau le plus fin pour minimiser l’héritage dans le niveau au <strong>de</strong>ssous. La position relative,<br />

<strong>en</strong> début ou <strong>en</strong> fin d’une f<strong>en</strong>être change dans la hiérarchie d’une f<strong>en</strong>être à une autre. Pour<br />

t<strong>en</strong>ir compte <strong>de</strong>s inclusions, le début ou la fin d’une f<strong>en</strong>être se tra<strong>du</strong>is<strong>en</strong>t respectivem<strong>en</strong>t<br />

par la première (ou la <strong>de</strong>rnière) sous-f<strong>en</strong>être d’une f<strong>en</strong>être donnée, par exemple, le début et<br />

la fin d’un paragraphe sont respectivem<strong>en</strong>t la première et la <strong>de</strong>rnière phrase <strong>du</strong> paragraphe.<br />

Descripteurs métriques<br />

Les <strong>de</strong>scripteurs métriques port<strong>en</strong>t sur la longueur <strong>de</strong>s différ<strong>en</strong>tes unités textuelles obt<strong>en</strong>ues<br />

lors <strong>de</strong> la segm<strong>en</strong>tation : la longueur <strong>du</strong> corps <strong>de</strong> texte (exprimée <strong>en</strong> nombre <strong>de</strong> parties),<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).<br />

Tableau 2 : Descripteurs stylistiques (extrait).


<strong>de</strong>s parties (exprimée <strong>en</strong> nombre <strong>de</strong> sections ou <strong>de</strong> paragraphes), <strong>de</strong>s sections (exprimée<br />

<strong>en</strong> nombre <strong>de</strong> paragraphes), <strong>de</strong>s paragraphes (exprimée <strong>en</strong> nombre <strong>de</strong> phrases) et <strong>de</strong>s phrases<br />

(exprimée <strong>en</strong> nombre <strong>de</strong> virgulots). Nous avons égalem<strong>en</strong>t pris comme <strong>de</strong>scripteur la<br />

longueur <strong>du</strong> titre et <strong>de</strong>s sous titres <strong>de</strong> l’article (exprimée <strong>en</strong> nombre <strong>de</strong> caractères).<br />

Descripteurs lexicaux<br />

Enfin, dans le but <strong>de</strong> comparer notre travail avec une approche classique, nous avons<br />

utilisé les 47 résumés <strong>de</strong>s articles pour extraire les mots clés caractérisant ces articles. Les<br />

<strong>de</strong>scripteurs lexicaux form<strong>en</strong>t une base <strong>de</strong> comparaison avec les <strong>de</strong>scripteurs <strong>de</strong> plan, discursifs<br />

et métriques.<br />

Le processus <strong>de</strong> fouille<br />

Cette expéri<strong>en</strong>ce est conçue dans le but <strong>de</strong> comparer les résultats obt<strong>en</strong>us par les différ<strong>en</strong>tes<br />

familles <strong>de</strong> <strong>de</strong>scripteurs. La figure 1 synthétise le processus général <strong>de</strong> notre approche,<br />

il s’agit <strong>de</strong> comparer <strong>de</strong>s <strong>de</strong>scripteurs linguistiques et <strong>de</strong> structure versus une simple<br />

approche sac <strong>de</strong> mots représ<strong>en</strong>tée par <strong>de</strong>scripteurs lexicaux.<br />

Figure 1 : Les gran<strong>de</strong>s lignes <strong>de</strong> l’approche.<br />

La première étape concerne le choix <strong>de</strong>s classes d’articles utilisées, qui ti<strong>en</strong>n<strong>en</strong>t compte<br />

<strong>de</strong>s att<strong>en</strong>tes <strong>de</strong>s biologistes : l’information qui intéresse prioritairem<strong>en</strong>t les spécialistes se<br />

trouve dans ces trois classes. La première classe correspond aux articles <strong>de</strong> synthèse qui<br />

représ<strong>en</strong>t<strong>en</strong>t une revue très complète et exhaustive, comm<strong>en</strong>çant par l’historique jusqu’aux<br />

connaissances actuelles sur un sujet très précis ; la <strong>de</strong>uxième classe conti<strong>en</strong>t <strong>de</strong>s articles <strong>de</strong><br />

recherche qui prés<strong>en</strong>t<strong>en</strong>t un travail personnel effectué par rapport à l’état <strong>de</strong>s connaissances<br />

actuelles ; <strong>en</strong>fin, la classe <strong>de</strong>s articles <strong>de</strong> clinique qui décriv<strong>en</strong>t une observation particulière<br />

par rapport à sa rareté ou son caractère démonstratif. On a exclu dans cette expéri<strong>en</strong>ce par<br />

exemple les éditoriaux, qui peuv<strong>en</strong>t cont<strong>en</strong>ir <strong>de</strong>s hypothèses non démontrées.<br />

D’autre part, suite à <strong>de</strong>s att<strong>en</strong>tes plus spécifiques <strong>de</strong> biologistes au sein <strong>du</strong> projet Bingo,<br />

le sujet <strong>de</strong>s articles est le cancer <strong>du</strong> cerveau ou <strong>de</strong> la prostate. Les articles ont été collectés<br />

à partir d’une recherche docum<strong>en</strong>taire classique par mots-clés MeSH sur la base docum<strong>en</strong>taire<br />

<strong>en</strong> ligne PubMed.<br />

La <strong>de</strong>uxième étape concerne la récupération <strong>de</strong>s résumés <strong>du</strong> corpus et l’application<br />

<strong>de</strong>s différ<strong>en</strong>tes étapes <strong>de</strong>s approches sac <strong>de</strong> mots, telles que la lemmatisation (stemming)<br />

et l’élimination <strong>de</strong>s mots vi<strong>de</strong>s. Pour chaque article on gar<strong>de</strong> les dix premiers mots les plus<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).<br />

73


74<br />

fréqu<strong>en</strong>ts (seuil > = 2), pour ce jeu <strong>de</strong> données, une ligne représ<strong>en</strong>te un article et une<br />

colonne représ<strong>en</strong>te la prés<strong>en</strong>ce ou l’abs<strong>en</strong>ce d’un mot dans l’article.<br />

La troisième étape consiste à segm<strong>en</strong>ter le corpus <strong>en</strong> unités textuelles telles que le titre,<br />

les sous titres, les parties, les sections, les paragraphes, les phrases et les virgulots <strong>en</strong> utilisant<br />

une métho<strong>de</strong> <strong>de</strong> découpage qui s’appuie sur la mise <strong>en</strong> forme matérielle <strong>du</strong> HTML, puis<br />

sont extraits les différ<strong>en</strong>ts <strong>de</strong>scripteurs linguistiques et structuraux <strong>de</strong> chaque niveau <strong>en</strong> utilisant<br />

<strong>de</strong>s expressions régulières. Un jeu <strong>de</strong> données par niveau est ainsi obt<strong>en</strong>u. Schématiquem<strong>en</strong>t,<br />

pour chaque jeu <strong>de</strong> données, une ligne peut être vue comme un segm<strong>en</strong>t <strong>du</strong><br />

texte (exemple : virgulots, phrases etc.) et une colonne co<strong>de</strong> la prés<strong>en</strong>ce ou l’abs<strong>en</strong>ce d’un<br />

<strong>de</strong>scripteur pour chaque segm<strong>en</strong>t.<br />

La caractérisation <strong>de</strong>s articles est finalem<strong>en</strong>t obt<strong>en</strong>ue <strong>en</strong> utilisant une métho<strong>de</strong> <strong>de</strong> fouille<br />

<strong>de</strong> données, les motifs émerg<strong>en</strong>ts (cf. section 4).<br />

Des contraintes externes portant sur l’accessibilité <strong>de</strong>s articles <strong>de</strong> PubMed ont influ<strong>en</strong>cé<br />

la taille <strong>du</strong> corpus. En effet, la majorité <strong>de</strong>s articles <strong>en</strong> accès libre sont au format <strong>PDF</strong>, ce qui<br />

r<strong>en</strong>d la tâche <strong>de</strong> prétraitem<strong>en</strong>t très complexe. Dans ce travail, nous nous sommes limités au<br />

format HTML. Le sous-<strong>en</strong>semble <strong>de</strong> textes ainsi obt<strong>en</strong>u rassemble 47 articles. Nous sommes<br />

consci<strong>en</strong>ts que cet échantillon est restreint. Cep<strong>en</strong>dant, nous verrons à la section 5 que cette<br />

échantillon va cont<strong>en</strong>ir 20 237 unités à explorer.<br />

Fouille <strong>de</strong> données <strong>de</strong> motifs contraints<br />

La fouille <strong>de</strong> données a pour but la découverte d’information nouvelle utile aux utilisateurs.<br />

Les métho<strong>de</strong>s typiques <strong>de</strong> fouille <strong>de</strong> données extrai<strong>en</strong>t tous les motifs vérifiant certaines<br />

propriétés. Dans ce travail, les motifs sont <strong>de</strong>s associations <strong>de</strong> <strong>de</strong>scripteurs (e.g., stylistiques,<br />

métriques) prés<strong>en</strong>ts dans les articles. Du point <strong>de</strong> vue <strong>du</strong> processus <strong>de</strong> fouille, les propriétés<br />

recherchées sont tra<strong>du</strong>ites par <strong>de</strong>s contraintes qui exprim<strong>en</strong>t ainsi le point <strong>de</strong> vue <strong>de</strong> l’utilisateur<br />

et on parle <strong>de</strong> fouille <strong>de</strong> données sous contraintes (Bayardo 2005). Une contrainte est<br />

une restriction <strong>de</strong>vant être satisfaite par un motif. Considérons par exemple la table 3 qui<br />

est un extrait d’un <strong>en</strong>semble <strong>de</strong> données notée D cont<strong>en</strong>ant trois types d’articles (Cc pour<br />

clinique, Cs pour synthèse et Cr pour recherche). Chaque ligne est un article décrit par les titres<br />

<strong>de</strong>s quatre parties Intro<strong>du</strong>ction, Material & Methods, Conclusion. Par exemple, « {Intro<strong>du</strong>ction,<br />

Material & Methods} » est un motif composé <strong>de</strong> <strong>de</strong>ux <strong>de</strong>scripteurs qui vérifie la contrainte<br />

« être prés<strong>en</strong>t au moins 3 fois dans D », <strong>en</strong> effet 4 segm<strong>en</strong>ts conti<strong>en</strong>n<strong>en</strong>t ce motif, il s’agit <strong>de</strong>s<br />

segm<strong>en</strong>ts 1, 2, 3 et 6. On dit que la fréqu<strong>en</strong>ce <strong>de</strong> ce motif est 4. Il est possible d’exprimer<br />

<strong>de</strong>s contraintes très variées, comme le motif possè<strong>de</strong> (ou ne possè<strong>de</strong> pas) un <strong>de</strong>scripteur, le<br />

motif vérifie une certaine longueur, l’aire d’un motif (i.e., le pro<strong>du</strong>it <strong>de</strong> sa longueur par sa<br />

fréqu<strong>en</strong>ce) dépasse un seuil, etc. Une caractéristique importante <strong>de</strong> la fouille <strong>de</strong> données<br />

sous contraintes est qu’on veut obt<strong>en</strong>ir tous les motifs satisfaisant la contrainte. Cette complétu<strong>de</strong><br />

<strong>de</strong> la réponse à la requête est nécessaire pour obt<strong>en</strong>ir toute l’information <strong>de</strong>s données.<br />

Elle exige <strong>de</strong>s stratégies efficaces <strong>de</strong> fouille <strong>de</strong> données afin <strong>de</strong> ne pas avoir à parcourir tout<br />

l’espace <strong>de</strong>s motifs pot<strong>en</strong>tiels.<br />

Dans ce travail, nous cherchons à caractériser <strong>de</strong>s collections <strong>de</strong> données (i.e., les types<br />

d’articles) les unes par rapport aux autres. Pour cela, nous nous intéressons aux « motifs<br />

émerg<strong>en</strong>ts ».<br />

Segm<strong>en</strong>t Classe Items<br />

1 CCIntro<strong>du</strong>ction, Material & Methods<br />

2 CCIntro<strong>du</strong>ction, Material & Methods<br />

3 CSIntro<strong>du</strong>ction, Material & Methods, Conclusion<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).


4 CSIntro<strong>du</strong>ction, Conclusion<br />

5 CSConclusion 6 CRIntro<strong>du</strong>ction, Material & Methods, Conclusion<br />

7 CRMaterial & Methods<br />

Ces motifs sont <strong>de</strong>s motifs dont la fréqu<strong>en</strong>ce varie fortem<strong>en</strong>t <strong>en</strong>tre <strong>de</strong>ux ou plusieurs<br />

classes (Soulet et al. 2005), une classe correspondant ici à un type d’articles. Soit Di (i : 1..3)<br />

l’<strong>en</strong>semble <strong>de</strong>s articles d’un même type. La fréqu<strong>en</strong>ce F (X, D) d’un motif X dans D est le<br />

nombre d’articles cont<strong>en</strong>ant X dans D. Par exemple, F ({Intro<strong>du</strong>ction, Material & Methods},<br />

D) = 4. Le concept <strong>de</strong> motif émerg<strong>en</strong>t est relié à la notion <strong>de</strong> différ<strong>en</strong>ce <strong>de</strong> fréqu<strong>en</strong>ce <strong>en</strong>tre<br />

classes. La quantification <strong>du</strong> contraste <strong>en</strong>tre une classe i et les autres classes est mesurée<br />

par le taux <strong>de</strong> croissance (ou « growth rate ») et noté GRi :<br />

GR i (X) = [(|D| – |D i|)/|D i|] × [F (X, Di)/ (F (X, D) – F (X, Di))]<br />

On dit que X est un motif émerg<strong>en</strong>t <strong>de</strong> D\Di dans Di, si GRi (X) > = ρ avec ρ > 1. Par<br />

exemple le motif {Intro<strong>du</strong>ction, Material & Methods} est un motif émerg<strong>en</strong>t <strong>de</strong> D\Cc dans<br />

Cc car le GR1 ({Intro<strong>du</strong>ction, Material & Methods}) = 2.5<br />

Résultats et discussion<br />

Tableau 3 : Extrait d’un <strong>en</strong>semble <strong>de</strong> données.<br />

La segm<strong>en</strong>tation <strong>de</strong>s articles <strong>en</strong> unités textuelles (le corps <strong>de</strong> texte, les parties, les sections,<br />

les paragraphes, les phrases et les virgulots) est une <strong>de</strong>s tâches initiales <strong>de</strong> notre travail.<br />

Il s’agit d’un traitem<strong>en</strong>t <strong>de</strong> surface pour découper le texte <strong>en</strong> unités que l’on supposera<br />

élém<strong>en</strong>taires et qui serviront <strong>de</strong> f<strong>en</strong>êtres d’observation. En ce qui concerne le corpus utilisé<br />

dans cet article, on obti<strong>en</strong>t 12 246 virgulots, 5 404 phrases, 1 767 paragraphes, 416 sections,<br />

310 parties et 47 corps <strong>de</strong> texte ainsi que 47 résumés, soit au total 20 237 unités.<br />

Les tableaux 4 et 5 donn<strong>en</strong>t les résultats pour les meilleurs motifs émerg<strong>en</strong>ts (EP) résultant<br />

<strong>de</strong> l’utilisation <strong>de</strong>s <strong>de</strong>scripteurs lexicaux et métriques. Le processus est effectué trois<br />

fois : on caractérise la classe Clinique par rapport aux Synthèse et Recherche et on donne<br />

le meilleur motif émerg<strong>en</strong>t EP1, on caractérise la classe Synthèse par rapport aux Clinique<br />

et Recherche et on donne le motif émerg<strong>en</strong>t EP2, et on fait la même chose pour la classe<br />

Recherche et on donne le motif émerg<strong>en</strong>t EP3. Pour chaque motif émerg<strong>en</strong>t on associe son<br />

GR et sa fréqu<strong>en</strong>ce relative dans une classe donnée (représ<strong>en</strong>tée par la ligne). Par exemple<br />

11,76 % est la fréqu<strong>en</strong>ce relative <strong>de</strong> EP3 = {high} dans la classe « articles <strong>de</strong> recherche ». Ces<br />

tables montr<strong>en</strong>t que les <strong>de</strong>scripteurs lexicaux et métriques sont uniformém<strong>en</strong>t distribués dans<br />

les trois classes et le contraste exprimé par le GR est très faible. Ces <strong>de</strong>scripteurs seuls ne<br />

permett<strong>en</strong>t pas <strong>de</strong> caractériser les trois classes.<br />

Classe Motifs Emerg<strong>en</strong>ts (ρ = 2) GR Fréqu<strong>en</strong>ces relatives<br />

Clinique vs. Synthèse et<br />

Recherche<br />

Synthèse vs. Recherche et<br />

Clinique<br />

Recherche vs. Synthèse et<br />

Clinique<br />

Clinique Synthèse Recherche<br />

EP1 = {tumor, treat} 2.0588 30,00 % 25,88 % 23,52 %<br />

EP2 = {combination} 2.0461 13,00 % 15,88 % 16,38 %<br />

EP3 = {high } 2.1025 13,29 % 10,96 % 11,76 %<br />

Tableau 4 : Exemples <strong>de</strong>s meilleurs résultats <strong>de</strong>s <strong>de</strong>scripteurs lexicaux.<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).<br />

75


76<br />

Classe Motifs Emerg<strong>en</strong>ts (ρ = 2) GR Fréqu<strong>en</strong>ces relatives<br />

Clinique Synthèse Recherche<br />

Clinique vs.<br />

Synthèse<br />

et Recherche<br />

EP1 = {longueur_Titre_Article ∈ [35,195]} 2.000 91,00 % 83,12 % 88,23 %<br />

Synthèse vs.<br />

Recherche<br />

et Clinique<br />

Recherche vs.<br />

Synthèse<br />

et Clinique<br />

EP2 = {longueur Crps_txt < 6} Inf. 00,00 % 46,16 % 00,00 %<br />

EP3 = {longueur_Section ∈ ]5,10]} 2.016 78,37 % 100 % 89,05 %<br />

Tableau 5 : Exemples <strong>de</strong>s meilleurs résultats <strong>de</strong>s <strong>de</strong>scripteurs métriques.<br />

Les tableaux 6 et 7 montr<strong>en</strong>t les résultats <strong>en</strong> employant les <strong>de</strong>scripteurs <strong>de</strong> plan et les<br />

<strong>de</strong>scripteurs stylistiques. Le motif {Discussion, Footnotes}{Abstract, Intro<strong>du</strong>ction, Material<br />

& Methods} est un <strong>de</strong>s motifs émerg<strong>en</strong>ts mis <strong>en</strong> évid<strong>en</strong>ce avec les <strong>de</strong>scripteurs <strong>de</strong> plan : sa<br />

fréqu<strong>en</strong>ce est 100 % pour les articles <strong>de</strong> recherche et 88,23 % pour les articles <strong>de</strong> clinique.<br />

En revanche, il n’est pas prés<strong>en</strong>t dans les articles <strong>de</strong> synthèse. Cela signifie que la prés<strong>en</strong>ce<br />

<strong>de</strong> ce motif dans un article exclut qu’il s’agisse d’un article <strong>de</strong> synthèse. Nous disons alors<br />

que la caractérisation <strong>de</strong>s articles <strong>de</strong> synthèse est négative (par abs<strong>en</strong>ce <strong>de</strong> ce motif dans<br />

un article). Cela signifie que les articles <strong>de</strong> synthèse sont organisés différemm<strong>en</strong>t <strong>de</strong>s articles<br />

<strong>de</strong> recherche et <strong>de</strong>s articles <strong>de</strong> clinique.<br />

On observe un résultat similaire avec les <strong>de</strong>scripteurs stylistiques. On remarque qu’au<br />

niveau <strong>du</strong> corps <strong>du</strong> texte, il existe <strong>de</strong>s motifs émerg<strong>en</strong>ts prés<strong>en</strong>ts jusqu’à 82 % dans les articles<br />

<strong>de</strong> recherche et 69 % <strong>de</strong>s articles <strong>de</strong> synthèse, mais 0 % <strong>de</strong>s cliniques. La caractérisation<br />

<strong>de</strong>s articles <strong>de</strong> clinique est alors aussi négative. On note égalem<strong>en</strong>t que les résultats sont<br />

conformes avec les résultats <strong>de</strong>s <strong>de</strong>scripteurs <strong>de</strong> plan, car c’est au niveau <strong>de</strong>s parties que<br />

les articles <strong>de</strong> synthèse sont discriminés.<br />

Classe Motifs Emerg<strong>en</strong>ts (ρ = 2) GR Fréqu<strong>en</strong>ces relatives<br />

Clinique Synthèse Recherche<br />

Clinique vs. EP1 = {Footnotes,<br />

Synthèse<br />

et Recherche<br />

Aknowledgem<strong>en</strong>t} {Abstract,<br />

Intro<strong>du</strong>ction, Material & Methods,<br />

Results}<br />

2.7451 82,35 % 00,00 % 100 %<br />

Synthèse vs.<br />

Recherche<br />

et Clinique<br />

Recherche vs.<br />

Synthèse<br />

et Clinique<br />

EP2 = {Conclusion, abstract} 10.4615 05,88 % 61,53 % 05,88 %<br />

EP3 = {Discussion, Footnotes}<br />

{Abstract, Intro<strong>du</strong>ction,<br />

Material & Methods, Results}<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).<br />

2.0000 88,23 % 00,00 % 100 %<br />

Tableau 6 : Exemples <strong>de</strong>s meilleurs résultats <strong>de</strong>s <strong>de</strong>scripteurs <strong>de</strong> plan.<br />

Classe Niveau Motifs Emerg<strong>en</strong>ts (ρ = 2) GR<br />

Clinique vs.<br />

Synthèse<br />

et Recherche<br />

Synthèse vs.<br />

Recherche<br />

et Clinique<br />

Recherche vs.<br />

Synthèse<br />

et Clinique<br />

Corps<br />

<strong>de</strong><br />

texte<br />

Fréqu<strong>en</strong>ces relatives<br />

Clinique Synthèse Recherche<br />

EP1 = {TEMP_Début,<br />

SUPPERS_Fin} 2.1176 35,29 % 15,38 % 17,64 %<br />

EP2 = {MOD_Fin,<br />

SUPPERS_Fin} Inf. 00,00 % 53,84 % 00,00 %<br />

EP3 = {SUPPERS_Début,<br />

SUPPERS_Fin} 2.7451 82,00 % 69,23 % 35,00 %


Clinique vs.<br />

Synthèse<br />

et Recherche<br />

Synthèse vs.<br />

Recherche<br />

et Clinique<br />

Recherche vs.<br />

Synthèse<br />

et Clinique<br />

Clinique vs.<br />

Synthèse<br />

et Recherche<br />

Synthèse vs.<br />

Recherche<br />

et Clinique<br />

Recherche vs.<br />

Synthèse<br />

et Clinique<br />

Cette expéri<strong>en</strong>ce montre que notre métho<strong>de</strong> basée sur les <strong>de</strong>scripteurs stylistiques et les<br />

<strong>de</strong>scripteurs <strong>de</strong> plan combinée avec les motifs émerg<strong>en</strong>ts discrimine bi<strong>en</strong> les trois classes<br />

<strong>en</strong> employant la caractérisation négative. Avec <strong>de</strong>s règles <strong>de</strong> type X = > non (classei), c’està-dire<br />

que la prés<strong>en</strong>ce <strong>du</strong> motif X exclut la classe i.<br />

Le pré-traitem<strong>en</strong>t nécessaire pour les <strong>de</strong>scripteurs stylistiques suppose une annotation<br />

différ<strong>en</strong>ciée a priori <strong>de</strong> tous les niveaux d’un article. Toutefois, ce travail montre que pour<br />

caractériser <strong>de</strong>s classes d’articles, il suffit <strong>de</strong> segm<strong>en</strong>ter les articles jusqu’au niveau <strong>de</strong>s sections<br />

et d’annoter les parties et les sections. Pour d’autres corpus, l’annotation pourra s’arrêter<br />

aux sections et le traitem<strong>en</strong>t sera ainsi plus léger.<br />

Conclusion<br />

Parties<br />

Sections<br />

Le prés<strong>en</strong>t travail montre l’exist<strong>en</strong>ce d’une différ<strong>en</strong>ce significative dans l’organisation<br />

<strong>de</strong> l’écrit et dans le style <strong>de</strong>s articles biomédicaux. Ce résultat est obt<strong>en</strong>u grâce à l’utilisation<br />

<strong>de</strong> <strong>de</strong>scripteurs linguistiques et <strong>de</strong> structure à partir <strong>de</strong>squels les associations sont extraites<br />

automatiquem<strong>en</strong>t par <strong>de</strong>s outils <strong>de</strong> fouille <strong>de</strong> données. Les <strong>de</strong>scripteurs métriques et lexicaux<br />

ne sont pas performants pour cette tâche. La caractérisation est réalisée grâce à l’utilisation<br />

conjointe <strong>de</strong> motifs émerg<strong>en</strong>ts, chacun <strong>de</strong> ces motifs excluant une classe.<br />

Ces résultats exploratoires nous <strong>en</strong>courag<strong>en</strong>t à tester l’efficacité <strong>de</strong> cette approche sur<br />

un corpus <strong>de</strong> taille plus gran<strong>de</strong> pour une autre tâche <strong>de</strong> caractérisation. En outre, remarquons<br />

que cette approche peut être combinée avec une approche « sacs <strong>de</strong> mots » pour pr<strong>en</strong>dre <strong>en</strong><br />

compte les thèmes <strong>de</strong>s articles.<br />

Remerciem<strong>en</strong>ts<br />

EP1 = {CONADV_D, CONJ_D,<br />

APPEL_F, TEMP_H}{APPEL_D,<br />

VOIX_D, PAS_D, ASP_D,<br />

DET_D, NAPH_D, VOIX_F,<br />

PAS_F, ASP_F, DET_F,<br />

ANAPH_F, SUPPERS_H}<br />

EP2 = {NEG_D,<br />

DET_F}{DET_D, ANAPH_D,<br />

SUPPERS_D}<br />

NEANT<br />

EP1 = {CONJ_D, NEG_P,<br />

MOD_C} {VOIX_P, PAS_P,<br />

ASP_P, CONJADV_P,<br />

ANAPH_P, CONJ_P,<br />

SUPPERS_C}<br />

EP2 = {EVAL_COMP_F, NEG_P,<br />

FUT_P}{VOIX_P, PAS_P, ASP_P,<br />

DET_P, CONJADV_P,<br />

ANAPH_P, CONJ_P,<br />

SUPPERS_P}<br />

EP3 = {TEMP_C,<br />

MOD_C}{VOIX_P, PAS_P,<br />

ASP_P, DET_P, ANAPH_P,<br />

SUPPERS_C}<br />

4.45113 41,18 % 00,00 % 35,29 %<br />

3.01852 47,06 % 69,23 % 29,41 %<br />

NEANT NEANT NEANT NEANT<br />

22.5904 17,65 % 07,69 % 00,00 %<br />

14.0959 05,88 % 15,38 % 00,00 %<br />

2.06569 17,65 % 00,00 % 23,53 %<br />

Tableau 7 : Exemples <strong>de</strong>s meilleurs résultats <strong>de</strong>s <strong>de</strong>scripteurs stylistiques<br />

Ce travail est partiellem<strong>en</strong>t financé par l’ACI masse <strong>de</strong> données (ministère <strong>de</strong> la recherche),<br />

projet Bingo (MD 46, 2004-2007).<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).<br />

77


78<br />

Bibliographie<br />

AHMED S., CHIDAMBARAM D., DAVULCU H., BARAL C. (2005), Intex : A syntactic role driv<strong>en</strong> proteinprotein<br />

interaction extractor for bio-medical text, in Proceedings ISMB/ACL Biolink, p. 54-61.<br />

BAYARDO R. (2005), « The Hows, Whys, and Wh<strong>en</strong>s of Constraints in Itemset and Rule Discovery», in<br />

Proceedings of the workshop on In<strong>du</strong>ctive Databases and Constraint Based Mining.<br />

BLOTT S., GURRIN C., JONES G.J.F., SMEATON A.F. & SODRING T. (2003), « On the Use of MeSH Headings to<br />

Improve Retrieval Effectiv<strong>en</strong>ess », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Confer<strong>en</strong>ce<br />

(TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 215-224.<br />

DAYANIK A., NEVILL-MANNING C.G., OUGHTRED R. (2003), « Partitioning a graph of sequ<strong>en</strong>ces, Structures<br />

and Abstracts for Information Retrieval », in NIST Special Publication 500-255 : The Twelfth Text REtrieval<br />

Confer<strong>en</strong>ce (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 522-531.<br />

DONG G. & LI J. (1999), « Effici<strong>en</strong>t Mining of Emerging Patterns : Discovering Tr<strong>en</strong>ds and Differ<strong>en</strong>ces »,<br />

in 5th ACM SIGKDD Int’l Conf. On knowledge Discovery and Data Mining (KDD’99), San Diego,<br />

Californie, USA, p. 43-52.<br />

HERSH W., BHUPATIRAJU R.T., PRICE S. (2003), « Phrases, Boosting, and Query Expansion Using External<br />

Knowledge Resources for G<strong>en</strong>omic Information Retrieval», in NIST Special Publication 500-255: The Twelfth<br />

Text REtrieval Confer<strong>en</strong>ce (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 503-509.<br />

KANDO N. (1999), « Text Structure Analysis as a Tool to Make Retrieved Docum<strong>en</strong>ts Usable», in Proceedings<br />

of the 4th International Workshop on Information Retrieval with Asian Languages, Taipei, Taiwan, p. 126-<br />

135.<br />

KARLGREN J. (2005), « Meaningful mo<strong>de</strong>ls for information access systems », in Inquiries into Words,<br />

Constraints and Contexts: Festschrift in the Honour of Kimmo Kosk<strong>en</strong>niemi on his 60th Birthday, CSLI<br />

Studies in Computational Linguistics, CSLI Publications, Stanford, Californie, p. 241-248.<br />

KAYAALP M., ARONSON A.R., HUMPHREY S.M., IDE N.C., TANABE L.K., SMITH L.H., DEMNER D., LOANE R.R.,<br />

MORK J.G., BODENREIDER O., DEMNER D. (2003), « Methods for Accurate Retrieval of MEDLINE Citations<br />

in Functional G<strong>en</strong>omics », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Confer<strong>en</strong>ce<br />

(TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 441-450.<br />

LUCAS N., CRÉMILLEUX B., TURMEL L. (2003), Signalling well-writt<strong>en</strong> aca<strong>de</strong>mic articles in an English corpus by<br />

text-mining techniques, UCREL technical papers, 16 (Special issue Proceedings Corpus Linguistics 2003),<br />

p. 465-474.<br />

PARSONS G. (1990), Cohesion and coher<strong>en</strong>ce: Sci<strong>en</strong>tific texts. A comparative study, Nottingham, Angleterre,<br />

Departm<strong>en</strong>t of English Studies, University of Nottingham.<br />

ROSARIO B. & HEARST M. (2005), « Multi-way Relation Classification : Application to Protein-Protein Interaction<br />

», in Proceedings of the HLT-NAACL’05, Vancouver (à paraître).<br />

RUCH P., BAUD R. & GEISSBHLER A. (2003), « Learning-free Text Categorization », in Proceedings of the 9th Confer<strong>en</strong>ce on Artificial Intellig<strong>en</strong>ce in Medicine Europe AIME 2003, M. Dojat, E. Keravnou & P. Barahona<br />

(éds), Springer, p. 199-208.<br />

RUCH P., CHICHESTER C., COHEN G., CORAY G., EHRLER F., GHORBEL H., MÜLLER H. & PALLOTTA V. (2003), «Report<br />

on the TREC 2003 Experim<strong>en</strong>t : G<strong>en</strong>omic Track », in NIST Special Publication 500-255 : The Twelfth Text<br />

REtrieval Confer<strong>en</strong>ce (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 756-761.<br />

SOULET A., CRÉMILLEUX B., RIOULT F. (2005), « Cond<strong>en</strong>sed Repres<strong>en</strong>tation of EPs and Patterns Quantified by<br />

Frequ<strong>en</strong>cy-Based Measures », in Post-proceedings of the International Workshop on Knowledge Discovery<br />

in In<strong>du</strong>ctive Databases (KDID'04) co-located with the ECML-PKDD'04, B. Goethals et A. Siebes (éds.),<br />

Springer (Lecture Notes in Computer Sci<strong>en</strong>ce 3370), p. 173-190.<br />

WILCOX A. & HRIPCSAK G. (2000), « Medical text repres<strong>en</strong>tations for in<strong>du</strong>ctive learning », in Proceedings of<br />

the American Medical Informatics Association Fall Symposium, USA, AMIA.<br />

Schedae, 2006, prépublication n°9, (<strong>fascicule</strong> n°1, p. 69-78).


Schedae, 2006<br />

Prépublication n° 10 Fascicule n° 1<br />

Segm<strong>en</strong>tation <strong>de</strong> textes procé<strong>du</strong>raux pour<br />

l’ai<strong>de</strong> à la modélisation <strong>de</strong> connaissances :<br />

le rôle <strong>de</strong> la structure visuelle<br />

Amanda Bouffier<br />

Laboratoire d’Informatique <strong>de</strong> Paris-Nord<br />

99 av<strong>en</strong>ue Jean-Baptiste Clém<strong>en</strong>t – 93 430 Villetaneuse<br />

Amanda.bouffier@lipn.univ-paris13.fr<br />

Résumé :<br />

Dans cet article, nous étudions le rôle <strong>de</strong> la structure visuelle pourla segm<strong>en</strong>tation automatique<br />

<strong>de</strong> textes procé<strong>du</strong>raux. Nous nous focalisons sur un type <strong>de</strong> textes procé<strong>du</strong>raux particulier : les<br />

Gui<strong>de</strong>s <strong>de</strong> Bonnes Pratiques médicales. Une étu<strong>de</strong> linguistique effectuée sur ce corpus montre<br />

la pertin<strong>en</strong>ce ainsi que les limites <strong>de</strong>s indices visuels, pour délimiter <strong>de</strong>s <strong>en</strong>sembles conditionsactions,<br />

qui form<strong>en</strong>t <strong>de</strong>s unités sémantiques <strong>de</strong> base pour la segm<strong>en</strong>tation.<br />

Mots-clés : ai<strong>de</strong> à la modélisation, linguistique textuelle, textes procé<strong>du</strong>raux.<br />

Abstract :<br />

In this paper, we study the role of the visual organization (paragraphs, headings, lists…) for a segm<strong>en</strong>tation<br />

task of proce<strong>du</strong>ral texts. We focus on a particular type of proce<strong>du</strong>ral texts : medical<br />

pratice gui<strong>de</strong>lines. A linguistic study shows the relevancy and the limits of the structural clues to<br />

<strong>de</strong>limit the condition-action units, which form the basic semantic units for the segm<strong>en</strong>tation task.<br />

Keywords : mo<strong>de</strong>lling support tool, text linguistics, proce<strong>du</strong>ral texts.<br />

Les textes procé<strong>du</strong>raux sont <strong>de</strong>s textes qui ont pour objectif <strong>de</strong> prescrire <strong>de</strong>s actions<br />

au vu <strong>de</strong> certaines conditions. Ils reçoiv<strong>en</strong>t une att<strong>en</strong>tion croissante <strong>en</strong> <strong>en</strong>treprise car ils ont<br />

<strong>de</strong>s conséqu<strong>en</strong>ces importantes <strong>en</strong> termes <strong>de</strong> sécurité et <strong>en</strong> termes légaux. Ils sont pourtant<br />

souv<strong>en</strong>t peu lus ou peu adaptés aux conditions <strong>de</strong> travail effectives (situations d’urg<strong>en</strong>ce,<br />

habitu<strong>de</strong>s <strong>de</strong> travail difficiles à modifier). Dès lors, le développem<strong>en</strong>t <strong>de</strong> systèmes facilitant<br />

l’accès aux instructions prés<strong>en</strong>tes dans les textes <strong>de</strong> manière adaptée aux situations <strong>de</strong> travail<br />

représ<strong>en</strong>terait un bénéfice incontestable.<br />

Pour construire ces systèmes, les textes ont besoin d’être modélisés. Or, le passage <strong>du</strong><br />

texte brut au modèle reste une étape le plus souv<strong>en</strong>t manuelle, donc coûteuse. Fort <strong>de</strong> ce<br />

constat, l’objectif <strong>de</strong> notre travail est <strong>de</strong> fournir une ai<strong>de</strong> à la modélisation <strong>en</strong> proposant une<br />

première représ<strong>en</strong>tation structurée <strong>de</strong> ces textes. La structuration consiste à isoler les unités<br />

textuelles qui correspond<strong>en</strong>t aux conditions et aux actions et à remettre <strong>en</strong> correspondance<br />

Amanda Bouffier<br />

« Segm<strong>en</strong>tation <strong>de</strong> textes procé<strong>du</strong>raux pour l’ai<strong>de</strong> à la modélisation <strong>de</strong> connaissances : le rôle <strong>de</strong> la structure visuelle »<br />

Schedae, 2006, prépublication n°10, (<strong>fascicule</strong> n°1, p. 79-84).<br />

79


80<br />

ces unités <strong>en</strong>tre elles. Des phénomènes <strong>de</strong> portée ét<strong>en</strong><strong>du</strong>e concernant les unités exprimant<br />

une condition r<strong>en</strong>d<strong>en</strong>t la tâche complexe. La difficulté est <strong>de</strong> calculer la portée <strong>de</strong> ces unités.<br />

La portée étant représ<strong>en</strong>tée par un cadre (Charolles1997) 1 . L’étape <strong>de</strong> structuration doit donc<br />

être précédée d’une étape <strong>de</strong> segm<strong>en</strong>tation, qui consiste à délimiter les cadres <strong>en</strong>g<strong>en</strong>drés<br />

par les unités. De nombreux indices dans le texte suggèr<strong>en</strong>t la fermeture ou la continuation<br />

d’un cadre. Nous conc<strong>en</strong>trons ici sur le rôle que peuv<strong>en</strong>t jouer les indices relatifs à la structure<br />

visuelle <strong>de</strong>s textes (découpage <strong>en</strong> paragraphes, titres, structures énumératives etc.).<br />

1 Des phénomènes <strong>de</strong> portée<br />

Un cadre représ<strong>en</strong>te la portée d’une unité-condition appelée intro<strong>du</strong>cteur <strong>de</strong> cadre. Le<br />

fait, pour une unité-condition, d’avoir une portée ét<strong>en</strong><strong>du</strong>e (i. e supérieure à sa propre phrase),<br />

peut se réaliser <strong>de</strong> différ<strong>en</strong>tes manières sur le plan linguistique. Dans un premier cas, l’intro<strong>du</strong>cteur<br />

<strong>de</strong> cadre est un titre ou une expression non intégrée syntaxiquem<strong>en</strong>t à la phrase,<br />

comme dans l’exemple <strong>de</strong> la figure 1 (sur le corpus étudié, voir la section 3).<br />

Figure 1 : Exemples <strong>de</strong> cadres intro<strong>du</strong>its par <strong>de</strong>s expressions détachées.<br />

Cet exemple montre trois cadres intro<strong>du</strong>its par <strong>de</strong>s expressions détachées <strong>en</strong> début <strong>de</strong><br />

phrase.<br />

Dans d’autres cas, la portée d’un intro<strong>du</strong>cteur s’établit par le biais <strong>de</strong> li<strong>en</strong>s anaphoriques<br />

(parfois doublés <strong>de</strong> phénomènes complexes d’ordre temporel).<br />

Pour délimiter la fin <strong>de</strong> ces cadres (<strong>de</strong> types différ<strong>en</strong>ts) <strong>de</strong> nombreux indices peuv<strong>en</strong>t<br />

interv<strong>en</strong>ir. Nous nous conc<strong>en</strong>trons ici sur le rôle <strong>de</strong>s indices relatifs à la structure visuelle <strong>de</strong>s<br />

textes.<br />

2 Segm<strong>en</strong>ter <strong>en</strong> cadres : le rôle <strong>de</strong> la structure visuelle<br />

Nous faisons l’hypothèse que les indices relatifs à la structure visuelle sont un <strong>en</strong>semble<br />

d’indices très pertin<strong>en</strong>ts pour les textes procé<strong>du</strong>raux. En effet, parce qu’ils doiv<strong>en</strong>t être lus<br />

rapi<strong>de</strong>m<strong>en</strong>t et efficacem<strong>en</strong>t, ces textes sollicit<strong>en</strong>t fortem<strong>en</strong>t ce type <strong>de</strong> structuration.<br />

Pour tester cette hypothèse, nous avons effectué une étu<strong>de</strong> sur un corpus <strong>de</strong> recommandations<br />

médicales : les Gui<strong>de</strong>s <strong>de</strong> Bonnes Pratiques. Ces textes sont écrits par <strong>de</strong>s autorités<br />

<strong>en</strong> matière <strong>de</strong> santé et sont adressés aux mé<strong>de</strong>cins afin d’uniformiser leurs pratiques. Suite<br />

au constat que leur simple diffusion avai<strong>en</strong>t peu d’impact sur les pratiques <strong>de</strong>s mé<strong>de</strong>cins, <strong>de</strong><br />

nombreux travaux ont vu le jour, avec l’objectif <strong>de</strong> contribuer au développem<strong>en</strong>t d’outils<br />

d’ai<strong>de</strong> à la décision fondés sur ces gui<strong>de</strong>s (Séroussi 2003).<br />

Cette étu<strong>de</strong> a utilisé 18 Gui<strong>de</strong>s <strong>de</strong> Bonnes Pratiques (<strong>en</strong>viron 120 000 mots, disponibles<br />

sur http://www.anaes.fr) portant sur la prise <strong>en</strong> charge <strong>de</strong> diverses pathologies. 500 expressions<br />

1. Nous lui empruntons les notions <strong>de</strong> portée et <strong>de</strong> cadre. Néanmoins, notre définition est plus vaste : la portée<br />

d’une unité peut se réaliser <strong>de</strong> différ<strong>en</strong>tes manières sur le plan linguistique. On inclut notamm<strong>en</strong>t les<br />

cas où celle-ci s’établit à partir <strong>de</strong> relations anaphoriques remontantes. Voir section 1<br />

Schedae, 2006, prépublication n°10, (<strong>fascicule</strong> n°1, p. 79-84).


<strong>de</strong> condition intro<strong>du</strong>ctrices <strong>de</strong> cadre ont été isolées (titres, expressions détachées ou intégrées).<br />

Pour chaque intro<strong>du</strong>cteur, le cadre qu’il <strong>en</strong>g<strong>en</strong>dre a été délimité avec l’ai<strong>de</strong> d’un<br />

expert (Catherine Duclos <strong>du</strong> laboratoire LIM & Bio <strong>de</strong> l’université Paris 13). Plusieurs paramètres,<br />

<strong>en</strong> relation avec la structure visuelle, jugés comme indices pot<strong>en</strong>tiellem<strong>en</strong>t pertin<strong>en</strong>ts<br />

pour la segm<strong>en</strong>tation ont été ret<strong>en</strong>us : la portée <strong>de</strong> l’intro<strong>du</strong>cteur par rapport au découpage<br />

<strong>en</strong> paragraphes, la position <strong>de</strong> celui-ci dans le paragraphe, la relation qu’il <strong>en</strong>treti<strong>en</strong>t avec le<br />

titre <strong>de</strong> la section dont il fait partie, et quand il fait égalem<strong>en</strong>t partie d’une structure énumérative,<br />

la relation avec cette <strong>de</strong>rnière. Pour chaque intro<strong>du</strong>cteur, la valeur <strong>de</strong> chaque paramètre<br />

a été relevée. Pour tester la corrélation <strong>en</strong>tre certains paramètres, un chi carré a été<br />

calculé.<br />

Le principal résultat obt<strong>en</strong>u montre que les indices relatifs à la structure visuelle sont très<br />

discriminants, <strong>en</strong> particulier <strong>en</strong> ce qui concerne la structuration <strong>en</strong> paragraphes, les titres<br />

ainsi que les structures énumératives.<br />

Nous avons notamm<strong>en</strong>t observé que 60 % <strong>de</strong>s expressions détachées <strong>en</strong>g<strong>en</strong>dr<strong>en</strong>t un<br />

cadre qui se ferme à la fin <strong>du</strong> paragraphe. Ce résultat montre que le découpage logique <strong>en</strong><br />

paragraphes est un indice très discriminant.<br />

En revanche, il a égalem<strong>en</strong>t été observé, <strong>de</strong> manière inatt<strong>en</strong><strong>du</strong>e, que 6,8 % <strong>de</strong>s expressions<br />

détachées <strong>en</strong>g<strong>en</strong>dr<strong>en</strong>t un cadre qui inclut <strong>de</strong>s paragraphes <strong>de</strong> même niveau que l’intro<strong>du</strong>cteur.<br />

Ces cas sont liés à une redondance <strong>en</strong>tre le titre et l’expression détachée, ce qui<br />

<strong>en</strong>traîne une confusion <strong>de</strong> leurs portées respectives. Ce résultat est surpr<strong>en</strong>ant car ce qui était<br />

att<strong>en</strong><strong>du</strong> est un fonctionnem<strong>en</strong>t exclusif <strong>en</strong>tre les titres et les expressions détachées, autrem<strong>en</strong>t<br />

dit qu’ils ne puiss<strong>en</strong>t pas assumer la même fonction au même mom<strong>en</strong>t. Cep<strong>en</strong>dant,<br />

dans notre corpus, dans 51 % <strong>de</strong>s cas, le premier intro<strong>du</strong>cteur <strong>de</strong> type expression détachée<br />

prés<strong>en</strong>t après le titre est redondant totalem<strong>en</strong>t ou partiellem<strong>en</strong>t avec celui-ci, comme <strong>en</strong><br />

témoigne l’exemple <strong>de</strong> la figure 2.<br />

Figure 2 : Un cas <strong>de</strong> redondance <strong>en</strong>tre le titre et l’expression détachée.<br />

Dans cet exemple, l’intro<strong>du</strong>cteur initié par <strong>en</strong> cas <strong>de</strong> colite chronique a une portée qui<br />

dépasse le paragraphe dont il fait partie. Ceci est lié à une redondance <strong>en</strong>tre l’intro<strong>du</strong>cteur<br />

et une partie <strong>du</strong> titre initié par IV.1 Surveillance. Cette redondance provoque une confusion<br />

<strong>de</strong> leurs portées respectives.<br />

Dans ce type <strong>de</strong> cas, la similarité <strong>en</strong>tre le titre et l’expression détachée est alors un indice<br />

pertin<strong>en</strong>t pour calculer la portée <strong>de</strong> cette <strong>de</strong>rnière.<br />

Enfin, 14,6 % <strong>de</strong>s expressions détachées sont inclus dans une structure énumérative,<br />

comme l’illustre l’exemple <strong>de</strong> la figure 3 où l’intro<strong>du</strong>cteur joue le rôle d’amorce <strong>de</strong> l’énumération.<br />

Schedae, 2006, prépublication n°10, (<strong>fascicule</strong> n°1, p. 79-84).<br />

81


82<br />

Dans ce type <strong>de</strong> cas, il est nécessaire <strong>de</strong> pouvoir repérer les structures énumératives<br />

pour calculer la portée <strong>de</strong>s intro<strong>du</strong>cteurs se trouvant dans ce type <strong>de</strong> configuration.<br />

Si une segm<strong>en</strong>tation basée sur <strong>de</strong>s indices visuels est donc pertin<strong>en</strong>te, elle a néanmoins<br />

<strong>de</strong>s limites : c’est le cas notamm<strong>en</strong>t 18 % <strong>de</strong>s expressions détachées où le cadre se ferme<br />

<strong>en</strong>tre la phrase <strong>de</strong> l’intro<strong>du</strong>cteur et la fin <strong>du</strong> paragraphe ainsi que 11,5 % d’expressions intégrées<br />

qui ont une portée dépassant leur propre phrase. Pour les cas non résolus par les indices<br />

relatifs à la structure visuelle, d’autres classes d’indices ont été isolés. Dans le cas <strong>de</strong>s<br />

expressions détachées, <strong>de</strong>s marqueurs <strong>de</strong> relations sémantico-rhétoriques sont pertin<strong>en</strong>ts :<br />

notamm<strong>en</strong>t <strong>de</strong>s marqueurs <strong>de</strong> relations <strong>de</strong> contraste (cep<strong>en</strong>dant, <strong>en</strong> revanche) ou <strong>de</strong>s marqueurs<br />

<strong>de</strong> relations <strong>de</strong> justification (<strong>en</strong> effet, <strong>en</strong> fait). Dans le cas <strong>de</strong>s expressions détachées,<br />

<strong>de</strong>s marqueurs <strong>de</strong> relations anaphoriques sont <strong>de</strong> bons indices, comme <strong>en</strong> témoigne l’exemple<br />

<strong>de</strong> la figure 4.<br />

Dans cet exemple, Dans les <strong>de</strong>ux cas, qui est un marqueur anaphorique, r<strong>en</strong>voie le lecteur<br />

aux <strong>de</strong>ux conditions énoncées auparavant (lorsque l’HbA1c est > 8 %/lorsque l’HbA1c<br />

est comprise <strong>en</strong>tre 6,6 % et 8 %) et indique que l’action qui suit tombe sous la portée <strong>de</strong> ces<br />

<strong>de</strong>ux conditions.<br />

3 Vers une automatisation <strong>de</strong> la segm<strong>en</strong>tation<br />

Cette étu<strong>de</strong> linguistique sur corpus nous a permis <strong>de</strong> définir une architecture mo<strong>du</strong>laire<br />

exploitant les indices prés<strong>en</strong>tés dans la section précéd<strong>en</strong>te pour segm<strong>en</strong>ter et structurer les<br />

textes. Un premier mo<strong>du</strong>le est dédié au repérage <strong>de</strong>s intro<strong>du</strong>cteurs <strong>de</strong> cadre qui sont <strong>de</strong>s<br />

expressions <strong>de</strong> condition. Un <strong>de</strong>uxième mo<strong>du</strong>le a pour charge <strong>de</strong> repérer les différ<strong>en</strong>ts indices<br />

pertin<strong>en</strong>ts pour délimiter la fin <strong>de</strong>s cadres. Un troisième mo<strong>du</strong>le, <strong>en</strong>fin, est dédié au calcul<br />

<strong>de</strong> la délimitation <strong>de</strong>s cadres sur la base d’heuristiques exploitant les indices. De manière<br />

générale, une segm<strong>en</strong>tation par défaut est fixée au paragraphe courant dans le cas <strong>de</strong>s<br />

expressions détachées et à la phrase courante dans le cas <strong>de</strong>s expressions intégrée. Cette<br />

segm<strong>en</strong>tation par défaut est remise <strong>en</strong> question lorsqu’apparaiss<strong>en</strong>t d’autres types d’indices.<br />

Dans le cas d’indices conflictuels (i. e am<strong>en</strong>ant à <strong>de</strong>s segm<strong>en</strong>tations diverg<strong>en</strong>tes), <strong>de</strong>s<br />

heuristiques ont été écrites afin <strong>de</strong> gérer certaines priorités.<br />

Schedae, 2006, prépublication n°10, (<strong>fascicule</strong> n°1, p. 79-84).<br />

Figure 3 : Un intro<strong>du</strong>cteur amorce d’une énumération.<br />

Figure 4 : Un anaphorique comme indice <strong>de</strong> continuation.


Les mo<strong>du</strong>les sont écrits <strong>en</strong> Perl et XSLT. Tous les mo<strong>du</strong>les pr<strong>en</strong>n<strong>en</strong>t <strong>en</strong> <strong>en</strong>trée un fichier<br />

XML et pro<strong>du</strong>is<strong>en</strong>t <strong>en</strong> sortie les mêmes fichiers XML modifiés.<br />

Cette architecture, <strong>en</strong> cours d’implém<strong>en</strong>tation, a été validée sur certains aspects (démarche<br />

générale, repérage <strong>de</strong>s intro<strong>du</strong>cteurs et <strong>de</strong>s énumérations) avec l’ai<strong>de</strong> d’experts <strong>du</strong><br />

domaine. Une fois l’implém<strong>en</strong>tation terminée, l’outil sera évalué sur un autre corpus <strong>de</strong> textes<br />

procé<strong>du</strong>raux, afin <strong>de</strong> mettre à l’épreuve et évaluer la généricité <strong>de</strong> la métho<strong>de</strong>.<br />

4 Positionnem<strong>en</strong>t <strong>de</strong> l’approche<br />

L’analyse <strong>de</strong> textes <strong>de</strong> spécialité est un <strong>de</strong>s champs applicatifs <strong>du</strong> TAL qui a connu un<br />

grand succès ces <strong>de</strong>rnières années : <strong>de</strong>s travaux se sont conc<strong>en</strong>trés sur les métho<strong>de</strong>s d’extraction<br />

<strong>de</strong> termes ou <strong>de</strong> relations <strong>en</strong>tre ces termes. Leur objectif étant d’ai<strong>de</strong>r à modéliser,<br />

nous nous inscrivons pleinem<strong>en</strong>t dans la lignée <strong>de</strong> ces travaux. Néanmoins, nous nous <strong>en</strong><br />

distinguons par la prise <strong>en</strong> compte d’un niveau d’analyse différ<strong>en</strong>t. En effet, les travaux susm<strong>en</strong>tionnés<br />

s’appliqu<strong>en</strong>t à un niveau interne à la phrase tandis que notre niveau d’analyse<br />

est le texte <strong>en</strong> lui-même.<br />

Dans la mesure où l’objet <strong>de</strong> notre étu<strong>de</strong> est le texte et sa structure, nous intéressons<br />

naturellem<strong>en</strong>t aux travaux <strong>en</strong> linguistique textuelle. Les travaux fondateurs <strong>de</strong> Halliday, sur la<br />

notion <strong>de</strong> cohér<strong>en</strong>ce textuelle constitu<strong>en</strong>t l’arrière plan <strong>de</strong> notre étu<strong>de</strong>. Nous nous inspirons<br />

fortem<strong>en</strong>t <strong>de</strong> la théorie <strong>de</strong> l’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours <strong>de</strong> Charolles (1997), dont nous repr<strong>en</strong>ons<br />

<strong>en</strong> partie la notion <strong>de</strong> cadre et <strong>de</strong> portée. Nous empruntons égalem<strong>en</strong>t aux travaux<br />

<strong>de</strong> Virbel et Luc (2001), qui étudi<strong>en</strong>t le fonctionnem<strong>en</strong>t <strong>de</strong> la structure visuelle d’un texte.<br />

Nous portons <strong>en</strong>fin une att<strong>en</strong>tion toute particulière aux travaux <strong>de</strong> Pascual et Péry-Woodley<br />

(Péry-Woodley 1998) qui a notamm<strong>en</strong>t travaillé sur l’interaction <strong>en</strong>tre différ<strong>en</strong>tes structures<br />

textuelles.<br />

Au-<strong>de</strong>là <strong>de</strong> l’analyse linguistique, nous nous démarquons <strong>de</strong>s travaux précéd<strong>en</strong>ts <strong>en</strong><br />

visant le développem<strong>en</strong>t d’un outil permettant le repérage <strong>de</strong> ces structures et leur exploitation<br />

dans le cadre d’une tâche d’ai<strong>de</strong> à la modélisation. La <strong>de</strong>scription est donc faite avec un<br />

souci d’opérationnalisation qui oblige à fon<strong>de</strong>r l’analyse linguistique sur <strong>de</strong>s indices repérables<br />

automatiquem<strong>en</strong>t <strong>en</strong> corpus.<br />

Cet objectif d’opérationnalisation nous inscrit dans le cadre <strong>de</strong>s systèmes d’accès à<br />

l’information qui exploit<strong>en</strong>t la structure <strong>du</strong> texte – qu’elle soit <strong>de</strong> nature thématique ou rhétorique<br />

– ou <strong>de</strong>s structures spécifiques comme les cadres <strong>de</strong> discours.<br />

5 Conclusion<br />

Nous nous sommes conc<strong>en</strong>trés dans cet article sur le rôle <strong>de</strong> la structure visuelle pour la<br />

segm<strong>en</strong>tation. Une étu<strong>de</strong> linguistique, effectuée sur un corpus <strong>de</strong> textes <strong>de</strong> recommandations<br />

médicales, a montré la pertin<strong>en</strong>ce ainsi que les limites <strong>de</strong> ce type d’indices.<br />

L’<strong>en</strong>jeu principal consiste désormais à étudier la portée <strong>de</strong> ce travail et sa généricité.<br />

Chaque texte procé<strong>du</strong>ral est spécifique et, si l’on espère qu’une partie <strong>de</strong> ce travail (marqueurs,<br />

indices visuels…) est réutilisable, une autre partie <strong>de</strong>vra être adapté. Nous travaillons<br />

actuellem<strong>en</strong>t sur d’autres corpus, afin <strong>de</strong> déterminer <strong>de</strong>s stratégies d’adaptation efficaces<br />

<strong>en</strong> fonction <strong>de</strong>s textes et <strong>de</strong> la tâche <strong>en</strong>visagée.<br />

Bibliographie<br />

CHAROLLES M. (1997), « L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours-univers, champs, domaines et espaces », Cahier <strong>de</strong><br />

recherche linguistique, 6, p. 1-73.<br />

Schedae, 2006, prépublication n°10, (<strong>fascicule</strong> n°1, p. 79-84).<br />

83


84<br />

PÉRY-WOODLEY M-P. (1998), « Mo<strong>de</strong>s d’organisation et <strong>de</strong> signalisation dans <strong>de</strong>s textes procé<strong>du</strong>raux »,<br />

Langages, 141, p. 28-46.<br />

SÉROUSSI B., GEORG G. & BOUAUD J. (2003), « Dérivation d’une base <strong>de</strong> connaissances à partir d’une<br />

instance GEM d’un gui<strong>de</strong> <strong>de</strong> bonnes pratiques médicales textuel », in Actes <strong>de</strong>s 14es Journées<br />

Francophones sur l'Ingénierie <strong>de</strong>s Connaissances (IC' 2003), Di<strong>en</strong>g-Kuntz (éd.).<br />

VIRBEL J-L. & LUC C., (2001), « Le modèle d’Architecture Textuelle : fon<strong>de</strong>m<strong>en</strong>ts et expérim<strong>en</strong>tation »,<br />

Verbum, 23, 1, p. 103-123.<br />

Schedae, 2006, prépublication n°10, (<strong>fascicule</strong> n°1, p. 79-84).


Schedae, 2006<br />

Prépublication n° 11 Fascicule n° 1<br />

Quelle plus-value linguistique<br />

pour la segm<strong>en</strong>tation automatique <strong>de</strong> texte?<br />

Christophe Pimm<br />

ERSS, <strong>Université</strong> <strong>de</strong> Toulouse-le-Mirail<br />

5 Allées Antonio Machado – 31058 Toulouse Ce<strong>de</strong>x 9<br />

cpimm@univ-tlse2.fr<br />

Résumé :<br />

Cet article s’inscrit dans le domaine <strong>de</strong> l’analyse <strong>du</strong> discours. Dans cet article se focalise sur une<br />

partie <strong>de</strong> mon travail <strong>de</strong> thèse qui vise à la <strong>de</strong>scription <strong>de</strong> mécanismes complexes <strong>de</strong> structuration<br />

<strong>du</strong> discours. Elle se base sur la <strong>de</strong>scription <strong>de</strong> l’interaction <strong>de</strong> plusieurs mécanismes complém<strong>en</strong>taires<br />

dans la construction <strong>de</strong> la cohér<strong>en</strong>ce discursive. Le but <strong>de</strong> cette étu<strong>de</strong> sur corpus est<br />

d’utiliser ces <strong>de</strong>scriptions pour la réalisation d’un mo<strong>du</strong>le <strong>de</strong> segm<strong>en</strong>tation automatique.<br />

Mots-clés : Analyse <strong>du</strong> discours, TAL, RST, MAT, Encadrem<strong>en</strong>t <strong>du</strong> discours, cohér<strong>en</strong>ce,<br />

organisation hiérarchique <strong>du</strong> discours, segm<strong>en</strong>tation statistique, segm<strong>en</strong>tation <strong>du</strong> discours.<br />

Abstract :<br />

This paper situates itself in the field of discourse analysis. It focuses on a part of my work for my<br />

PhD aiming to <strong>de</strong>scribe complex mechanisms in the structuration of discourse. It is based on the<br />

<strong>de</strong>scription of the interaction betwe<strong>en</strong> various complem<strong>en</strong>tary mechanisms for the construction<br />

of discourse coher<strong>en</strong>ce. The goal of this corpus-based study is to build an automatic segm<strong>en</strong>tation<br />

mo<strong>du</strong>le based on these <strong>de</strong>scriptions.<br />

Keywords : Discourse analysis, computational linguistics, RST, Text Architecture Mo<strong>de</strong>l,<br />

Discourse Framing, coher<strong>en</strong>ce, hierarchical organization of discourse, statistical segm<strong>en</strong>tation,<br />

discourse segm<strong>en</strong>tation.<br />

Au sein <strong>du</strong> TAL, le domaine <strong>de</strong> la segm<strong>en</strong>tation automatique <strong>de</strong> texte s’est considérablem<strong>en</strong>t<br />

développé <strong>de</strong>puis quelques années répondant à <strong>de</strong>s besoins et aux avancées <strong>de</strong><br />

l’informatique.<br />

Dans cet article qui s’inscrit dans le domaine <strong>de</strong> l’analyse <strong>du</strong> discours, je me propose<br />

<strong>de</strong> rev<strong>en</strong>ir sur <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> traitem<strong>en</strong>t automatique statistiques (basées sur la notion<br />

<strong>de</strong> cohésion lexicale) <strong>en</strong> soulignant leurs caractéristiques et leurs limites et d’évaluer la plusvalue<br />

que pourrait leur apporter l’utilisation <strong>de</strong> modèles et théories <strong>de</strong> l’analyse <strong>du</strong> discours<br />

(qui étudi<strong>en</strong>t les mécanismes <strong>de</strong> cohér<strong>en</strong>ce <strong>du</strong> discours). Mon but n’est pas <strong>de</strong> totalem<strong>en</strong>t<br />

rejeter les approches statistiques, qui ont quand même <strong>de</strong>s qualités, au profit <strong>de</strong> modélisations<br />

purem<strong>en</strong>t linguistiques mais plutôt <strong>de</strong> proposer une approche hybri<strong>de</strong> statistique et<br />

Christophe Pimm<br />

« Quelle plus-value linguistique pour la segm<strong>en</strong>tation automatique <strong>de</strong> texte ? »<br />

Schedae, 2006, prépublication n°11, (<strong>fascicule</strong> n°1, p. 85-90).<br />

85


86<br />

linguistique <strong>de</strong> segm<strong>en</strong>tation automatique permettant <strong>de</strong> dégager <strong>de</strong>s segm<strong>en</strong>ts <strong>de</strong> discours<br />

cohér<strong>en</strong>ts et pertin<strong>en</strong>ts. Je prés<strong>en</strong>terai <strong>en</strong>fin les applications <strong>en</strong>visagées qui guid<strong>en</strong>t<br />

le choix <strong>de</strong>s modèles utilisés.<br />

1. Cadre <strong>de</strong> l’étu<strong>de</strong> – l’analyse <strong>du</strong> discours<br />

Cette étu<strong>de</strong> s’inscrit dans le domaine <strong>du</strong> TAL mais égalem<strong>en</strong>t dans le domaine <strong>de</strong> l’analyse<br />

<strong>du</strong> discours. En effet, si ce travail a <strong>de</strong>s visées applicatives et utilise <strong>de</strong>s outils et <strong>de</strong>s<br />

métho<strong>de</strong>s <strong>de</strong> TAL, une gran<strong>de</strong> partie <strong>du</strong> travail précédant l’étape <strong>de</strong> l’automatisation est<br />

un travail <strong>de</strong> <strong>de</strong>scription linguistique sur les textes constituant le corpus. Je vais maint<strong>en</strong>ant<br />

brièvem<strong>en</strong>t prés<strong>en</strong>ter chaque métho<strong>de</strong> et modèle utilisés avant <strong>de</strong> montrer <strong>en</strong> quoi il est<br />

pertin<strong>en</strong>t <strong>de</strong> considérer ces modèles <strong>en</strong>sembles dans une tâche d’observation <strong>de</strong>s phénomènes<br />

<strong>de</strong> cohér<strong>en</strong>ce <strong>en</strong> vue <strong>de</strong> leur utilisation dans un système <strong>de</strong> segm<strong>en</strong>tation automatique.<br />

La cohér<strong>en</strong>ce est une notion c<strong>en</strong>trale <strong>de</strong> l’analyse <strong>du</strong> discours. En effet, un discours n’est<br />

pas une simple succession <strong>de</strong> phrases mises à la suite les unes <strong>de</strong>s autres mais bi<strong>en</strong> un tout<br />

cohér<strong>en</strong>t dans lequel tous les segm<strong>en</strong>ts sont liés les uns aux autres <strong>de</strong> façon hiérarchique.<br />

Un grand nombre <strong>de</strong> théories et modèles <strong>de</strong> la cohér<strong>en</strong>ce exist<strong>en</strong>t à l’heure actuelle et j’ai<br />

choisi pour mon étu<strong>de</strong> d’<strong>en</strong> utiliser trois, leur choix étant motivé à la fois par leur complém<strong>en</strong>tarité<br />

et par les applications <strong>de</strong> TAL visées.<br />

1.1. Trois théories et modèles <strong>de</strong> la cohér<strong>en</strong>ce discursive<br />

L’Encadrem<strong>en</strong>t <strong>du</strong> discours <strong>de</strong> Charolles (1997) décrit l’organisation et le fonctionnem<strong>en</strong>t<br />

<strong>de</strong> segm<strong>en</strong>ts discursifs appelés cadres <strong>de</strong> discours. Les cadres sont définis par Charolles<br />

(1997) comme <strong>de</strong>s unités cont<strong>en</strong>ant « plusieurs propositions apparaissant dans le fil<br />

d’un texte [et qui] <strong>en</strong>treti<strong>en</strong>n<strong>en</strong>t un même rapport avec un certain critère » ce <strong>de</strong>rnier étant<br />

souv<strong>en</strong>t marqué par une expression détachée <strong>en</strong> tête <strong>de</strong> phrase et initiant le cadre : l’intro<strong>du</strong>cteur<br />

<strong>de</strong> cadre (IC). Sa portée dépasse la proposition et peut s’ét<strong>en</strong>dre sur plusieurs phrases.<br />

Charolles (1997) a ainsi dégagé quatre grands types <strong>de</strong> cadres, chacun étant intro<strong>du</strong>it<br />

par un type d’IC 1 . Participant à la construction <strong>de</strong> la cohér<strong>en</strong>ce discursive, les cadres ne sont<br />

pas <strong>de</strong>s segm<strong>en</strong>ts isolés mais peuv<strong>en</strong>t être liés <strong>en</strong>tre eux par <strong>de</strong>s relations <strong>de</strong> <strong>de</strong>ux types :<br />

la subordination ou la coordination. L’Encadrem<strong>en</strong>t <strong>du</strong> discours offre <strong>de</strong>s perspectives intéressantes<br />

dans la <strong>de</strong>scription <strong>de</strong> la cohér<strong>en</strong>ce car même si il ne peut être appliqué à l’<strong>en</strong>semble<br />

d’un texte, il permet une <strong>de</strong>scription <strong>de</strong> phénomènes au fonctionnem<strong>en</strong>t particulier et<br />

qui complète bi<strong>en</strong> (comme nous allons le voir) la <strong>de</strong>scription d’autres segm<strong>en</strong>ts et relations<br />

<strong>du</strong> discours.<br />

La RST (Rhetorical Structure Theory) est une théorie développée Mann & Thompson<br />

(<strong>en</strong>tre autres Mann & Thompson 1988 & 2001). Elle décrit l’interaction <strong>en</strong>tre <strong>de</strong>s segm<strong>en</strong>ts<br />

<strong>de</strong> discours à l’ai<strong>de</strong> d’un jeu ouvert <strong>de</strong> relations rhétoriques. Dans la RST, les relations occupant<br />

une place c<strong>en</strong>trale sont définies par un <strong>en</strong>semble <strong>de</strong> contraintes sur la relation et sur les<br />

segm<strong>en</strong>ts liés par cette relation. La RST distingue <strong>en</strong>tre <strong>de</strong>ux types <strong>de</strong> relations : les relations<br />

noyau-satellite (où le noyau est le segm<strong>en</strong>t principal) et les relations multinucléaires (liant<br />

plusieurs noyaux). Un <strong>de</strong>s avantages <strong>de</strong> la RST est la variété <strong>de</strong>s relations proposées. Elle<br />

permet égalem<strong>en</strong>t <strong>de</strong> r<strong>en</strong>dre compte <strong>de</strong> la structure hiérarchique <strong>du</strong> discours. Par contre,<br />

faire une analyse RST d’un texte n’est jamais aisé car le jeu <strong>de</strong>s relations n’est pas fixe et il<br />

n’est parfois pas évid<strong>en</strong>t <strong>de</strong> déci<strong>de</strong>r quelle relation convi<strong>en</strong>t le mieux pour relier <strong>de</strong>ux segm<strong>en</strong>ts.<br />

1. Les univers <strong>de</strong> discours temporels et spatiaux, les cadres thématiques, les domaines qualitatifs et les<br />

espaces <strong>de</strong> discours.<br />

Schedae, 2006, prépublication n°11, (<strong>fascicule</strong> n°1, p. 85-90).


Le MAT (Modèle <strong>de</strong> l’Architecture Textuelle) est un modèle décrivant la mise <strong>en</strong> forme<br />

matérielle (MFM) <strong>de</strong>s textes comme participant à la construction <strong>de</strong> la cohér<strong>en</strong>ce <strong>du</strong> discours.<br />

On peut <strong>en</strong> trouver <strong>de</strong>s <strong>de</strong>scriptions dans Luc (2000) et Luc & Virbel (2001). Selon ce modèle,<br />

chaque élém<strong>en</strong>t <strong>de</strong> formatage <strong>de</strong>s textes peut être exprimé par un métalangage. Les titres<br />

ou les énumérations sont <strong>de</strong>s exemples d’objets textuels qu’il est possible <strong>de</strong> décrire à l’ai<strong>de</strong><br />

<strong>du</strong> MAT et repérables grâce à <strong>de</strong>s marqueurs (par exemple, l’alignem<strong>en</strong>t <strong>du</strong> texte ou <strong>de</strong>s<br />

caractères <strong>en</strong> gras). Le MAT est un modèle pertin<strong>en</strong>t quand on travaille sur <strong>de</strong>s textes écrits<br />

car les aspects <strong>de</strong> MFM <strong>de</strong>s textes sont <strong>de</strong>s indicateurs précis <strong>de</strong>s int<strong>en</strong>tions <strong>de</strong> l’auteur et<br />

facilit<strong>en</strong>t la construction <strong>de</strong> la cohér<strong>en</strong>ce <strong>du</strong> discours <strong>du</strong> lecteur à partir <strong>du</strong> texte. Il est intéressant<br />

d’utiliser ce modèle lorsqu’on travaille dans une optique <strong>de</strong> segm<strong>en</strong>tation automatique<br />

car la MFM la facilite et les marqueurs <strong>de</strong> formatage sont relativem<strong>en</strong>t faciles à repérer<br />

<strong>de</strong> façon automatique.<br />

1.2. Une étu<strong>de</strong> sur les titres<br />

Pour compléter l’utilisation <strong>de</strong> ces modèles, j’ai <strong>en</strong>trepris une étu<strong>de</strong> sur les titres au sein<br />

<strong>de</strong>s docum<strong>en</strong>ts <strong>de</strong> mon corpus 2 (prés<strong>en</strong>té <strong>en</strong> section 2). Ce choix se justifie car les textes<br />

<strong>de</strong> mon corpus sont très fortem<strong>en</strong>t structurés et notamm<strong>en</strong>t avec <strong>de</strong>s titres. Pour l’id<strong>en</strong>tification<br />

<strong>de</strong> segm<strong>en</strong>ts et la segm<strong>en</strong>tation, les titres fourniss<strong>en</strong>t un certain nombre d’indices. Si<br />

le discours est une <strong>en</strong>tité hiérarchique, cette hiérarchie est aussi véhiculée par les titres. Dans<br />

l’étu<strong>de</strong> <strong>de</strong>s titres <strong>de</strong> section, les travaux <strong>de</strong> Ho-Dac, Jacques & Rebeyrolle (Rebeyrolle 2003,<br />

Ho-Dac et al. 2004) nous éclair<strong>en</strong>t sur le rôle et la fonction <strong>de</strong>s titres et nous donn<strong>en</strong>t égalem<strong>en</strong>t<br />

<strong>de</strong>s pistes pour leur étu<strong>de</strong>. Les titres organis<strong>en</strong>t doublem<strong>en</strong>t le discours car ils organis<strong>en</strong>t<br />

les thèmes abordés dans un texte mais aussi le texte lui-même.<br />

Pour le prés<strong>en</strong>t travail, certains indices sont particulièrem<strong>en</strong>t intéressants. Tout d’abord,<br />

la forme <strong>de</strong>s titres. Rebeyrolle (2003) avait constaté que les titres <strong>de</strong> section étai<strong>en</strong>t majoritairem<strong>en</strong>t<br />

<strong>de</strong>s SN mais pouvai<strong>en</strong>t aussi par exemple être réalisés par <strong>de</strong>s SP, <strong>de</strong>s SN coordonnés<br />

ou <strong>de</strong>s phrases. Un autre indice lié à l’organisation hiérarchique <strong>du</strong> texte est le niveau<br />

<strong>de</strong> hiérarchie <strong>du</strong> titre qui permet <strong>de</strong> situer le titre dans la hiérarchie <strong>du</strong> docum<strong>en</strong>t et ainsi <strong>de</strong><br />

voir ses relations avec les autres titres <strong>de</strong> ce docum<strong>en</strong>t. Enfin, un <strong>de</strong>rnier type d’indices dans<br />

les textes concerne la reprise <strong>de</strong>s titres dans le segm<strong>en</strong>t titré (lieu et forme <strong>de</strong> la reprise).<br />

Combinée aux théories et modèles évoqués plus haut, cette étu<strong>de</strong> <strong>de</strong>s titres a le pot<strong>en</strong>tiel<br />

<strong>de</strong> faciliter le repérage et l’utilisation <strong>de</strong> certains segm<strong>en</strong>ts <strong>de</strong> discours.<br />

2. Prés<strong>en</strong>tation <strong>du</strong> corpus<br />

Mon étu<strong>de</strong> est une étu<strong>de</strong> sur un corpus bilingue français/anglais <strong>de</strong> textes écrits longs<br />

et structurés appart<strong>en</strong>ant à trois types <strong>de</strong> texte différ<strong>en</strong>ts. Travailler sur <strong>de</strong>s textes longs a<br />

été un choix qui se justifie par le besoin <strong>de</strong> les traiter efficacem<strong>en</strong>t mais aussi et surtout par<br />

la nécessité <strong>de</strong> disposer <strong>de</strong> textes assez longs pour observer les phénomènes <strong>de</strong> construction<br />

<strong>de</strong> la cohér<strong>en</strong>ce, ce qui est plus difficile à faire sur <strong>de</strong>s textes courts, <strong>en</strong> particulier <strong>en</strong> ce<br />

qui concerne les titres qui doiv<strong>en</strong>t être nombreux si on veut observer leur fonctionnem<strong>en</strong>t.<br />

Un second critère qui a été ret<strong>en</strong>u est qu’ils <strong>de</strong>vai<strong>en</strong>t être structurés sur le plan visuel et organisationnel,<br />

par l’utilisation <strong>de</strong> titres (avec au moins trois niveaux <strong>de</strong> titre) mais égalem<strong>en</strong>t par<br />

l’utilisation <strong>de</strong> la MFM comme <strong>de</strong>s puces ou <strong>du</strong> gras. Les trois types <strong>de</strong> textes que j’ai ret<strong>en</strong>us<br />

pour mon corpus sont <strong>de</strong>s textes procé<strong>du</strong>raux (<strong>de</strong>s manuels <strong>de</strong> logiciel – 172 000 mots), un<br />

2. Cette étu<strong>de</strong> a été initiée dans le cadre <strong>du</strong> projet « Visualisation dynamique <strong>de</strong> texte : extraction sélective,<br />

affichage spatial multi-échelle et observation <strong>de</strong>s stratégies <strong>de</strong> lecture » (voir http://www.limsi.fr/Indivi<strong>du</strong>/<br />

jacquemi/COGNITIQUE02/).<br />

Schedae, 2006, prépublication n°11, (<strong>fascicule</strong> n°1, p. 85-90).<br />

87


88<br />

texte institutionnel (le Traité établissant une constitution pour l’Europe – 320 000 mots) et<br />

<strong>de</strong>s textes argum<strong>en</strong>tatifs (<strong>de</strong>s articles <strong>de</strong> presse spécialisée – 36 000 mots).<br />

Pour mon étu<strong>de</strong>, le corpus a subi un certain nombre <strong>de</strong> pré-traitem<strong>en</strong>ts : les formats<br />

<strong>de</strong>s textes étant variés (Word, <strong>PDF</strong>, RTF, PS, etc.), je les ai d’abord tous convertis au format<br />

XML <strong>en</strong> leur donnant une DTD commune et je les ai égalem<strong>en</strong>t étiquetés à l’ai<strong>de</strong> <strong>du</strong> Tree-<br />

Tagger, ce qui était nécessaire, notamm<strong>en</strong>t pour le traitem<strong>en</strong>t <strong>de</strong>s textes par le TextTiling.<br />

3. Avantages et limites <strong>de</strong>s métho<strong>de</strong>s statistiques<br />

Une étu<strong>de</strong> préliminaire a été effectuée sur les métho<strong>de</strong>s statistiques <strong>de</strong> traitem<strong>en</strong>t automatique<br />

<strong>de</strong> textes. Il a d’abord été question <strong>de</strong> savoir si la LSA 3 étai<strong>en</strong>t une métho<strong>de</strong> qui<br />

pouvait pot<strong>en</strong>tiellem<strong>en</strong>t être utilisée pour la segm<strong>en</strong>tation automatique. Le plus grand problème<br />

que j’ai constaté est que la LSA est une métho<strong>de</strong> statistique basée sur <strong>de</strong>s calculs <strong>de</strong><br />

similarité qui dép<strong>en</strong>d beaucoup trop <strong>de</strong> l’espace sémantique dans lequel a lieu la comparaison.<br />

De plus, la LSA ne permet pas <strong>de</strong> déterminer les segm<strong>en</strong>ts à comparer pour la segm<strong>en</strong>tation<br />

nécessitant donc trop <strong>de</strong> pré-traitem<strong>en</strong>ts.<br />

Le TextTiling Algorithm <strong>de</strong> Hearst (1994, 1997) a égalem<strong>en</strong>t été considéré. Cette<br />

métho<strong>de</strong> <strong>de</strong> segm<strong>en</strong>tation thématique est robuste et donne <strong>de</strong> bons résultats pour certaines<br />

applications. Mais elle a aussi <strong>de</strong>s limites quand on travaille sur <strong>de</strong>s textes structurés :<br />

un trop grand nombre <strong>de</strong> titres et <strong>de</strong>s paragraphes trop courts <strong>en</strong>traîn<strong>en</strong>t <strong>de</strong>s problèmes<br />

<strong>de</strong> découpage qui fauss<strong>en</strong>t la segm<strong>en</strong>tation thématique. De plus, le TextTiling Algorithm<br />

utilise <strong>de</strong>s pseudo-paragraphes <strong>de</strong>s pseudo-phrases pour la segm<strong>en</strong>tation, ce qui rajoute<br />

<strong>de</strong> l’« à peu près » dans la segm<strong>en</strong>tation. Pour l’instant, j’ai évalué cet algorithme sur mon<br />

corpus à partir <strong>de</strong> son implém<strong>en</strong>tation <strong>en</strong> Perl que j’ai réalisée. Cela ne suffit néanmoins pas<br />

et un protocole expérim<strong>en</strong>tal est <strong>en</strong> train d’être mis <strong>en</strong> place pour son évaluation plus <strong>en</strong><br />

profon<strong>de</strong>ur par rapport aux tâches finales qui sont prés<strong>en</strong>tées <strong>en</strong> conclusion <strong>de</strong> cet article.<br />

4. Une combinaison <strong>de</strong>s modèles servant l’application<br />

Les différ<strong>en</strong>ts modèles, théories et étu<strong>de</strong>s prés<strong>en</strong>tés permett<strong>en</strong>t <strong>de</strong> décrire chacun un<br />

aspect <strong>de</strong> la cohér<strong>en</strong>ce, cette <strong>de</strong>scription étant toujours motivée par <strong>de</strong>s objectifs précis. Avec<br />

le développem<strong>en</strong>t <strong>de</strong>s applications <strong>de</strong> TAL et le besoin <strong>de</strong> plus <strong>en</strong> plus grand <strong>de</strong> pr<strong>en</strong>dre<br />

<strong>en</strong> compte <strong>de</strong>s informations linguistiques d’un côté et pour aboutir à une <strong>de</strong>scription plus<br />

poussée <strong>de</strong> la cohér<strong>en</strong>ce d’autre part, certains auteurs ont comm<strong>en</strong>cé à considérer conjointem<strong>en</strong>t<br />

plusieurs théories et modèles pour décrire <strong>de</strong>s phénomènes complexes et répondre<br />

à ces besoins. C’est le cas <strong>de</strong> Luc (2000) et Luc & Virbel (2001) qui <strong>en</strong>visag<strong>en</strong>t la complém<strong>en</strong>tarité<br />

<strong>en</strong>tre le MAT et la RST. De la même façon, Power et al. (2003) font le li<strong>en</strong> <strong>en</strong>tre la structure<br />

<strong>du</strong> docum<strong>en</strong>t et la structure rhétorique pour le développem<strong>en</strong>t d’outils <strong>de</strong> génération<br />

automatique <strong>de</strong> texte. Des travaux font cohabiter métho<strong>de</strong>s statistiques et métho<strong>de</strong>s linguistiques,<br />

la linguistiques complétant les métho<strong>de</strong>s statistiques. C’est le cas <strong>de</strong>s travaux <strong>de</strong><br />

Ferret et al. (2001) qui font cohabiter une segm<strong>en</strong>tation à la Hearst et l’utilisation <strong>de</strong> l’Encadrem<strong>en</strong>t<br />

<strong>du</strong> discours <strong>en</strong> vue d’une application <strong>de</strong> résumé automatique 4 . Ces auteurs conclu<strong>en</strong>t<br />

que les métho<strong>de</strong>s statistiques sont performantes quand il y a <strong>de</strong>s cassures franches<br />

<strong>en</strong>tre les segm<strong>en</strong>ts mais que dans le cas contraire, le repérage <strong>de</strong> marqueurs linguistiques<br />

donne <strong>de</strong> meilleurs résultats. La combinaison <strong>de</strong> métho<strong>de</strong>s statistiques et linguistiques peut<br />

3. Voir Landauer et al. (1998) pour une prés<strong>en</strong>tation <strong>de</strong> la LSA.<br />

4. Les auteurs utilis<strong>en</strong>t égalem<strong>en</strong>t une troisième métho<strong>de</strong> faisant appel à <strong>de</strong>s données externes au texte : un<br />

réseau <strong>de</strong> collocations construit à partir d’un corpus d’articles <strong>de</strong> journaux.<br />

Schedae, 2006, prépublication n°11, (<strong>fascicule</strong> n°1, p. 85-90).


donc fournir un bon compromis <strong>en</strong>tre efficacité et précision. Les théories et modèles prés<strong>en</strong>tés<br />

<strong>en</strong> section 1 sont très complém<strong>en</strong>taires dans le s<strong>en</strong>s où certains palli<strong>en</strong>t <strong>de</strong>s manques<br />

<strong>de</strong>s autres. Par exemple, déterminer les indices <strong>de</strong> fermeture <strong>de</strong>s cadres (souv<strong>en</strong>t problématique),<br />

il est possible d’utiliser la MFM, les titres ou les relations RST. Après avoir observé<br />

le fonctionnem<strong>en</strong>t conjoint <strong>de</strong> ces modèles sur un corpus <strong>de</strong> textes procé<strong>du</strong>raux et argum<strong>en</strong>tatifs<br />

lors <strong>de</strong> mon DEA (Pimm 2003), j’<strong>en</strong> ai conclu qu’ils se complétai<strong>en</strong>t et interagissai<strong>en</strong>t<br />

les uns avec les autres 5 et permettai<strong>en</strong>t <strong>de</strong> dégager <strong>de</strong>s macro-segm<strong>en</strong>ts discursifs<br />

récurr<strong>en</strong>ts et propres à un type <strong>de</strong> texte particulier.<br />

Une première étu<strong>de</strong> sur mon corpus m’a permis <strong>de</strong> dégager <strong>de</strong>s macro-segm<strong>en</strong>ts récurr<strong>en</strong>ts<br />

dans les textes procé<strong>du</strong>raux et le texte institutionnel. Ces segm<strong>en</strong>ts mett<strong>en</strong>t <strong>en</strong> jeu toujours<br />

la même configuration <strong>de</strong> marqueurs. Ces configurations ont été implém<strong>en</strong>tées <strong>en</strong><br />

Perl pour repérer automatiquem<strong>en</strong>t ces segm<strong>en</strong>ts et relations. Ce programme constitue un<br />

squelette pour le programme <strong>de</strong> segm<strong>en</strong>tation qui, une fois couplé avec un programme <strong>de</strong><br />

segm<strong>en</strong>tation statistique, permettra d’id<strong>en</strong>tifier ces macro-segm<strong>en</strong>ts pour leur utilisation<br />

ultérieure dans <strong>de</strong>s systèmes <strong>de</strong> TAL.<br />

5. En conclusion – les applications considérées<br />

Grâce à la combinaison <strong>de</strong> plusieurs modèles <strong>de</strong> l’analyse <strong>du</strong> discours combinés à une<br />

étu<strong>de</strong> sur les titres, j’ai pu mettre à jour <strong>de</strong>s configurations récurr<strong>en</strong>tes <strong>de</strong> marques au sein<br />

<strong>de</strong> textes <strong>de</strong> types différ<strong>en</strong>ts. Cette étu<strong>de</strong> était motivée <strong>en</strong> partie par les applications pouvant<br />

tirer partie d’une segm<strong>en</strong>tation discursive basée sur <strong>de</strong>s indices <strong>de</strong> la cohér<strong>en</strong>ce discursive.<br />

L’une <strong>de</strong> ces applications est la visualisation et la navigation multi-échelle <strong>de</strong> textes<br />

pour laquelle on doit avoir la possibilité <strong>de</strong> visualiser le texte à <strong>de</strong>s niveaux <strong>de</strong> grain plus ou<br />

moins fins et donc, <strong>de</strong> tirer partie <strong>de</strong> la structure hiérarchique <strong>du</strong> docum<strong>en</strong>t, ce qui n’est pas<br />

possible avec une métho<strong>de</strong> statistique. Une <strong>de</strong>uxième application <strong>en</strong>visagée est l’ai<strong>de</strong> à la<br />

rédaction. Un système d’ai<strong>de</strong> à la rédaction <strong>de</strong> manuels procé<strong>du</strong>raux ou <strong>de</strong> textes institutionnels<br />

pourrait fournir un patron à remplir par le rédacteur cont<strong>en</strong>ant déjà toutes les relations<br />

et les types <strong>de</strong> segm<strong>en</strong>ts à utiliser pour assurer une bonne compréh<strong>en</strong>sion <strong>de</strong>s textes par les<br />

lecteurs. Dans ces <strong>de</strong>ux exemples d’applications, il semble que la combinaison <strong>de</strong> métho<strong>de</strong>s<br />

statistiques et linguistiques est un compromis efficace.<br />

6. Bibliographie<br />

CHAROLLES M. (1997), « L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours : univers, champs, domaines et espaces», Cahier <strong>de</strong><br />

Recherche Linguistique, 6, p. 1-73.<br />

FERRET O., GRAU B., MINEL J.-L. & PORHIEL S. (2001), «Repérage <strong>de</strong> structures thématiques dans <strong>de</strong>s textes»,<br />

in Actes <strong>de</strong> la confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN’01), ATALA, p. 163-172.<br />

HEARST M. (1994), « Multi-paragraph segm<strong>en</strong>tation of expository text», in Proceedings of the 32nd Annual<br />

Meeting of the Association for Computational Linguistics, Las Cruces, p. 9-16.<br />

HEARST M. (1997), « TextTiling : Segm<strong>en</strong>ting text into multi-paragraph subtopic passages», Computational<br />

Linguistics, 23, 1, p. 33-64.<br />

HO-DAC L.-M., JACQUES M.-P. & REBEYROLLE J. (2004), «Sur la fonction discursive <strong>de</strong>s titres», in L’unité texte,<br />

S. Porhiel & D. Klingler (éds), Pleyb<strong>en</strong>, Perspectives, p. 125-152.<br />

LANDAUER T., FOLTZ P. & LAHAM D. (1998), « Intro<strong>du</strong>ction to Lat<strong>en</strong>t Semantic Analysis », Discourse<br />

Processes, 25, p. 259-284.<br />

5. Il faut bi<strong>en</strong> sûr gar<strong>de</strong>r à l’esprit que la cohér<strong>en</strong>ce discursive est un phénomène très complexe et même si<br />

on utilise conjointem<strong>en</strong>t plusieurs théories et modèles, nous sommes <strong>en</strong>core très loin <strong>de</strong> la décrire complètem<strong>en</strong>t.<br />

Schedae, 2006, prépublication n°11, (<strong>fascicule</strong> n°1, p. 85-90).<br />

89


90<br />

LUC C. (2000), Représ<strong>en</strong>tation et composition <strong>de</strong>s structures visuelles et rhétoriques <strong>du</strong> texte, Thèse <strong>de</strong><br />

Doctorat, IRIT, <strong>Université</strong> Paul Sabatier – Toulouse III (dactyl.).<br />

LUC C. & VIRBEL J. (2001), « Le modèle <strong>de</strong> l’architecture textuelle – fon<strong>de</strong>m<strong>en</strong>ts et expérim<strong>en</strong>tations »,<br />

Verbum, 23 (Cohér<strong>en</strong>ce et relations <strong>de</strong> discours à l’écrit), 1.<br />

MANN W.C. & THOMPSON S. (1988), Rhetorical Structure Theory : Toward a functional theory of text organization,<br />

Text, 8, 3, p. 243-281.<br />

MANN W.C. & THOMPSON S. (2001), « Deux perspectives sur la Théorie <strong>de</strong> la Structure Rhétorique (RST)»,<br />

Verbum, 23 (Cohér<strong>en</strong>ce et relations <strong>de</strong> discours à l’écrit), 1.<br />

PIMM C. (2003), Une étu<strong>de</strong> sur corpus <strong>de</strong> textes anglais et français <strong>de</strong> cinq relations rhétoriques proches<br />

(la conséqu<strong>en</strong>ce, la cause, la condition, la temporalité et le but), leurs réalisations, leur place, leur rôle<br />

et les li<strong>en</strong>s qui les uniss<strong>en</strong>t dans les textes à consignes, Mémoire <strong>de</strong> DEA, <strong>Université</strong> <strong>de</strong> Toulouse-le-<br />

Mirail, Toulouse II (dactyl.).<br />

POWER R., SCOTT D. & BOUAYAD-AGHA N. (2003), « Docum<strong>en</strong>t Structure », Computational Linguistics, 29,<br />

2, p. 211-260.<br />

REBEYROLLE J. (2003), « Forme linguistique et fonction discursive <strong>de</strong>s titres <strong>de</strong> sections », in Actes <strong>du</strong><br />

Colloque <strong>de</strong> l’Association for Fr<strong>en</strong>ch language studies (AFLS) : Le français aujourd’hui : Problèmes et<br />

métho<strong>de</strong>s, <strong>Université</strong> <strong>de</strong> Tours, France.<br />

Schedae, 2006, prépublication n°11, (<strong>fascicule</strong> n°1, p. 85-90).


session 3<br />

Nouveaux types <strong>de</strong> docum<strong>en</strong>ts,<br />

nouveaux mo<strong>de</strong>s d’accès<br />

à l’information textuelle


Schedae, 2006<br />

Prépublication n° 12 Fascicule n° 1<br />

Hyper-Docum<strong>en</strong>t Structure:<br />

Maintaining Discourse Coher<strong>en</strong>ce<br />

in Non-Linear Docum<strong>en</strong>ts<br />

Clara Mancini & Donia Scott<br />

C<strong>en</strong>tre for Research in Computing<br />

The Op<strong>en</strong> University, Milton Keynes, MK7 6AA, UK<br />

C.Mancini@op<strong>en</strong>.ac.uk, D.Scott@op<strong>en</strong>.ac.uk<br />

Abstract :<br />

The passage from linear text to hypertext poses the chall<strong>en</strong>ge of expressing discourse coher<strong>en</strong>ce<br />

in non-linear text, where linguistic discourse markers no longer work. While hypertext intro<strong>du</strong>ces<br />

new possibilities for discourse organisation, it also requires the use of new <strong>de</strong>vices which can support<br />

the expression of coher<strong>en</strong>ce by exploiting the technical characteristics and expressive richness<br />

of the medium. In this paper we show how in hypertext the notion of abstract docum<strong>en</strong>t structure<br />

<strong>en</strong>compasses animated graphics as a form of meta-language for discourse construction.<br />

Keywords: hypertext, discourse coher<strong>en</strong>ce, cognitive coher<strong>en</strong>ce celations, docum<strong>en</strong>t<br />

structure, visual meta-discourse.<br />

Résumé:<br />

Le passage <strong>du</strong> texte linéaire à l’hypertexte pose le problème d’exprimer la cohér<strong>en</strong>ce <strong>du</strong> discours<br />

dans une texte non-linéaire ou le marques linguistiques <strong>du</strong> discours ne fonctionn<strong>en</strong>t pas. P<strong>en</strong>dant<br />

que l’hypertexte intro<strong>du</strong>it <strong>de</strong>s nouvelles possibilités d’organisation <strong>du</strong> discours, il aussi nécessite<br />

d’utiliser <strong>de</strong>s nouveaux dispositifs qui peuv<strong>en</strong>t supporter l’expression <strong>de</strong> la cohér<strong>en</strong>ce par l’exploitation<br />

<strong>de</strong>s caractéristiques techniques et <strong>de</strong>s capacités expressives <strong>du</strong> médium. Dans cet article<br />

nous montrons comm<strong>en</strong>t, dans l’hypertexte, la notion <strong>de</strong> structure abstraite <strong>de</strong> docum<strong>en</strong>t inclut<br />

graphiques animés <strong>en</strong> tant qu’une forme <strong>de</strong> métalangage pour la construction <strong>du</strong> discours.<br />

Mots-clés: hypertexte, cohér<strong>en</strong>ce <strong>du</strong> discours, relations <strong>de</strong> cohér<strong>en</strong>ce cognitive, structure<br />

<strong>de</strong> docum<strong>en</strong>t, métadiscours visuel.<br />

Intro<strong>du</strong>ction: possibilities and limitations of a medium<br />

There is a long and well-established literature on textual <strong>de</strong>vices that signal the coher<strong>en</strong>ce<br />

structure of a discourse to the rea<strong>de</strong>r, within both theoretical (e.g., van Dijk 1977, Halliday &<br />

Hasan 1976, Grimes 1975, Brown & Yule 1983) and computational (e.g., Hobbs 1985, Mann &<br />

Thompson 1988, Schiffrin 1987, Knott & Mellish 1996) linguistics. However, most of the work<br />

Clara Mancini & Donia Scott<br />

« Hyper-Docum<strong>en</strong>t Structure: Maintaining Discourse Coher<strong>en</strong>ce in Non-Linear Docum<strong>en</strong>ts »<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).<br />

91


92<br />

so far addresses the traditional conceptualisation of text as a two dim<strong>en</strong>sional array on a<br />

physical page, traversed in a set pattern (e.g., left to right, top to bottom in the Western<br />

tradition).<br />

Hypertext is very differ<strong>en</strong>t from traditional text: it is electronic, in that it can only be read<br />

on a computer scre<strong>en</strong>, and it is non-linear, in that there are several paths available through<br />

the docum<strong>en</strong>t. Instead of following a set path, the rea<strong>de</strong>r of a hypertext docum<strong>en</strong>t moves<br />

from no<strong>de</strong> to no<strong>de</strong> in her chos<strong>en</strong> path by mouse-clicking on links. A no<strong>de</strong> can be the equival<strong>en</strong>t<br />

of a traditional text page or can contain just a few s<strong>en</strong>t<strong>en</strong>ces. A link can be a word in<br />

the text or a graphical elem<strong>en</strong>t in the no<strong>de</strong>. As no<strong>de</strong>s contain multiple links, the author can<br />

only partially control the or<strong>de</strong>r in which the rea<strong>de</strong>r will access them. In other words, hypertext<br />

intro<strong>du</strong>ces a new conceptualisation of text: as a three-dim<strong>en</strong>sional array on a computer<br />

scre<strong>en</strong>, which can be traversed in any number of ways.<br />

The well-un<strong>de</strong>rstood discourse markers of the traditional notion of text e.g., cue- words,<br />

cue-phrases, and punctuation do not work well (if at all) for this new medium. Since the compreh<strong>en</strong>sion<br />

of a text relies on the rea<strong>de</strong>r’s construction of its un<strong>de</strong>rlying coher<strong>en</strong>ce structure,<br />

for which discourse markers are a key resource, this poses problems for the easy compreh<strong>en</strong>sion<br />

of hypertext docum<strong>en</strong>ts.<br />

To overcome this, a new set of <strong>de</strong>vices is nee<strong>de</strong>d to function as markers of discourse<br />

structure, together with formation rules to govern their usage, and supported by sound<br />

theoretical frameworks.<br />

We are exploring new possibilities for signalling coher<strong>en</strong>ce in non-linear, hypertextual,<br />

docum<strong>en</strong>ts. Precisely because discourse in non-linear docum<strong>en</strong>ts is organised as a network<br />

of self-standing units rather than as a hierarchy of inter<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t segm<strong>en</strong>ts, our analysis<br />

of discourse coher<strong>en</strong>ce <strong>de</strong>parts from the tradition whereby text is <strong>de</strong>scribed as a hierarchical<br />

structure (e.g., Mann & Thompson 1988). Instead, we take a cognitive approach where<br />

coher<strong>en</strong>ce is a characteristic of the m<strong>en</strong>tal repres<strong>en</strong>tation that the rea<strong>de</strong>r constructs <strong>du</strong>ring<br />

the process of text interpretation (see, e.g., Johnson-Laird 1983).<br />

Coher<strong>en</strong>ce repres<strong>en</strong>tation in linear text<br />

Text compreh<strong>en</strong>sion <strong>de</strong>p<strong>en</strong>ds on the rea<strong>de</strong>r’s ability to construct a coher<strong>en</strong>t repres<strong>en</strong>tation<br />

of what (he thinks that) the text is conveying (San<strong>de</strong>rs & Spoor<strong>en</strong> 2001). To do so the<br />

rea<strong>de</strong>r needs to be able to id<strong>en</strong>tify the conceptual relations (he thinks to be) holding betwe<strong>en</strong><br />

the set of discourse elem<strong>en</strong>ts (whether these are s<strong>en</strong>t<strong>en</strong>ces, paragraphs or <strong>en</strong>tire text sections).<br />

Conceptual relations are primarily id<strong>en</strong>tified on the basis of the cont<strong>en</strong>t of the related<br />

discourse elem<strong>en</strong>ts, but in linear text their id<strong>en</strong>tification is facilitated by a number of cohesive<br />

formal elem<strong>en</strong>ts.<br />

Over the years, the study of text coher<strong>en</strong>ce has conc<strong>en</strong>trated on two types of cohesive<br />

elem<strong>en</strong>t: those which function at the level of discourse structure and those which function at<br />

the level of docum<strong>en</strong>t structure. A lot of work has focussed on discourse structure. Whether<br />

data driv<strong>en</strong> (Halliday & Hasan 1976, Martin 1992, Knott & Dale 1994) or theory driv<strong>en</strong> (Hobbs<br />

1985, Kamp & Ryle 1993, Mann & Thompson 1988, San<strong>de</strong>rs et al. 1993), this work has mainly<br />

studied the use of discourse markers (in particular, cue-words and -phrases) and referring<br />

expressions. For instance, in the s<strong>en</strong>t<strong>en</strong>ce<br />

Lucia arrived at work late because she had missed her train.<br />

the two clauses are related through the connective because and through the pronouns<br />

she and her, whose semantic cont<strong>en</strong>t facilitates the interpretive work of the rea<strong>de</strong>r. It also<br />

contributes to the flu<strong>en</strong>cy of the text.<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).


Other work, on the other hand, has highlighted the role played by graphical features<br />

such as punctuation and layout in text organisation. In particular, Nunberg (1990) distinguishes<br />

text structure from syntactic structure. For Nunberg, text structure can be realised, by punctuation<br />

and other graphical marks such as par<strong>en</strong>theses, dashes, white-space etc., which are<br />

concrete features of abstract, logical categories such as paragraph, text-s<strong>en</strong>t<strong>en</strong>ce or textclause.<br />

For instance, in the s<strong>en</strong>t<strong>en</strong>ce<br />

Lucia arrived at work late: she had missed her train.<br />

the same causal relation previously expressed by the connective “because” is now<br />

expressed by a colon. This distinction betwe<strong>en</strong> abstract and concrete textual features has<br />

be<strong>en</strong> ext<strong>en</strong><strong>de</strong>d by Power, Scott and Bouayad-Agha (2003) to yet another graphical feature<br />

of text, namely layout. For example, in the text segm<strong>en</strong>t<br />

To fix this house, I have to<br />

• repair the roof;<br />

• re-plaster the walls;<br />

• replace the floors.<br />

the conjunctive relation betwe<strong>en</strong> the second, third and fourth clause is laid out as a<br />

bulleted, vertical list.<br />

In addition to layout, the abstract features also inclu<strong>de</strong> other text categories whose<br />

graphical features <strong>de</strong>fine the g<strong>en</strong>eral formatting of a docum<strong>en</strong>t e.g., titles, chapter and<br />

section headings, emphasis, etc. In the example above, for instance, the words roof, walls<br />

and floors could be highlighted as the parts of the house that need fixing with the use of<br />

bold face.<br />

Elsewhere (Power et al. 2003) we propose that layout and formatting features <strong>de</strong>serve<br />

a separate <strong>de</strong>scriptive level in the analysis and g<strong>en</strong>eration of writt<strong>en</strong> texts, which we term<br />

abstract docum<strong>en</strong>t structure and which constitutes an ext<strong>en</strong>sion to Nunberg’s ‘text-grammar’<br />

(Nunberg 1990). The distinction betwe<strong>en</strong> docum<strong>en</strong>t structure and discourse structure is, we<br />

argue, equival<strong>en</strong>t to the distinction betwe<strong>en</strong> semantics and syntax. Although docum<strong>en</strong>t structure<br />

is an intrinsic part of text structure, its constitu<strong>en</strong>ts work differ<strong>en</strong>tly from the way in which<br />

both discourse markers and concrete textual features work, because they have differ<strong>en</strong>t<br />

semiotic characteristics: whereas discourse markers and punctuation are textual, <strong>de</strong>vices<br />

like layout and formatting are visual (Piwek et al. 2005).<br />

Abstract discourse structure: visual vs. textual<br />

In writt<strong>en</strong> text, the minimal linguistic unit is the character, a non-signifying differ<strong>en</strong>tial<br />

elem<strong>en</strong>t, whose combination g<strong>en</strong>erates words, successively articulated to pro<strong>du</strong>ce phrases,<br />

clauses, s<strong>en</strong>t<strong>en</strong>ces, etc (Saussure 1922). As the character is a symbolic elem<strong>en</strong>t, in writt<strong>en</strong><br />

text the association betwe<strong>en</strong> signifier and signified is non-motivated: the correspond<strong>en</strong>ce<br />

betwe<strong>en</strong> them is conv<strong>en</strong>tional. Because of this, in writt<strong>en</strong> text abstract concepts can be<br />

explicitly expressed for example, as we saw earlier, by using adverbial connectives like<br />

“because” to signal CAUSALITY.<br />

Its symbolic nature also implies that text can <strong>de</strong>ploy along a single line, which can be<br />

articulated using punctuation, dashes, par<strong>en</strong>theses and the like (i.e., concrete textual features).<br />

These are purely graphical symbols, which signal differ<strong>en</strong>t types of textual articulation<br />

and inflection, and whose use is also regulated by strict conv<strong>en</strong>tions. For instance, a<br />

period marks the <strong>en</strong>d of a text-s<strong>en</strong>t<strong>en</strong>ce, while a semicolon marks the <strong>en</strong>d of a text-clause.<br />

Substantially differ<strong>en</strong>t from both cue-phrases and punctuation, abstract features transform<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).<br />

93


94<br />

the line of text into a visual configuration capable of conveying discourse structure on the<br />

space of the page.<br />

In visual configurations the association betwe<strong>en</strong> a sign and its meaning is characterised<br />

by a <strong>de</strong>gree of isomorphism, which makes this association partially motivated. For instance,<br />

in the following example of a horizontal list<br />

I had a busy morning: I had a work meeting, I w<strong>en</strong>t shopping, I picked up the childr<strong>en</strong>.<br />

the text segm<strong>en</strong>ts in the list play an equival<strong>en</strong>t role within the s<strong>en</strong>t<strong>en</strong>ce (Pan<strong>de</strong>r Maat<br />

1999). This rhetorical equival<strong>en</strong>ce could be expressed as a vertical (e.g., bulleted) list, in<br />

which the segm<strong>en</strong>ts are giv<strong>en</strong> the same visual r<strong>en</strong><strong>de</strong>ring: each segm<strong>en</strong>t starts on a new line<br />

with a bullet. Likewise, the title of the sections in a text will be visually more promin<strong>en</strong>t than<br />

the title of the subsections in or<strong>de</strong>r to signal their places in the hierarchy of the text structure,<br />

just as emphasis is visually expressed through a format that stands out.<br />

Unlike textual repres<strong>en</strong>tations, visual repres<strong>en</strong>tations t<strong>en</strong>d to be regulated by conv<strong>en</strong>tions<br />

that are less strict and more <strong>de</strong>p<strong>en</strong>d<strong>en</strong>t on the context of use. For instance, a list of<br />

clauses could be ind<strong>en</strong>ted or not, bulleted, numbered or scored; whatever the chos<strong>en</strong> configuration,<br />

it is important that all listed clauses are r<strong>en</strong><strong>de</strong>red in the same way (i.e. with parallel<br />

syntax) and occupy the same horizontal position un<strong>de</strong>r the first (intro<strong>du</strong>ctory) clause.<br />

Ev<strong>en</strong> though they respond to flexible conv<strong>en</strong>tions, however, visual features can express<br />

discourse connections so effectively that the use of cue phrases or punctuation becomes<br />

re<strong>du</strong>ndant. So, in a bulleted list the use of connectives (e.g., “and”) and commas is superfluous,<br />

as the conv<strong>en</strong>tions at work in the visual configuration of the list overri<strong>de</strong> the conv<strong>en</strong>tions<br />

that regulate the use of cue-words and punctuation.<br />

Coher<strong>en</strong>ce repres<strong>en</strong>tation in non-linear text<br />

The <strong>de</strong>vices <strong>de</strong>scribed above constitute cohesive elem<strong>en</strong>ts that can be used to express<br />

discourse coher<strong>en</strong>ce in linear text, either on paper or in electronic docum<strong>en</strong>ts that maintain<br />

linearity. However, discourse markers such as relational and refer<strong>en</strong>tial connectives can only<br />

be effectively used wh<strong>en</strong> discourse units are arranged in a pre<strong>de</strong>fined sequ<strong>en</strong>ce, so that they<br />

are accessed in a univocal or<strong>de</strong>r. But because hypertext is a network of interconnected no<strong>de</strong>s,<br />

the or<strong>de</strong>r in which discourse parts will be accessed can only be partly controlled. Or<strong>de</strong>r can<br />

be established locally (a no<strong>de</strong> can be linked to another no<strong>de</strong>), but it is hardly possible to<br />

establish it globally through ext<strong>en</strong><strong>de</strong>d structures (unless one resorts to constrained paths,<br />

which would <strong>de</strong>feat the purpose of using a non-linear medium).<br />

So, relational and refer<strong>en</strong>tial connectives cannot be used to signal the discourse relation<br />

betwe<strong>en</strong> no<strong>de</strong>s, because each no<strong>de</strong> is accessible in more than one way and thus the<br />

context in which it appears is not constant. As a result, hypertext no<strong>de</strong>s t<strong>en</strong>d to be writt<strong>en</strong><br />

as self-standing units of text: a hypertext no<strong>de</strong> typically will not use pronouns or refer<strong>en</strong>tial<br />

phrases to refer to the cont<strong>en</strong>t of another no<strong>de</strong>; instead, any information contained in the<br />

latter that would need to be referred to in the former has to be repeated. In fact, text s<strong>en</strong>t<strong>en</strong>ces<br />

or paragraphs that are strongly related (for instance, by causality) will normally be<br />

kept within the same no<strong>de</strong>: since they constitute strongly inter-<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t discourse parts,<br />

the writer is reluctant to put them in differ<strong>en</strong>t no<strong>de</strong>s, because the rea<strong>de</strong>r might miss one or<br />

the other. However, it is less problematic to separate into differ<strong>en</strong>t no<strong>de</strong>s, discourse parts<br />

that are less strongly related (for instance, by elaboration or background) and therefore less<br />

inter-<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t. They can more easily be put into differ<strong>en</strong>t no<strong>de</strong>s, their connection being<br />

expressed paratactically via a link (Mancini & Buckingham Shum 2004). Finally, the same<br />

limitations that apply to discourse connectives also apply to punctuation and the like, which<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).


usually only work within no<strong>de</strong>s and do not facilitate the transition betwe<strong>en</strong> link words and<br />

their target no<strong>de</strong>s (for example, it is no longer effective to intro<strong>du</strong>ce with a colon, a no<strong>de</strong><br />

containing the items of a list).<br />

If the non-linearity of hypertext does not l<strong>en</strong>d itself to the use of discourse markers and<br />

concrete features, however, things are differ<strong>en</strong>t for abstract docum<strong>en</strong>t features, because<br />

they are visual and work in space. Because of its technical characteristics, hypertext is a<br />

spatial medium, and in<strong>de</strong>ed numerous proposals that tackle the issue of non-linearity seek<br />

to comp<strong>en</strong>sate for the lack of control on discourse or<strong>de</strong>r by exploiting the spatial nature of<br />

hypertext. Some have proposed spatial metaphors as a way of <strong>de</strong>scribing discourse structure<br />

(Landow 1991, Bolter 1991, Kolb 1997); others propose the use of maps, schemas,<br />

outlines (Carter 2000) or navigational patterns (Bernstein 1998) to return to the author’s<br />

hands as much control as possible on the way in which discourse takes shape before the<br />

rea<strong>de</strong>r’s eyes and coheres in their mind. But it is also a temporal medium, in which spatial<br />

structures have a temporal dim<strong>en</strong>sion and realisation (Luesebrink 1998). So, both space<br />

and time can be exploited in hypertext to express discourse coher<strong>en</strong>ce and, we cont<strong>en</strong>d,<br />

in hypertext the notion of abstract docum<strong>en</strong>t structure consists of both spatial and temporal<br />

configurations working in a three-dim<strong>en</strong>sional space.<br />

From text to hypertext via abstract docum<strong>en</strong>t structure<br />

If coher<strong>en</strong>ce is a cognitive ph<strong>en</strong>om<strong>en</strong>on, th<strong>en</strong> it is possible to express coher<strong>en</strong>ce relations<br />

not only through linguistic markers, but also through visual patterns. And if this can<br />

be done by using spatial abstract features in linear docum<strong>en</strong>ts, th<strong>en</strong> it can also be done by<br />

using spatial and temporal abstract features in non-linear docum<strong>en</strong>ts. In particular, we propose<br />

that graphics and animation could be used to express discourse coher<strong>en</strong>ce in hypertext<br />

(see Mancini & Buckingham Shum 2004).<br />

At pres<strong>en</strong>t, most hypertexts (especially on the web) make no use of graphical features<br />

to signal rhetorical relations betwe<strong>en</strong> no<strong>de</strong>s, and no<strong>de</strong>s oft<strong>en</strong> consist of long text pages<br />

with a few links targeting other pages, from where the source page can no longer be se<strong>en</strong>.<br />

However, we believe that the non-linear medium could be used in a far more expressive<br />

and articulated way, if graphic features were exploited as discourse markers to support<br />

coher<strong>en</strong>ce. Our work precisely aims at id<strong>en</strong>tifying visual <strong>de</strong>vices that can play the role of<br />

discourse markers in the non-linear, three dim<strong>en</strong>sional space of hypertext.<br />

One of these <strong>de</strong>vices could consist of creating much smaller hypertext no<strong>de</strong>s and using<br />

the scre<strong>en</strong> as a visual field across which they can distribute as links are clicked and new no<strong>de</strong>s<br />

appear, composing meaningful patterns. The appearance and distribution of the no<strong>de</strong>s<br />

should signify the rhetorical role that their cont<strong>en</strong>t plays within the discourse. To achieve<br />

that, rhetorical relations could be used as docum<strong>en</strong>t structuring principles <strong>du</strong>ring discourse<br />

construction to <strong>de</strong>fine hypertext links. These could th<strong>en</strong> be dynamically r<strong>en</strong><strong>de</strong>red <strong>du</strong>ring<br />

navigation through the consist<strong>en</strong>t and concurr<strong>en</strong>t use of the medium’s spatial and temporal<br />

graphic features.<br />

In this respect, having established a parallel betwe<strong>en</strong> textual and visual processing<br />

(Riley & Parker 1998), Gestalt theory has proposed useful principles of docum<strong>en</strong>t <strong>de</strong>sign<br />

(Campbell 1995). Furthermore, a number of repres<strong>en</strong>tational rules for visually expressing discourse<br />

relations betwe<strong>en</strong> hypertext no<strong>de</strong>s could be <strong>de</strong>rived from the semiology of graphics,<br />

according to which graphic features can be employed to express conceptual relationships<br />

of similarity, differ<strong>en</strong>ce, or<strong>de</strong>r and proportion exploiting the properties of the visual image, in<br />

a bi-dim<strong>en</strong>sional static space (Bertin 1967) as well as in a three-dim<strong>en</strong>sional dynamic space<br />

(Koch 2001). Using these rules, we have <strong>de</strong>signed and begun testing a series of prototype<br />

visual patterns expressing coher<strong>en</strong>ce relations in non-linear discourse (Mancini 2005).<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).<br />

95


96<br />

Visualising and testing rhetorical patterns<br />

Based on cognitive parameterisations of coher<strong>en</strong>ce relations (San<strong>de</strong>rs et al. 1993, Pan<strong>de</strong>r<br />

Maat 1999, Louwerse 2001), we selected a set of relations for experim<strong>en</strong>tal r<strong>en</strong><strong>de</strong>ring and<br />

evaluation. The set inclu<strong>de</strong>d: CAUSALITY, CONDITIONALITY, SIMILARITY, CONTRAST, CONJUNCTION,<br />

DISJUNCTION, ELABORATION and BACKGROUND 1 . Here we report on one example: CAUSALITY.<br />

The graphical r<strong>en</strong><strong>de</strong>rings of the relations were <strong>de</strong>signed based on their parametrical <strong>de</strong>scription.<br />

In our <strong>de</strong>scriptions of refer<strong>en</strong>ce, the bipolar parameters <strong>de</strong>fining CAUSALITY were: basic<br />

operation, according to which a relation can be causal or additive, and polarity, according to<br />

which a relation can be positive or negative. The values of each cognitive parameter <strong>de</strong>fining<br />

the relations were r<strong>en</strong><strong>de</strong>red through graphical features. As a result, each relation was visually<br />

<strong>de</strong>fined by the sum of the graphical features r<strong>en</strong><strong>de</strong>ring the cognitive values that <strong>de</strong>fine it.<br />

The repres<strong>en</strong>tation of CAUSALITY was <strong>de</strong>fined by the features r<strong>en</strong><strong>de</strong>ring the values causal and<br />

positive.<br />

To reify the relation r<strong>en</strong><strong>de</strong>rings, examples of argum<strong>en</strong>tative passages were tak<strong>en</strong> from<br />

a history of sci<strong>en</strong>ce text. Short passages were isolated, each passage consisting of a pair or<br />

a triple of s<strong>en</strong>t<strong>en</strong>ces. The s<strong>en</strong>t<strong>en</strong>ces of each pair or group held with each other one of the<br />

eight selected relations, all signaled by appropriate connectives. Finally, each pair or triple<br />

of related s<strong>en</strong>t<strong>en</strong>ces was repres<strong>en</strong>ted on scre<strong>en</strong> respectively within a pair or triple of related<br />

text windows, and those windows were attributed certain graphical properties expressing<br />

the relation holding betwe<strong>en</strong> the cont<strong>en</strong>t of one s<strong>en</strong>t<strong>en</strong>ce and the cont<strong>en</strong>t of the other. On<br />

scre<strong>en</strong>, all connectives were removed from the text within the windows, and the connective<br />

function betwe<strong>en</strong> the text spans was <strong>en</strong>tirely <strong>de</strong>legated to the windows’ graphical properties.<br />

In or<strong>de</strong>r to be as differ<strong>en</strong>tiated as possible, each repres<strong>en</strong>tation had to be kept as minimalist<br />

as possible, making use of no more formal elem<strong>en</strong>ts than strictly necessary. A small<br />

number of graphical variables (Koch 2001) were used following specific rules of graphics 2 .<br />

Below is the <strong>de</strong>scription of the pattern <strong>de</strong>signed for CAUSALITY.<br />

The text spans selected to reify the relation were:<br />

A. Galileo ignored Kepler’s <strong>de</strong>monstration of the elliptical orbits of planets and continued<br />

to believe that planetary revolutions were a “natural” motion requiring no external mover.<br />

B. Galileo failed to see that the actual geometry of the heav<strong>en</strong>s contradicted any spherical<br />

mo<strong>de</strong>l.<br />

C. Galileo missed the problem of how planets were retained in their elliptical orbits.<br />

The three windows respectively containing the three text spans were arranged one un<strong>de</strong>r<br />

the other, the second sliding down from behind the first as soon as the first had appeared,<br />

and the third sliding down from behind the second as soon as it had reached its position.<br />

They all shared the same width, while the height of each was <strong>de</strong>termined by the quantity<br />

of text contained in each window. The value of the windows’ background became increasingly<br />

darker from the first to the third, and the ratio of increm<strong>en</strong>t was the same from the first<br />

to the second and from the second to the third, that is, they were equidistant, as far as the<br />

value was concerned. In this configuration, the or<strong>de</strong>r of the ev<strong>en</strong>ts was r<strong>en</strong><strong>de</strong>red by the<br />

arrangem<strong>en</strong>t of the text windows, while the fact that the second and the third windows<br />

appeared by sliding down from the previous one r<strong>en</strong><strong>de</strong>red the fact that the second and the<br />

third ev<strong>en</strong>ts followed, and were brought about, respectively by the first and the second<br />

ev<strong>en</strong>t. At the same time, the dark<strong>en</strong>ing of the background r<strong>en</strong><strong>de</strong>red the i<strong>de</strong>a of progression<br />

in the forging of a logical chain. Finally, the cohesion betwe<strong>en</strong> the three ev<strong>en</strong>ts was reinforced<br />

by the fact that the three windows had the same width (Figure 1).<br />

1. For the criteria of selection and for the discussion of all the r<strong>en</strong><strong>de</strong>rings, see Mancini (2005).<br />

2. For a <strong>de</strong>tailed discussion of the <strong>de</strong>sign process for all the relational r<strong>en</strong><strong>de</strong>rings see (Mancini, 2005).<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).


Figure 1: Two scre<strong>en</strong> shots from the animated graphic r<strong>en</strong><strong>de</strong>ring of causality<br />

(the letters besi<strong>de</strong> the text boxes are for illustration purposes only).<br />

The whole set of relations was r<strong>en</strong><strong>de</strong>red with the purpose of testing the r<strong>en</strong><strong>de</strong>rings and<br />

their impact on users. In particular we wanted to find out whether the concurr<strong>en</strong>t and consist<strong>en</strong>t<br />

use of visual features according to certain perceptual principles and <strong>de</strong>sign criteria<br />

would <strong>de</strong>termine the expressiv<strong>en</strong>ess of the configurations <strong>de</strong>signed to repres<strong>en</strong>t the selected<br />

sub-set of discourse relations and whether people would discriminate the relational expressiv<strong>en</strong>ess<br />

of differ<strong>en</strong>t visual configurations.<br />

As a first form of verification, we <strong>de</strong>signed and con<strong>du</strong>cted an empirical study with a<br />

group of 24 participants. We asked them to choose from three differ<strong>en</strong>t repres<strong>en</strong>tations the<br />

one that in their judgem<strong>en</strong>t best expressed each relational concept: the one that had be<strong>en</strong><br />

<strong>de</strong>signed to repres<strong>en</strong>t that particular relation, plus two alternative repres<strong>en</strong>tations originally<br />

<strong>de</strong>signed to express differ<strong>en</strong>t relations.<br />

One at the time, the participants were giv<strong>en</strong> the original text that had be<strong>en</strong> used to<br />

reify each relation, as well as an abstract <strong>de</strong>finition of the relation in question, th<strong>en</strong> were<br />

shown the three animations associated with it, from which they had to choose what they<br />

thought to be its most expressive repres<strong>en</strong>tation. They were asked to go through a second<br />

round, in which they were allowed to modify, one way or the other, the choices ma<strong>de</strong> in the<br />

first round.<br />

R Caus. Cond. Conj. Disj. Sim. Cont. Back. Elab.<br />

1st 19 10 18 12 16 20 21 20<br />

2nd 22 13 21 12 18 20 21 21<br />

χ2 37 4.750 32.25 3.25 19.75 28 32.25 27.25<br />

p


98<br />

of ev<strong>en</strong>ts. However, conditionality and disjunction hold across two possible lines of ev<strong>en</strong>ts.<br />

That is, they implicate the cognitive projection into an alternative space-temporal dim<strong>en</strong>sion<br />

(or narrative axis), before the conditioned or disjuncted situations can be pres<strong>en</strong>ted. Such an<br />

abstraction is easy to express in natural language, but it is not as easy to express in visual<br />

languages.<br />

This work is still in progress and we are still exploring ways of pres<strong>en</strong>ting hypertext which<br />

employ the graphical features of the medium in a systematic and principled way. We have not<br />

implem<strong>en</strong>ted a system yet, but that is our goal, and the experim<strong>en</strong>tal results that we have<br />

obtained so far are <strong>en</strong>couraging.<br />

Applying visual rhetorical patterns to hypertext<br />

Now let us illustrate an example of how in non-linear text the expression coher<strong>en</strong>ce could<br />

be supported by visualising rhetorical patterns. Consi<strong>de</strong>r the following text passage:<br />

Some animals are 'nice' to each other, especially those who live on the edge.<br />

For example, vampire bats have be<strong>en</strong> shown to share meals. If a bat fails to find a meal it<br />

is oft<strong>en</strong> unable to survive until the next ev<strong>en</strong>ing's hunting. A bat that has fed well, though,<br />

has more than <strong>en</strong>ough to survive, and could easily spare some of its meal. So sometimes<br />

a full bat will regurgitate some of its meal to another that is starving.<br />

These animals are showing behaviour known as 'reciprocal altruism', which simply means that they<br />

l<strong>en</strong>d each other favours in the expectation that the favours will be repaid some time in the future.<br />

[For example] A bat which one day might be bloated by a great meal, might on another<br />

ev<strong>en</strong>ing be less lucky and be in need of help itself. By being g<strong>en</strong>erous one day at little cost<br />

to itself, it might be saved from starvation the next by another bat returning the favour.<br />

This process can be explained with a game called 'Prisoner's Dilemma'. In the game, two<br />

suspects have be<strong>en</strong> arrested for a crime and the police question them in separate<br />

rooms. The police offer them each a <strong>de</strong>al. If they don't co-operate with each other (i.e.<br />

they give the police evid<strong>en</strong>ce that the other person is guilty) th<strong>en</strong> they will be rewar<strong>de</strong>d<br />

and the other person will be put away for the crime. If they both fail to co-operate,<br />

and give evid<strong>en</strong>ce against each other th<strong>en</strong> they will both get locked up (although<br />

they will get a lesser s<strong>en</strong>t<strong>en</strong>ce), but if they both co-operate with each other by keeping<br />

quiet th<strong>en</strong> the police have no evid<strong>en</strong>ce and they will ev<strong>en</strong>tually both be released.<br />

[Going back to our example] For the bats the risk of starvation if they do not feed is very<br />

high, while the cost of co-operating is low, so it should be no surprise to us that they have<br />

come to co-operate with each other, with every bat b<strong>en</strong>efiting from the arrangem<strong>en</strong>t.<br />

This sort of situation faces animals all the time, and by un<strong>de</strong>rstanding what the rewards and<br />

costs are to them in each case, we can un<strong>de</strong>rstand the way they behave.<br />

This is composed of four paragraphs, each of which is ma<strong>de</strong> up of two or three s<strong>en</strong>t<strong>en</strong>ces.<br />

As far as the cont<strong>en</strong>t is concerned, three differ<strong>en</strong>t narrative levels marked by the ind<strong>en</strong>tation<br />

of the layout can be id<strong>en</strong>tified, whose relations are expressed by connective or refer<strong>en</strong>tial<br />

phrases (in bold) or simply by paratactic juxtaposition (in bold and square brackets). The author<br />

explains an animal behaviour known as ‘reciprocal altruism’, at one level as an abstract concept,<br />

at another level with an example from the animal kingdom, and at yet another level<br />

with a metaphor from a game. Now let us consi<strong>de</strong>r the case in which the linear text passage<br />

is turned into a hypertext.<br />

In the hypertext version, the un<strong>de</strong>rlined words or clauses constitute links and the numbers<br />

in brackets next to them indicate their target no<strong>de</strong> (no<strong>de</strong>s are numbered for illustration<br />

purposes). Each no<strong>de</strong> has at least two links, which means that each no<strong>de</strong> can be accessed<br />

at least from two other no<strong>de</strong>s. Because of that, none of the no<strong>de</strong>s here contain connectives or<br />

refer<strong>en</strong>tial phrases that relate to other no<strong>de</strong>s: each one is a self-standing fragm<strong>en</strong>t, no matter<br />

from where it is accessed. If connectives and refer<strong>en</strong>tial phrases are not used to express the<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).


[1] Some animals are 'nice' to each<br />

other (>2), especially those who live<br />

life on the edge (>4).<br />

[2] Certain animals show a behaviour<br />

known as 'reciprocal altruism‘ (>5),<br />

which simply means that they l<strong>en</strong>d<br />

each other favours (>6) in the<br />

expectation that the favours will be<br />

repaid some time in the future (>3).<br />

[6] In the game 'Prisoner's Dilemma', two suspects<br />

have be<strong>en</strong> arrested for a crime and the police<br />

question them in separate rooms. The police offer<br />

them each a <strong>de</strong>al. If they don't co-operate with each<br />

other (i.e. they give the police evid<strong>en</strong>ce that the other<br />

person is guilty) th<strong>en</strong> they will be rewar<strong>de</strong>d and the<br />

other person will be put away for the crime. If they<br />

both fail to co-operate, and give evid<strong>en</strong>ce against<br />

each other th<strong>en</strong> they will both get locked up (although<br />

they will get a lesser s<strong>en</strong>t<strong>en</strong>ce), but if they both cooperate<br />

(>5) with each other by keeping quiet th<strong>en</strong><br />

the police have no evid<strong>en</strong>ce and they will ev<strong>en</strong>tually<br />

be both released (>2).<br />

[4] Vampire bats have be<strong>en</strong> shown to share meals<br />

(>5). If a bat fails to find a meal it is oft<strong>en</strong> unable to<br />

survive until the next ev<strong>en</strong>ing's hunting. A bat that<br />

has fed well, though, has more than <strong>en</strong>ough to<br />

survive, and could easily spare some of its meal. So<br />

sometimes a full bat will regurgitate some of its meal<br />

to another (>6) that is starving.<br />

[5] A bat which one day might be bloated by a great<br />

meal, might on another ev<strong>en</strong>ing be less lucky and be<br />

in need of help (>4) itself. By being g<strong>en</strong>erous one<br />

day at little cost to itself, it might be saved from<br />

starvation the next by another bat returning the<br />

favour.<br />

For the bats the risk of starvation if they do not feed<br />

is very high, while the cost of co-operating is low, so<br />

it should be no surprise to us that they have come to<br />

co-operate with each other (>6), with every bat<br />

b<strong>en</strong>efiting from the arrangem<strong>en</strong>t (>3).<br />

[3] Situations in which reciprocal<br />

altruism (>2) is necessary face<br />

animals all the time, and by<br />

un<strong>de</strong>rstanding what the rewards and<br />

costs are to them in each case, we<br />

can un<strong>de</strong>rstand the way they behave<br />

(>1).<br />

rhetorical relations holding betwe<strong>en</strong> no<strong>de</strong>s, however, these relations could be expressed<br />

through graphic features. Following the rules of graphics visual attributes could be used consist<strong>en</strong>tly<br />

and concurr<strong>en</strong>tly to r<strong>en</strong><strong>de</strong>r relations of or<strong>de</strong>r betwe<strong>en</strong> no<strong>de</strong>s in a three-dim<strong>en</strong>sional<br />

space, marking the rhetorical relations holding betwe<strong>en</strong> the discourse parts contained in the<br />

no<strong>de</strong>s.<br />

Let us hypothesise that one rea<strong>de</strong>r follows the path that leads from no<strong>de</strong> 1, to no<strong>de</strong> 2,<br />

to no<strong>de</strong> 3, by following first the link ’nice’ to each other in no<strong>de</strong> 1 and th<strong>en</strong> the link repaid<br />

some time in the future in no<strong>de</strong> 2.<br />

Some animals are 'nice' to each<br />

other, especially those who live life on<br />

the edge.<br />

Certain animals show behaviour<br />

known as 'reciprocal altruism‘, which<br />

simply means that they l<strong>en</strong>d each<br />

other Situations favours in which in the reciprocal expectation altruism that<br />

the is necessary favours will face be animals repaid some all the time<br />

in time, the future. and by un<strong>de</strong>rstanding what the<br />

rewards and costs are to them in<br />

each case, we can un<strong>de</strong>rstand the<br />

way they behave.<br />

A B<br />

Some animals are 'nice' to each<br />

other, especially those who live life on<br />

the edge.<br />

Certain animals show behaviour<br />

known as 'reciprocal altruism‘, which<br />

simply means that they l<strong>en</strong>d each<br />

other favours in the expectation that<br />

the favours will be repaid some time<br />

in the future.<br />

Situations in which reciprocal altruism<br />

is necessary face animals all the<br />

time, and by un<strong>de</strong>rstanding what the<br />

rewards and costs are to them in<br />

each case, we can un<strong>de</strong>rstand the<br />

way they behave.<br />

No<strong>de</strong> 1, the starting point in the hypertext, expresses in a nutshell the concept of ‘reciprocal<br />

altruism’, which is the subject of the passage. No<strong>de</strong> 2 elaborates the concept and, on the<br />

basis of that elaboration, no<strong>de</strong> 3 comes to a conclusion. At first, no<strong>de</strong> 1 is on the scre<strong>en</strong> on<br />

its own, but, wh<strong>en</strong> the rea<strong>de</strong>r clicks on the link ‘nice’ to each other, no<strong>de</strong> 2 appears (A). The<br />

relation of elaboration holding betwe<strong>en</strong> no<strong>de</strong>s 1 and 2 could be expressed as follows: no<strong>de</strong> 2<br />

overlaps on the lower edge of no<strong>de</strong> 1, projecting a small shadow. That is, through the slight<br />

overlapping and projected shadow of no<strong>de</strong> 2, this configuration aims to reflect the fact that<br />

the two units do not belong to the same discourse level: the first one, higher up and more<br />

in <strong>de</strong>pth in the visual field, states the basic concept that the second one, lower and more<br />

to the forefront in the visual field, restates and expands. At this point, wh<strong>en</strong> the rea<strong>de</strong>r clicks<br />

on the link repaid some time in the future, no<strong>de</strong> 3 sli<strong>de</strong>s down from behind no<strong>de</strong> 2, greyed<br />

out at first (A). As it positions itself un<strong>de</strong>r no<strong>de</strong> 2, no<strong>de</strong> 3 becomes readable and no<strong>de</strong> 1 greys<br />

out instead, leaving the other two both in evid<strong>en</strong>ce (B). The relation holding betwe<strong>en</strong> the<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).<br />

99


100<br />

no<strong>de</strong>s - conclusion - is a pragmatic form of causality. This is expressed by the origin and trajectory<br />

of no<strong>de</strong> 3, which physically <strong>de</strong>sc<strong>en</strong>ds from no<strong>de</strong> 2 and by the fact that the background<br />

of no<strong>de</strong> 3 has a darker value. Moreover, the fact that no<strong>de</strong> 2 and 3 have the same width and<br />

are aligned closely one un<strong>de</strong>r the other aims to express the fact that they constitute the interconnected<br />

parts of a larger unit. Finally, by the greying out of no<strong>de</strong> 1 the pres<strong>en</strong>tation un<strong>de</strong>rlines<br />

the unity of no<strong>de</strong> 2 and 3.<br />

Now let us hypothesise that another rea<strong>de</strong>r follows a differ<strong>en</strong>t path, going from no<strong>de</strong> 1,<br />

to no<strong>de</strong> 6, to no<strong>de</strong> 5, to no<strong>de</strong> 3, by respectively following the links live life on the edge, regurgitate<br />

some of it’s meal to another, both co-operate and b<strong>en</strong>efiting from the arrangem<strong>en</strong>t.<br />

This second reading constitutes a differ<strong>en</strong>t navigational experi<strong>en</strong>ce, to which corresponds a<br />

differ<strong>en</strong>t visual experi<strong>en</strong>ce.<br />

Some animals are 'nice' to each<br />

other, especially those who live life<br />

on the edge.<br />

Vampire bats have be<strong>en</strong><br />

shown to share meals. If a<br />

bat fails to find a meal it is<br />

A oft<strong>en</strong> unable to survive until<br />

the next ev<strong>en</strong>ing's hunting.<br />

A bat that has fed well,<br />

though, has more than<br />

<strong>en</strong>ough to survive, and<br />

could easily spare some of<br />

its meal. So sometimes a<br />

full bat will regurgitate some<br />

of its meal to another that is<br />

starving.<br />

At first, no<strong>de</strong> 1 is on its own on the scre<strong>en</strong>, but as soon as the rea<strong>de</strong>r clicks on the link<br />

live life on the edge, no<strong>de</strong> 4 appears (A). The cont<strong>en</strong>t of no<strong>de</strong> 4 is an exemplification of the<br />

concept stated in no<strong>de</strong> 1, and since exemplification is a form of conceptual elaboration, the<br />

visual relationship betwe<strong>en</strong> no<strong>de</strong> 1 and 4 is repres<strong>en</strong>ted in the same way as the visual relationship<br />

betwe<strong>en</strong> no<strong>de</strong> 1 and 2 in the previous path, except that the background colour of<br />

no<strong>de</strong> 4 is differ<strong>en</strong>t from that of no<strong>de</strong> 2 in the previous path. As the rea<strong>de</strong>r now clicks on the<br />

link regurgitate some of its meal to another, no<strong>de</strong> 6 <strong>en</strong>ters the scre<strong>en</strong> from the right hand<br />

si<strong>de</strong> (A) to position itself right next to no<strong>de</strong> 4 (B). As it gets into place, the background colour<br />

of no<strong>de</strong> 6 turns the same as the background colour of no<strong>de</strong> 4.<br />

Some animals are 'nice' to each<br />

other, especially those who live life<br />

on the edge.<br />

Vampire bats have be<strong>en</strong><br />

shown to share meals. If a<br />

bat fails to find a meal it is<br />

B<br />

oft<strong>en</strong> unable to survive until<br />

the next ev<strong>en</strong>ing's hunting.<br />

A bat that has fed well,<br />

though, has more than<br />

<strong>en</strong>ough to survive, and<br />

could easily spare some of<br />

its meal. So sometimes a<br />

full bat will regurgitate some<br />

of its meal to another that is<br />

starving.<br />

This is how the conceptual similarity holding betwe<strong>en</strong> the cont<strong>en</strong>t of no<strong>de</strong> 4 and the<br />

cont<strong>en</strong>t of no<strong>de</strong> 6 is r<strong>en</strong><strong>de</strong>red through a graphic similarity: no<strong>de</strong> 6 moves in towards no<strong>de</strong> 4,<br />

it has the same height as no<strong>de</strong> 4, it positions itself next to it and it changes its original background<br />

colour (which signals a differ<strong>en</strong>t domain from which the comparison is drawn) to match<br />

that of no<strong>de</strong> 4. As the rea<strong>de</strong>r clicks on the link both co-operate, no<strong>de</strong> 5 <strong>en</strong>ters the scre<strong>en</strong><br />

from the left hand si<strong>de</strong> to position itself where no<strong>de</strong> 4 was before, so that it gets into the<br />

same position as no<strong>de</strong> 4 with respect to no<strong>de</strong> 6 (C).<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).<br />

In the game 'Prisoner's Dilemma', two suspects<br />

have be<strong>en</strong> arrested for a crime and the police<br />

question them in separate rooms. The police offer<br />

them each a <strong>de</strong>al. If they don't co-operate with each<br />

other (i.e. they give the police evid<strong>en</strong>ce that the<br />

other person is guilty) th<strong>en</strong> they will be rewar<strong>de</strong>d<br />

and the other person will be put away for the crime.<br />

If they both fail to co-operate, and give evid<strong>en</strong>ce<br />

against each other th<strong>en</strong> they will both get locked up<br />

(although they will get a lesser s<strong>en</strong>t<strong>en</strong>ce), but if they<br />

both co-operate with each other by keeping quiet<br />

th<strong>en</strong> the police have no evid<strong>en</strong>ce and they will<br />

ev<strong>en</strong>tually be both released.<br />

In the game 'Prisoner's Dilemma', two suspects<br />

have be<strong>en</strong> arrested for a crime and the police<br />

question them in separate rooms. The police offer<br />

them each a <strong>de</strong>al. If they don't co-operate with each<br />

other (i.e. they give the police evid<strong>en</strong>ce that the<br />

other person is guilty) th<strong>en</strong> they will be rewar<strong>de</strong>d<br />

and the other person will be put away for the crime.<br />

If they both fail to co-operate, and give evid<strong>en</strong>ce<br />

against each other th<strong>en</strong> they will both get locked up<br />

(although they will get a lesser s<strong>en</strong>t<strong>en</strong>ce), but if they<br />

both co-operate with each other by keeping quiet<br />

th<strong>en</strong> the police have no evid<strong>en</strong>ce and they will<br />

ev<strong>en</strong>tually be both released.


Some animals are 'nice' to each<br />

other, especially those who live life<br />

on the edge (>4).<br />

A bat which one day might 4. be Vampire bloated bats by a have be<strong>en</strong><br />

great meal, might on another shown ev<strong>en</strong>ing to share be meals. If a<br />

less lucky and be in need of bat help fails itself. to find By a meal it is<br />

being g<strong>en</strong>erous one day at oft<strong>en</strong> little cost unable to to survive until<br />

itself, it might be saved from the starvation next ev<strong>en</strong>ing's the hunting.<br />

next by another bat returning A bat the that favour. has fed well,<br />

For the bats the risk of starvation though, if has they more do than<br />

not feed is very high, while <strong>en</strong>ough the cost to of survive, co- and<br />

operating is low, so it should could be no easily spare some of<br />

surprise to us that they have its come meal. to So cosometimes<br />

a<br />

operate with each other, with full every bat will bat regurgitate some<br />

b<strong>en</strong>efiting from the arrangem<strong>en</strong>t. of its meal to another that is<br />

starving.<br />

This is to repres<strong>en</strong>t that the same conceptual similarity that holds betwe<strong>en</strong> no<strong>de</strong>s 4 and 6<br />

also holds betwe<strong>en</strong> no<strong>de</strong>s 6 and 5. Consist<strong>en</strong>tly with that, no<strong>de</strong> 5 has the same height and<br />

background colour as no<strong>de</strong> 4, as well as <strong>en</strong>ding up in the same position.<br />

Conclusions<br />

C<br />

In the game 'Prisoner's Dilemma', two suspects<br />

have be<strong>en</strong> arrested for a crime and the police<br />

question them in separate rooms. The police offer<br />

them each a <strong>de</strong>al. If they don't co-operate with each<br />

other (i.e. they give the police evid<strong>en</strong>ce that the<br />

other person is guilty) th<strong>en</strong> they will be rewar<strong>de</strong>d<br />

and the other person will be put away for the crime.<br />

If they both fail to co-operate, and give evid<strong>en</strong>ce<br />

against each other th<strong>en</strong> they will both get locked up<br />

(although they will get a lesser s<strong>en</strong>t<strong>en</strong>ce), but if they<br />

both co-operate with each other by keeping quiet<br />

th<strong>en</strong> the police have no evid<strong>en</strong>ce and they will<br />

ev<strong>en</strong>tually be both released.<br />

If a rea<strong>de</strong>r is to un<strong>de</strong>rstand a text, their m<strong>en</strong>tal repres<strong>en</strong>tation of its cont<strong>en</strong>t has (at least<br />

to some <strong>de</strong>gree) to reflect the coher<strong>en</strong>ce structure int<strong>en</strong><strong>de</strong>d by the writer. In linear docum<strong>en</strong>ts,<br />

a number of textual <strong>de</strong>vices facilitate this process of reconstruction by signalling the coher<strong>en</strong>ce<br />

structure of discourse. However, these <strong>de</strong>vices only work within a linear structure and<br />

they are no longer helpful in the interpretation of non-linear docum<strong>en</strong>ts. Wh<strong>en</strong> it comes to<br />

non-linear media, such as hypertext, a differ<strong>en</strong>t set of signalling <strong>de</strong>vices is required, which<br />

we claim are visual rather than textual. These visual elem<strong>en</strong>ts constitute the abstract docum<strong>en</strong>t<br />

structure in traditional text, where they work within the bi-dim<strong>en</strong>sional space of the page.<br />

However, in hypertext they have to work in a three-dim<strong>en</strong>sional space as well as in time, which<br />

pushes the boundaries of the notion of abstract docum<strong>en</strong>t structure.<br />

As we have argued, there is a fundam<strong>en</strong>tal semiotic differ<strong>en</strong>ce betwe<strong>en</strong> visual configurations<br />

and textual expressions: since it is a symbolic co<strong>de</strong>, text can express relational concepts<br />

with <strong>de</strong>grees of precision and subtlety that are not easily available in the visual medium.<br />

However, although visual languages do not have the same semiotic capabilities of abstraction,<br />

there is theoretical ground and some preliminary evid<strong>en</strong>ce to suggest that they can<br />

express at least the most basic relational concepts (for instance, CAUSALITY, CONJUNCTION,<br />

SIMILARITY). The condition for that is the consist<strong>en</strong>t and concurr<strong>en</strong>t use of the properties of<br />

the image according to specific rules, in or<strong>de</strong>r to establish a linguistic context in which differ<strong>en</strong>t<br />

configurations become recognisable as having differ<strong>en</strong>t meaning. Of course, the use<br />

of visual patterns to express coher<strong>en</strong>ce relations in hypertext could be associated with other<br />

<strong>de</strong>vices (Kress & van Leeuw<strong>en</strong> 2001). For instance, exploiting text g<strong>en</strong>eration capabilities,<br />

hybrid repres<strong>en</strong>tational forms could be used, in which symbolic connectives are used in<br />

addition as soon as two no<strong>de</strong>s appear on the scre<strong>en</strong>. However, our aim is to id<strong>en</strong>tify ways of<br />

pres<strong>en</strong>ting hypertext discourse which employ graphical features in a systematic and principled<br />

way, ext<strong>en</strong>ding the notion of abstract docum<strong>en</strong>t structure, so that it applies to hypertext<br />

as well as linear text, by making articulate use of the space-temporal dim<strong>en</strong>sions of the<br />

electronic medium, fully exploiting its expressive pot<strong>en</strong>tial.<br />

Still in its infancy, this work is at this stage more concerned with id<strong>en</strong>tifying the right<br />

questions than with pres<strong>en</strong>ting the right answers. We have not yet implem<strong>en</strong>ted a system,<br />

but that is our goal, and the experim<strong>en</strong>tal results obtained so far are <strong>en</strong>couraging. As a next<br />

step we will be carrying out further tests on the visual r<strong>en</strong><strong>de</strong>rings of rhetorical relations. For<br />

example, we int<strong>en</strong>d to test the same relational r<strong>en</strong><strong>de</strong>rings with a larger number of participants<br />

from differ<strong>en</strong>t backgrounds, carrying out a qualitative analysis of their responses. We<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).<br />

101


102<br />

have also started to construct hypertext mock-ups using our set of coher<strong>en</strong>ce relations to<br />

<strong>de</strong>fine the links betwe<strong>en</strong> no<strong>de</strong>s and r<strong>en</strong><strong>de</strong>ring the connections through their corresponding<br />

visual patterns. These are to be tested with users: as they navigate and visual patterns take<br />

shape on the scre<strong>en</strong>, they will be asked to id<strong>en</strong>tify the relations holding betwe<strong>en</strong> no<strong>de</strong>s, which<br />

will be indicated solely by the graphical clues. Further tests will also be <strong>de</strong>signed.<br />

Our long-term goal is the application of this work to a larger effort in natural language<br />

g<strong>en</strong>eration, whereby the same semantic cont<strong>en</strong>t is r<strong>en</strong><strong>de</strong>red differ<strong>en</strong>tly for differ<strong>en</strong>t rea<strong>de</strong>rships.<br />

In particular, we are g<strong>en</strong>erating paraphrases that vary not just along the traditional<br />

dim<strong>en</strong>sions (discourse, syntax, lexicalisation) but also in terms of graphical pres<strong>en</strong>tation, for<br />

example, as textual reports in differ<strong>en</strong>t styles including linear vs. non-linear or as sli<strong>de</strong>s for<br />

a pres<strong>en</strong>tation.<br />

Acknowledgm<strong>en</strong>ts<br />

We would like to thank Richard Power and the reviewers of ISDD’06 for their helpful<br />

feedback.<br />

Bibliography<br />

BERNSTEIN M. (1998), “Patterns of Hypertext”, in Proceedings of ACM Hypertext'98, Pittsburgh, PA,<br />

New York, ACM Press, p. 21-29.<br />

BERTIN J. (1967), Sémiologie Graphique, Paris – La Haye, Mouton – Gauthier-Villars; English translation<br />

(1983), Semiology of Graphics: Diagrams, Networks, Maps, Madison, University of Wisconsin Press.<br />

BOLTER J.D. (1991), Writing Space: The Computer, Hypertext, and the History of Writing, Cambridge MA,<br />

Eastgate Systems.<br />

BROWN G. & YULE G. (1983), Discourse Analysis, New York, Cambridge University Press.<br />

CAMPBELL K.S. (1995), Coher<strong>en</strong>ce, Continuity, and Cohesion. Theoretical Foundations for Docum<strong>en</strong>t<br />

Design, Hillsdale (NJ), Lawr<strong>en</strong>ce Erlbaum Associates Publishers.<br />

CARTER L.M. (2000), Argum<strong>en</strong>ts in Hypertext: A Rhetorical Approach, in Proceedings of ACM Hypertext ‘00,<br />

New York, ACM Press, p. 87-91.<br />

DIJK van T.A. (1977), Explorations in the Semantics and Pragmatics of Discourse, London – NY, Longman.<br />

GRIMES J.E. (1975), The Thread of Discourse, Berlin – New York – Amsterdam, Mouton Publishers.<br />

HALLIDAY M.A.K. & HASAN R. (1976), Cohesion in English, New York, Longman.<br />

HOBBS J.R. (1985), On the Coher<strong>en</strong>ce and Structure of Discourse, Stanford, CSLI (Technical Report 85-37).<br />

JOHNSON-LAIRD P. N. (1983), M<strong>en</strong>tal mo<strong>de</strong>ls: Towards a cognitive sci<strong>en</strong>ce of language, infer<strong>en</strong>ce, and<br />

consciousness, Cambridge MA, Harvard University Press.<br />

KAMP H. & RYLE U. (1993), From Discourse to Logic, Dordrecht, Kluwer.<br />

KNOTT A., DALE R. (1994), “Using Linguistic Ph<strong>en</strong>om<strong>en</strong>a to Motivate a Set of Coher<strong>en</strong>ce Relations”,<br />

Discourse Processes, 18, 1, p. 35-62.<br />

KNOTT A., MELLISH C. (1996), “A feature-based account of the relations signalled by s<strong>en</strong>t<strong>en</strong>ce and<br />

clause connectives”, Language and Speech, 39, 2/3, p. 142-183.<br />

KOCH W.G. (2001), “Jaques Bertin’s Theory of Graphics and its Developm<strong>en</strong>t and Influ<strong>en</strong>ce on<br />

Multimedia Cartography”, Information Design Journal, 10, 1, p. 37-43.<br />

KOLB D. (1997), “Scholarly Hypertext: Self-Repres<strong>en</strong>ted Complexity”, in Proceedings of ACM Hypertext'97,<br />

New York, ACM Press, p. 29-37.<br />

KRESS G. & VAN LEEUWEN T. (2001), Multimodal discourse: the mo<strong>de</strong>s and media of contemporary<br />

communication, London, Arnold.<br />

LANDOW G.P. (1991), “The Rhetoric of Hypermedia: Some Rules for Authors”, in Hypermedia and Literary<br />

Studies, P. Delany and G.P. Landow (eds.), Cambridge MA, MIT Press, p. 81-104.<br />

LOUWERSE M. (2001), “An Analytic and Cognitive Parametrization of Coher<strong>en</strong>ce Relations”, Cognitive<br />

Linguistics, 12, 3, p. 291-315.<br />

LUESEBRINK M. (1998), “The Mom<strong>en</strong>t in Hypertext”, in Proceedings of ACM Hypertext'98, New York,<br />

ACM Press, p. 106-112.<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).


MANCINI C. (2005), Cinematic hypertext. Investigating a new paradigm, Amsterdam, IOS Press.<br />

MANCINI C. & BUCKINGHAM SHUM S. (2004), “Towards Cinematic Hypertext“, in Proceedings of ACM Hypertext'04,<br />

New York, ACM Press, p. 115-124.<br />

MANN W.C., THOMPSON S.A. (1988), “Rhetorical Structure Theory: Toward a Functional Theory of Text<br />

Organisation”, Text, 8, 3, p. 243-281.<br />

MARTIN J.R. (1992), English Text. System and Structure, Amsterdam, John B<strong>en</strong>jamins Publishing Co.<br />

NUNBERG G. (1990), The Linguistics of Ponctuation, Stanford, USA, CSLI.<br />

PANDER MAAT H. (1999), “The Differ<strong>en</strong>tial Linguistic Realisation of Comparative and Additive Coher<strong>en</strong>ce<br />

Relations”, Cognitive Linguistics, 10, p. 147-184.<br />

PIWEK P., POWER R., SCOTT D., VAN DEEMTER K. (2005), “G<strong>en</strong>erating multimedia pres<strong>en</strong>tations: from<br />

plain text to scre<strong>en</strong>play Intellig<strong>en</strong>t Multimodal Information Pres<strong>en</strong>tation”, Text Speech and Language<br />

Processing, 27, O. Stock and M. Zancanaro (eds.), Dordrecht, Kluwer, p. 203-226.<br />

POWER R., SCOTT D., BOUAYAD-AGHA N. (2003), “Docum<strong>en</strong>t Structure”, Computational Linguistics, 29,<br />

4, p. 211-260.<br />

RILEY K., PARKER F. (1998), “Parallels betwe<strong>en</strong> visual and textual processing”, IEEE Transactions on<br />

Professional Communication, 41, p. 175-185.<br />

SANDERS T.J.M., SPOOREN W.P.M., NOORDMAN L.G.M. (1993), “Coher<strong>en</strong>ce Relations in a Cognitive<br />

Theory of Discourse Repres<strong>en</strong>tation”, Cognitive Linguistics, 4, 2, p. 93-133.<br />

SANDERS T.J.M, SPOOREN W. (2001), “Text Repres<strong>en</strong>tation as an Interface Betwe<strong>en</strong> Language and its Users”,<br />

in Text Repres<strong>en</strong>tation. Linguistic and psycholinguistic aspects, T.J.M. San<strong>de</strong>rs, J. Schilperoord, W. Spoor<strong>en</strong><br />

(eds.), University of Utrecht, University of Tilburg, Free University of Amsterdam Press, p. 1-26.<br />

SAUSSURE F. (1922), Cours <strong>de</strong> Linguistique Générale, Paris, Éditions Payot.<br />

SCHIFFRIN D. (1987), Discourse Markers, New York, Cambridge University Press.<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).<br />

103


104<br />

Schedae, 2006, prépublication n°12, (<strong>fascicule</strong> n°1, p. 91-104).


Schedae,<br />

2006<br />

Prépublication n° 13 Fascicule n° 1<br />

SEXTANT, un langage <strong>de</strong> modélisation<br />

<strong>de</strong>s connaissances<br />

pour la navigation textuelle<br />

Javier Couto<br />

Universidad <strong>de</strong> la República – Facultad <strong>de</strong> Ing<strong>en</strong>iería – Instituto <strong>de</strong> Computación<br />

J. Herrera y Reissig 565– Montevi<strong>de</strong>o – Uruguay<br />

jcouto@fing.e<strong>du</strong>.uy<br />

Jean-Luc Minel<br />

MoDyCO, UMR 7 114 CNRS- <strong>Université</strong> Paris X Nanterre<br />

200 Av<strong>en</strong>ue <strong>de</strong> la République – 92001 Nanterre<br />

jean-luc.minel@u-paris10.fr<br />

Résumé :<br />

Nous prés<strong>en</strong>tons tout d’abord notre conception <strong>de</strong> la navigation textuelle conçue comme un processus<br />

cognitif qui convoque <strong>de</strong>s connaissances qui sont propres à la finalité <strong>de</strong> la navigation. Nous<br />

formulons l’hypothèse que ces connaissances peuv<strong>en</strong>t être, <strong>en</strong> partie, modélisées sous une forme<br />

déclarative avec le langage SEXTANT que nous décrivons. Enfin, nous prés<strong>en</strong>tons <strong>de</strong>ux applications<br />

qui utilis<strong>en</strong>t la plate-forme NaviTexte dans laquelle le langage SEXTANT est implém<strong>en</strong>té.<br />

Mots-clés : navigation textuelle assistée, langage <strong>de</strong> modélisation <strong>de</strong>s connaissances.<br />

Abstract :<br />

In this paper, we pres<strong>en</strong>t our approach to text navigation conceived like a cognitive process, which<br />

exploits navigation specific knowledge. We draw up the hypothesis that such knowledge can be<br />

<strong>de</strong>signed in a <strong>de</strong>clarative way with our language SEXTANT. Finally, two applications are <strong>de</strong>scribed.<br />

Keywords : assisted navigation of texts, knowledge managem<strong>en</strong>t language.<br />

Conceptions <strong>de</strong> la navigation textuelle<br />

Le terme <strong>de</strong> navigation textuelle reçoit <strong>de</strong> multiples interprétations. La plus commune<br />

r<strong>en</strong>voie inévitablem<strong>en</strong>t au processus mis <strong>en</strong> oeuvre par les outils <strong>de</strong> navigation utilisés pour<br />

circuler dans les docum<strong>en</strong>ts hypertextes, c’est-à-dire la possibilité d’activer un li<strong>en</strong> pour déplacer<br />

le point <strong>de</strong> lecture ; ce déplacem<strong>en</strong>t pouvant être intra ou intertextuel. Plusieurs points<br />

Javier Couto & Jean-Luc Minel<br />

« SEXTANT, un langage <strong>de</strong> modélisation <strong>de</strong>s connaissances pour la navigation textuelle »<br />

Schedae,<br />

2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

105


106<br />

sont à souligner dans ce type <strong>de</strong> navigation hypertextuelle. Tout d’abord, l’activation <strong>du</strong> li<strong>en</strong><br />

est « aveugle », plus précisém<strong>en</strong>t aucune signalétique (<strong>en</strong> <strong>de</strong>hors d’un titre ou <strong>de</strong> l’adresse<br />

Url qui est <strong>en</strong> général peu significative) ou instructions <strong>de</strong> navigation ne sont associées au<br />

li<strong>en</strong>. Deuxièmem<strong>en</strong>t cette navigation est linéaire, c’est-à-dire qu’une seule voie <strong>de</strong> navigation<br />

est offerte au lecteur quand celui-ci active le li<strong>en</strong>. Autrem<strong>en</strong>t dit, pour chaque nœud<br />

source il existe un seul nœud cible. De notre point <strong>de</strong> vue, cela constitue une contrainte trop<br />

restrictive vis-à-vis <strong>de</strong>s fonctionnalités offertes à l’utilisateur. Troisièmem<strong>en</strong>t, l’ori<strong>en</strong>tation <strong>de</strong><br />

la navigation n’est pas indiquée explicitem<strong>en</strong>t ; le lecteur ne sait pas si le déplacem<strong>en</strong>t se<br />

fait vers l’amont ou vers l’aval 1 <strong>du</strong> texte lu, ce qui <strong>en</strong>traîne <strong>en</strong>tre autre <strong>de</strong>s phénomènes <strong>de</strong><br />

désori<strong>en</strong>tation cognitive (Edwards & Hardman 1989, Cotte 2004). Dans certains systèmes,<br />

l’affichage d’une carte représ<strong>en</strong>tant l’<strong>en</strong>semble <strong>du</strong> site et la localisation <strong>du</strong> point <strong>de</strong> lecture<br />

sont utilisés pour résoudre <strong>en</strong> partie ce problème (Danielson 2002). Enfin et surtout, les li<strong>en</strong>s<br />

sont placés dans le corps même <strong>du</strong> texte, ce qui implique qu’il n´est pas possible d’adapter les<br />

parcours dans ce texte au lecteur. En d’autres termes aucune information ou connaissances<br />

complexes ne peuv<strong>en</strong>t être associées à la navigation.<br />

Notre conception <strong>de</strong> navigation textuelle se démarque <strong>de</strong> ce type <strong>de</strong> navigation car nous<br />

considérons que circuler ou naviguer dans un texte est l’expression d’un processus cognitif<br />

qui convoque <strong>de</strong>s connaissances qui sont propres à la finalité <strong>de</strong> la navigation (Minel 2003,<br />

Couto & Minel 2004). Ainsi, comme nous l’illustrerons <strong>en</strong> prés<strong>en</strong>tant différ<strong>en</strong>tes applications<br />

(section 4), un docum<strong>en</strong>taliste qui doit écrire un résumé d’un texte (Endres-Niggemeyer et al.<br />

1995) ne navigue pas <strong>de</strong> la même façon qu’un lecteur intéressé par l’évolution <strong>de</strong>s s<strong>en</strong>tim<strong>en</strong>ts<br />

d’un <strong>de</strong>s personnages d’un roman (Mathieu 2004) ou qu’un linguiste qui explore les annotations<br />

placées par un système automatique (Pery-Woodley 2004). Ainsi, le fait qu’un texte soit<br />

maint<strong>en</strong>ant numérisé et qu’il soit prés<strong>en</strong>té au lecteur sur un écran peut être considéré, <strong>de</strong><br />

notre point <strong>de</strong> vue, comme une nouvelle mutation qui place le lecteur <strong>de</strong>vant <strong>de</strong> nouvelles<br />

possibilités qui rest<strong>en</strong>t à explorer :<br />

Le texte […] offre <strong>en</strong> effet une richesse sémiotique particulière, qui fournit <strong>de</strong> multiples objets<br />

d’interprétation et <strong>de</strong> multiples pistes d’actions […] les lecteurs n’ont pas la même démarche<br />

<strong>en</strong>vers l’objet ni la même définition <strong>de</strong> cet objet, ils ne « voi<strong>en</strong>t » pas la même chose (Souchier<br />

et al. 2003).<br />

Nous formulons l’hypothèse que la démarche <strong>du</strong> lecteur peut être assistée par l’exploitation<br />

<strong>de</strong> connaissances qui peuv<strong>en</strong>t être, <strong>en</strong> partie, modélisées sous une forme déclarative.<br />

En conséqu<strong>en</strong>ce, nous proposons le langage SEXTANT 2 pour exprimer ces connaissances<br />

(section 3).<br />

Du point <strong>de</strong> vue <strong>du</strong> lecteur, la navigation textuelle que nous proposons est très différ<strong>en</strong>te<br />

<strong>de</strong> la navigation hypertextuelle au s<strong>en</strong>s ou nous considérons que le lecteur, qui active lui<br />

aussi <strong>de</strong>s connaissances d’interprétation (Kintsch 2003, Baccino 2004) doit pouvoir interagir<br />

<strong>en</strong> choisissant la voie <strong>de</strong> navigation qui lui semble la plus appropriée pour sa tâche <strong>de</strong> lecture.<br />

Il est néanmoins évid<strong>en</strong>t que cette interaction est actuellem<strong>en</strong>t très limitée, car la navigation<br />

proposée reste dans les limites posées par le concepteur <strong>de</strong>s mo<strong>du</strong>les <strong>de</strong> navigation (section<br />

3). En ce s<strong>en</strong>s, il serait peut-être plus précis <strong>de</strong> parler <strong>de</strong> « navigation textuelle assistée ».<br />

Afin <strong>de</strong> proposer une approche systématisée à la navigation textuelle, quatre élém<strong>en</strong>ts<br />

sont nécessaires :<br />

– une représ<strong>en</strong>tation <strong>du</strong> texte pouvant décrire différ<strong>en</strong>ts phénomènes linguistiques ;<br />

1. L’ori<strong>en</strong>tation n’a <strong>de</strong> signification que dans le cas d’une navigation intratextuelle.<br />

2. Par analogie avec les navigateurs <strong>du</strong> XVIII e siècle qui ont parcouru le mon<strong>de</strong> <strong>en</strong> s’ori<strong>en</strong>tant sur les mers<br />

avec un sextant.<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).


– la possibilité <strong>de</strong> pouvoir isoler les connaissances <strong>de</strong> visualisation et <strong>de</strong> navigation ;<br />

– un ag<strong>en</strong>t (une personne, une équipe d’experts, un système, etc.) capable d’<strong>en</strong>co<strong>de</strong>r ces<br />

connaissances ;<br />

– un système qui interprète ces connaissances.<br />

Nous n’abor<strong>de</strong>rons pas dans cet article la modélisation <strong>de</strong>s connaissances <strong>de</strong> visualisation,<br />

que l’on peut brièvem<strong>en</strong>t définir comme l’<strong>en</strong>semble <strong>de</strong>s opérations qui spécifi<strong>en</strong>t<br />

comm<strong>en</strong>t un texte est représ<strong>en</strong>té sur l’écran (voir (Couto 2001, 2006) pour une prés<strong>en</strong>tation<br />

détaillée). Dans la section suivante nous prés<strong>en</strong>tons le modèle <strong>de</strong> texte que requiert<br />

cette conception <strong>de</strong> la navigation.<br />

Représ<strong>en</strong>tation <strong>du</strong> texte<br />

La représ<strong>en</strong>tation <strong>du</strong> texte, décrite dans un format standard XML, se divise <strong>en</strong> <strong>de</strong>ux<br />

parties ; le Corps, où les unités textuelles, significatives pour la tâche sont délimitées, et la<br />

Tête, où s’exprim<strong>en</strong>t les relations non hiérarchiques <strong>en</strong>tre ces mêmes unités.<br />

Le Corps<br />

Dans le Corps, l’élém<strong>en</strong>t <strong>de</strong> base <strong>de</strong> notre modèle est l’Unité Textuelle (UT) typée, ce qui<br />

permet d’incorporer <strong>de</strong> nouveaux élém<strong>en</strong>ts textuels <strong>de</strong> manière simple. Ces principes d’annotation<br />

sur lequel s’appuie NaviTexte sont classiquem<strong>en</strong>t ceux proposés par les standards tels<br />

que ceux <strong>de</strong> la TEI (Text Encoding Initiative).<br />

Concrètem<strong>en</strong>t, dans le Corps, une unité textuelle (UT) est balisée, avec la balise ,<br />

et <strong>de</strong>s attributs, <strong>en</strong> nombre illimité, peuv<strong>en</strong>t lui être attribués. Chaque UT est typée et possè<strong>de</strong><br />

optionnellem<strong>en</strong>t un rang. Le type peut aussi bi<strong>en</strong> dénoter la fonction structurelle <strong>de</strong> l’unité<br />

<strong>en</strong> question, sa caractéristique syntaxique, sa fonction discursive. On peut remarquer que ce<br />

type d’annotation laisse une marge <strong>de</strong> liberté très gran<strong>de</strong>, notamm<strong>en</strong>t dans la répartition<br />

<strong>de</strong>s valeurs d’annotation <strong>en</strong>tre le type <strong>de</strong> l’UT et les attributs <strong>de</strong> cette UT (Couto et al. 2005).<br />

La Tête<br />

Néanmoins ce type <strong>de</strong> délimitation <strong>de</strong>s unités est insuffisant pour traiter certains phénomènes<br />

linguistiques, tel que la discontinuité ou le recouvrem<strong>en</strong>t. Plusieurs solutions ont été<br />

proposées qui repos<strong>en</strong>t généralem<strong>en</strong>t sur les fonctionnalités offertes par X-Link et XPointer.<br />

Mais la généricité et la relative complexité <strong>de</strong> ces approches associées à l’abs<strong>en</strong>ce d’outils<br />

d’éditions sophistiqués r<strong>en</strong>d<strong>en</strong>t leur utilisation plutôt difficile dans le cadre <strong>du</strong> Traitem<strong>en</strong>t<br />

Automatique <strong>du</strong> Langage (TAL). C’est pour répondre à ce besoin, l’annotation <strong>de</strong>s structure<br />

complexes r<strong>en</strong>contrées <strong>en</strong> TAL, que quatre structures, qui sont déclarées dans la Tête, ont été<br />

définies (Couto 2006). Ces quatre structures sont nommées Ensemble, Séqu<strong>en</strong>ce, Référ<strong>en</strong>ce<br />

et Graphe et elles permett<strong>en</strong>t <strong>de</strong> déclarer <strong>de</strong> nouveaux élém<strong>en</strong>ts composés d’unités textuelles<br />

<strong>du</strong> Corps <strong>du</strong> texte. De plus, pour chacune <strong>de</strong> ces structures, <strong>de</strong>s opérations <strong>de</strong> visualisation<br />

et <strong>de</strong> navigation prédéfinies sont <strong>en</strong> cours <strong>de</strong> développem<strong>en</strong>t.<br />

Un Ensemble déclare un <strong>en</strong>semble non ordonné d’UT pour lesquelles existe, <strong>du</strong> point <strong>de</strong><br />

vue <strong>de</strong> l’annotateur, une relation d’équival<strong>en</strong>ce. Par exemple, <strong>de</strong>s UT avec <strong>de</strong>s étiquettes<br />

morpho-syntaxiques différ<strong>en</strong>tes peuv<strong>en</strong>t exprimer un même thème.<br />

Une Référ<strong>en</strong>ce décrit une relation ori<strong>en</strong>tée <strong>en</strong>tre <strong>de</strong>ux UT et une opération <strong>de</strong> navigation<br />

prédéfinie est associée à cet objet. Cette opération va <strong>du</strong> référé au référ<strong>en</strong>t. Typiquem<strong>en</strong>t<br />

une Référ<strong>en</strong>ce permet <strong>de</strong> représ<strong>en</strong>ter le li<strong>en</strong> <strong>en</strong>tre une anaphore et son référ<strong>en</strong>t discursif. Un<br />

autre exemple d’utilisation est la représ<strong>en</strong>tation <strong>de</strong>s relations rhétoriques <strong>en</strong>tre <strong>de</strong>ux propositions<br />

comme le propose la Rhetorical Structure Theory (Thompson & Mann 1988).<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

107


108<br />

Une Séqu<strong>en</strong>ce permet <strong>de</strong> décrire <strong>de</strong>s élém<strong>en</strong>ts discontinus dans un texte. Plus formellem<strong>en</strong>t,<br />

une Séqu<strong>en</strong>ce est une suite ordonnée d’élém<strong>en</strong>ts à laquelle l’annotateur attribue<br />

une cohésion. L’intérêt <strong>de</strong> ce type <strong>de</strong> structure peut être illustré sur différ<strong>en</strong>ts exemples.<br />

Le premier exemple est illustré par le besoin d’annoter un syntagme verbal dont la continuité<br />

est par exemple brisée par la négation. Ainsi, il n’est pas possible dans le Corps d’indiquer<br />

que dans la suite « ne sont pas stockées », le syntagme verbal composé <strong>de</strong> « sont » et<br />

<strong>de</strong> « stockées » constitue une seule unité, sans y inclure la marque <strong>de</strong> la négation. En effet,<br />

il est tout à fait possible <strong>de</strong> déclarer les unités indép<strong>en</strong>damm<strong>en</strong>t et <strong>de</strong> les inclure dans une<br />

autre unité, mais ce choix <strong>de</strong> segm<strong>en</strong>tation ne correspond pas à la <strong>de</strong>scription linguistique<br />

visée. Or, l’objectif est <strong>de</strong> visualiser, avec une même couleur <strong>de</strong> fond par exemple, ces <strong>de</strong>ux<br />

unités et <strong>de</strong> pouvoir décl<strong>en</strong>cher la même opération <strong>de</strong> navigation à partir d’une <strong>de</strong> ces unités.<br />

La déclaration d’une Séqu<strong>en</strong>ce composée <strong>de</strong> <strong>de</strong>ux élém<strong>en</strong>ts : « sont » et « stockées », offre<br />

cette possibilité.<br />

Les cadres thématiques (Porhiel 2003) constitu<strong>en</strong>t un <strong>de</strong>uxième exemple <strong>de</strong> l’intérêt <strong>de</strong><br />

cette structure puisqu’elle permet <strong>de</strong> déclarer les intro<strong>du</strong>cteurs <strong>de</strong> cadre comme appart<strong>en</strong>ant<br />

à une même unité.<br />

Le <strong>de</strong>rnier exemple concerne les chaînes <strong>de</strong> référ<strong>en</strong>ce lexicales. Une chaîne <strong>de</strong> référ<strong>en</strong>ce<br />

lexicale est constituée par l’<strong>en</strong>semble <strong>de</strong>s syntagmes nominaux qui réfèr<strong>en</strong>t à un même objet.<br />

Ainsi, dans un article <strong>de</strong> presse (Le Figaro, le 16 juillet 2004) sur l’amnistie fiscale 3 , on trouve<br />

pour référer à « La taxe sur les fonds rapatriés <strong>en</strong> France », dix-sept corrélats linguistiques<br />

qui réfèr<strong>en</strong>t au même référ<strong>en</strong>t dont par exemple « La taxe sur les fonds rapatriés <strong>en</strong> France »,<br />

«une taxe sur les fonds placés à l’étranger et rapatriés <strong>en</strong> France », « une telle mesure», « elle »,<br />

etc. La déclaration d’une Séqu<strong>en</strong>ce composée <strong>de</strong> toutes ces unités textuelles, et qui concrétise<br />

la chaîne <strong>de</strong> référ<strong>en</strong>ce lexicale, permet d’offrir au lecteur un parcours <strong>en</strong>tre ces élém<strong>en</strong>ts<br />

<strong>en</strong> utilisant la même opération <strong>de</strong> navigation décrite précé<strong>de</strong>mm<strong>en</strong>t.<br />

Comme l’illustr<strong>en</strong>t ces trois exemples, l’objet Séqu<strong>en</strong>ce qui combine une structure avec<br />

une opération <strong>de</strong> visualisation et une opération <strong>de</strong> navigation offre les moy<strong>en</strong>s <strong>de</strong> traiter<br />

simplem<strong>en</strong>t <strong>de</strong>s phénomènes linguistiques très fréqu<strong>en</strong>ts.<br />

Le <strong>de</strong>rnier type d’objet, Graphe est utilisé pour construire <strong>de</strong>s relations multiples <strong>en</strong>tre<br />

<strong>de</strong>s UT. Il correspond exactem<strong>en</strong>t à la notion mathématique d’un graphe (Berge 1958) où les<br />

nœuds, qui représ<strong>en</strong>t<strong>en</strong>t <strong>de</strong>s UT sont liés par <strong>de</strong>s arcs qui représ<strong>en</strong>t<strong>en</strong>t les relations <strong>en</strong>tre<br />

ces nœuds. Un Graphe permet ainsi <strong>de</strong> représ<strong>en</strong>ter un in<strong>de</strong>x comme on <strong>en</strong> trouve par exemple<br />

<strong>en</strong> fin d’ouvrage et permet ainsi <strong>de</strong> mettre <strong>en</strong> œuvre une autre conception <strong>de</strong> la navigation,<br />

plus figée que celle que nous proposons, comme celle que propose Nazar<strong>en</strong>ko (2004).<br />

Ainsi, chaque <strong>en</strong>trée générique <strong>de</strong> l’in<strong>de</strong>x est un nœud <strong>du</strong> Graphe, les relations <strong>en</strong>tre les<br />

<strong>en</strong>trées génériques et spécifiques sont représ<strong>en</strong>tées par les arcs et feuilles <strong>du</strong> graphe sont<br />

les UT <strong>du</strong> texte dont la chaîne lexicale a pour valeur une occurr<strong>en</strong>ce <strong>du</strong> terme in<strong>de</strong>xé.<br />

Le langage SEXTANT<br />

Le langage SEXTANT a pour finalité d’offrir <strong>de</strong>s fonctionnalités à la fois suffisamm<strong>en</strong>t<br />

génériques tout <strong>en</strong> proposant une sémantique qui se focalise sur l’ess<strong>en</strong>tiel <strong>du</strong> processus <strong>de</strong><br />

visualisation et <strong>de</strong> navigation dans les textes, à l’inverse <strong>de</strong> langages <strong>de</strong> transformation ou<br />

<strong>de</strong> programmation comme, par exemple, XSLT (EXt<strong>en</strong>sible Stylesheet Language) ou XPATH.<br />

Notre langage est donc <strong>de</strong> type déclaratif et propose <strong>de</strong>s opérations prédéfinies 4 .<br />

3. Ce texte fait partie <strong>de</strong>s textes recueillis et analysés par Lita Lundquist.<br />

4. Voir (Couto 2006) pour une <strong>de</strong>scription détaillée <strong>du</strong> langage <strong>de</strong> modélisation.<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).


Les vues d’un texte<br />

Le fait <strong>de</strong> pouvoir afficher un texte <strong>de</strong> manières différ<strong>en</strong>tes, et que chaque manière (vue<br />

<strong>du</strong> texte) comporte <strong>de</strong>s indications précises sur les différ<strong>en</strong>tes options d’affichage (opérations<br />

<strong>de</strong> visualisation) et sur les interactions que l’utilisateur peut effectuer (opérations <strong>de</strong> navigation)<br />

constitue l’épine dorsale <strong>de</strong> notre approche. De plus, une vue d’un texte ne montre<br />

pas nécessairem<strong>en</strong>t tous les constituants d’un texte ; il peut s’agir d’une vue partielle se focalisant<br />

sur certains aspects spécifiques ou phénomènes prés<strong>en</strong>ts dans celui-ci. Cela constitue,<br />

<strong>en</strong> quelque sorte, la vue d’un filtrage <strong>du</strong> texte.<br />

Afin <strong>de</strong> prés<strong>en</strong>ter une approche systématisée <strong>de</strong>s différ<strong>en</strong>tes vues, nous proposons une<br />

classification selon leur type et leur cont<strong>en</strong>u. Les types possibles sont : linéaire, arboresc<strong>en</strong>te<br />

et graphe tandis que les cont<strong>en</strong>us possibles sont : les chaînes lexicales et les annotations.<br />

Il <strong>en</strong> résulte qu’il existe six combinaisons possibles.<br />

Certes, d’autres types <strong>de</strong> vues à ceux prés<strong>en</strong>tés ici sont <strong>en</strong>visageables, comme les vues<br />

basées sur la technique « Focus + Context » (Lamping & Rao 1996) (Dieberger & Russell 2002),<br />

par exemple ; ou d’autres plutôt ad-hoc comme la vue « docball » (Crestani et al. 2002), qui<br />

montre la structure hiérarchique d’un docum<strong>en</strong>t. Néanmoins, le choix <strong>de</strong>s types linéaire,<br />

arboresc<strong>en</strong>te et graphe correspond à la représ<strong>en</strong>tation <strong>de</strong> texte proposée, et constitue, <strong>de</strong><br />

notre point <strong>de</strong> vue, un bon point <strong>de</strong> départ, pouvant s’<strong>en</strong>richir <strong>de</strong>s propositions et <strong>de</strong>s<br />

développem<strong>en</strong>ts postérieurs.<br />

Mo<strong>du</strong>les <strong>de</strong> connaissances et <strong>de</strong>scriptions <strong>de</strong> vue<br />

Les élém<strong>en</strong>ts constitutifs d’une vue sont spécifiés dans une <strong>de</strong>scription <strong>de</strong> vue. Plusieurs<br />

<strong>de</strong>scriptions <strong>de</strong> vue peuv<strong>en</strong>t être rassemblées dans une <strong>en</strong>tité cohér<strong>en</strong>te d’après l’<strong>en</strong>co<strong>de</strong>ur<br />

<strong>de</strong>s connaissances, nommée mo<strong>du</strong>le <strong>de</strong> connaissances. Nous pouvons concevoir la création<br />

d’une vue comme l’application d’une <strong>de</strong>scription <strong>de</strong> vue à un texte déterminé. Par analogie,<br />

l’application d’un mo<strong>du</strong>le <strong>de</strong> connaissances à un texte implique la création d’un <strong>en</strong>semble<br />

<strong>de</strong> vues. En conséqu<strong>en</strong>ce, toute vue est liée à un texte, à une <strong>de</strong>scription <strong>de</strong> vue et, indirectem<strong>en</strong>t,<br />

à un mo<strong>du</strong>le <strong>de</strong> connaissances.<br />

Une <strong>de</strong>scription <strong>de</strong> vue est id<strong>en</strong>tifiée dans le mo<strong>du</strong>le par son nom. Afin <strong>de</strong> la définir,<br />

l’<strong>en</strong>co<strong>de</strong>ur doit indiquer :<br />

– le type <strong>de</strong> vue selon les types <strong>de</strong> vue disponibles : linéaire, arboresc<strong>en</strong>te et graphe ;<br />

– le cont<strong>en</strong>u <strong>de</strong> la vue selon les cont<strong>en</strong>us disponibles : chaînes lexicales et annotations ;<br />

– ses paramètres, selon le type <strong>de</strong> représ<strong>en</strong>tation ;<br />

– ses contraintes <strong>de</strong> création (i.e. <strong>de</strong>s conditions d’appart<strong>en</strong>ance à la vue, à vérifier par les<br />

unités textuelles <strong>du</strong> texte) ;<br />

– un <strong>en</strong>semble d’opérations <strong>de</strong> visualisation ;<br />

– un <strong>en</strong>semble d’opérations <strong>de</strong> navigation ;<br />

– un <strong>en</strong>semble d’opérations <strong>de</strong> coordination.<br />

Le fait <strong>de</strong> pouvoir créer <strong>de</strong>s vues partielles d’un texte intro<strong>du</strong>it le besoin <strong>de</strong> contraintes.<br />

Il s’agit <strong>de</strong> conditions sur les UT.<br />

Le langage <strong>de</strong> conditions<br />

Une partie importante <strong>de</strong> SEXTANT est le langage <strong>de</strong> conditions. Par exemple, on utilise<br />

une condition pour exprimer <strong>de</strong>s contraintes d’appart<strong>en</strong>ance d’une UT à une vue, pour indiquer<br />

les UT sur lesquelles une mise <strong>en</strong> relief s’applique, ou bi<strong>en</strong> pour préciser la cible et la<br />

source dans la <strong>de</strong>scription d’une opération <strong>de</strong> navigation. Le langage <strong>de</strong> conditions est composé<br />

<strong>de</strong> conditions simples, <strong>de</strong> conditions d’exist<strong>en</strong>ce sur les élém<strong>en</strong>ts <strong>de</strong>s UT et <strong>de</strong> conditions<br />

sur la hiérarchie.<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

109


110<br />

Les conditions simples port<strong>en</strong>t sur les attributs et sur les annotations <strong>de</strong>s UT. Pour ce<br />

type <strong>de</strong> conditions, nous utiliserons une notation proche <strong>de</strong> la notion <strong>de</strong> patron. On définit<br />

un opérateur UT comportant cinq opéran<strong>de</strong>s qui correspond<strong>en</strong>t aux propriétés suivantes<br />

d’une UT : le Type, le Numéro, le Rang, les Annotations et la chaîne lexicale. Avec les trois<br />

premiers opéran<strong>de</strong>s on dénote <strong>de</strong>s contraintes d’égalité, d’inégalité, d’ordre (inférieur et<br />

supérieur), <strong>de</strong> préfixe, <strong>de</strong> suffixe et <strong>de</strong> sous-chaîne par rapport à <strong>de</strong>s valeurs. De même pour<br />

le cinquième opéran<strong>de</strong>. Le quatrième opéran<strong>de</strong> est utilisé pour indiquer l’exist<strong>en</strong>ce ou nonexist<strong>en</strong>ce<br />

d’annotations, que ce soit un nom d’annotation, une valeur ou un couple nom<br />

d’annotation – valeur.<br />

Pour les conditions d’exist<strong>en</strong>ce UT, un opérateur sans argum<strong>en</strong>ts est défini pour chaque<br />

élém<strong>en</strong>t (cf. tableau ci-après).<br />

existeAnnotations : teste si l’<strong>en</strong>semble d’annotations d’une UT n’est pas vi<strong>de</strong> ;<br />

existeChaîneLexicale : teste si la chaîne lexicale d’une UT est définie ;<br />

existeTitre : teste si le titre d’une UT n’est pas vi<strong>de</strong> ;<br />

existePar<strong>en</strong>t : teste si une UT a une UT par<strong>en</strong>t ;<br />

existeFils : teste si la suite d’UT filles d’une UT n’est pas vi<strong>de</strong>.<br />

Pour les conditions où se joue le rapport <strong>en</strong>tre les UT dans la hiérarchie, <strong>de</strong>s opérateurs<br />

unaires spécifiques sont définis. Ces opérateurs pr<strong>en</strong>n<strong>en</strong>t comme argum<strong>en</strong>t une condition<br />

simple. Le tableau ci-<strong>de</strong>ssus montre les opérateurs définis pour tester <strong>de</strong>s conditions sur le<br />

rapport hiérarchique <strong>de</strong>s UT.<br />

Les conditions peuv<strong>en</strong>t se combiner <strong>en</strong> utilisant les opérateurs classiques OU, ET et NON,<br />

<strong>de</strong> la logique. Voici un exemple d’expression <strong>du</strong> langage qui exprime la condition suivante :<br />

« Les UT <strong>de</strong> type SN comportant une annotation <strong>de</strong> nom Référ<strong>en</strong>t discursif, tel qu’il existe<br />

dans les asc<strong>en</strong>dants une UT <strong>de</strong> type Paragraphe qui ne comporte pas une annotation <strong>de</strong><br />

nom Étiquette Sémantique et valeur Conclusion »<br />

Les opérations <strong>de</strong> SEXTANT<br />

Tableau 1 : Opérateurs d’exist<strong>en</strong>ce sur les élém<strong>en</strong>ts <strong>de</strong>s UT.<br />

estPar<strong>en</strong>t : teste si une UT est le par<strong>en</strong>t dans la hiérarchie d’UT d’une UT décrite <strong>en</strong> utilisant<br />

une condition simple ;<br />

estFils : teste si une UT est le fils dans la hiérarchie d’UT d’une UT décrite <strong>en</strong> utilisant une<br />

condition simple ;<br />

estFrère : teste si une UT est le frère dans la hiérarchie d’UT d’une UT décrite <strong>en</strong> utilisant une<br />

condition simple ;<br />

estAsc<strong>en</strong>dant : teste si une UT est l’asc<strong>en</strong>dant dans la hiérarchie d’UT d’une UT décrite <strong>en</strong><br />

utilisant une condition simple ;<br />

estDesc<strong>en</strong>dant : teste si une UT est le <strong>de</strong>sc<strong>en</strong>dant dans la hiérarchie d’UT d’une UT décrite<br />

<strong>en</strong> utilisant une condition simple ;<br />

conti<strong>en</strong>tDansTitre : teste si une UT conti<strong>en</strong>t dans les UT <strong>du</strong> titre une UT décrite <strong>en</strong> utilisant<br />

une condition simple ;<br />

estDansTitreDe : teste si une UT apparti<strong>en</strong>t aux UT <strong>du</strong> titre d’une UT décrite <strong>en</strong> utilisant une<br />

condition simple ;<br />

Tableau 2 : Opérateurs portant sur le rapport hiérarchique <strong>de</strong>s UT.<br />

UT (Type = SN, *,*,{(Référ<strong>en</strong>t discursif, *)},*)<br />

ET<br />

estDesc<strong>en</strong>dant (UT (Type = Paragraphe,*,*,{ ¬∃(Étiquette Sémantique, Conclusion)},*))<br />

Tableau 3 : Exemple d’utilisation <strong>du</strong> langage <strong>de</strong> conditions.<br />

Des trois types d’opérations possibles (visualisation, navigation et coordination), nous<br />

nous focalisons sur les opérations <strong>de</strong> navigation. La navigation est conceptualisée comme<br />

une opération reliant une UT source avec une UT cible. La manière dont ces <strong>de</strong>ux UT sont<br />

liées est fonction <strong>de</strong> quatre paramètres :<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).


– la condition à vérifier par l’UT source ;<br />

– la condition à vérifier par l’UT cible ;<br />

– le type d’opération <strong>de</strong> navigation ;<br />

– le rapport existant <strong>en</strong>tre l’UT source et l’UT cible.<br />

Une opération <strong>de</strong> navigation est définie comme une opération qui cherche l’UT cible à<br />

partir <strong>de</strong> l’UT source, <strong>en</strong> vérifiant les différ<strong>en</strong>tes conditions et <strong>en</strong> suivant l’ori<strong>en</strong>tation relative<br />

au type d’opération. La source est définie <strong>en</strong> utilisant une condition sur les UT. Implicitem<strong>en</strong>t,<br />

une opération <strong>de</strong> navigation est disponible pour une UT déterminée si celle-ci vérifie la condition<br />

exprimée par la source. La cible est déterminée à partir <strong>de</strong> <strong>de</strong>ux paramètres : une<br />

condition à vérifier pour l’UT cible et le type d’opération <strong>de</strong> navigation. Une fois la source<br />

déterminée, plusieurs UT peuv<strong>en</strong>t vérifier la condition <strong>de</strong> la cible, et c’est le type d’opération<br />

qui indique laquelle choisir d’<strong>en</strong>tre elles. Chaque opération est donc typée avec une<br />

valeur qui apparti<strong>en</strong>t à l’<strong>en</strong>semble {premier, <strong>de</strong>rnier, suivant [i], précéd<strong>en</strong>t [i]}, i étant un<br />

nombre <strong>en</strong>tier positif. Ces valeurs spécifi<strong>en</strong>t d’une part l’ori<strong>en</strong>tation, c’est-à-dire dans quel<br />

s<strong>en</strong>s (avant ou après l’UT source) doit être effectué la recherche <strong>de</strong> l’UT cible, et d’autre part<br />

le référ<strong>en</strong>tiel, absolu (premier, <strong>de</strong>rnier), ou relatif (suivant [i], précéd<strong>en</strong>t [i]), par rapport à la<br />

source. Dans le cas d’un référ<strong>en</strong>cem<strong>en</strong>t relatif, l’in<strong>de</strong>x i permet <strong>de</strong> spécifier le rang <strong>de</strong> la<br />

cible recherchée. Par exemple, le type « Suivant [3] » s’interprète comme la recherche, dans<br />

les UT vérifiant les conditions spécifiées pour la cible (i.e. les cibles pot<strong>en</strong>tielles), <strong>de</strong> la troisième<br />

unité textuelle située après l’unité textuelle source.<br />

opérationNavigation → OpNav (nomOpérationNavigation,<br />

typeOpérationNavigation,<br />

source,<br />

cible)<br />

nomOpérationNavigation → valeur<br />

typeOpérationNavigation → premier | <strong>de</strong>rnier | suivant [valeur] |<br />

précéd<strong>en</strong>t [valeur]<br />

source → condition<br />

cible → condition<br />

Tableau 4 : Grammaire correspondant aux opérations <strong>de</strong> navigation.<br />

Dans sa première version, la puissance d’expression <strong>du</strong> langage était limitée par la nécessité<br />

d’exprimer <strong>de</strong> manière absolue les conditions sur les valeurs <strong>de</strong>s attributs <strong>de</strong>s UT. Cette<br />

limitation avait par exemple pour conséqu<strong>en</strong>ce l’obligation d’écrire une opération <strong>de</strong> navigation<br />

différ<strong>en</strong>te pour naviguer <strong>en</strong>tre chaque anaphore et son référ<strong>en</strong>t discursif. Dernièrem<strong>en</strong>t,<br />

nous avons <strong>en</strong>richi le langage <strong>de</strong> conditions par la possibilité d’exprimer <strong>de</strong>s relations <strong>en</strong>tre<br />

les valeurs <strong>de</strong>s attributs <strong>de</strong>s UT <strong>de</strong> la source et <strong>de</strong> la cible, ce qui <strong>en</strong>traîne qu’une seule<br />

opération <strong>de</strong> navigation suffit pour traiter la navigation évoquée ci-<strong>de</strong>ssus Les opérations<br />

<strong>de</strong> coordination, que nous ne détaillerons pas, ont pour finalité <strong>de</strong> synchroniser les déplacem<strong>en</strong>ts<br />

<strong>du</strong> point <strong>de</strong> lecture dans les différ<strong>en</strong>tes <strong>de</strong> vue d’un même texte. Quant aux opérations<br />

<strong>de</strong> visualisation, elles permett<strong>en</strong>t <strong>de</strong> spécifier les attributs visuels (police, couleur,<br />

espacem<strong>en</strong>t, etc.) <strong>de</strong> chaque vue.<br />

Implém<strong>en</strong>tation dans NaviTexte<br />

Une première version développée <strong>en</strong> langage Java nous a permis <strong>de</strong> vérifier la validité <strong>de</strong><br />

nos hypothèses. La plate-forme est ainsi composée <strong>de</strong> différ<strong>en</strong>ts sous-systèmes. Un premier<br />

sous-système se charge <strong>de</strong> construire à partir d’un texte annoté, la représ<strong>en</strong>tation décorée<br />

<strong>du</strong> texte ; un <strong>de</strong>uxième sous-système gère les interactions avec l’utilisateur <strong>en</strong> chargeant et <strong>en</strong><br />

interprétant à la <strong>de</strong>man<strong>de</strong> les mo<strong>du</strong>les <strong>de</strong> navigation (écrits dans le langage SEXTANT). Le<br />

résultat <strong>de</strong> l’interprétation est un graphe <strong>de</strong> parcours qui est projeté sur la représ<strong>en</strong>tation<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

111


112<br />

<strong>du</strong> texte La visualisation effective est assurée par un troisième sous-système qui sélectionne<br />

5<br />

dans la base <strong>de</strong>s modèles une ou plusieurs formes sémiotiques {Sd}<br />

spécifiées dans le<br />

mo<strong>du</strong>le. Il faut souligner qu’à tout mom<strong>en</strong>t un lecteur peut charger un mo<strong>du</strong>le spécifique et<br />

que l’interprétation <strong>de</strong> celui-ci s’applique sur le ou les textes <strong>en</strong> cours. Enfin, <strong>de</strong>s sous-sytèmes<br />

spécifiques se charg<strong>en</strong>t <strong>de</strong> mémoriser les actions <strong>du</strong> lecteur afin <strong>de</strong> gérer un historique.<br />

Applications<br />

Plusieurs projets, qui s’appui<strong>en</strong>t sur plateforme NaviTexte,<br />

sont <strong>en</strong> cours. Ils recouvr<strong>en</strong>t<br />

<strong>de</strong>s finalités très différ<strong>en</strong>tes, qui vont <strong>du</strong> parcours <strong>de</strong> lecture comme procédé <strong>de</strong> résumé<br />

automatique, à l’appr<strong>en</strong>tissage <strong>du</strong> français comme langue secon<strong>de</strong>, à l’exploration <strong>de</strong>s s<strong>en</strong>tim<strong>en</strong>ts<br />

éprouvés par un <strong>de</strong>s personnages dans un roman (Mathieu 2004). Nous prés<strong>en</strong>tons<br />

ci-<strong>de</strong>ssous les <strong>de</strong>ux premières applications qui sont les plus avancées.<br />

Parcours <strong>de</strong> lecture comme procédé <strong>de</strong> résumé automatique<br />

Un grand nombre <strong>de</strong> systèmes <strong>de</strong> résumé automatique ont été proposés ces <strong>de</strong>rnières<br />

années (Mani 2001, Minel 2003). Tous ces systèmes, fondés sur le principe <strong>de</strong> l’extraction <strong>de</strong><br />

phrases, ont été confrontés à <strong>de</strong>ux problèmes intrinsèques au procédé d’extraction. D’une<br />

part, à la rupture <strong>de</strong> la cohésion textuelle, comme par exemple la prés<strong>en</strong>ce d’anaphores sans<br />

leur référ<strong>en</strong>t discursif. D’autre part, à l’adaptation <strong>du</strong> résumé aux besoins spécifiques d’un<br />

lecteur. Jusqu’à prés<strong>en</strong>t ces problèmes n’ont pas reçu <strong>de</strong> solutions totalem<strong>en</strong>t satisfaisantes.<br />

Une autre approche consiste à considérer le processus <strong>de</strong> résumé comme un cheminem<strong>en</strong>t,<br />

plus exactem<strong>en</strong>t un parcours <strong>de</strong> lecture, dans le texte source qui soit propre au lecteur. Ainsi<br />

plutôt que <strong>de</strong> construire <strong>de</strong>s fragm<strong>en</strong>ts textuels, nous proposons <strong>de</strong>s parcours <strong>de</strong> lecture<br />

spécifiques.<br />

Un exemple <strong>de</strong> parcours <strong>de</strong> lecture est illustré par la figure 1. Il s’agit d’un texte qui a<br />

été préalablem<strong>en</strong>t annoté par un système automatique, comme ContextO (Minel et al. 2001)<br />

5. Nous repr<strong>en</strong>ons ainsi la définition d’un texte proposée par Y. Jeanneret (2004) : « un texte est une configuration<br />

sémiotique empirique attestée, pro<strong>du</strong>ite dans une pratique sociale déterminée et fixée sur un support».<br />

Schedae,<br />

2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

Figure 1 : Proposition <strong>de</strong> parcours <strong>de</strong> lecture.


ou Linguastream (Bilhaut 2003). Les annotations sont <strong>du</strong> type « Annonce Thématique », « Conclusion<br />

», « Soulignem<strong>en</strong>t Auteur », etc 6 . On peut voir sur la figure, que le système propose<br />

au lecteur quatre parcours <strong>de</strong> lecture différ<strong>en</strong>ts, suivant que celui-ci s’intéresse plutôt aux<br />

thèmes <strong>de</strong> l’article, à son argum<strong>en</strong>tation ou à ses conclusions. Ainsi, dans la continuité <strong>de</strong> sa<br />

lecture <strong>du</strong> texte, le lecteur se voit proposer, par une signalétique spécifique, <strong>de</strong>s parcours<br />

spécifiques sans rupture <strong>de</strong> la cohésion textuelle puisqu’il voir à tout instant le texte complet,<br />

ce qui lui permet <strong>en</strong>tre autre d’assurer la continuité référ<strong>en</strong>tielle (Battistelli & Minel 2006).<br />

Enseignem<strong>en</strong>t <strong>du</strong> français <strong>en</strong> langue secon<strong>de</strong><br />

L’utilisation <strong>de</strong> la navigation textuelle a <strong>de</strong>s fins pédagogiques est <strong>en</strong> cours à travers le<br />

projet NaviLire, fruit d’une collaboration <strong>en</strong>tre Lita Lundquist et nous-mêmes (Couto et al.<br />

2005, Lundquist et al. 2006). En conséqu<strong>en</strong>ce, nous repr<strong>en</strong>ons brièvem<strong>en</strong>t ci-<strong>de</strong>ssous les<br />

principaux concepts et résultats exposés dans les <strong>de</strong>ux articles cités.<br />

Par ce procédé, par lequel le lecteur appr<strong>en</strong>d à naviguer dans un texte <strong>en</strong> suivant ses<br />

différ<strong>en</strong>tes pistes <strong>de</strong> cohér<strong>en</strong>ce – basées sur la référ<strong>en</strong>ce, sur la prédication et sur les connecteurs<br />

– nous attaquons <strong>de</strong>s problèmes cognitifs cruciaux pour lire, compr<strong>en</strong>dre et interpréter<br />

correctem<strong>en</strong>t un texte, ainsi que pour appr<strong>en</strong>dre par les textes. Le premier problème<br />

consiste à id<strong>en</strong>tifier les référ<strong>en</strong>ts discursifs d’un texte et d’établir les relations correctes <strong>en</strong>tre<br />

les SN qui y réfèr<strong>en</strong>t.<br />

Le second problème cognitif consiste à id<strong>en</strong>tifier le « où veut <strong>en</strong> v<strong>en</strong>ir l’émetteur » <strong>du</strong><br />

texte. Cette ori<strong>en</strong>tation – expressive, argum<strong>en</strong>tative, et d’autre – a été qualifiée <strong>de</strong> « programme<br />

d’interprétation » (Lundquist 1990, 1993), étant donné qu’il s’agit d’une ori<strong>en</strong>tation<br />

marquée dès le début <strong>du</strong> texte, qui agit tel un « programme » qui fonctionne <strong>du</strong> général au<br />

particulier, et qui permet d’id<strong>en</strong>tifier <strong>de</strong>s marques suivantes dans le texte, c’est-à-dire <strong>du</strong><br />

spécifique au générique, qui «vont dans le même s<strong>en</strong>s » (voir macrostructure et microstructure,<br />

Kintsch 1998). Cette id<strong>en</strong>tification <strong>de</strong> l’ori<strong>en</strong>tation, apportée <strong>en</strong>tre autres par les prédications,<br />

est primordiale pour un déchiffrage correct <strong>de</strong> la cohér<strong>en</strong>ce sémantique et pragmatique <strong>du</strong><br />

texte.<br />

Finalem<strong>en</strong>t, les connecteurs soulign<strong>en</strong>t les relations rhétoriques à établir <strong>en</strong>tre <strong>de</strong>s propositions<br />

ou autres séqu<strong>en</strong>ces <strong>du</strong> texte, ce qui contribue, évi<strong>de</strong>mm<strong>en</strong>t, <strong>de</strong> manière ess<strong>en</strong>tielle<br />

à établir les relations nécessaires pour construire la représ<strong>en</strong>tation m<strong>en</strong>tale correcte <strong>du</strong><br />

texte, c’est-à-dire, <strong>de</strong> son cont<strong>en</strong>u et <strong>de</strong> son acte illocutoire prédominant, tel informer, persua<strong>de</strong>r,<br />

convaincre, narrer, décrire, etc.<br />

Dans le cadre <strong>du</strong> projet NaviLire, pour naviguer dans l’objet texte, nous avons isolé <strong>de</strong>s<br />

unités textuelles qui permett<strong>en</strong>t <strong>de</strong> spécifier <strong>de</strong>s opérations <strong>de</strong> navigation, ce qui équivaut à<br />

établir <strong>de</strong>s li<strong>en</strong>s <strong>de</strong> cohér<strong>en</strong>ce <strong>en</strong>tre <strong>de</strong>s unités <strong>de</strong> même nature. Comme les élém<strong>en</strong>ts textuels<br />

apparti<strong>en</strong>n<strong>en</strong>t à <strong>de</strong>s types différ<strong>en</strong>ts, la navigation permet d’une part <strong>de</strong> suivre <strong>de</strong>s pistes <strong>de</strong><br />

cohér<strong>en</strong>ce différ<strong>en</strong>tes dans un même texte, et d’autre part d’<strong>en</strong> id<strong>en</strong>tifier les réalisations<br />

linguistiques dans une langue donnée (ici et pour le mom<strong>en</strong>t, le français). Plutôt que <strong>de</strong><br />

manipuler <strong>de</strong>s structures textuelles hiérarchiques (Couto & Minel 2004), nous distinguons<br />

ici <strong>de</strong>s pistes parallèles <strong>de</strong> marques textuelles qui chacune contribue à un type particulier<br />

<strong>de</strong> cohér<strong>en</strong>ce.<br />

Ces types <strong>de</strong> cohér<strong>en</strong>ce sont fondés, grosso modo, sur les principes exposés dans les<br />

nombreux travaux <strong>de</strong> Lita Lundquist selon lesquels on peut distinguer dans les textes une<br />

cohér<strong>en</strong>ce référ<strong>en</strong>tielle, une cohér<strong>en</strong>ce prédicative et une cohér<strong>en</strong>ce pragmatique, fondée<br />

respectivem<strong>en</strong>t sur les trois actes <strong>de</strong> langage : la référ<strong>en</strong>ce, la prédication et l’illocution qui<br />

<strong>en</strong>tr<strong>en</strong>t dans l’énonciation <strong>de</strong> chaque phrase (Searle 1969).<br />

6. Voir (Minel et al. 2001) pour plus <strong>de</strong> détails.<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

113


114<br />

Jusqu’à prés<strong>en</strong>t, NaviLire a été mis <strong>en</strong> pratique auprès d’étudiants Danois <strong>de</strong> Quatrième<br />

année d’étu<strong>de</strong>s dans le cursus <strong>de</strong> Language and Communication at the Cop<strong>en</strong>hag<strong>en</strong> Business<br />

School. Un « pilote » a permis <strong>de</strong> réaliser une première expéri<strong>en</strong>ce auprès <strong>de</strong> 14 étudiants,<br />

divisés <strong>en</strong> <strong>de</strong>ux groupes, les « Papiristes » qui lis<strong>en</strong>t le texte <strong>en</strong> utilisant les métho<strong>de</strong>s traditionnellem<strong>en</strong>t<br />

utilisées dans ce cursus, et les « NaviListes » qui lis<strong>en</strong>t le même texte avec NaviLire.<br />

Les premiers résultats (cf. tableau 5), fondés sur les réponses d’un questionnaire composé<br />

<strong>de</strong> 40 questions, dont 35 sur le cont<strong>en</strong>u <strong>du</strong> texte, (voir Lundquist et al. 2006 pour le détail <strong>de</strong><br />

l’expéri<strong>en</strong>ce) montr<strong>en</strong>t que les « Navilistes » ont une performance (mesurée par le nombre <strong>de</strong><br />

bonnes réponses aux questions) <strong>de</strong> compréh<strong>en</strong>sion <strong>du</strong> texte qui est supérieure au «Papiristes »<br />

pour 14 questions, id<strong>en</strong>tique pour 16 autres questions et inférieure pour 5 questions.<br />

Performances <strong>de</strong>s « Navilistes » supérieures au<br />

« Papiristes »<br />

Performances <strong>de</strong>s « Navilistes » id<strong>en</strong>tiques au<br />

« Papiristes »<br />

Performances <strong>de</strong>s « Navilistes » inférieures au<br />

« Papiristes »<br />

Conclusion<br />

Nous avons montré que la navigation dans un texte, processus cognitif complexe, peut<br />

être modélisée à l’ai<strong>de</strong> <strong>du</strong> langage SEXTANT. Les applications créées <strong>en</strong> utilisant la plateforme<br />

logicielle NaviTexte, qui implém<strong>en</strong>te un interpréteur <strong>du</strong> langage SEXTANT, sont assez<br />

hétérogènes, ce qui est pour nous une preuve <strong>de</strong> la souplesse <strong>de</strong> NaviTexte <strong>en</strong> tant que<br />

plate-forme d’expérim<strong>en</strong>tation. Les premiers résultats obt<strong>en</strong>us, notamm<strong>en</strong>t dans l’application<br />

NaviLire illustr<strong>en</strong>t le pouvoir d’expression <strong>de</strong> ce langage ainsi que sa flexibilité. Néanmoins,<br />

ces applications nous ont confrontés à <strong>de</strong> nouveaux besoins. D’une part, nous cherchons à<br />

modéliser <strong>de</strong>s phénomènes discursifs qui mett<strong>en</strong>t <strong>en</strong> jeu <strong>de</strong>s relations d’ordre (par exemple,<br />

l’ordre chronologique). D’autre part, nous travaillons actuellem<strong>en</strong>t à <strong>de</strong>s ext<strong>en</strong>sions <strong>du</strong> langage<br />

et à son implém<strong>en</strong>tation dans NaviTexte afin <strong>de</strong> pouvoir exprimer <strong>de</strong>s opérations <strong>de</strong><br />

navigation sur ces structures discursives.<br />

Remerciem<strong>en</strong>ts<br />

NaviLire a reçu un souti<strong>en</strong> financier <strong>en</strong> 2005 <strong>de</strong> l’Ambassa<strong>de</strong> <strong>de</strong> France au Danemark.<br />

NaviTexte est sout<strong>en</strong>u par un programme ECOS-Sud (U05H01).<br />

Bibliographie<br />

BACCINO T. (2004), La lecture électronique, Gr<strong>en</strong>oble, Presses universitaires <strong>de</strong> Gr<strong>en</strong>oble.<br />

BATTISTELLI D., MINEL J.-L. (2006), « Les systèmes <strong>de</strong> résumé automatique: comm<strong>en</strong>t assurer une continuité<br />

référ<strong>en</strong>tielle dans la lecture <strong>de</strong>s textes », in Compréh<strong>en</strong>sion <strong>de</strong>s langues et interaction, G. Sabah (éd.),<br />

Paris, Lavoisier, p. 295-330.<br />

BERGE C. (1958), Théorie <strong>de</strong>s Graphes, Paris, Dunod, France.<br />

BILHAUT F. (2003), « The Linguastream Platform », in Proceedings of the 19th Spanish Society for Natural<br />

Language Processing Confer<strong>en</strong>ce (SEPLN), Alcalá <strong>de</strong> H<strong>en</strong>ares, Espagne, p. 339-340.<br />

COTTE D. (2004), « Leurres, ruses, désori<strong>en</strong>tation dans les écrits <strong>de</strong> réseau: la métis à l’écran. », Communication<br />

& langages, 139, avril 2004, p. 63-74.<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

Nombre <strong>de</strong> questions Pourc<strong>en</strong>tage<br />

14 40<br />

16 45,7<br />

5 14,3<br />

Total 35 100<br />

Tableau 5 : Comparaison <strong>de</strong>s performances <strong>en</strong>tre « NaviListes » et « Papiristes ».


COUTO J. (2001), ContextO, Los sistemas <strong>de</strong> exploracion contextual <strong>de</strong> cara al usuario, Mémoire <strong>de</strong><br />

Master, <strong>Université</strong> <strong>de</strong> la République, Uruguay (dactyl.).<br />

COUTO J., (2006), Modélisation <strong>de</strong>s connaissances pour une navigation textuelle assistée. La plate-forme<br />

logicielle NaviTexte, Thèse <strong>en</strong> cours, <strong>Université</strong> Paris-Sorbonne.<br />

COUTO J., MINEL J.-L (2004), « Outils dynamiques <strong>de</strong> fouilles textuelles », in Actes <strong>de</strong> RIAO 2004, Avignon,<br />

p. 420-430.<br />

COUTO J., LUNDQUIST L., MINEL J.-L (2005), « Naviguer pour appr<strong>en</strong>dre », in Actes <strong>de</strong> EIAH 2005, Montpellier,<br />

p. 45-56.<br />

CRESTANI F., DE LA FUENTE P., VEGAS J. (2002), « Experim<strong>en</strong>ting with graphical user interface structured<br />

docum<strong>en</strong>t retrieval », in Proceedings of the SIGIR’02, Tampere, Finlan<strong>de</strong>.<br />

DANIELSON D.R. (2002), « Web navigation and the behavioral effects of constantly visible site maps »,<br />

Interacting with Computers, 14, 5, p. 601-618.<br />

DIEBERGER A., RUSSELL D.M. (2002), « Exploratory navigation in large multimedia docum<strong>en</strong>ts using Context<br />

L<strong>en</strong>ses », in Proceedings of the 35th Hawaii International Confer<strong>en</strong>ce on System Sci<strong>en</strong>ces, Hawaii.<br />

EDWARDS D.M., HARDMAN L., (1989), «Lost in hyperspace: cognitive mapping and navigation in a hypertext<br />

<strong>en</strong>vironm<strong>en</strong>t », in Hypertext : Theory and Practice, R. McAleese (éd.), Oxford, Intellect Books, Angleterre,<br />

p. 105-125.<br />

ENDRES-NIGGEMEYER B., MAIER E., SIGEL A. (1995), « How to implem<strong>en</strong>t a naturalistic mo<strong>de</strong>l of abstracting:<br />

four core working steps of an expert abstractor», Information Processing & Managem<strong>en</strong>t, 31, 5, p. 631-674.<br />

KINTSCH W. (1998), Compreh<strong>en</strong>sion. A Paradigm for Cognition, Cambridge, Cambridge University<br />

Press, 1998/2003.<br />

JEANNERET Y. (2004), « Le procès <strong>de</strong> la numérisation <strong>de</strong> la culture », Protée, 32, 2.<br />

LAMPING J., RAO R. (1996), « The Hyperbolic Browser : A Focus + Context technique for visualizing large<br />

hierarchies », in Readings in Information Visualization : Using Vision to Think, Morgan Kaufmann Publishers,<br />

1999, p. 382-408.<br />

LUNDQUIST L. (1990), L’analyse textuelle. Métho<strong>de</strong>, exercices, Cop<strong>en</strong>hague, Nordisk Forlag.<br />

LUNDQUIST L. (1993), « La Cohér<strong>en</strong>ce textuelle argum<strong>en</strong>tative, illocution, int<strong>en</strong>tion et <strong>en</strong>gagem<strong>en</strong>t <strong>de</strong><br />

consistance », Revue québécoise <strong>de</strong> linguistique, 22, 2, p. 109-138.<br />

LUNDQUIST L., MINEL J.L., COUTO J. (2006), « NaviLire, Teaching Fr<strong>en</strong>ch by Navigating in Texts », accepté à<br />

IPMU 2006, Paris, Juin 2006.<br />

MANI I. (2001), Automatic Summarization, Amsterdam, John B<strong>en</strong>jamins Publishing Company.<br />

MATHIEU Y. Y. (2004), « Linguistic Knowledge and Automatic Semantic Repres<strong>en</strong>tation of Emotions and<br />

Feelings. », in Proceedings of the International Confer<strong>en</strong>ce on Information Technology (ITCC 2004),<br />

IEEE Computer Society, p. 314-318.<br />

MINEL J.-L., CARTIER E., CRISPINO G., DESCLÉS J.-P., BEN HAZEZ S., JACKIEWICZ A., (2001), «Résumé automatique<br />

par filtrage sémantique d’informations dans <strong>de</strong>s textes, Prés<strong>en</strong>tation <strong>de</strong> la plate-forme FilText », Technique<br />

et Sci<strong>en</strong>ce Informatiques, 3, p. 369-396.<br />

MINEL J.-L. (2003), Filtrage sémantique. Du résumé à la fouille <strong>de</strong> textes, Paris, Hermès, France.<br />

NAZARENKO A. (2005), « Sur quelle sémantique repos<strong>en</strong>t les métho<strong>de</strong>s automatiques d’accès au cont<strong>en</strong>u<br />

textuel », in Sémantique et Corpus, A. Condamines (éd.), Paris, Hermès, France, p. 211-239.<br />

PERY-WOODLEY M.-P. (2005), « Discours, corpus, traitem<strong>en</strong>ts automatiques », in Sémantique et Corpus,<br />

A. Condamines (éd.), Paris, Hermès, France, p. 177-205.<br />

PORHIEL S (2003), « Les intro<strong>du</strong>cteurs <strong>de</strong> cadre thématique », Cahiers <strong>de</strong> Lexicologie, 83, 2, p. 1-36.<br />

SEARLE J. (1969), Speech Acts, An Essay in the Philosophy of Language, Cambridge, Cambridge University<br />

Press.<br />

SOUCHIER E., JEANNERET Y., LE MAREC J. (2003), Lire, écrire, récrire : objets signes et pratiques <strong>de</strong>s médias<br />

informatisés, Paris, Bibliothèque publique d’information.<br />

THOMPSON S., MANN W. (1988), « Rhetorical structure theory, a framework for the analysis of texts », IPRA<br />

Papers in Pragmatics, p. 79-105.<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).<br />

115


116<br />

Schedae, 2006, prépublication n°13, (<strong>fascicule</strong> n°1, p. 105-116).


Schedae,<br />

2006<br />

Prépublication n° 14 Fascicule n° 1<br />

Hypertext and Plurilinearity:<br />

Chall<strong>en</strong>ging an Old-fashioned<br />

Discourse Mo<strong>de</strong>l<br />

Birgitta Bext<strong>en</strong><br />

Leid<strong>en</strong> University C<strong>en</strong>ter for Linguistics (LUCL)<br />

Departem<strong>en</strong>t for German Studies – University of Leid<strong>en</strong> – Leid<strong>en</strong>, The Netherlands<br />

b.bext<strong>en</strong>@let.leid<strong>en</strong>univ.nl<br />

Abstract :<br />

Hypertexts are special. Particularly their network structure is a chall<strong>en</strong>ge for discourse linguists to<br />

<strong>de</strong>scribe. In this paper, I <strong>de</strong>monstrate how we can accept this chall<strong>en</strong>ge using an old-fashioned<br />

but exceptional text mo<strong>de</strong>l, namely Roland Harweg's (1974) concept of plurilinearity. This mo<strong>de</strong>l<br />

allows <strong>de</strong>scribing the main hypertext features: text bifurcations, simultaneously existing text strings,<br />

and text combinations from a discourse linguistic point of view.<br />

Keywords: global discourse structure, discourse organising mo<strong>de</strong>l, hypertext.<br />

Résumé :<br />

Les hypertextes sont particuliers. Notamm<strong>en</strong>t, leur structure <strong>en</strong> réseau est un défi pour les linguistes<br />

étudiant le discours. Dans cet article, je montre comm<strong>en</strong>t relever ce défi <strong>en</strong> utilisant un<br />

modèle <strong>de</strong> texte démodé, mais exceptionnel: le concept <strong>de</strong> plurilinéarité <strong>de</strong> Roland Harweg (1974).<br />

Ce modèle permet <strong>de</strong> décrire les principales propriétés <strong>de</strong> l'hypertexte: les bifurcations <strong>de</strong> texte,<br />

l'exist<strong>en</strong>ce simultanée <strong>de</strong> chaînes textuelles, et les combinaisons <strong>de</strong> textes <strong>du</strong> point <strong>de</strong> vue <strong>de</strong> la<br />

linguistique <strong>du</strong> discours.<br />

Mots-clés: structure globale <strong>du</strong> discours, modèle d'organisation <strong>du</strong> discours, hypertexte.<br />

The starting point<br />

While traditional texts in principle form a single reading sequ<strong>en</strong>ce, texts in a hypertext<br />

<strong>en</strong>vironm<strong>en</strong>t split up, recombine and provi<strong>de</strong> simultaneously existing reading paths. Ev<strong>en</strong><br />

if the rea<strong>de</strong>r re-linearises (parts of) the hypertext while reading it, the text structurally remains<br />

a network. Obviously, this does not apply to lexicon-like hypertexts. Lexicons consist of several<br />

linked, but in<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t texts. Therefore, they are less interesting here. Only hypertexts<br />

that pres<strong>en</strong>t a single text, e.g. hypernovels, <strong>en</strong>tail the chall<strong>en</strong>ge of structurally concat<strong>en</strong>ating<br />

all text parts in a single network.<br />

Birgitta Bext<strong>en</strong><br />

« Hypertext and Plurilinearity: Chall<strong>en</strong>ging an Old-fashioned Discourse Mo<strong>de</strong>l »<br />

Schedae,<br />

2006, prépublication n°14, (<strong>fascicule</strong> n°1, p. 117-122).<br />

117


118<br />

But how special really are those non-linear texts? Many discourse linguists have already<br />

argued that no text is a purely linear ph<strong>en</strong>om<strong>en</strong>on (e.g. Petöfi 1971, Rieser 1980, van Dijk 1978).<br />

The linear text surface is based on an un<strong>de</strong>rlying non-linear semantic structure. In addition, the<br />

thematic text progression is not linear but rather hierarchic (Harweg 2001). Especially longer<br />

texts t<strong>en</strong>d to be thematically segm<strong>en</strong>ted into hierarchic units like chapters or paragraphs.<br />

Consi<strong>de</strong>ring these conditions, it seems worth looking for an existing theory which is able<br />

to <strong>de</strong>al with the global, network-like hypertext structure. But – and this ‘but’ is crucial – this<br />

mo<strong>de</strong>l should not only account for the un<strong>de</strong>rlying semantics, because in terms of their global<br />

meaning structure, hypertexts hardly differ from any other texts. What really differs is the surface.<br />

Therefore, the linguistic mo<strong>de</strong>l should be applicable to a non-linear surface structure.<br />

Harweg’s mo<strong>de</strong>l of plurilinearity<br />

One theory that plays to this requirem<strong>en</strong>t is the concept of plurilinearity which Harweg<br />

(1974) intro<strong>du</strong>ces in his article “Bifurcations <strong>de</strong> textes”, and which has be<strong>en</strong> augm<strong>en</strong>ted by<br />

Tschau<strong>de</strong>r (1989). Harweg points out that the traditional assumption of structurally linear texts<br />

is incomplete. He argues that not ev<strong>en</strong> traditional texts are necessarily unilinear; ev<strong>en</strong> though<br />

this applies to most of them. Oral discourses (e.g. discussions betwe<strong>en</strong> more than three people)<br />

as well as writt<strong>en</strong> discourses (e.g. texts with footnotes) can bifurcate and thus become<br />

plurilinear. The only condition is that all resulting text strings are connected with the same<br />

initial text part by means of usual text-building <strong>de</strong>vices. Two differ<strong>en</strong>t text strings can ev<strong>en</strong><br />

be recombined if someone refers to both of them in the same utterance.<br />

The mere possibility of plurilinearity becomes a presupposition in hypertext: without<br />

text bifurcations and recombinations, there would be no network.<br />

In the remin<strong>de</strong>r, I show to what ext<strong>en</strong>d the features of plurilinear texts and texts in a hypertext<br />

<strong>en</strong>vironm<strong>en</strong>t match and of what use Harweg’s mo<strong>de</strong>l can be for <strong>de</strong>scribing the global<br />

structure of hypertext.<br />

Text bifurcations<br />

Consi<strong>de</strong>r the following example: imagine that this text were a lecture I would be pres<strong>en</strong>ting.<br />

Imagine that the mom<strong>en</strong>t I start reading “Hypertexts are special” one of the list<strong>en</strong>ers<br />

would inform his neighbour un<strong>de</strong>r his breath: “That’s completely nons<strong>en</strong>se! I just read the<br />

other day…” In this case, That would directly refer to my statem<strong>en</strong>t. In a normal conversation<br />

I would most likely react immediately and we would get a normal linear oral text. But in<br />

the curr<strong>en</strong>t case, what we get are two differ<strong>en</strong>t text strings which both refer to one and the<br />

same preceding unilinear part. Both strings textually continue this unilinear part, and therefore,<br />

both parts belong to the same text. Only that this text is not unilinear any more, instead<br />

it has bifurcated and has become plurilinear: <strong>du</strong>e to the bifurcation we get two simultaneously<br />

continuing text strings.<br />

The same is true for texts with footnotes. In the following example from Halliday (2004,<br />

71), the initial text string is connected simultaneously with the pronouns This in the main text<br />

and It in the footnote.<br />

“If I say what the <strong>du</strong>ke did was give my aunt that teapot, the nominalization what the<br />

<strong>du</strong>ke did carries the meaning 'and that's all he did, in the context of what we are talking<br />

about'.* This is also the explanation of the marked form […].<br />

*It further indicates […] something about the role of the <strong>du</strong>ke […]”<br />

Schedae, 2006, prépublication n°14, (<strong>fascicule</strong> n°1, p. 117-122).<br />

Figure 1: Text bifurcation in print texts.


Now consi<strong>de</strong>r the following (translated and slightly short<strong>en</strong>ed) extracts from Berk<strong>en</strong>heger’s<br />

(1997) hypernovel “Zeit für die Bombe”.<br />

“The fourth doctor told about his case.<br />

One of his most tal<strong>en</strong>ted stud<strong>en</strong>ts just<br />

has be<strong>en</strong> tak<strong>en</strong> to the psychiatry. ‘And<br />

guess, why? He didn’t want to drop his<br />

suitcase.’<br />

The doctor’s hands […].”<br />

Here, too the initial text continues without a break in the first unit and at the same time is<br />

procee<strong>de</strong>d in the link’s target unit.<br />

Both, texts with footnotes just as well as hypertexts, confront the rea<strong>de</strong>r with a dilemma:<br />

the text splits up at the word which is followed by a footnote marker or functions as a hypertext<br />

link. The rea<strong>de</strong>r has to <strong>de</strong>ci<strong>de</strong> whether to read on in the curr<strong>en</strong>t hypertext no<strong>de</strong> or whether<br />

to branch off and pursue the link’s target no<strong>de</strong>. He has to follow one of the two simultaneously<br />

existing reading paths. Both subsequ<strong>en</strong>t text strings are textually connected with the preceding<br />

text part and, thus, offer just two differ<strong>en</strong>t versions of the proceeding story.<br />

Main strings vs. si<strong>de</strong> strings<br />

Figure 2: Text bifurcation in hypertext.<br />

“The walls murmured that Iwan shouldn’t<br />

op<strong>en</strong> somebody else’s suitcase, Veronika’s<br />

least of all.”<br />

The explanations above show why hypertexts sometimes are referred to as g<strong>en</strong>eralised<br />

footnotes (e.g. Niels<strong>en</strong> 1995, 2). Ev<strong>en</strong> though, there is a fundam<strong>en</strong>tal differ<strong>en</strong>ce betwe<strong>en</strong><br />

footnote texts and hypertext units. For footnotes, just as remarks <strong>du</strong>ring a lecture, only supplem<strong>en</strong>t<br />

the main text. The text does not become incompreh<strong>en</strong>sible without them. Niels<strong>en</strong><br />

(ibd.) explains in a footnote “I guess you <strong>de</strong>ci<strong>de</strong>d to read the footnote this time. But you could<br />

just as easily have skipped it.“ In hypertext on the other hand, especially in fictional hypertexts,<br />

most units are part of the main text. Ev<strong>en</strong> if some hypertext units do have footnote<br />

character, the main text itself would be incomplete without interconnected units. Describing<br />

hypertext as a g<strong>en</strong>eralised footnote means overlooking this fact.<br />

Therefore, to really get a grip on the global structure of hypertext, it would be useful to<br />

find plurilinear texts without si<strong>de</strong> strings. And, in<strong>de</strong>ed, plurilinear texts can do without si<strong>de</strong><br />

strings, too.<br />

Consi<strong>de</strong>r the following macrotext 1 example (Harweg 1974, 57f):<br />

(Situation: Mother and two suns sitting in the living room. Father <strong>en</strong>ters.)<br />

Father: Look, darling, I bought something for you, a vase.<br />

(All four talk about the vase for a while. … Several weeks later.)<br />

Peter: I broke the vase.<br />

Paul: What vase?<br />

Peter: The vase father<br />

lately bought for mother.<br />

Figure 3: Text bifurcation in plurilinear macrotexts.<br />

Mother: Darling, the vase is gone.<br />

Father: What vase?<br />

Mother: The vase you gave to me<br />

several weeks ago.<br />

1. Macrotexts, as Harweg (1970) <strong>de</strong>scribes them, usually are not recognised as single texts by the intuition of the<br />

normal language user. They consist of at least two differ<strong>en</strong>t disconnected microtexts, i.e. texts that could<br />

roughly be characterised as normal texts. Several microtexts form one macrotext if they are connected by<br />

normal text building <strong>de</strong>vices as is the case in the example giv<strong>en</strong> above.<br />

Schedae, 2006, prépublication n°14, (<strong>fascicule</strong> n°1, p. 117-122).<br />

119


120<br />

Both subsequ<strong>en</strong>t dialogues are connected to the initial text string by the same anaphoric<br />

expression the vase, but none of the two dialogues can be regar<strong>de</strong>d as more important than<br />

the other.<br />

Text combinations<br />

Except from text bifurcations, a hypertext network cannot do without text combinations.<br />

In the following example two differ<strong>en</strong>t hypertext units are linked with the same target no<strong>de</strong>.<br />

And in both cases the target text seamlessly follows the preceding text parts.<br />

“The fourth doctor told about his<br />

case. One of his most tal<strong>en</strong>ted stud<strong>en</strong>ts<br />

just has be<strong>en</strong> tak<strong>en</strong> to the<br />

psychiatry. ‘And guess, why? He<br />

didn’t want to drop his suitcase.’ ”<br />

With Harweg’s mo<strong>de</strong>l, we can trace the same possibilities in traditional texts. Imagine<br />

four people sitting in a bar discussing the last Olympic doping scandal. At one point, the<br />

conversation splits up into two dialogues (e.g. because somebody directly addresses one<br />

person and asks his opinion while the other two just continue talking). Now imagine that an<br />

alert list<strong>en</strong>er addresses the whole group by saying: “Hey, what you just said is a brilliant argum<strong>en</strong>t<br />

against what we said in the beginning.” He thereby reintegrates the one discussion<br />

into the other. His remark not only picks up one of the conversations (what you just said) but<br />

reconnects it to the initial text part (what we said in the beginning). Most likely, all four will<br />

rejoin a single discussion again. The only differ<strong>en</strong>ce with the hypertext example is that here the<br />

bifurcation as well as the combination are a question of text pro<strong>du</strong>ction. In hypertext, they<br />

are structural ph<strong>en</strong>om<strong>en</strong>a which are in<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t of both text pro<strong>du</strong>ction and reception.<br />

Conclusions<br />

Many features of hypertexts and plurilinear texts match. Both start with an initial text<br />

string and bifurcate at one or more places. Both consist of simultaneously existing text strings<br />

that are connected to an initial string by text building <strong>de</strong>vices. Both might but do not need<br />

to have si<strong>de</strong> strings. And both can provi<strong>de</strong> text combinations.<br />

The final question, I want to answer here therefore is: Are hypertexts plurilinear texts? The<br />

answer is: No, i<strong>de</strong>ally they are not. Ev<strong>en</strong> though, many hypertexts rather have a tree- than a<br />

network-structure, and therefore are plurilinear. But i<strong>de</strong>al hypertexts structurally are not linear;<br />

not ev<strong>en</strong> plurilinear. They pres<strong>en</strong>t network-like texts: a single information unit can occur at<br />

various places in differ<strong>en</strong>t reading sequ<strong>en</strong>ces. What, nevertheless, makes the mo<strong>de</strong>l of plurilinearity<br />

worth using, is that it provi<strong>de</strong>s discourse linguistic <strong>de</strong>vices to <strong>de</strong>scribe the <strong>de</strong>cisive features<br />

of hypertext networks, namely text bifurcations, text combinations and simultaneously<br />

existing text strings.<br />

Harweg's concept of plurilinearity is based on a compreh<strong>en</strong>sive analysis of discourse<br />

relations. It can be used to approach not only the hypertext's global but also its local structure.<br />

Discussing to what ext<strong>en</strong>t this mo<strong>de</strong>l contributes to a discourse linguistic <strong>de</strong>scription<br />

Schedae, 2006, prépublication n°14, (<strong>fascicule</strong> n°1, p. 117-122).<br />

“The walls murmured that Iwan shouldn’t<br />

op<strong>en</strong> somebody else’s suitcase, Veronika’s<br />

least of all.”<br />

Figure 4: Text combination in hypertext.<br />

“ ‘I hope Veronika has it cold’, he<br />

wished with a glance at her piece of<br />

luggage, which he now started to<br />

op<strong>en</strong>. Perhaps only because there<br />

wasn’t anything else to do.”


of network-structured text, therefore, is the first step to constructing a coher<strong>en</strong>t mo<strong>de</strong>l of<br />

discourse in hypertext.<br />

Bibliography<br />

BERKENHEGER S. (1997), Zeit für die Bombe. http://www.wargla.<strong>de</strong>/zeit.htm.<br />

HALLIDAY M. A. K. (2004), An Intro<strong>du</strong>ction to Functional Grammar, London, Arnold.<br />

HARWEG R. (1970), “Zur Textologie <strong>de</strong>s Vornam<strong>en</strong>s: Perspektiv<strong>en</strong> einer Großraumtextologie”, Linguistics,<br />

61, p. 12-28.<br />

HARWEG R. (1974), “Bifurcations <strong>de</strong> textes”, Semiotica, 12, p. 41-59.<br />

HARWEG R. (2001), “Perspektiv<strong>en</strong> <strong>de</strong>r Textlinguistik”, in Harweg (2001a), p. 19-37.<br />

HARWEG R. (2001a), Studi<strong>en</strong> zur Textlinguistik, Aach<strong>en</strong>, Shaker Verlag (Bochumer Beiträge zur Semiotik;<br />

Neue Folge 7).<br />

NIELSEN J. (1995), Multimedia and Hypertext: the Internet and Beyond, Boston, Ap Professional.<br />

PETÖFI J. S. (1971), Transformationsgrammatik<strong>en</strong> und eine ko-textuelle Texttheorie. Grundfrag<strong>en</strong> und<br />

Konzeption<strong>en</strong>, Frankfurt a.M., Ath<strong>en</strong>aeum Verlag.<br />

RIESER H. (1980), Aspekte einer partiell<strong>en</strong> Texttheorie. Untersuchung<strong>en</strong> zur Textgrammatik mit “nichtlinear“<br />

festgelegter Basis unter beson<strong>de</strong>rer Berücksichtigung <strong>de</strong>r Lexikons- und <strong>de</strong>s Fachsprach<strong>en</strong>problems,<br />

Hamburg, Buske (Papiere zur Textlinguistik; 22).<br />

VAN DIJK T. A. (1978), Tekstwet<strong>en</strong>schap. E<strong>en</strong> interdisciplinaire inleiding, Utrecht, Uitgeverij Het Spectrum<br />

(Het wet<strong>en</strong>schappelijke boek; 633).<br />

TSCHAUDER G. (1989), Textverbin<strong>du</strong>ng<strong>en</strong>. Ansätze zu einer Makrotextologie, auch unter Berücksichtigung<br />

fiktionaler Texte, Bochum, Brockmeyer.<br />

Schedae, 2006, prépublication n°14, (<strong>fascicule</strong> n°1, p. 117-122).<br />

121


122<br />

Schedae, 2006, prépublication n°14, (<strong>fascicule</strong> n°1, p. 117-122).


Schedae, 2006<br />

Prépublication n° 15 Fascicule n° 1<br />

Modélisation <strong>de</strong> parcours<br />

dans <strong>de</strong>s hypertextes pédagogiques :<br />

typage <strong>de</strong>s ressources et <strong>de</strong>s li<strong>en</strong>s<br />

Thomas Kreczanik<br />

ERSICOM – <strong>Université</strong> Jean Moulin Lyon 3<br />

thomas.kreczanik@gmail.com<br />

Résumé :<br />

Comm<strong>en</strong>t aiguiller le parcours hypertextuel d’appr<strong>en</strong>ants replacés <strong>en</strong> situation d’autonomie face à<br />

un <strong>en</strong>semble <strong>de</strong> ressources pédagogiques électroniques? Dans le cadre <strong>de</strong> notre thèse <strong>de</strong> doctorat,<br />

nous abordons cette question sous l’angle <strong>de</strong> la caractérisation <strong>de</strong>s ressources pédagogiques et <strong>de</strong>s<br />

li<strong>en</strong>s qui les associ<strong>en</strong>t. Nous détaillons ici les premiers élém<strong>en</strong>ts <strong>de</strong> la modélisation <strong>de</strong> parcours <strong>de</strong><br />

formation : le typage <strong>de</strong>s ressources et <strong>de</strong>s articulations pédagogiques. Pour cela, nous pr<strong>en</strong>ons<br />

appui sur une analyse <strong>du</strong> standard LOM et sur une analyse <strong>de</strong>s pratiques d’<strong>en</strong>seignants concepteurs<br />

<strong>de</strong> ressources dans la plateforme SPIRAL <strong>de</strong> l’université Lyon 1.<br />

Mots-clés : E-learning, EIAH, ressource pédagogique, articulation, situation, hypertexte,<br />

typage, LOM.<br />

Abstract :<br />

How could we lead the hypertextual path of stud<strong>en</strong>ts who work alone with electronic pedagogic<br />

stuff ? In our PHD, we analyse this question with the characterization of the pedagogic resources and<br />

their links. In this paper, we <strong>de</strong>scribe the first elem<strong>en</strong>ts that concern the mo<strong>de</strong>ling of pedagogic<br />

paths : the classification of the pedagogic links and resources. For that, we base ourselves on a<br />

study of the LOM standard, and on a study of the practices of teachers that use SPIRAL, the LCMS<br />

of the university Lyon 1 for pro<strong>du</strong>cing courses.<br />

Keywords: E-learning, Pedagogic Stuff, Link, Pedagogic Resource, Hypertext, Classification,<br />

LOM.<br />

1. Intro<strong>du</strong>ction<br />

Les établissem<strong>en</strong>ts <strong>du</strong> supérieur se dot<strong>en</strong>t progressivem<strong>en</strong>t <strong>de</strong> plateformes e-learning,<br />

qui fourniss<strong>en</strong>t aux <strong>en</strong>seignants, aux appr<strong>en</strong>ants et aux gestionnaires <strong>de</strong>s moy<strong>en</strong>s pour concevoir,<br />

stocker et utiliser diverses ressources pédagogiques. Le défi actuel consiste à faciliter<br />

l’appropriation <strong>de</strong> ces outils et ressources par les <strong>en</strong>seignants et par les appr<strong>en</strong>ants. Dans le<br />

cadre <strong>de</strong> notre thèse <strong>de</strong> doctorat <strong>en</strong> Sci<strong>en</strong>ces <strong>de</strong> l’Information et <strong>de</strong> la Communication, nous<br />

Thomas Kreczanik<br />

« Modélisation <strong>de</strong> parcours dans <strong>de</strong>s hypertextes pédagogiques : typage <strong>de</strong>s ressources et <strong>de</strong>s li<strong>en</strong>s »<br />

Schedae, 2006, prépublication n°15, (<strong>fascicule</strong> n°1, p. 123-128).<br />

123


124<br />

abordons cette problématique sous l’angle <strong>de</strong> la caractérisation <strong>de</strong>s ressources pédagogiques<br />

et <strong>de</strong>s li<strong>en</strong>s qui les associ<strong>en</strong>t. Nous modélisons un système dans lequel les <strong>en</strong>seignants<br />

construirai<strong>en</strong>t <strong>de</strong>s <strong>en</strong>chaînem<strong>en</strong>ts <strong>en</strong>tre ressources pédagogiques. En aval, le système redonnerait<br />

<strong>de</strong> la liberté et <strong>de</strong> l’autonomie aux appr<strong>en</strong>ants <strong>en</strong> les laissant piloter, sur la base d’un<br />

<strong>en</strong>semble <strong>de</strong> ressources, leur propre cheminem<strong>en</strong>t hypertextuel. Notre modèle projette <strong>de</strong><br />

r<strong>en</strong>dre compatible la logique <strong>du</strong> parcours <strong>de</strong> l’appr<strong>en</strong>ant avec l’int<strong>en</strong>tionnalité pédagogique<br />

<strong>de</strong> l’<strong>en</strong>seignant.<br />

Après avoir pris appui sur une analyse <strong>du</strong> standard LOM (Learning Object Metadata), et<br />

sur une analyse <strong>de</strong>s pratiques d’<strong>en</strong>seignants auteurs <strong>de</strong> cours dans la plateforme SPIRAL <strong>de</strong><br />

l’université Lyon 1, nous détaillerons les premiers élém<strong>en</strong>ts <strong>de</strong> la modélisation <strong>de</strong> parcours<br />

<strong>de</strong> formation : la classification <strong>de</strong>s li<strong>en</strong>s et <strong>de</strong>s ressources pédagogiques.<br />

2. Typologie <strong>de</strong>s ressources pédagogiques : généralités<br />

Le passage au numérique, la mise <strong>en</strong> réseau et la reconfiguration <strong>de</strong>s systèmes d’accès<br />

à l’information sont autant <strong>de</strong> facteurs qui brouill<strong>en</strong>t les frontières <strong>du</strong> concept <strong>de</strong> docum<strong>en</strong>t.<br />

Ces perturbations se repèr<strong>en</strong>t, <strong>en</strong>tre autre, par la perte <strong>de</strong> stabilité <strong>du</strong> docum<strong>en</strong>t <strong>en</strong> tant<br />

qu’objet matériel, le docum<strong>en</strong>t étant <strong>de</strong> plus <strong>en</strong> plus recomposé <strong>en</strong> fonction <strong>de</strong>s besoins<br />

<strong>de</strong>s utilisateurs. Dans la continuité <strong>du</strong> RTP-DOC (Pedauque 2003), qui <strong>en</strong>visage à la fois le<br />

docum<strong>en</strong>t comme une forme, comme un cont<strong>en</strong>u et comme un medium, Sylvie Lainé-Cruzel<br />

(Lainé 2004) distingue le docum<strong>en</strong>t <strong>de</strong> la ressource : le docum<strong>en</strong>t perdrait <strong>en</strong> plasticité ce que<br />

la ressource gagnerait <strong>en</strong> souplesse d’usage. C’est l’acception que nous reti<strong>en</strong>drons <strong>du</strong> mot<br />

ressource, et nous nous focaliserons sur celles utilisées à <strong>de</strong>s fins d’appr<strong>en</strong>tissage – ne perdant<br />

pas <strong>de</strong> vue que l’origine docum<strong>en</strong>tum <strong>du</strong> mot docum<strong>en</strong>t signifie <strong>en</strong>seignem<strong>en</strong>t.<br />

Avant <strong>de</strong> modéliser <strong>de</strong>s parcours <strong>de</strong> formation, il convi<strong>en</strong>t d’associer une typologie aux<br />

ressources pédagogiques qui <strong>en</strong> constitu<strong>en</strong>t la base. Daniel Peraya, cherchant à caractériser<br />

les paratextes, explique que ces <strong>de</strong>rniers doiv<strong>en</strong>t être dé<strong>du</strong>its d’une cohér<strong>en</strong>ce théorique ;<br />

pour cela, il distingue la nature, qui dép<strong>en</strong>d <strong>du</strong> <strong>de</strong>gré d’iconicité, <strong>de</strong> la fonction, qui dép<strong>en</strong>d<br />

<strong>du</strong> fonctionnem<strong>en</strong>t discursif (Peraya 1995). De plus, la principale difficulté <strong>de</strong> distinction <strong>de</strong>s<br />

ressources pédagogiques ti<strong>en</strong>t au jeu complexe par lequel elles s’imbriqu<strong>en</strong>t les unes dans<br />

les autres. Nous posons les trois critères suivants <strong>de</strong> catégorisation <strong>de</strong>s ressources : granularité,<br />

nature, fonction.<br />

3. Un standard <strong>de</strong> <strong>de</strong>scription <strong>de</strong>s ressources pédagogiques :<br />

le LOM<br />

Ces <strong>de</strong>rnières années, <strong>de</strong> nombreux standards ont été développés pour rationaliser la<br />

<strong>de</strong>scription <strong>de</strong>s ressources pédagogiques au sein <strong>de</strong>s plateformes e-learning. Le plus utilisé,<br />

mais aussi le plus critiqué <strong>de</strong> ces standards est celui élaboré par l’IEEE : le Learning Object<br />

Metadata ou LOM 1 . À la base <strong>du</strong> LOM-IEEE se trouve un schéma <strong>de</strong> neuf catégories <strong>de</strong> métadonnées<br />

ayant trait à <strong>de</strong>s aspects variés <strong>de</strong> la ressource : « 1 : G<strong>en</strong>eral », « 2 : Life Cycle », « 3 :<br />

Meta-metadata », « 4 : Technical », « 5 : E<strong>du</strong>cational », « 6 : Rights », « 7 : Relation », « 8 : Annotation<br />

», « 9 : Classification ». Bi<strong>en</strong> qu’il existe dorénavant <strong>de</strong>s interfaces d’ai<strong>de</strong> à l’in<strong>de</strong>xation,<br />

tels que Metalab, <strong>en</strong> pratique, aucun établissem<strong>en</strong>t n’utilise intégralem<strong>en</strong>t le LOM. Celui-ci<br />

est habituellem<strong>en</strong>t exploité à travers <strong>de</strong>s profils d’application, qui peuv<strong>en</strong>t à la fois le restreindre<br />

et l’<strong>en</strong>richir. Le profil LOM-FR, inspiré <strong>du</strong> profil ManUeL, est <strong>de</strong>puis 2005 passé au<br />

rang <strong>de</strong> norme expérim<strong>en</strong>tale AFNOR.<br />

1. http://ltsc.ieee.org/wg12/ (consulté le 15/05/2006).<br />

Schedae, 2006, prépublication n°15, (<strong>fascicule</strong> n°1, p. 123-128).


Dans le schéma <strong>du</strong> LOM-IEEE, nous id<strong>en</strong>tifions les dix sous-catégories suivantes comme<br />

relatives à la modélisation <strong>de</strong>s parcours <strong>de</strong> formation : « 1.7 : Structure », « 1.8 : Aggregation<br />

Level », « 5.1 : Interactivity Type », « 5.2 : Learning Ressource Type », « 5.3 : Interactivity level »,<br />

« 5.4 : Semantic D<strong>en</strong>sity », « 5.5 : Int<strong>en</strong><strong>de</strong>d End User Role », « 7.1 : Kind », « 7.2 : Ressource »,<br />

« 9.1 : Purpose ». En effet, ces dix sous-catégories fourniss<strong>en</strong>t <strong>de</strong>s élém<strong>en</strong>ts pour définir la<br />

structure organisationnelle <strong>de</strong> la ressource, sa granularité, le mo<strong>de</strong> d’<strong>en</strong>seignem<strong>en</strong>t qu’elle<br />

supporte, sa nature, sa d<strong>en</strong>sité sémantique, ses utilisateurs, les li<strong>en</strong>s qu’elle peut établir avec<br />

d’autres ressources et <strong>en</strong>fin, l’expression à l’ai<strong>de</strong> <strong>de</strong> langages docum<strong>en</strong>taires <strong>de</strong> son cont<strong>en</strong>u,<br />

<strong>de</strong> ses prérequis ou <strong>de</strong> ses objectifs.<br />

Dans (Kreczanik 2004), nous avons mis <strong>en</strong> évid<strong>en</strong>ce la t<strong>en</strong>dance <strong>de</strong> l’in<strong>de</strong>xation <strong>de</strong>s ressources<br />

pédagogiques à s’effectuer suivant <strong>de</strong>s « strates successives », prises <strong>en</strong> charge tour<br />

à tour par les informatici<strong>en</strong>s, les <strong>en</strong>seignants et les docum<strong>en</strong>talistes. Nous avons d’autre part<br />

relevé que les <strong>en</strong>seignants étai<strong>en</strong>t peu <strong>en</strong>clins à l’in<strong>de</strong>xation, cette tâche leur paraissant trop<br />

éloignée <strong>de</strong> leur métier. L’in<strong>de</strong>xation <strong>de</strong>vi<strong>en</strong>dra effici<strong>en</strong>te lorsqu’elle sera perçue par les <strong>en</strong>seignants<br />

comme dégageant <strong>du</strong> s<strong>en</strong>s pour leur activité. Et elle leur paraîtra d’autant plus légitime<br />

à exécuter, qu’elle vise à développer l’autonomie <strong>de</strong>s appr<strong>en</strong>ants. Une première piste<br />

serait <strong>de</strong> faire <strong>de</strong> l’in<strong>de</strong>xation une ai<strong>de</strong> à la structuration et à la programmation <strong>de</strong>s cours. Or,<br />

la limite <strong>du</strong> LOM est <strong>de</strong> considérer les dix sous-catégories se rapportant à notre modèle<br />

comme <strong>de</strong>s objectifs finis <strong>de</strong> caractérisation : on les r<strong>en</strong>seigne isolém<strong>en</strong>t (ce qui n’a guère <strong>de</strong><br />

s<strong>en</strong>s, ni pour l’<strong>en</strong>seignant, ni pour l’appr<strong>en</strong>ant), et définitivem<strong>en</strong>t (ce qui <strong>en</strong> restreint usage,<br />

donc l’appropriation). Une <strong>de</strong>uxième piste serait <strong>de</strong> remanier ces sous-catégories <strong>en</strong> <strong>de</strong>s critères,<br />

dép<strong>en</strong>dant les uns <strong>de</strong>s autres, et participant d’un nouvel objectif global : la conception<br />

<strong>de</strong> parcours <strong>de</strong> formation pour l’appr<strong>en</strong>ant.<br />

4. Typologie <strong>de</strong>s articulations pédagogiques<br />

et fonctionnalité <strong>de</strong>s ressources<br />

Pour modéliser <strong>de</strong>s parcours <strong>de</strong> formation, nous prévoyons égalem<strong>en</strong>t d’associer une<br />

typologie aux li<strong>en</strong>s ou articulations qui peuv<strong>en</strong>t s’établir <strong>en</strong>tre les ressources pédagogiques.<br />

Nous définissons l’articulation pédagogique comme l’action <strong>de</strong> lier <strong>en</strong>tre elles, dans une<br />

int<strong>en</strong>tionnalité précise, <strong>de</strong>ux ressources à la typologie définie. C’est <strong>du</strong> point <strong>de</strong> vue <strong>de</strong> la<br />

fonctionnalité, que nous distinguerons les articulations : les types d’articulations correspondront<br />

à <strong>de</strong>s fonctions pédagogiques. Car le li<strong>en</strong> nous semble porteur d’une fonctionnalité<br />

spécifique, différ<strong>en</strong>te <strong>de</strong> celle portée par la ressource. Et toute t<strong>en</strong>tative <strong>de</strong> cloisonner la<br />

fonctionnalité dans la ressource ne peut que restreindre l’usage <strong>de</strong> cette ressource. L’intérêt<br />

<strong>de</strong> notre modèle est qu’une même ressource pourra se voir attribuer <strong>de</strong>s fonctions <strong>en</strong> partie<br />

différ<strong>en</strong>tes, suivant le parcours par lequel l’appr<strong>en</strong>ant la retrouve. La principale difficulté sera<br />

<strong>de</strong> situer précisém<strong>en</strong>t la frontière <strong>en</strong>tre la fonctionnalité, proprem<strong>en</strong>t spécifique à la ressource,<br />

<strong>de</strong> celle spécifique à l’articulation.<br />

Des dix métadonnées que nous avons repérées dans le LOM-IEEE, la plus <strong>en</strong> rapport<br />

avec l’articulation est « 7.1 : Kind », appart<strong>en</strong>ant à la catégorie « 7 : Relation ». Cette métadonnée<br />

définit la nature <strong>de</strong> la relation, et est instanciée à l’ai<strong>de</strong> d’un vocabulaire issu <strong>du</strong><br />

standard Dublin Core, regroupant les 6 connecteurs binaires suivants : is part of/has part ;<br />

requires/is required by ; is based on/is based for ; refer<strong>en</strong>ces/is refer<strong>en</strong>ced by ; is format of/<br />

has format ; is version of/has version. On remarque que ce vocabulaire s’<strong>en</strong> ti<strong>en</strong>t à <strong>de</strong>s considérations<br />

<strong>de</strong> fonctionnem<strong>en</strong>t technique, ce qui est insuffisant pour notre modèle. Nous<br />

proposons donc les quelques connecteurs suivants, suite à une synthèse bibliographique<br />

portant sur la rhétorique et la didactique : intro<strong>du</strong>ire, définir, exposer, décrire, argum<strong>en</strong>ter,<br />

exemplifier, conclure, illustrer, s’<strong>en</strong>traîner, se noter, compléter, poursuivre, historiser.<br />

Schedae, 2006, prépublication n°15, (<strong>fascicule</strong> n°1, p. 123-128).<br />

125


126<br />

5. Les pratiques <strong>en</strong>seignantes <strong>de</strong> structuration <strong>de</strong> cours :<br />

les situations<br />

Peu <strong>de</strong> travaux ont étudié (à notre connaissance) comm<strong>en</strong>t les TICE accompagn<strong>en</strong>t les<br />

<strong>en</strong>seignants-chercheurs dans la structuration et la programmation <strong>de</strong> leurs cours. Nous procédons<br />

donc à <strong>de</strong>s interviews d’<strong>en</strong>seignants-chercheurs <strong>du</strong> domaine <strong>de</strong>s Sci<strong>en</strong>ces expérim<strong>en</strong>tales,<br />

pour la plupart auteurs <strong>de</strong> cours dans la plateforme SPIRAL <strong>de</strong> l’université Lyon 1 2 .<br />

SPIRAL est une plateforme <strong>de</strong> type LCMS (Learning Cont<strong>en</strong>t Managem<strong>en</strong>t System) qui permet<br />

à la fois <strong>de</strong> pro<strong>du</strong>ire et <strong>de</strong> gérer <strong>de</strong>s ressources pédagogiques, mais égalem<strong>en</strong>t <strong>de</strong> suivre<br />

<strong>de</strong>s cours <strong>en</strong> ligne. Par l’analyse <strong>de</strong> ces interviews nous mettons <strong>en</strong> évid<strong>en</strong>ce <strong>de</strong>s situations<br />

pédagogiques, non spécifiques aux disciplines, <strong>de</strong>squelles dép<strong>en</strong>d fortem<strong>en</strong>t la nature <strong>de</strong>s<br />

parcours et <strong>en</strong>chaînem<strong>en</strong>ts pro<strong>du</strong>its par l’<strong>en</strong>seignant. Nous proposons provisoirem<strong>en</strong>t les<br />

quelques situations suivantes, qui pourrait remplacer avantageusem<strong>en</strong>t le vocabulaire rattaché<br />

à la métadonnée « 5.1 : Interactivity Type » <strong>du</strong> LOM :<br />

– La situation « expérim<strong>en</strong>tale » : l’<strong>en</strong>seignem<strong>en</strong>t s’organise autour d’une manipulation,<br />

dont les mom<strong>en</strong>ts forts sont mo<strong>de</strong> opératoire, observation, interprétation, conclusion ;<br />

– La situation « rhétorique » : l’<strong>en</strong>seignem<strong>en</strong>t s’organise autour d’un ou <strong>de</strong> plusieurs messages<br />

forts, que l’on cherche à faire passer ;<br />

– La situation « archéologique » : l’<strong>en</strong>seignem<strong>en</strong>t s’organise autour d’un phénomène, dont<br />

on analyse les apparitions possibles dans le temps ;<br />

– La situation « modélisante » : l’<strong>en</strong>seignem<strong>en</strong>t s’organise autour d’un modèle théorique<br />

ou abstrait, que l’on représ<strong>en</strong>te et que l’on discute ;<br />

– La situation « évaluative » : l’<strong>en</strong>seignem<strong>en</strong>t s’organise autour d’un savoir (faire), que l’on<br />

met <strong>en</strong> évid<strong>en</strong>ce par l’activité.<br />

Le schéma 1 montre comm<strong>en</strong>t l’articulation <strong>en</strong>tre une ressource <strong>de</strong> départ et une ressource<br />

d’arrivée se replace toujours dans le plan d’une situation déterminée. La détermination<br />

par l’<strong>en</strong>seignant <strong>de</strong> la situation pédagogique dans laquelle il souhaite pro<strong>du</strong>ire un <strong>en</strong>chaînem<strong>en</strong>t<br />

<strong>en</strong>tre ressources, pourrait lui servir d’indication et donc d’ai<strong>de</strong> au repérage <strong>du</strong> connecteur<br />

adéquat. 3<br />

Ressource d’arrivée<br />

Articulation<br />

Ressource <strong>de</strong> départ<br />

Schéma 1 : Les situations <strong>de</strong> l’articulation <strong>en</strong>tre ressources pédagogiques.<br />

2. http://spiral.univ-lyon1.fr (consulté le 15/05/2006).<br />

3. Sur le schéma, les informations inscrites <strong>en</strong> italique sont celles que nous <strong>en</strong>visageons <strong>de</strong> caractériser.<br />

Schedae, 2006, prépublication n°15, (<strong>fascicule</strong> n°1, p. 123-128).<br />

- Granularité<br />

- Nature<br />

- Fonction<br />

- Granularité<br />

- Nature<br />

- Fonction<br />

Situation


6. Classification <strong>de</strong>s ressources pédagogiques<br />

Nous avons précé<strong>de</strong>mm<strong>en</strong>t proposé trois critères ou facettes <strong>de</strong> la caractérisation <strong>de</strong>s<br />

ressources pédagogiques : la granularité, la nature et la fonction. Nous allons ici lister quelques<br />

valeurs admissibles par ces facettes.<br />

– Pour ce qui concerne la facette granularité, nous relevons le vocabulaire associé à la<br />

métadonnée « 1.8 : Aggregation Level » <strong>du</strong> LOM-IEEE, qui prévoit quatre niveaux <strong>de</strong><br />

granularité <strong>de</strong> la ressource : fragm<strong>en</strong>t, leçon, cours, parcours. Les parcours conti<strong>en</strong>n<strong>en</strong>t<br />

les cours, cont<strong>en</strong>ant eux-mêmes les leçons, composées à base <strong>de</strong> fragm<strong>en</strong>ts ;<br />

– Pour ce qui concerne la facette nature, la métadonnée « 5.2 : Learning Ressource Type »<br />

<strong>du</strong> LOM-IEEE propose le vocabulaire suivant : exercice, simulation, questionnaire, diagramme,<br />

figure, graphique, in<strong>de</strong>x, diapositive, tableau, texte narratif, exam<strong>en</strong>, expérim<strong>en</strong>tation,<br />

énoncé d’un problème, autoévaluation, exposé. Le LOM-FR ajoute la<br />

métadonnée « 1.10 : Type docum<strong>en</strong>taire », instanciée à l’ai<strong>de</strong> <strong>du</strong> vocabulaire suivant : collection,<br />

<strong>en</strong>semble <strong>de</strong> données, évènem<strong>en</strong>t, image, ressource interactive, image <strong>en</strong> mouvem<strong>en</strong>t,<br />

objet physique, logiciel, son, image fixe, texte. D’autre part, sur une échelle allant<br />

<strong>du</strong> plus iconique au plus arbitraire, Daniel Peraya distingue les natures <strong>de</strong> paratextes<br />

pédagogiques suivantes : photos, schémas, ILEIS (Icône <strong>de</strong> Logiciels et d’Environnem<strong>en</strong>ts<br />

Informatiques), graphiques, tableaux, listes, langage verbal, langage mathématique ;<br />

– Pour ce qui concerne la facette fonction, le LOM-FR ajoute au LOM-IEEE la métadonnée<br />

« 5.12 : Activité in<strong>du</strong>ite », instanciée à l’ai<strong>de</strong> <strong>du</strong> vocabulaire suivant : animer, appr<strong>en</strong>dre,<br />

collaborer, communiquer, con<strong>du</strong>ire, coopérer, créer, échanger, observer, organiser, pro<strong>du</strong>ire,<br />

publier, rechercher, s’autoformer, s’exercer, se docum<strong>en</strong>ter, se former, simuler,<br />

s’évaluer.<br />

Nous construisons actuellem<strong>en</strong>t une classification à facettes <strong>de</strong>s ressources pédagogiques,<br />

sur la base <strong>de</strong> ces typologies, et <strong>en</strong> t<strong>en</strong>ant compte <strong>de</strong>s dép<strong>en</strong>dances <strong>en</strong>tre la granularité,<br />

la nature et la fonction.<br />

7. Poursuite et conclusion<br />

Dans la continuité <strong>de</strong> ces travaux, et une fois que nous aurons affiné nos classifications<br />

<strong>de</strong>s ressources, <strong>de</strong>s articulations et <strong>de</strong>s situations, nous utiliserons la plateforme SPIRAL pour<br />

simuler et tester auprès <strong>de</strong>s <strong>en</strong>seignants et <strong>de</strong>s appr<strong>en</strong>ants notre modèle <strong>de</strong> parcours <strong>de</strong><br />

formation. Ceci nous permettra <strong>de</strong> vérifier la pertin<strong>en</strong>ce et la dép<strong>en</strong>dance <strong>de</strong>s valeurs que<br />

nous aurons attribuées.<br />

Bibliographie<br />

ANNOT E., FAVE-BONNET M.-F. (dirs) (2004), Pratiques pédagogiques dans l’<strong>en</strong>seignem<strong>en</strong>t supérieur :<br />

<strong>en</strong>seigner, appr<strong>en</strong>dre, évaluer, Paris, l’Harmattan.<br />

ARNAUD M., (2002), « Normes et standards <strong>de</strong> l’<strong>en</strong>seignem<strong>en</strong>t à distance : <strong>en</strong>jeux et perspectives », in<br />

Technologies <strong>de</strong> l’Information et <strong>de</strong> la Communication dans les Enseignem<strong>en</strong>ts d’ingénieurs et dans<br />

l’in<strong>du</strong>strie, Villeurbanne, Institut National <strong>de</strong>s Sci<strong>en</strong>ces Appliquées <strong>de</strong> Lyon, p. 57-69.<br />

DE LA PASSARDIERE B., JARRAUD P. (2004), «ManUeL, un profil d’application <strong>de</strong> LOM pour C@mpuSci<strong>en</strong>ces»,<br />

Sci<strong>en</strong>ces et technologies <strong>de</strong> l’information et <strong>de</strong> la communication pour l’é<strong>du</strong>cation et la formation, vol. 11,<br />

p. 11-57.<br />

KRECZANIK T. (2004), Vers une rationalisation <strong>de</strong> l’in<strong>de</strong>xation <strong>de</strong>s ressources pédagogiques électroniques,<br />

Mémoire <strong>de</strong> DEA, Sci<strong>en</strong>ces <strong>de</strong> l’information et <strong>de</strong> la communication, <strong>Université</strong> Lyon 3, disponible sur<br />

http://memsic.ccsd.cnrs.fr/mem_00000163.html (consulté le 15/05/2006).<br />

Schedae, 2006, prépublication n°15, (<strong>fascicule</strong> n°1, p. 123-128).<br />

127


128<br />

LAINE-CRUZEL S. (2004), « Docum<strong>en</strong>ts, ressources, données : les avatars <strong>de</strong> l’information numérique »,<br />

Information Interaction Intellig<strong>en</strong>ce, vol. 4, n° 1.<br />

MERMET J.-M., CARRERE C. (2003), « ARPEM : une expéri<strong>en</strong>ce concrète <strong>de</strong> mutualisation sur le campus<br />

gr<strong>en</strong>oblois », Docum<strong>en</strong>t numérique, vol. 7, p. 141-156.<br />

MICHEL C., ROUISSI S. (2003), « Caractérisation <strong>de</strong>s docum<strong>en</strong>ts numériques avec LOM et IMS-QTI pour<br />

l’acquisition et l’évaluation <strong>de</strong>s connaissances », Docum<strong>en</strong>t numérique, vol. 7, p. 157-178.<br />

PEDAUQUE R. T. (2003), Docum<strong>en</strong>t : forme, signe et médium, les re-formulations <strong>du</strong> numérique, disponible<br />

sur http://archivesic.ccsd.cnrs.fr/sic_00000511.html (consulté le 15/05/2006).<br />

PERAYA D., NYSSEN M.-C. (1995), «Les paratextes dans les manuels scolaires <strong>de</strong> biologie: une étu<strong>de</strong> comparative<br />

», Cahier <strong>de</strong> la Section <strong>de</strong>s Sci<strong>en</strong>ces <strong>de</strong> l’É<strong>du</strong>cation, n° 078, Pratiques et Théorie.<br />

PERNIN J.-P., LEJEUNE A. (2004), « Dispositifs d’appr<strong>en</strong>tissage instrum<strong>en</strong>tés par les technologies : vers une<br />

ingénierie c<strong>en</strong>trée sur les scénarios», in Technologies <strong>de</strong> l’Information et <strong>de</strong> la Connaissance dans l’Enseignem<strong>en</strong>t<br />

Supérieur et <strong>de</strong> l’In<strong>du</strong>strie, Compiègne, <strong>Université</strong> <strong>de</strong> Technologie <strong>de</strong> Compiègne, p. 407-414.<br />

PERRIAULT J. (2002), L’accès au savoir <strong>en</strong> ligne, Paris, Odile Jacob.<br />

Schedae, 2006, prépublication n°15, (<strong>fascicule</strong> n°1, p. 123-128).


Schedae, 2006<br />

Prépublication n° 16 Fascicule n° 1<br />

Des bons mots au bon docum<strong>en</strong>t.<br />

Comm<strong>en</strong>t é<strong>du</strong>quer à l’usage <strong>de</strong>s mots-clés<br />

efficaces pour accé<strong>de</strong>r à la pertin<strong>en</strong>ce<br />

docum<strong>en</strong>taire<br />

Olivier Le Deuff<br />

Cersic-Erellif, <strong>Université</strong> R<strong>en</strong>nes 2<br />

ole<strong>de</strong>uff@gmail.com<br />

Résumé :<br />

La diversité <strong>de</strong>s types <strong>de</strong> discours utilisés sur Internet <strong>en</strong>traîne une confusion chez l’élève qui ne<br />

parvi<strong>en</strong>t pas toujours à optimiser sa recherche. La formation à la maîtrise et à la pro<strong>du</strong>ction <strong>de</strong><br />

l’information permet l’acquisition d’habiletés ess<strong>en</strong>tielles.<br />

Mots-clés : docum<strong>en</strong>t, recherche docum<strong>en</strong>taire, mots-clés, information literacy, élève,<br />

docum<strong>en</strong>taliste, néglig<strong>en</strong>ces.<br />

Abstract :<br />

The diversity of speeches used on Internet involves a confusion for the pupil who always does<br />

not succeed in optimizing his research. Information literacy increase docum<strong>en</strong>tary skills.<br />

Keywords : docum<strong>en</strong>t, information literacy, keywords, stud<strong>en</strong>t, neglig<strong>en</strong>ces.<br />

Intro<strong>du</strong>ction<br />

Les stratégies <strong>de</strong> recherche <strong>de</strong>s élèves sur Internet suscit<strong>en</strong>t parfois interrogations et<br />

débats. L’appr<strong>en</strong>tissage <strong>de</strong>s mots-clés s’avère difficile car il s’agit pour l’élève <strong>de</strong> réfléchir et<br />

<strong>de</strong> catégoriser afin <strong>de</strong> convertir <strong>de</strong>s idées <strong>en</strong> mots-clés. Ce processus n’est pas naturel et<br />

implique <strong>de</strong>s capacités d’abstraction qui font souv<strong>en</strong>t défaut d’autant plus que sur Internet<br />

nous sommes confrontés à <strong>de</strong>s types <strong>de</strong> discours fort variées selon les sites visités et les applications<br />

utilisées. Les élèves r<strong>en</strong>contr<strong>en</strong>t <strong>de</strong>s difficultés pour effectuer la distinction <strong>en</strong>tre tous<br />

ces discours et ne parvi<strong>en</strong>n<strong>en</strong>t pas toujours à savoir quel langage employer au bon mom<strong>en</strong>t<br />

à bon esci<strong>en</strong>t. Ces confusions expliqu<strong>en</strong>t égalem<strong>en</strong>t les néglig<strong>en</strong>ces et autres erreurs <strong>de</strong><br />

lecture commises fréquemm<strong>en</strong>t.<br />

Ces difficultés sont à rapprocher <strong>de</strong>s représ<strong>en</strong>tations erronées <strong>de</strong> l’Internet qu’ont souv<strong>en</strong>t<br />

les élèves. Notre propos vise à démontrer que la capacité à utiliser <strong>de</strong>s mots-clés pour<br />

Olivier Le Deuff<br />

« Des bons mots au bon docum<strong>en</strong>t. Comm<strong>en</strong>t é<strong>du</strong>quer à l’usage <strong>de</strong>s mots-clés efficaces pour accé<strong>de</strong>r à la pertin<strong>en</strong>ce docum<strong>en</strong>taire »<br />

Schedae, 2006, prépublication n°16, (<strong>fascicule</strong> n°1, p. 129-134).<br />

129


130<br />

effectuer une recherche s’acquiert progressivem<strong>en</strong>t et que la pro<strong>du</strong>ction <strong>de</strong> cont<strong>en</strong>us sur<br />

Internet par l’élève augm<strong>en</strong>te ses capacités notamm<strong>en</strong>t grâce aux possibilités offertes par le<br />

Web 2.0. Nos observations et expéri<strong>en</strong>ces ont été principalem<strong>en</strong>t établies dans un collège <strong>du</strong><br />

sud Manche avec <strong>de</strong>s élèves ayant <strong>en</strong>tre 10 et 16 ans et montr<strong>en</strong>t la nécessité d’une réelle<br />

formation à la recherche et la pro<strong>du</strong>ction d’informations (information literacy). Nos travaux<br />

cherch<strong>en</strong>t à étudier les relations <strong>en</strong>tre le docum<strong>en</strong>t et les usagers et les problèmes communicationnels<br />

qui <strong>de</strong>meur<strong>en</strong>t <strong>en</strong> dépit <strong>de</strong>s avancées <strong>de</strong>s traitem<strong>en</strong>ts automatisés.<br />

1. La médiation <strong>de</strong>s moteurs<br />

La recherche <strong>de</strong> docum<strong>en</strong>ts évolue et n’est pas uniquem<strong>en</strong>t axée sur les moteurs <strong>de</strong><br />

recherche. En effet <strong>de</strong> nouvelles stratégies docum<strong>en</strong>taires voi<strong>en</strong>t le jour opérant une « redocum<strong>en</strong>tarisation<br />

» comme le nomme le <strong>de</strong>rnier docum<strong>en</strong>t <strong>du</strong> RTP-Doc (RTP-Doc 2006). Ainsi ce<br />

« nouvel âge <strong>de</strong> la navigation » inclut les possibilités <strong>de</strong> s’abonner à <strong>de</strong>s flux d’informations<br />

notamm<strong>en</strong>t. Malgré tout les moteurs <strong>de</strong> recherche <strong>de</strong>meur<strong>en</strong>t très nettem<strong>en</strong>t le moy<strong>en</strong> le plus<br />

fréquemm<strong>en</strong>t utilisé par les élèves pour rechercher <strong>de</strong> l’information. Les bases <strong>de</strong> données<br />

sont peu usitées par ces <strong>de</strong>rniers qui <strong>de</strong>meur<strong>en</strong>t bi<strong>en</strong> souv<strong>en</strong>t aux portes <strong>du</strong> Web invisible<br />

mais bon nombre d’<strong>en</strong>seignants n’échapp<strong>en</strong>t pas non plus à la règle. De fait les difficultés<br />

pour accé<strong>de</strong>r à la pertin<strong>en</strong>ce docum<strong>en</strong>taire 1 sont relativem<strong>en</strong>t élevées dans ce cadre. La<br />

recherche docum<strong>en</strong>taire sur Internet recèle quelques complexités et l’usage <strong>de</strong>s élèves t<strong>en</strong>d<br />

au contraire vers une simplicité proche <strong>du</strong> guichet unique <strong>de</strong> l’information. Nous songeons<br />

évi<strong>de</strong>mm<strong>en</strong>t à Google mais certains élèves tap<strong>en</strong>t parfois leur recherche dans la barre d’adresses<br />

ce qui les r<strong>en</strong>voie à la page par défaut dans Internet Explorer.<br />

L’usage <strong>de</strong>s moteurs étant désormais le moy<strong>en</strong> utilisé par les plus jeunes pour accé<strong>de</strong>r<br />

à l’information, les docum<strong>en</strong>ts papiers sont souv<strong>en</strong>t évités voire ignorés (Six Degrés 2006).<br />

De même la t<strong>en</strong>tation <strong>de</strong> « foncer » sans réflexion est omniprés<strong>en</strong>te. Les docum<strong>en</strong>talistes<br />

<strong>de</strong> collège peuv<strong>en</strong>t <strong>en</strong> témoigner. Il faut sans cesse rappeler l’importance d’une réflexion<br />

préalable. La domination <strong>du</strong> moteur Google se trouve d’autant plus forte que les notions<br />

abstraites <strong>de</strong> l’Internet sont peu maîtrisées. Nous avons pu constater cet état <strong>de</strong> fait dans la<br />

formation et l’évaluation dans le cadre <strong>du</strong> B2I (Brevet informatique et internet). La confusion<br />

<strong>de</strong>s discours comm<strong>en</strong>ce avant même que l’usager ne soit connecté. Il s’avère que pour beaucoup<br />

il existe une forte confusion <strong>en</strong>tre les mots « navigateur », « moteur <strong>de</strong> recherche »,<br />

« logiciel », « fournisseur d’accès ». Mais il est clair qu’un seul mot ressort <strong>de</strong> ce désordre<br />

sémantique : « Google ». Après plusieurs séances <strong>de</strong> travail sur Internet, <strong>de</strong>s élèves <strong>de</strong> Cm2<br />

avai<strong>en</strong>t tous ret<strong>en</strong>u le nom « Google », même si d’autres moteurs avai<strong>en</strong>t été prés<strong>en</strong>tés, au<br />

point que certains le voyai<strong>en</strong>t égalem<strong>en</strong>t comme un « navigateur » ! Le moteur américain semble<br />

être parv<strong>en</strong>u à incarner Internet. D’ailleurs la supériorité <strong>du</strong> moteur Google est même<br />

approuvée par <strong>de</strong> nombreux professionnels <strong>de</strong> l’information 2 puisque près <strong>de</strong> 84 % plébiscit<strong>en</strong>t<br />

Google.<br />

Google <strong>de</strong>vi<strong>en</strong>t ainsi le port à partir <strong>du</strong>quel beaucoup d’élèves avanc<strong>en</strong>t <strong>en</strong> pays inconnu.<br />

Dès lors, il est fort logique que les stratégies <strong>de</strong> recherche <strong>de</strong>s élèves manqu<strong>en</strong>t <strong>de</strong> cohér<strong>en</strong>ce.<br />

Cette ignorance <strong>de</strong> l’objet technique Internet, <strong>de</strong> son histoire et <strong>de</strong> ses évolutions<br />

explique beaucoup les erreurs commises par les élèves. Ces <strong>de</strong>rniers ne sont pas <strong>de</strong>s Christophe<br />

Colomb et la ser<strong>en</strong>dipité (Ertzscheid 2003) n’est <strong>de</strong> fait guère fréqu<strong>en</strong>te. Il leur faut<br />

1. Nous utilisons ici le terme pertin<strong>en</strong>ce dans son s<strong>en</strong>s premier et non dans le s<strong>en</strong>s que le moteur Google lui<br />

a attribué <strong>en</strong> le faisant <strong>de</strong>v<strong>en</strong>ir synonyme <strong>de</strong> popularité.<br />

2. Sondage effectué sur « le gui<strong>de</strong> <strong>de</strong>s égarés ». Résultats à la date <strong>du</strong> 14 mai 2006 (http://g<strong>de</strong>.jexiste.fr/<br />

joomla/Joomla_1.0.4-Stable-fr/compon<strong>en</strong>t/option,com_poll/task,results/id,15/).<br />

Schedae, 2006, prépublication n°16, (<strong>fascicule</strong> n°1, p. 129-134).


appr<strong>en</strong>dre un nouveau langage car le moteur effectue la médiation <strong>en</strong>tre l’usager et le docum<strong>en</strong>t,<br />

la tra<strong>du</strong>ction <strong>en</strong>tre les int<strong>en</strong>tions <strong>de</strong> recherche <strong>de</strong> l’usager et le docum<strong>en</strong>t pot<strong>en</strong>tiellem<strong>en</strong>t<br />

adéquat. L’<strong>en</strong>tremise <strong>du</strong> moteur <strong>en</strong>tre l’usager et le docum<strong>en</strong>t implique donc <strong>de</strong>s<br />

usages performants et notamm<strong>en</strong>t l’emploi <strong>de</strong> mots-clés efficaces. Il y aurait donc un parler<br />

« moteur » pour ne pas dire un discours moteur combinant mots-clés et opérateurs boolé<strong>en</strong>s.<br />

Or ces pratiques ne sont pas naturelles et guère évid<strong>en</strong>tes pour les jeunes usagers qui ont<br />

beaucoup <strong>de</strong> mal à définir ou à catégoriser. Les mots-clés impliqu<strong>en</strong>t une réflexion, une t<strong>en</strong>tative<br />

pour résumer et définir une question <strong>en</strong> quelques mots. Il s’agit d’un langage différ<strong>en</strong>t<br />

<strong>du</strong> naturel. Or le langage naturel est prés<strong>en</strong>t, sous <strong>de</strong>s formes certes parfois évoluées, dans<br />

d’autres applications sur Internet, notamm<strong>en</strong>t dans la messagerie ou les dialogues <strong>en</strong> direct.<br />

2. La confusion <strong>de</strong>s discours et les néglig<strong>en</strong>ces<br />

L’Internet n’est pas uniforme, par conséqu<strong>en</strong>t les discours r<strong>en</strong>contrés diffèr<strong>en</strong>t fortem<strong>en</strong>t<br />

suivant les actions effectuées. La communication médiatisée par Ordinateurs génère<br />

<strong>de</strong> nouveaux modèles d’interactions. Nous n’évoquerons pas ici les langages informatiques<br />

<strong>de</strong> l’internet même s’il nous apparaît important d’<strong>en</strong> montrer l’exist<strong>en</strong>ce aux élèves. L’usage<br />

<strong>de</strong> l’affichage <strong>du</strong> co<strong>de</strong> source peut s’avérer <strong>en</strong> effet riche <strong>en</strong> informations. Les discours et<br />

docum<strong>en</strong>ts sur Internet connaiss<strong>en</strong>t <strong>de</strong> fortes variations suivant qu’il s’agit <strong>de</strong> « dialogues <strong>en</strong><br />

directs », <strong>de</strong> blogs <strong>de</strong> type « journal intime », <strong>de</strong> sites d’informations, <strong>de</strong> messageries ou bi<strong>en</strong><br />

<strong>en</strong>core <strong>de</strong> flux <strong>de</strong> type Rss.<br />

Les grilles élaborées par <strong>de</strong>s docum<strong>en</strong>talistes t<strong>en</strong>t<strong>en</strong>t <strong>de</strong> donner <strong>de</strong>s pistes d’analyse <strong>de</strong><br />

sites web aux élèves. Elles sont <strong>de</strong> plus <strong>en</strong> plus affinées et peuv<strong>en</strong>t constituer un exercice<br />

intéressant. Bi<strong>en</strong> souv<strong>en</strong>t les élèves ne font pas att<strong>en</strong>tion à la validité d’une information car<br />

ils ne lis<strong>en</strong>t pas tout (ce que les <strong>en</strong>seignants nomm<strong>en</strong>t parfois « l’effet zapping ») et surtout<br />

ils pass<strong>en</strong>t outre certaines indications. Ces mauvaises pratiques <strong>de</strong> lecture et d’id<strong>en</strong>tification<br />

font partie <strong>de</strong> ce que nous avons appelé les néglig<strong>en</strong>ces.<br />

Nous avons observé toutes les actions qui font que la liaison docum<strong>en</strong>t-élève n’aboutit<br />

pas toujours au résultat escompté. Pour cela nous avons utilisé le concept <strong>de</strong> « néglig<strong>en</strong>ces »<br />

qui définit tous ces phénomènes <strong>de</strong> non-lecture ou <strong>de</strong> mauvaise lecture. Cela nous a permis<br />

<strong>de</strong> définir une catégorisation <strong>de</strong>s risques d’échec <strong>de</strong> la relation élève-docum<strong>en</strong>t.<br />

Le mot néglig<strong>en</strong>ce vi<strong>en</strong>t <strong>du</strong> latin neglig<strong>en</strong>tia qui a un s<strong>en</strong>s proche <strong>de</strong> l’acception actuelle.<br />

Neglig<strong>en</strong>tia vi<strong>en</strong>t <strong>de</strong> negligere qui se décompose <strong>en</strong> neg-legere qui signifie « ne pas lire »<br />

Nous avons trouvé cette origine chez Régis Debray (Debray 1993) Les néglig<strong>en</strong>ces sont donc<br />

par ext<strong>en</strong>sion toutes ces actions <strong>de</strong> non-lecture, refus <strong>de</strong> lecture ou <strong>de</strong> « mauvaise » lecture.<br />

Ces actions néglig<strong>en</strong>tes pro<strong>du</strong>is<strong>en</strong>t <strong>de</strong> nombreux effets néfastes que sont par exemple la<br />

mauvaise interprétation ou id<strong>en</strong>tification <strong>du</strong> docum<strong>en</strong>t. Le faux ou l’erreur n’est donc pas ici<br />

intrinsèque au docum<strong>en</strong>t mais extrinsèque. Le docum<strong>en</strong>t qu’il soit numérique ou matériel<br />

voit son exist<strong>en</strong>ce et sa distinction liées au fait qu’il faut que l’indivi<strong>du</strong> soit à même <strong>de</strong> le déchiffrer<br />

et <strong>de</strong> le compr<strong>en</strong>dre. Or c’est bi<strong>en</strong> souv<strong>en</strong>t là que comm<strong>en</strong>c<strong>en</strong>t les difficultés pour les<br />

élèves. L’emploi <strong>du</strong> mot « docum<strong>en</strong>t » suscite déjà <strong>de</strong>s difficultés. L’élève ne fait pas toujours<br />

nettem<strong>en</strong>t la différ<strong>en</strong>ce <strong>en</strong>tre un docum<strong>en</strong>t et un docum<strong>en</strong>taire. En clair, il ne perçoit pas<br />

souv<strong>en</strong>t les limites <strong>du</strong> docum<strong>en</strong>t qu’elles soi<strong>en</strong>t physiques ou sémantiques. Une difficulté<br />

d’appréh<strong>en</strong>sion <strong>du</strong> docum<strong>en</strong>t d’autant plus complexe quand il s’agit d’effectuer <strong>de</strong>s recherches<br />

sur Internet.<br />

Toutes ces relations <strong>de</strong> néglig<strong>en</strong>ces ne sont donc pas neutres et sans effet pour le docum<strong>en</strong>t<br />

numérique. Nous avons dénombré six situations qui démontr<strong>en</strong>t que la multiplication<br />

<strong>de</strong>s sources d’information et les facilités d’accès qui l’accompagn<strong>en</strong>t ne sont pas garants <strong>de</strong><br />

la réussite docum<strong>en</strong>taire :<br />

Schedae, 2006, prépublication n°16, (<strong>fascicule</strong> n°1, p. 129-134).<br />

131


132<br />

– Le docum<strong>en</strong>t est ignoré ;<br />

– Le docum<strong>en</strong>t est plagié ;<br />

– Le docum<strong>en</strong>t n’est pas pertin<strong>en</strong>t ;<br />

– Le docum<strong>en</strong>t est mal compris ou mal interprété ;<br />

– Le docum<strong>en</strong>t est incompréh<strong>en</strong>sible ;<br />

– Le docum<strong>en</strong>t est inaccessible.<br />

Nous sommes face à <strong>de</strong>s processus communicationnels qui sont sources d’incompréh<strong>en</strong>sion.<br />

Alors que le principe <strong>de</strong> base d’Internet repose sur les possibilités offertes par<br />

l’hypermédia, nous remarquons un manque <strong>de</strong> li<strong>en</strong> <strong>en</strong>tre l’usager et le docum<strong>en</strong>t. Le risque<br />

d’<strong>en</strong>tropie n’est donc pas seulem<strong>en</strong>t lié à la multiplication <strong>de</strong>s sources mais aussi à <strong>de</strong>s barrières<br />

sémantiques voire techniques. Ces risques d’échec dans l’accès à la pertin<strong>en</strong>ce docum<strong>en</strong>taire<br />

<strong>de</strong>meur<strong>en</strong>t sont prés<strong>en</strong>ts avec l’évolution constante <strong>de</strong>s NTIC. Il <strong>en</strong> résulte <strong>de</strong>s<br />

mutations docum<strong>en</strong>taires qui compliqu<strong>en</strong>t l’id<strong>en</strong>tification <strong>de</strong>s discours.<br />

3. Information literacy et maîtrise <strong>de</strong> l’information<br />

Il faut se poser la question <strong>du</strong> <strong>de</strong>v<strong>en</strong>ir <strong>de</strong>s médiateurs dans cette redocum<strong>en</strong>tarisation.<br />

Ils vont <strong>de</strong> moins <strong>en</strong> moins constituer d’intermédiaires <strong>en</strong>tre l’usager et le docum<strong>en</strong>t avec les<br />

difficultés évid<strong>en</strong>tes qui <strong>en</strong> résult<strong>en</strong>t. Le travail <strong>du</strong> RTP-Doc souligne bi<strong>en</strong> que cette facilité<br />

d’accès appar<strong>en</strong>te nécessite <strong>de</strong>s savoirs et <strong>de</strong> nouveaux savoirs. La question mérite d’être<br />

posée : qui va se charger <strong>de</strong> la transmission <strong>de</strong> ces savoirs ? Cette tâche impliquerait une<br />

redéfinition <strong>de</strong>s tâches professorales et un développem<strong>en</strong>t <strong>de</strong> la maitrise <strong>de</strong> l’information au<br />

sein <strong>de</strong>s systèmes é<strong>du</strong>catifs. Ou bi<strong>en</strong> doit-on laisser l’usager s’auto-former avec le risque d’une<br />

formation d’une « caste d’initiés » comme ils le sont qualifiés par Pédauque. L’« information<br />

literacy » apparaît alors comme une thérapie (Watzlawick 1979) pour résoudre le problème<br />

<strong>de</strong>s néglig<strong>en</strong>ces. Un travail important au niveau <strong>de</strong> l’évaluation <strong>de</strong> l’information numérique<br />

mérite d’être approfondi et organisé afin <strong>de</strong> donner aux usagers les capacités d’analyse et<br />

<strong>de</strong> critiques face aux flux r<strong>en</strong>contrés. Finalem<strong>en</strong>t il semble qu’il faille plai<strong>de</strong>r pour un métadiscours,<br />

un discours <strong>de</strong> la métho<strong>de</strong> qui permettrait aux usagers d’acquérir leurs habiletés<br />

docum<strong>en</strong>taires (« information literacy skills »). Les travaux et les réflexions sur ce sujet se multipli<strong>en</strong>t<br />

à l’international. D’ailleurs l’IFLA (International Fe<strong>de</strong>ration of Libraries Associations)<br />

vi<strong>en</strong>t <strong>de</strong> mettre <strong>en</strong> place une base <strong>de</strong> données qui regroupe les sites et travaux sur le sujet 3 .<br />

Cette volonté <strong>de</strong> prôner un discours méthodique et rigoureux s’observe dans la sémantique<br />

appliquée au sujet. Ainsi les anglosaxons n’hésit<strong>en</strong>t pas à employer les termes <strong>de</strong> « grammar<br />

of the internet ».<br />

Les stratégies <strong>de</strong>s schémas heuristiques (mindmapping) constitu<strong>en</strong>t <strong>de</strong>s pistes à exploiter<br />

<strong>en</strong> ce qui concerne l’é<strong>du</strong>cation à la réflexion et à l’abstraction. Cela peut constituer <strong>de</strong><br />

bons moy<strong>en</strong>s pour que l’élève utilise les mots-clés avec efficacité. D’ailleurs certains moteurs<br />

comme Exalead offr<strong>en</strong>t la possibilité <strong>de</strong> relancer la recherche à partir d’autres mots-clés affichés<br />

à partir d’une requête. Nous songeons aussi au métamoteur Kartoo qui par sa vision<br />

cartographique sort <strong>de</strong>s habituelles démarches linéaires rejoignant quelque peu le mindmapping.<br />

L’élève pr<strong>en</strong>d ainsi l’habitu<strong>de</strong> <strong>de</strong> travailler aussi sur les liaisons <strong>en</strong>tre les concepts,<br />

les idées et les mots-clés. Il doit donc créer <strong>du</strong> li<strong>en</strong> avant même d’être connecté. Ces démarches<br />

« cognitives » vont dans le s<strong>en</strong>s <strong>de</strong> l’augm<strong>en</strong>tation <strong>de</strong> l’intellect via l’interaction Homme-<br />

Machine (Englebart 1963) Pour combattre les néglig<strong>en</strong>ces et afin que l’élève puisse mieux<br />

3. International Information Literacy Ressources Directory, http://www.uv.mx/usbi_ver/unesco/.<br />

Schedae, 2006, prépublication n°16, (<strong>fascicule</strong> n°1, p. 129-134).


appréh<strong>en</strong><strong>de</strong>r les diverses formes <strong>de</strong> discours une voie semble <strong>de</strong>voir être développée : celle<br />

<strong>de</strong> la pro<strong>du</strong>ction <strong>de</strong> cont<strong>en</strong>u par l’élève lui-même. La maîtrise <strong>de</strong>s différ<strong>en</strong>ts discours ne peut<br />

pas s’appr<strong>en</strong>dre que par la lecture. Il faut donc inciter les élèves à <strong>de</strong>v<strong>en</strong>ir pro<strong>du</strong>cteurs d’informations<br />

et à utiliser les folksonomies avec l’in<strong>de</strong>xation par « tags » afin <strong>de</strong> mieux compr<strong>en</strong>dre<br />

l’importance <strong>de</strong>s mots-clés. C’est d’ailleurs tout le s<strong>en</strong>s <strong>de</strong> l’Internet comme hypermedia et<br />

média « all-to-all ». Dès lors la réactivité face à l’information est préconisée et <strong>en</strong>g<strong>en</strong>dre échanges,<br />

comm<strong>en</strong>taires, critiques et débats.<br />

Conclusion<br />

Les possibilités offertes par les TAL, les systèmes <strong>de</strong> résumés automatiques ou bi<strong>en</strong><br />

<strong>en</strong>core <strong>de</strong> tra<strong>du</strong>ction <strong>de</strong> docum<strong>en</strong>t ne sont pas suffisants pour garantir une pertin<strong>en</strong>ce docum<strong>en</strong>taire.<br />

La relation usager-docum<strong>en</strong>t aboutit à <strong>de</strong>s échecs communicationnels <strong>du</strong> fait <strong>de</strong><br />

néglig<strong>en</strong>ces ou <strong>de</strong> discours non maîtrisés. La difficulté ne va faire que s’accroître avec l’hybridation<br />

<strong>de</strong>s types <strong>de</strong> discours r<strong>en</strong>contrés sur une même page web. De ce fait l’accès à la pertin<strong>en</strong>ce<br />

docum<strong>en</strong>taire ne peut se faire sans collaboration. Nous y voyons trois conditions<br />

pour que l’accès au docum<strong>en</strong>t soit efficace :<br />

1 La formation à l’« information literacy » doit se développer et être accessible à<br />

tous les usagers ;<br />

2 Les technologies doiv<strong>en</strong>t continuer à progresser afin que les robots puiss<strong>en</strong>t<br />

in<strong>de</strong>xer <strong>de</strong> manière plus performante les différ<strong>en</strong>tes données. Les moteurs<br />

doiv<strong>en</strong>t évoluer notamm<strong>en</strong>t <strong>de</strong> manière à distinguer pertin<strong>en</strong>ce et popularité ;<br />

3 L’hybridation <strong>de</strong>s <strong>de</strong>ux premières conditions trouve son prolongem<strong>en</strong>t dans le<br />

développem<strong>en</strong>t <strong>de</strong> la troisième condition : mieux intégrer l’interaction avec<br />

l’usager ;<br />

4 Dès lors le cercle vertueux peut se mettre <strong>en</strong> place mais ce succès ne peut avoir<br />

lieu sans rapprochem<strong>en</strong>t <strong>de</strong>s techniques et <strong>de</strong>s usages. Des métadonnées<br />

efficaces pourront être émises et le projet <strong>de</strong> web sémantique pourra peut-être<br />

dès lors voir le jour. Il faut pour cela que tout le mon<strong>de</strong> travaille dans le même<br />

s<strong>en</strong>s. Par conséqu<strong>en</strong>t le rôle <strong>de</strong> médiation <strong>de</strong>s professionnels <strong>de</strong> l’information<br />

doit s’accroître au niveau <strong>de</strong> la formation ce qui implique sans doute <strong>de</strong>s<br />

mutations professionnelles.<br />

Bibliographie<br />

DEBRAY R. (1993), Vie et mort <strong>de</strong> l’image. Une histoire <strong>du</strong> regard <strong>en</strong> occid<strong>en</strong>t, Paris, Gallimard.<br />

DUMAS P. (2005), « Google au quotidi<strong>en</strong> : le googling ou les habitu<strong>de</strong>s <strong>de</strong> recherche <strong>de</strong> l’internaute<br />

ordinaire », Communication au workshop Le Mon<strong>de</strong> selon Google, <strong>Université</strong> <strong>de</strong> Bucarest, http://<br />

archivesic.ccsd.cnrs.fr/sic_00001577.html.<br />

ENGLEBART D. (1963), A Conceptual Framework for the Augm<strong>en</strong>tation of Man’s Intellect, in The Augm<strong>en</strong>tation<br />

of Man’s Intellect by Machine, vol. 1, Howerton et Week (éds), Washington DC, Spartan Books,<br />

p. 1-27.<br />

ERTZSCHEID O. & GALLEZOT G. (2003), « Chercher faux et trouver juste : sér<strong>en</strong>dipité et recherche d’information»,<br />

in Actes <strong>de</strong> CIFSIC03 1ère confér<strong>en</strong>ce internationale francophone <strong>en</strong> Sci<strong>en</strong>ces <strong>de</strong> l’Information et <strong>de</strong> la<br />

Communication 10e colloque bilatéral Franco-Roumain, Bucarest, Juillet 2003, http://archivesic.ccsd.cnrs.fr/<br />

docum<strong>en</strong>ts/archives0/00/00/06/89/sic_00000689_02/sic_00000689.html<br />

PROULX S. (2001), «Usages <strong>de</strong>s technologies d’information et <strong>de</strong> communication: vers une reconsidération<br />

<strong>du</strong> champ d’étu<strong>de</strong> », confér<strong>en</strong>ce à Inforcom 2001, Congrès <strong>de</strong> la Société <strong>de</strong>s sci<strong>en</strong>ces <strong>de</strong> l’information et<br />

<strong>de</strong> la communication, Paris, http://grm.uqam.ca/textes/proulx_SFSIC2001.pdf.<br />

RTP CNRS 33 < RTP-DOC > (2005-2006), Docum<strong>en</strong>ts et cont<strong>en</strong>u : création, in<strong>de</strong>xation, navigation, Plateforme<br />

d’échange <strong>du</strong> Réseau thématique pluridisciplinaire sur le docum<strong>en</strong>t numérique, http://rtpdoc.<br />

<strong>en</strong>ssib.fr.<br />

Schedae, 2006, prépublication n°16, (<strong>fascicule</strong> n°1, p. 129-134).<br />

133


134<br />

SERRES A. (2005), Évaluation <strong>de</strong> l’information sur Internet: Le défi <strong>de</strong> la formation, Bulletin <strong>de</strong>s Bibliothèques<br />

<strong>de</strong> France (BBF), 6, p. 38-44, http://bbf.<strong>en</strong>ssib.fr.<br />

SIX DEGRÉS (2006), « Les usages d’internet dans l’<strong>en</strong>seignem<strong>en</strong>t supérieur : “<strong>de</strong> la docum<strong>en</strong>tation au<br />

plagiat” », <strong>en</strong>quête m<strong>en</strong>ée pour Six <strong>de</strong>grés, Compilatio.net et Le Shinx, Compilatio.net, http://<br />

www.compilatio.net/files/six<strong>de</strong>gres-sphinx_<strong>en</strong>quete-plagiat_3fev06.pdf.<br />

WATZLAWICK P. (1979), Une logique <strong>de</strong> la communication, Paris, Le seuil (Points essais).<br />

Schedae, 2006, prépublication n°16, (<strong>fascicule</strong> n°1, p. 129-134).


session 4<br />

Systèmes <strong>de</strong> TAL, démonstrations


Schedae, 2006<br />

Prépublication n° 17 Fascicule n° 1<br />

Solutions <strong>de</strong> traitem<strong>en</strong>t<br />

<strong>du</strong> docum<strong>en</strong>t textuel avec prise <strong>en</strong> charge<br />

<strong>de</strong> ressources linguistiques<br />

Ab<strong>de</strong>rrafih Lehmam<br />

Pertin<strong>en</strong>ce Mining SARL<br />

82, av<strong>en</strong>ue Jean Jaurès – 94 400 Vitry sur Seine, France<br />

http://www.pertin<strong>en</strong>ce-mining.com<br />

lehmam@pertin<strong>en</strong>ce.net<br />

Résumé :<br />

Dans cette article nous avons choisi <strong>de</strong> prés<strong>en</strong>ter quelques solutions <strong>de</strong> traitem<strong>en</strong>t <strong>du</strong> docum<strong>en</strong>t<br />

utilisant la technologie <strong>du</strong> text mining. Nous avons toutefois insisté sur celle <strong>du</strong> résumé <strong>de</strong> texte<br />

automatique. Après avoir défini le text mining nous avons d’abord exposé une architecture construite<br />

informatiquem<strong>en</strong>t autour <strong>de</strong> ressources et <strong>de</strong> techniques linguistiques. L’av<strong>en</strong>ir <strong>de</strong>s solutions<br />

<strong>en</strong> text mining ne fait que comm<strong>en</strong>cer avec l’avènem<strong>en</strong>t Internet et la profusion <strong>du</strong> docum<strong>en</strong>t<br />

électronique.<br />

Mots-clés : résumé automatique <strong>de</strong> texte, résumé automatique, plate-forme <strong>de</strong> veille,<br />

intellig<strong>en</strong>ce économique, outil <strong>de</strong> veille, cartographie <strong>de</strong> l’information<br />

Abstract :<br />

The paper pres<strong>en</strong>ts some solutions in text mining, with special focus on automatic summarization<br />

and applications to Arabic. After providing a <strong>de</strong>finition of text mining, we <strong>de</strong>scribe a software<br />

architecture based on linguistic resources and techniques, and give an overview of several summarization<br />

techniques. This is only a beginning in the future of text mining technologies, with the<br />

growing preval<strong>en</strong>ce of the Internet.<br />

Keywords : summarizer, automatic summarization, text summarization, docum<strong>en</strong>t summarization,<br />

watch platform, information mapping<br />

Intro<strong>du</strong>ction<br />

Dans le mon<strong>de</strong> professionnel il est important <strong>de</strong> mettre à disposition <strong>de</strong>s technologies<br />

<strong>de</strong> traitem<strong>en</strong>t <strong>de</strong> l’information permettant d’aller rapi<strong>de</strong>m<strong>en</strong>t à l’ess<strong>en</strong>tiel dans un docum<strong>en</strong>t<br />

textuel. Le but étant d’assister l’utilisateur, par <strong>de</strong>s outils, afin qu’il puisse passer moins <strong>de</strong><br />

temps à chercher l’information et davantage à <strong>en</strong> exploiter le cont<strong>en</strong>u ess<strong>en</strong>tiel. Le traitem<strong>en</strong>t<br />

automatique <strong>du</strong> langage (TAL), <strong>de</strong> plus <strong>en</strong> plus, remplacé par le concept « Text Mining » chez<br />

Ab<strong>de</strong>rrafih Lehmam<br />

« Solutions <strong>de</strong> traitem<strong>en</strong>t <strong>du</strong> docum<strong>en</strong>t textuel avec prise <strong>en</strong> charge <strong>de</strong> ressources linguistiques »<br />

Schedae, 2006, prépublication n°17, (<strong>fascicule</strong> n°1, p. 135-140).<br />

135


136<br />

les professionnels, offre <strong>de</strong>s possibilités réelles pour répondre aux besoins exprimés au<br />

niveau <strong>du</strong> traitem<strong>en</strong>t <strong>de</strong> docum<strong>en</strong>t électronique.<br />

En effet, au vu <strong>du</strong> flot d’information que nous connaissons ; accé<strong>de</strong>r aujourd’hui à l’information<br />

textuelle utile est <strong>de</strong>v<strong>en</strong>u un vrai « casse-tête » pour l’utilisateur <strong>en</strong> quête d’information<br />

textuelle réutilisable. Le Text Mining répond, <strong>en</strong> parti, à cette problématique. L’étu<strong>de</strong><br />

<strong>du</strong> text mining repose particulièrem<strong>en</strong>t sur <strong>de</strong>s li<strong>en</strong>s très étroits <strong>en</strong>tre <strong>de</strong>s recherches <strong>en</strong> linguistique<br />

textuelle et sur les formalisations adéquates <strong>en</strong> vue d’une réalisation informatique.<br />

L’<strong>en</strong>jeu est ici <strong>de</strong> pouvoir d’un côté vali<strong>de</strong>r la pertin<strong>en</strong>ce <strong>de</strong>s recherches théoriques <strong>en</strong>treprises<br />

<strong>en</strong> linguistique et <strong>de</strong> l’autre <strong>de</strong> pouvoir les r<strong>en</strong>dre utiles pour la réalisation <strong>de</strong> logiciels<br />

efficaces <strong>en</strong> discernant <strong>en</strong>tre ce qui peut être « informatisable » et ce qui ne peut pas l’être. Le<br />

but est <strong>de</strong> pro<strong>du</strong>ire <strong>de</strong>s technologies réellem<strong>en</strong>t utilisées dans le mon<strong>de</strong> professionnel telles<br />

que le résumé <strong>de</strong> texte automatique, les plates-formes <strong>de</strong> veille (technologique, sanitaire,<br />

intellig<strong>en</strong>ce économique…), la cartographie <strong>de</strong> l’information textuelle issue <strong>de</strong> l’actualité ou<br />

<strong>en</strong>core les moteurs et les métamoteurs <strong>de</strong> recherche sur Internet. Nous nous proposons dans<br />

cet article, d’abord d’exposer <strong>de</strong>s technologies <strong>en</strong> ce domaine développées par la société<br />

Pertin<strong>en</strong>ce Mining et <strong>en</strong>suite <strong>de</strong> les illustrer par <strong>de</strong>s exemples illustrant <strong>de</strong>s situations concrètes<br />

d’utilisation. Nous nous focaliserons, toutefois, par manque <strong>de</strong> place, que sur la technologie<br />

<strong>du</strong> résumé <strong>de</strong> texte automatique. Dès lors, nous ne prés<strong>en</strong>terons que rapi<strong>de</strong>m<strong>en</strong>t les<br />

autres solutions sachant que ses technologies intègr<strong>en</strong>t, toutes, la fonctionnalité <strong>de</strong> résumé<br />

<strong>de</strong> texte automatique. La métho<strong>de</strong> utilisée est initiée <strong>de</strong>s travaux intro<strong>du</strong>its par Edmundson<br />

(1968). Cette même métho<strong>de</strong> a été améliorée par plusieurs chercheurs, chacun y apportant<br />

une « valeur ajoutée » dans ses écrits et dans ses réalisations (Paice 1990, Lehmam 1995-2006,<br />

Ra<strong>de</strong>v 2000).<br />

Avec l’avènem<strong>en</strong>t <strong>du</strong> docum<strong>en</strong>t textuel électronique suite au développem<strong>en</strong>t fulgurant<br />

<strong>de</strong> l’informatique, <strong>de</strong>s besoins réels se pos<strong>en</strong>t maint<strong>en</strong>ant au niveau <strong>de</strong> l’extraction <strong>de</strong> l’information<br />

utile noyée dans <strong>de</strong>s gigaoctets voire <strong>de</strong>s téraoctets <strong>de</strong> données textuelles véhiculées<br />

dans les différ<strong>en</strong>ts supports et infrastructures numériques. Devant les besoins naissant provoqués<br />

par cette réalité préoccupante, nous avons tout naturellem<strong>en</strong>t choisi d’axer nos<br />

recherches et développem<strong>en</strong>ts, dans le cadre <strong>de</strong> la société Pertin<strong>en</strong>ce Mining, dans ce qu’on<br />

appelle aujourd’hui le text mining. Ce domaine <strong>de</strong> recherche propose <strong>de</strong> répondre au besoin<br />

d’extraction, <strong>de</strong> filtrage et d’exploitation d’un flot d’informations textuelles toujours plus<br />

abondant par <strong>de</strong>s solutions liant les <strong>de</strong>ux disciplines la linguistique et l’informatique pour<br />

apporter <strong>de</strong>s réponses à un besoin qui sera <strong>de</strong> plus <strong>en</strong> plus problématique et forcém<strong>en</strong>t<br />

t<strong>en</strong>dant à s’accroître dans l’av<strong>en</strong>ir. Les solutions que nous développons vis<strong>en</strong>t la résolution<br />

<strong>de</strong>s problèmes liés à la surabondance d’information. On peut définir le text mining comme<br />

ce processus qui permet d’analyser le texte pour extraire les informations effici<strong>en</strong>tes <strong>en</strong> vue<br />

d’une réutilisation bénéfique pour <strong>de</strong>s buts précis. Des outils s’appuyant sur <strong>de</strong>s métho<strong>de</strong>s<br />

principalem<strong>en</strong>t linguistiques, et parfois, faisant appel aux techniques <strong>de</strong>s réseaux neuronaux,<br />

<strong>de</strong> la statistique ou <strong>du</strong> datamining, tra<strong>du</strong>ites dans <strong>de</strong>s co<strong>de</strong>s informatiques pour permettre <strong>de</strong><br />

« compr<strong>en</strong>dre » (mining) artificiellem<strong>en</strong>t le texte (text) <strong>en</strong> vue d’extraire une quantité d’information<br />

limitée mais pertin<strong>en</strong>te afin <strong>de</strong> répondre au besoin recherché qui est principalem<strong>en</strong>t<br />

le gain <strong>de</strong> temps pour une meilleure pro<strong>du</strong>ctivité mais aussi l’ai<strong>de</strong> à la prise <strong>de</strong> décision.<br />

Dans le cadre <strong>du</strong> colloque ISDD’06, nous proposons <strong>de</strong> faire <strong>de</strong>s démonstrations d’applications<br />

conçues <strong>de</strong> façon à permettre le traitem<strong>en</strong>t intellig<strong>en</strong>t <strong>de</strong> l’information docum<strong>en</strong>taire,<br />

<strong>en</strong> puisant dans <strong>de</strong>s ressources linguistiques multilingues, pour l’analyse, la recherche et l’extraction<br />

<strong>de</strong> l’information pertin<strong>en</strong>te pour une meilleure utilisation. Ces solutions œuvr<strong>en</strong>t dans :<br />

– Le résumé <strong>de</strong> texte automatique multilingue ;<br />

– La veille multilingue : collecte, traitem<strong>en</strong>t, visualisation, diffusion et exploitation ;<br />

Schedae, 2006, prépublication n°17, (<strong>fascicule</strong> n°1, p. 135-140).


– La cartographie <strong>de</strong> l’information textuelle avec mesure <strong>de</strong> visibilité (baromètre) ;<br />

– La méta-recherche avec filtrage <strong>de</strong>s résultats <strong>de</strong>s moteurs <strong>de</strong> recherche classiques.<br />

Nous nous cont<strong>en</strong>tons dans cet écrit à décrire rapi<strong>de</strong>m<strong>en</strong>t la solution <strong>de</strong> résumé automatique.<br />

La solution Pertin<strong>en</strong>ce Summarizer (http://www.pertin<strong>en</strong>ce.net/ps) id<strong>en</strong>tifie les phrases<br />

les plus pertin<strong>en</strong>tes d’un texte <strong>en</strong> vue <strong>de</strong> leur extraction pour la constitution d’un résumé,<br />

paramétrable dynamiquem<strong>en</strong>t. Cette application ti<strong>en</strong>t compte <strong>de</strong> la spécificité <strong>du</strong> texte et <strong>de</strong><br />

sa thématique (domaines) <strong>en</strong> se fondant exclusivem<strong>en</strong>t sur <strong>de</strong>s techniques d’analyse linguistique<br />

<strong>du</strong> discours.<br />

Quelques points précisant ce qui est pris <strong>en</strong> charge lors <strong>du</strong> traitem<strong>en</strong>t :<br />

– reconnaissance d’élém<strong>en</strong>ts phrastiques pour évaluer la pertin<strong>en</strong>ce <strong>de</strong> la phrase <strong>en</strong> vue<br />

<strong>de</strong> sa sélection pour la constitution <strong>du</strong> résumé ;<br />

– traitem<strong>en</strong>t morpho-syntaxique, dictionnaire morphologique spécifique ;<br />

– base synonymique spécifique, terminologie <strong>du</strong> domaine, personnalisation par utilisateur ;<br />

– structuration <strong>de</strong> la base <strong>de</strong>s marqueurs selon les domaines ;<br />

– spécialisation par domaine <strong>en</strong> vue <strong>de</strong> pro<strong>du</strong>ire <strong>de</strong>s résumés t<strong>en</strong>ant compte <strong>du</strong> thème<br />

<strong>du</strong> texte ;<br />

– Intégrations <strong>de</strong> thésaurus pour appuyer <strong>en</strong> pertin<strong>en</strong>ce les résumé pro<strong>du</strong>its ;<br />

– prise <strong>en</strong> compte <strong>de</strong>s termes pour les besoins d’utilisateur, ce <strong>de</strong>rnier est invité à <strong>en</strong>trer<br />

<strong>de</strong>s termes/expressions <strong>en</strong> vue d’aiguiller le résultat <strong>du</strong> résumé par rapport son besoin ;<br />

– ai<strong>de</strong> à la lecture rapi<strong>de</strong> par coloration nuancée <strong>de</strong>s phrases au moy<strong>en</strong> la couleur choisie ;<br />

– navigation sur les termes d’un domaine donné avec possibilité d’extraction <strong>de</strong>s synonymes,<br />

d’antonymes ainsi que d’autres relations sémantiques mais aussi <strong>de</strong>s <strong>en</strong>tités<br />

nommés trouvées dans le texte.<br />

Dans l’exemple <strong>de</strong> copie d’écran <strong>de</strong> Pertin<strong>en</strong>ce Summarizer ci-<strong>de</strong>ssous (figure 1), il est<br />

montré une extraction <strong>de</strong>s termes <strong>de</strong>scripteurs <strong>du</strong> domaine juridique avec reconnaissance <strong>de</strong>s<br />

termes non-<strong>de</strong>scripteurs et <strong>de</strong>scripteurs, <strong>en</strong> couleur jaune. En couleur rouge sont indiqués les<br />

termes non-<strong>de</strong>scripteur exprimant la relation <strong>de</strong> synonymie (sanction pénale → condamnation).<br />

Figure 1 : Extraction <strong>de</strong>s termes d’un domaine avec mise <strong>en</strong> relief <strong>de</strong> la relation <strong>de</strong> synonymie.<br />

Schedae, 2006, prépublication n°17, (<strong>fascicule</strong> n°1, p. 135-140).<br />

137


138<br />

Cette fonctionnalité montre le <strong>de</strong>gré d’intellig<strong>en</strong>ce artificielle avancée <strong>du</strong> logiciel dans la<br />

mesure où l’utilisateur a accès, <strong>en</strong> plus <strong>du</strong> résumé automatique, à la connaissance par l’acquisition,<br />

la compréh<strong>en</strong>sion et l’<strong>en</strong>richissem<strong>en</strong>t <strong>de</strong> son capital lexique d’un domaine donné grâce<br />

aux relations sémantiques explicitées automatiquem<strong>en</strong>t.<br />

Cette solution d’accès rapi<strong>de</strong> à l’information textuelle est intégrée d’office dans tous les<br />

outils 1 <strong>de</strong> Pertin<strong>en</strong>ce Mining. Ces <strong>de</strong>rniers sont tous testables <strong>en</strong> ligne sur Internet.<br />

La prise <strong>en</strong> compte <strong>de</strong> ressources linguistiques va nous permettre la réalisation <strong>de</strong> fonctionnalités<br />

avancées dans Pertin<strong>en</strong>ce Summarizer : il est possible, par exemple, <strong>de</strong> naviguer<br />

sur les termes d’un domaine donné avec possibilité d’extraction <strong>de</strong> différ<strong>en</strong>tes relations sémantiques,<br />

à la <strong>de</strong>man<strong>de</strong> : synonymes, antonymes, homonymes, sigles, <strong>en</strong>tités nommés, etc.<br />

Une ai<strong>de</strong> à la lecture rapi<strong>de</strong> par coloration nuancée <strong>de</strong>s phrases est aussi possible. L’interface<br />

<strong>de</strong> soumission <strong>du</strong> docum<strong>en</strong>t textuel à résumer propose diverses possibilités pour non seulem<strong>en</strong>t<br />

pouvoir extraire l’information importante mais aussi pouvoir ai<strong>de</strong>r l’utilisateur à exploiter<br />

cette <strong>de</strong>rnière par la lecture rapi<strong>de</strong> ou la lecture <strong>en</strong> diagonale <strong>du</strong> texte source. D’autres<br />

fonctionnalités purem<strong>en</strong>t pragmatico-informatiques vont elles permettre la récupération <strong>de</strong>s<br />

référ<strong>en</strong>ces anaphoriques orphelines. Pertin<strong>en</strong>ce Summarizer va non seulem<strong>en</strong>t, permettre <strong>de</strong><br />

résumer <strong>de</strong>s docum<strong>en</strong>ts issus d’un support matériel (disque <strong>du</strong>r, disquette, clefs USB, etc.),<br />

d’une URL Internet ou intranet, d’un copié/collé mais aussi <strong>de</strong> résumer automatiquem<strong>en</strong>t<br />

l’<strong>en</strong>semble <strong>de</strong>s docum<strong>en</strong>ts d’un dossier ou d’un répertoire et ceci <strong>en</strong> un seul clic. C’est cette<br />

<strong>de</strong>rnière fonctionnalité que nous avons choisie <strong>de</strong> montrer comme secon<strong>de</strong> illustration pour le<br />

traitem<strong>en</strong>t <strong>de</strong> la langue arabe. Par exemple, <strong>en</strong> imaginant que l’utilisateur se trouve confronté<br />

à la réalisation d’un rapport ou d’un mémoire <strong>de</strong> thèse <strong>de</strong> doctorat ou autre, une solution<br />

pouvant résumer automatiquem<strong>en</strong>t un dossier <strong>de</strong> docum<strong>en</strong>ts ne peut que lui faire gagner<br />

<strong>du</strong> temps quant à leur exploration. Dans ce cas précis, les résumés automatiques pourront<br />

rapi<strong>de</strong>m<strong>en</strong>t lui fournir suffisamm<strong>en</strong>t d’informations pertin<strong>en</strong>tes pour l’aiguiller vers le texte<br />

utile parmi un nombre important <strong>de</strong> docum<strong>en</strong>ts prés<strong>en</strong>ts dans un dossier. Le traitem<strong>en</strong>t <strong>de</strong><br />

plusieurs dossiers ne peut que l’assister dans sa pro<strong>du</strong>ctivité. Nous donnons ci-<strong>de</strong>ssous un<br />

exemple traitant un dossier cont<strong>en</strong>ant <strong>de</strong> nombreux textes <strong>en</strong> langue arabe (figure 2).<br />

Figure 2 : Résumé automatique à la volée <strong>de</strong> nombreux docum<strong>en</strong>ts cont<strong>en</strong>us dans un répertoire.<br />

1. Pertin<strong>en</strong>ce Information Network : plate-forme <strong>de</strong> veille (http://www.pertin<strong>en</strong>ce.net/pin). PODoo : métamoteur<br />

<strong>de</strong> recherche (http://www.podoo.net) – Conniv<strong>en</strong>ces : cartographie intellig<strong>en</strong>te <strong>de</strong> l’actualité<br />

(http://www.conniv<strong>en</strong>ces.info)<br />

Schedae, 2006, prépublication n°17, (<strong>fascicule</strong> n°1, p. 135-140).


Cette fonctionnalité permet l’exploration rapi<strong>de</strong> <strong>de</strong> l’information pertin<strong>en</strong>te qui est ici<br />

facilitée <strong>de</strong>vant un gros volume <strong>de</strong> textes. Les résumés automatiques pro<strong>du</strong>its par Pertin<strong>en</strong>ce<br />

Summarizer à partir d’un dossier ou d’un répertoire vont donner suffisamm<strong>en</strong>t d’informations<br />

effici<strong>en</strong>tes pour que l’utilisateur puisse déci<strong>de</strong>r <strong>de</strong> porter son choix sur les textes les plus<br />

intéressants à dépouiller. Ensuite, le bouton « Résumé avancé » va lui permettre d’explorer <strong>en</strong><br />

dynamique le texte source afin <strong>de</strong> récupérer rapi<strong>de</strong>m<strong>en</strong>t l’information quêtée. L’intégration<br />

<strong>de</strong> terminologies ou <strong>de</strong> thesaurus par domaines thématiques va permettre <strong>de</strong>s fonctionnalités<br />

intellig<strong>en</strong>tes <strong>de</strong> text mining ou <strong>de</strong> fouille <strong>de</strong> texte comme montré plus haut.<br />

Conclusion<br />

La technologie <strong>du</strong> text mining est une discipline qui t<strong>en</strong>dra à ce développer dans l’av<strong>en</strong>ir<br />

car les docum<strong>en</strong>ts textuels électroniques sont <strong>de</strong>v<strong>en</strong>us d’un usage vulgarisé et ce dans une<br />

proportion toujours croissante. Comme le résumé automatique <strong>de</strong> texte, nous verrons <strong>de</strong><br />

plus <strong>en</strong> plus apparaître <strong>de</strong>s solutions innovantes qui proposeront <strong>de</strong>s outils <strong>de</strong> traitem<strong>en</strong>t <strong>du</strong><br />

docum<strong>en</strong>t textuel pour faciliter l’accès à l’information. Pour notre part, nous continuons à<br />

réfléchir à d’autres applications qui se fon<strong>de</strong>ront strictem<strong>en</strong>t sur <strong>de</strong>s ressources et <strong>de</strong>s techniques<br />

linguistiques <strong>en</strong> vue <strong>de</strong> répondre à un problème crucial : la maîtrise <strong>de</strong> l’information.<br />

La difficulté à résoudre reste toutefois l’élaboration <strong>de</strong> bonnes formalisations qui permettrai<strong>en</strong>t<br />

<strong>de</strong> faire collaborer <strong>en</strong> bonne intellig<strong>en</strong>ce les <strong>de</strong>ux disciplines à savoir la linguistique<br />

et l’informatique.<br />

Bibliographie<br />

EDMUNDSON H.P. (1968), « New methods in automatic extraction », Journal of the ACM, 16 (2), p. 264-285.<br />

LEHMAM A. (1999), « Text structuration leading to an automatic summary system», Information Processing<br />

and Managem<strong>en</strong>t, 35, p. 181-191, 1999, Elsevier Sci<strong>en</strong>ce, New York, USA.<br />

LEHMAM A (2002), « Résumé <strong>de</strong> texte automatique : vers <strong>de</strong>s solutions professionnelles », Journée ATALA<br />

sur le résumé <strong>de</strong> texte automatique initiée et organisée par A. Lehmam (Pertin<strong>en</strong>ce Mining, Paris) avec<br />

l’ai<strong>de</strong> <strong>du</strong> laboratoire <strong>du</strong> Pr. J.-P. Desclés (LaLICC – FRE 2520 CNRS – Paris IV) ENST Paris, décembre 2002.<br />

LEHMAM A. (2006a), « Solutions <strong>de</strong> Text Mining pour l’intellig<strong>en</strong>ce économique, vers la veille<br />

intellig<strong>en</strong>te », Congrès TELMI 06 organisé par l’ARIST Nord-Pas <strong>de</strong> Calais et l’<strong>Université</strong> <strong>de</strong> Lille 3<br />

(Master GIDE-PRISME – UFR IDIST) « Les Outils <strong>de</strong> Veille Stratégique », 30 mars 2006, Lille, France.<br />

LEHMAM A. (2006b), « Technologie textuelle multilingue », AAFD’06 2e Journées Thématiques « Appr<strong>en</strong>tissage<br />

Artificiel et Fouille <strong>de</strong> Données », <strong>Université</strong> Paris 13, Institut Galilée, 27-28 avril, Paris, France.<br />

LEHMAM A., BOUVET P. (2004a), « Watch application, summarization and syndication in Arabic », in Proceedings<br />

of the confer<strong>en</strong>ce nemlar '04 « arabic language resources and tools confer<strong>en</strong>ce », p. 157-163,<br />

22-23 Septembre 2004, Le Caire, Égypte.<br />

LEHMAM A., BOUVET P. (2004b), « Un résumeur automatique <strong>de</strong> textes multilingues intégré dans une<br />

plate-forme <strong>de</strong> veille ; application à la langue arabe », in Actes <strong>de</strong> la confér<strong>en</strong>ce JEP-TALN-RECITAL<br />

2004, p. 111-122, Fès, Maroc.<br />

PAICE C.D. (1990), «Constructing literature abstracts by computer techniques and prospects », Information<br />

Processing and Managem<strong>en</strong>t, 1, New York, Elsevier Sci<strong>en</strong>ce, p. 171-186.<br />

RADEV D (2000), « Summarization of multiple docum<strong>en</strong>ts : clustering, s<strong>en</strong>t<strong>en</strong>ce extraction », ANLP-NAACL<br />

Workshop on Automatic Summarization, April 2000, Seattle, USA.<br />

Schedae, 2006, prépublication n°17, (<strong>fascicule</strong> n°1, p. 135-140).<br />

139


140<br />

Schedae, 2006, prépublication n°17, (<strong>fascicule</strong> n°1, p. 135-140).


Schedae, 2006<br />

Prépublication n° 18 Fascicule n° 1<br />

Analyse <strong>de</strong> structures discursives<br />

avec la plate-forme LinguaStream<br />

Frédérik Bilhaut & Antoine Widlöcher<br />

GREYC (CNRS – UMR 6 072) – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie<br />

fbilhaut@info.unica<strong>en</strong>.fr, awidloch@info.unica<strong>en</strong>.fr<br />

Résumé :<br />

À travers la prés<strong>en</strong>tation <strong>de</strong> la plate-forme LinguaStream, nous décrivons certains principes méthodologiques<br />

et différ<strong>en</strong>ts modèles d’analyse pouvant permettre l’articulation <strong>de</strong> traitem<strong>en</strong>ts sur<br />

corpus et leur inscription dans un processus plus général d’observation, d’élaboration et d’évaluation<br />

<strong>de</strong> modèles linguistiques, à <strong>de</strong>s fins <strong>de</strong> recherche ou d’<strong>en</strong>seignem<strong>en</strong>t. Nous <strong>en</strong>visageons <strong>en</strong><br />

particulier les besoins nés <strong>de</strong> perspectives liées à l’analyse <strong>du</strong> discours.<br />

Mots-clés : linguistique <strong>de</strong> corpus, TAL, plate-forme logicielle, analyse <strong>du</strong> discours.<br />

Abstract :<br />

By pres<strong>en</strong>ting the LinguaStream platform, we intro<strong>du</strong>ce differ<strong>en</strong>t methodological principles and<br />

analysis mo<strong>de</strong>ls, which make it possible to build hybrid experim<strong>en</strong>tal NLP systems by articulating<br />

corpus processing tasks. More especially, we show how they can support the elaboration of automatic<br />

discourse analysis processes.<br />

Keywords: corpus linguistics, NLP, software platform, automatic discourse analysis.<br />

Intro<strong>du</strong>ction<br />

LinguaStream 1 a été initialem<strong>en</strong>t développée pour faciliter la réalisation d’expéri<strong>en</strong>ces<br />

sur corpus <strong>en</strong> TAL, ainsi que le cycle d’évaluation/ajustem<strong>en</strong>t qui <strong>en</strong> découle. Sans outil<br />

adapté, le coût <strong>de</strong> mise <strong>en</strong> œuvre in<strong>du</strong>it par chaque nouvelle expéri<strong>en</strong>ce <strong>de</strong>vi<strong>en</strong>t <strong>en</strong> effet<br />

un frein considérable à l’approche expérim<strong>en</strong>tale, ainsi qu’à toute application pédagogique<br />

où l’on souhaite se conc<strong>en</strong>trer sur les modèles et règles linguistiques. Pour répondre à cette<br />

problématique, LinguaStream permet <strong>de</strong> mettre <strong>en</strong> œuvre <strong>de</strong> procédés non triviaux tout <strong>en</strong><br />

requérant <strong>de</strong>s compét<strong>en</strong>ces informatiques minimales. Elle facilite la conception et l’évaluation<br />

<strong>de</strong> chaînes <strong>de</strong> traitem<strong>en</strong>ts complexes, par assemblage visuel <strong>de</strong> mo<strong>du</strong>les d’analyse <strong>de</strong><br />

types et <strong>de</strong> niveaux variés : morphologique, syntaxique, sémantique, discursif… Chaque palier<br />

1. http://www.linguastream.org<br />

Frédérik Bilhaut & Antoine Widlöcher<br />

« Analyse <strong>de</strong> structures discursives avec la plate-forme LinguaStream »<br />

Schedae, 2006, prépublication n°18, (<strong>fascicule</strong> n°1, p. 141-146).<br />

141


142<br />

<strong>de</strong> la chaîne <strong>de</strong> traitem<strong>en</strong>t se tra<strong>du</strong>it par la découverte et le marquage <strong>de</strong> nouvelles informations,<br />

sur lesquelles pourront s’appuyer les analyseurs subséqu<strong>en</strong>ts.<br />

Un <strong>en</strong>vironnem<strong>en</strong>t <strong>de</strong> développem<strong>en</strong>t intégré (cf. figure 1) permet <strong>de</strong> construire visuellem<strong>en</strong>t<br />

ces chaînes <strong>de</strong> traitem<strong>en</strong>t, à partir d’une « palette » <strong>de</strong> composants (une cinquantaine<br />

est intégrée <strong>en</strong> standard, cet <strong>en</strong>semble étant ext<strong>en</strong>sible si besoin). Certains sont spécifiquem<strong>en</strong>t<br />

dédiés à <strong>de</strong>s traitem<strong>en</strong>ts d’ordre linguistique, et d’autres permett<strong>en</strong>t <strong>de</strong> résoudre différ<strong>en</strong>ts<br />

problèmes liés à la gestion <strong>de</strong>s docum<strong>en</strong>ts électroniques (traitem<strong>en</strong>ts XML <strong>en</strong> particulier).<br />

D’autres peuv<strong>en</strong>t être utilisés pour effectuer <strong>de</strong>s calculs sur les annotations pro<strong>du</strong>ites par<br />

les analyseurs, pour générer <strong>de</strong>s diagrammes, etc. D’autres <strong>en</strong>core permett<strong>en</strong>t <strong>de</strong> visualiser<br />

les docum<strong>en</strong>ts analysés et leurs annotations. Chacun dispose d’un ou plusieurs points d’<strong>en</strong>trée<br />

et/ou <strong>de</strong> sortie que l’on relie pour obt<strong>en</strong>ir la chaîne voulue, celle-ci étant représ<strong>en</strong>tée par<br />

un graphe où les divers composants apparaiss<strong>en</strong>t sous forme <strong>de</strong> « boîtes » reliées <strong>en</strong>tre elles.<br />

Chaque composant propose un nombre variable <strong>de</strong> paramètres permettant d’adapter son<br />

comportem<strong>en</strong>t. Les marquages pro<strong>du</strong>its par chacun sont organisés <strong>en</strong> couches indép<strong>en</strong>dantes,<br />

supportant <strong>en</strong>châssem<strong>en</strong>ts et chevauchem<strong>en</strong>ts. La plate-forme se base systématiquem<strong>en</strong>t<br />

sur les standards XML, et peut traiter tout fichier <strong>de</strong> ce type <strong>en</strong> préservant sa structure<br />

originelle.<br />

Principes fondam<strong>en</strong>taux<br />

En premier lieu, la plate-forme recourt systématiquem<strong>en</strong>t à <strong>de</strong>s représ<strong>en</strong>tations déclaratives<br />

pour spécifier les différ<strong>en</strong>ts traitem<strong>en</strong>ts, ainsi que leur <strong>en</strong>chaînem<strong>en</strong>t. Les différ<strong>en</strong>ts<br />

formalismes disponibles permett<strong>en</strong>t ainsi <strong>de</strong> transcrire directem<strong>en</strong>t l’expertise linguistique à<br />

mettre <strong>en</strong> œuvre, l’appareil procé<strong>du</strong>ral qui <strong>en</strong> résulte étant pris <strong>en</strong> charge par la plate-forme.<br />

Les règles données ont donc une valeur tant <strong>de</strong>scriptive, <strong>en</strong> tant que représ<strong>en</strong>tations formelles<br />

d’un phénomène linguistique, que prescriptive, <strong>en</strong> tant qu’instructions <strong>de</strong> traitem<strong>en</strong>t fournies<br />

à un processus informatique.<br />

La plate-forme exploite par ailleurs la complém<strong>en</strong>tarité <strong>de</strong>s modèles d’analyse, plutôt<br />

que <strong>de</strong> privilégier un hypothétique modèle « omnipot<strong>en</strong>t ». Nous faisons <strong>en</strong> effet l’hypothèse<br />

qu’un analyseur complexe doit adopter successivem<strong>en</strong>t plusieurs regards sur le même matériau<br />

linguistique, auxquels répondront <strong>de</strong>s formalismes distincts. On pourra par exemple combiner,<br />

au sein d’un même traitem<strong>en</strong>t, <strong>de</strong>s expressions régulières au niveau morphologique,<br />

une grammaire locale d’unification au niveau syntagmatique, un trans<strong>du</strong>cteur déterministe<br />

au niveau phrastique et une grammaire <strong>de</strong> contraintes au niveau discursif. L’interopérabilité<br />

<strong>de</strong> ces différ<strong>en</strong>ts mo<strong>du</strong>les est garantie par l’usage d’une représ<strong>en</strong>tation unifiée <strong>de</strong>s marquages<br />

et <strong>de</strong>s annotations. Ces <strong>de</strong>rnières sont uniformém<strong>en</strong>t représ<strong>en</strong>tées par <strong>de</strong>s structures<br />

<strong>de</strong> traits, modèle communém<strong>en</strong>t utilisé <strong>en</strong> TAL et <strong>en</strong> linguistique, et permettant <strong>de</strong> représ<strong>en</strong>ter<br />

<strong>de</strong>s annotations riches et structurées. Tout composant d’analyse pourra pro<strong>du</strong>ire son<br />

propre marquage <strong>en</strong> s’appuyant sur les analyses précéd<strong>en</strong>tes, les formalismes proposés permettant<br />

<strong>de</strong> spécifier <strong>de</strong>s contraintes sur les annotations existantes. La plate-forme favorise<br />

ainsi l’abstraction progressive <strong>de</strong>s formes <strong>de</strong> surface : chaque palier d’analyse pouvant accé<strong>de</strong>r<br />

simultaném<strong>en</strong>t aux annotations pro<strong>du</strong>ites par tous les paliers antérieurs, les analyseurs<br />

<strong>de</strong> plus haut niveau peuv<strong>en</strong>t s’abstraire progressivem<strong>en</strong>t <strong>du</strong> matériau textuel pour ne plus<br />

reposer que sur <strong>de</strong>s représ<strong>en</strong>tations symboliques antérieurem<strong>en</strong>t calculées.<br />

Parmi les composants susceptibles <strong>de</strong> pr<strong>en</strong>dre part à une chaîne <strong>de</strong> traitem<strong>en</strong>t, on peut<br />

distinguer <strong>de</strong>ux familles. La première regroupe les analyseurs « prêts à l’emploi », dédiés à<br />

une tâche précise. Il s’agira par exemple <strong>de</strong> l’étiquetage morpho-syntaxique, une interface<br />

avec TreeTagger (Schmid 1994) étant intégrée par défaut, ou syntaxique <strong>en</strong> s’appuyant sur les<br />

résultats <strong>de</strong> Syntex (Bourigault et Fabre 2000). Ces composants sont paramétrables, mais il<br />

n’est pas possible <strong>de</strong> modifier fondam<strong>en</strong>talem<strong>en</strong>t leur fonctionnem<strong>en</strong>t. D’autres au contraire<br />

Schedae, 2006, prépublication n°18, (<strong>fascicule</strong> n°1, p. 141-146).


(EDCG, MRE, CDML, LSL,…) propos<strong>en</strong>t un modèle d’analyse, c’est-à-dire un formalisme <strong>de</strong><br />

représ<strong>en</strong>tation <strong>de</strong> contraintes linguistiques, év<strong>en</strong>tuellem<strong>en</strong>t associé à un modèle opératoire,<br />

par lequel l’utilisateur peut spécifier intégralem<strong>en</strong>t le traitem<strong>en</strong>t à opérer <strong>en</strong> écrivant ses<br />

propres règles. Ils permett<strong>en</strong>t d’exprimer <strong>de</strong>s contraintes tant sur les formes <strong>de</strong> surface que<br />

sur les annotations insérées par les analyseurs précéd<strong>en</strong>ts.<br />

La mo<strong>du</strong>larité <strong>de</strong>s chaînes <strong>de</strong> traitem<strong>en</strong>ts favorise quant à elle la réutilisabilité <strong>de</strong>s composants<br />

dans <strong>de</strong>s contextes différ<strong>en</strong>ts : un mo<strong>du</strong>le d’analyse développé au sein d’une première<br />

chaîne pourra être réutilisé dans d’autres chaînes. De façon similaire, toute chaîne pourra<br />

être réutilisée <strong>en</strong> tant que constituant d’une chaîne <strong>de</strong> plus haut niveau, sous forme <strong>de</strong> «macrocomposant<br />

». Pour une chaîne donnée, on pourra égalem<strong>en</strong>t substituer à un composant tout<br />

autre composant fonctionnellem<strong>en</strong>t équival<strong>en</strong>t. Pour une sous-tâche donnée, un prototype<br />

rudim<strong>en</strong>taire pourra être remplacé in fine par un équival<strong>en</strong>t pleinem<strong>en</strong>t opérationnel. Ceci<br />

r<strong>en</strong>d possible la mise <strong>en</strong> comparaison <strong>de</strong>s traitem<strong>en</strong>ts, <strong>en</strong> soumettant ces <strong>de</strong>rniers à <strong>de</strong>s contextes<br />

rigoureusem<strong>en</strong>t id<strong>en</strong>tiques, condition sine qua non d’une confrontation pertin<strong>en</strong>te.<br />

Exemple d’application :<br />

analyse <strong>de</strong>s cadres <strong>de</strong> discours temporels<br />

Afin <strong>de</strong> donner une idée plus concrète <strong>de</strong>s principes méthodologiques prés<strong>en</strong>tés, <strong>en</strong>visageons<br />

à prés<strong>en</strong>t une configuration linguistique particulière, assez représ<strong>en</strong>tative <strong>de</strong>s problèmes<br />

posés par l’analyse discursive, <strong>en</strong> abordant la question <strong>de</strong> l’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> discours<br />

(Charolles 1997), et plus particulièrem<strong>en</strong>t celle <strong>de</strong> la détection automatique <strong>de</strong>s cadres temporels.<br />

Rappelons que l’auteur qualifie ainsi <strong>de</strong>s segm<strong>en</strong>ts textuels homogènes <strong>du</strong> point <strong>de</strong><br />

vue d’un critère d’interprétation fixé dans une expression <strong>en</strong> position détachée <strong>en</strong> début<br />

<strong>de</strong> phrase, dite intro<strong>du</strong>cteur <strong>de</strong> cadre. L’opérationnalisation <strong>en</strong> TAL <strong>de</strong> ce modèle psycholinguistique<br />

impose la résolution <strong>de</strong> <strong>de</strong>ux problèmes principaux : détection <strong>de</strong>s intro<strong>du</strong>cteurs,<br />

puis évaluation <strong>de</strong> leur portée, c’est-à-dire détermination <strong>de</strong> la borne droite <strong>du</strong> cadre intro<strong>du</strong>it.<br />

Bi<strong>en</strong> que cette <strong>de</strong>rnière tâche soit très problématique dans la mesure où les critères<br />

formels <strong>de</strong> clôture <strong>de</strong>s cadres sont difficiles à établir, un certain nombre d’indices ont toutefois<br />

pu être dégagés dans le cas précis <strong>de</strong>s cadres temporels (Bilhaut et al. 2003). La figure 2 représ<strong>en</strong>te<br />

la chaîne <strong>de</strong> traitem<strong>en</strong>t complète, ainsi que les principales règles d’analyse décrites<br />

ci-<strong>de</strong>ssous.<br />

Le problème <strong>de</strong> la détection <strong>de</strong>s intro<strong>du</strong>cteurs temporels se décline lui-même <strong>en</strong> <strong>de</strong>ux<br />

sous-problèmes : l’analyse <strong>de</strong>s expressions temporelles, et celle <strong>de</strong>s intro<strong>du</strong>cteurs s’appuyant<br />

sur elles. Les principes <strong>de</strong> mo<strong>du</strong>larité évoqués trouv<strong>en</strong>t ici leur justification, puisque nous<br />

souhaiterons généralem<strong>en</strong>t traiter ces problèmes indép<strong>en</strong>damm<strong>en</strong>t. L’analyse sémantique <strong>de</strong>s<br />

expressions temporelles fait l’objet d’une grammaire locale d’unification (EDCG), exprimant<br />

<strong>de</strong>s contraintes sur les résultats d’une analyse morpho-syntaxique préliminaire, et associant<br />

aux expressions reconnues une représ<strong>en</strong>tation <strong>de</strong> leur « s<strong>en</strong>s » sous forme <strong>de</strong> structures <strong>de</strong><br />

traits.<br />

Sur cette base, la détection <strong>de</strong>s intro<strong>du</strong>cteurs peut être mise <strong>en</strong> place à l’ai<strong>de</strong> <strong>de</strong> critères<br />

ess<strong>en</strong>tiellem<strong>en</strong>t positionnels. Les contraintes exprimées sont fondam<strong>en</strong>talem<strong>en</strong>t séqu<strong>en</strong>tielles<br />

: nous recherchons <strong>de</strong>s zones <strong>de</strong> texte vérifiant <strong>de</strong>s motifs imposant la prés<strong>en</strong>ce, dans<br />

un ordre fixé, d’élém<strong>en</strong>ts immédiatem<strong>en</strong>t successifs. Ces règles sont donc simplem<strong>en</strong>t exprimables<br />

à l’ai<strong>de</strong> <strong>de</strong> « macro-expressions régulières » MRE (outre les expressions temporelles,<br />

nous exploitons ici le marquage <strong>de</strong>s phrases et <strong>de</strong>s connecteurs <strong>de</strong> discours). Les contraintes<br />

sur les structures <strong>de</strong> traits pro<strong>du</strong>ites <strong>en</strong> amont, ainsi que sur les formes <strong>de</strong> surface (la virgule<br />

<strong>en</strong> fin <strong>de</strong> motif) permett<strong>en</strong>t <strong>de</strong> délimiter l’intro<strong>du</strong>cteur. Nous recherchons les élém<strong>en</strong>ts précédés<br />

d’un début <strong>de</strong> phrase et composés d’un év<strong>en</strong>tuel connecteur <strong>de</strong> discours et d’une expression<br />

temporelle. Le reste <strong>de</strong> l’expression correspond au marquage et à l’annotation pro<strong>du</strong>its<br />

Schedae, 2006, prépublication n°18, (<strong>fascicule</strong> n°1, p. 141-146).<br />

143


144<br />

<strong>en</strong> sortie. L’élém<strong>en</strong>t reconnu aura le type « intro<strong>du</strong>cteur » et sera associé à l’annotation sémantique<br />

qui lui fait suite. Précisons que la variable $t permet <strong>de</strong> faire « remonter » l’information<br />

cont<strong>en</strong>ue dans la structure <strong>de</strong> traits associée à l’expression temporelle, pour un usage ultérieur.<br />

Pour la détermination <strong>de</strong> la portée <strong>de</strong> l’intro<strong>du</strong>cteur, la métho<strong>de</strong> prés<strong>en</strong>tée dans (Bilhaut<br />

et al. 2003) s’appuie sur <strong>de</strong>s critères énonciatifs tels que la cohésion <strong>de</strong>s temps verbaux, sur<br />

la structuration <strong>en</strong> paragraphes, et sur <strong>de</strong>s calculs sémantiques <strong>de</strong> cohér<strong>en</strong>ce <strong>en</strong>tre l’intro<strong>du</strong>cteur<br />

et les autres expressions temporelles. La nature <strong>de</strong> ces contraintes diffère radicalem<strong>en</strong>t<br />

<strong>de</strong>s précéd<strong>en</strong>tes. D’une part, nous pouvons désormais nous abstraire <strong>de</strong> la linéarité<br />

<strong>du</strong> texte : contrairem<strong>en</strong>t à une approche par expressions régulières, nous pouvons ici ignorer<br />

un certain nombre d’élém<strong>en</strong>ts <strong>du</strong> flot textuel. D’autre part, s’il existe bi<strong>en</strong> <strong>de</strong>s contraintes<br />

interprétatives <strong>en</strong>tre l’intro<strong>du</strong>cteur et certains élém<strong>en</strong>ts <strong>de</strong> la zone intro<strong>du</strong>ite, il n’est pas<br />

souhaitable <strong>de</strong> concevoir ces contraintes comme imposant un ordre strict <strong>en</strong>tre ces élém<strong>en</strong>ts.<br />

Pour l’expression <strong>de</strong> telles contraintes à la fois non linéaires et non séqu<strong>en</strong>tielles, nous disposons<br />

<strong>du</strong> formalisme CDML (Widlöcher 2006) et pouvons formuler la « grammaire » repro<strong>du</strong>ite<br />

<strong>en</strong> figure 2 : nous recherchons une unité textuelle composée <strong>de</strong> phrases complètes,<br />

comm<strong>en</strong>çant par un élém<strong>en</strong>t id<strong>en</strong>tifié comme intro<strong>du</strong>cteur et ne comportant pas d’autre<br />

élém<strong>en</strong>t <strong>de</strong> ce type, dont tous le verbes sont au même temps, et au sein <strong>de</strong> laquelle les<br />

expressions temporelles port<strong>en</strong>t sur une plage comprise dans l’intervalle fixé par l’intro<strong>du</strong>cteur,<br />

<strong>en</strong> ne ret<strong>en</strong>ant que le plus long <strong>de</strong>s candidats partageant un même intro<strong>du</strong>cteur.<br />

Il est ainsi possible, à l’ai<strong>de</strong> <strong>de</strong>s principes méthodologiques promus par la plate-forme,<br />

et <strong>en</strong> nous appuyant sur la complém<strong>en</strong>tarité <strong>de</strong>s modèles d’analyse, <strong>de</strong> mettre <strong>en</strong> place un<br />

analyseur <strong>de</strong> cadres temporels, certes <strong>en</strong>core imparfait, mais ne faisant usage que <strong>de</strong> formalismes<br />

purem<strong>en</strong>t déclaratifs propices à la capitalisation <strong>de</strong> l’expertise linguistique mise <strong>en</strong><br />

œuvre.<br />

Conclusion<br />

Les principes fondam<strong>en</strong>taux ici prés<strong>en</strong>tés r<strong>en</strong>d<strong>en</strong>t l’usage <strong>de</strong> la plate-forme pertin<strong>en</strong>t<br />

dans différ<strong>en</strong>ts contextes, tels que l’expérim<strong>en</strong>tation <strong>en</strong> TAL, la linguistique <strong>de</strong> corpus ou<br />

<strong>en</strong>core l’<strong>en</strong>seignem<strong>en</strong>t <strong>de</strong> ces disciplines. La dissimulation <strong>de</strong> l’appareil procé<strong>du</strong>ral, au profit<br />

<strong>de</strong>s formalismes d’expression <strong>de</strong> règles, permet <strong>en</strong> particulier la mise <strong>en</strong> lumière <strong>de</strong> l’expertise<br />

linguistique jugée pertin<strong>en</strong>te. Les principes <strong>de</strong> mo<strong>du</strong>larité permett<strong>en</strong>t pour leur part<br />

d’isoler un problème singulier, <strong>de</strong> nature (morphologique, syntaxique…) et <strong>de</strong> grain (mot,<br />

phrase, discours…) variable, sans perdre le bénéfice <strong>de</strong>s analyses préalables év<strong>en</strong>tuellem<strong>en</strong>t<br />

nécessaires, <strong>en</strong> considérant simplem<strong>en</strong>t leur apport comme une « donnée » accessible. Les<br />

différ<strong>en</strong>ts mo<strong>de</strong>s <strong>de</strong> visualisation proposés permett<strong>en</strong>t <strong>en</strong>fin <strong>de</strong> r<strong>en</strong>dre les phénomènes étudiés<br />

à la fois « observables » et « tangibles ».<br />

Bibliographie<br />

BILHAUT F., HO-DAC L.-M., BORILLO A., CHARNOIS T., ENJALBERT P., LE DRAOULEC A., MATHET Y., MIGUET H.,<br />

PÉRY-WOODLEY M.-P. & SARDA L. (2003), « In<strong>de</strong>xation discursive pour la navigation intradocum<strong>en</strong>taire :<br />

cadres temporels et spatiaux dans l’information geographique », in Actes <strong>de</strong> la 10e Confer<strong>en</strong>ce<br />

Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN’03), Batz-sur-Mer, France, p. 315-320.<br />

BILHAUT F. & WIDLÖCHER A. (2006), « LinguaStream : An Integrated Environm<strong>en</strong>t for Computational<br />

Linguistics Experim<strong>en</strong>tation », in Proceedings of the 11th Confer<strong>en</strong>ce of the European Chapter of the<br />

Association of Computational Linguistics, Tr<strong>en</strong>te, Italie, p. 95-98.<br />

BOURIGAULT D. & FABRE C. (2000), « Approche linguistique pour l’analyse syntaxique <strong>de</strong> corpus », Cahiers<br />

<strong>de</strong> grammaire, 25, p. 131-151.<br />

CHAROLLES M. (1997), « L’<strong>en</strong>cadrem<strong>en</strong>t <strong>du</strong> dicours – Univers, champs, domaines et espace », Cahiers <strong>de</strong><br />

recherche linguistique, 6.<br />

Schedae, 2006, prépublication n°18, (<strong>fascicule</strong> n°1, p. 141-146).


FERRARI S., BILHAUT F., WIDLÖCHER A. & LAIGNELET M. (2005), « Une plate-forme logicielle et une<br />

démarche pour la validation <strong>de</strong> ressources linguistiques sur corpus : application à l’évaluation <strong>de</strong> la<br />

détection automatique <strong>de</strong> cadres temporels », in Actes <strong>de</strong>s 4es Journées <strong>de</strong> linguistique <strong>de</strong> corpus,<br />

G. WILLIAMS (éd.), à paraître aux Presses universitaires <strong>de</strong> R<strong>en</strong>nes.<br />

SCHMID H. (1994), « Probabilistic Part-of-Speech Tagging Using Decision Trees », in Proceedings of the<br />

Confer<strong>en</strong>ce on New Methods in Language Processing, Manchester, UK.<br />

WIDLÖCHER A. & BILHAUT F. (2005), « La plate-forme LinguaStream : un outil d’exploration linguistique<br />

sur corpus », in Actes <strong>de</strong> la 12e Confér<strong>en</strong>ce Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN),<br />

Dourdan, p. 517-522.<br />

WIDLÖCHER A. (2006), « Analyse par contraintes <strong>de</strong> l’organisation <strong>du</strong> discours », in Actes <strong>de</strong> la Confér<strong>en</strong>ce<br />

Traitem<strong>en</strong>t Automatique <strong>du</strong> Langage Naturel (TALN 2006), Leuv<strong>en</strong>, Belgique, p. 367-376.<br />

Annexes<br />

Figure 1 : l’<strong>en</strong>vironnem<strong>en</strong>t d’expérim<strong>en</strong>tation intégré.<br />

Figure 2 : chaîne <strong>de</strong> traitem<strong>en</strong>t <strong>de</strong>s cadres <strong>de</strong> discours temporels.<br />

Schedae, 2006, prépublication n°18, (<strong>fascicule</strong> n°1, p. 141-146).<br />

145


146<br />

Schedae, 2006, prépublication n°18, (<strong>fascicule</strong> n°1, p. 141-146).


Schedae, 2006<br />

Prépublication n° 19 Fascicule n° 1<br />

Discourse and citation analysis<br />

with concept-matching<br />

Ágnes Sándor, Aaron Kaplan, Gilbert Ron<strong>de</strong>au<br />

Xerox Research C<strong>en</strong>tre Europe<br />

6, chemin Maupertuis – 38240 Meylan, France<br />

agnes.sandor@xrce.xerox.com, aaron.kaplan@xrce.xerox.com, gilbert.ron<strong>de</strong>au@xrce.xerox.com<br />

Abstract :<br />

We pres<strong>en</strong>t here two natural language processing systems for highlighting passages in sci<strong>en</strong>tific<br />

texts in or<strong>de</strong>r to help researchers to rapidly access relevant knowledge. The first system <strong>de</strong>tects<br />

s<strong>en</strong>t<strong>en</strong>ces containing expressions fulfilling discourse functions in sci<strong>en</strong>tific argum<strong>en</strong>tation like background<br />

knowledge, summary s<strong>en</strong>t<strong>en</strong>ce, contrast with past findings, etc. The second system <strong>de</strong>tects<br />

s<strong>en</strong>t<strong>en</strong>ces containing bibliographical refer<strong>en</strong>ces and characterizes the relationship that the authors<br />

<strong>de</strong>scribe betwe<strong>en</strong> their work and the work they refer to. The systems are implem<strong>en</strong>ted in the Xerox<br />

Increm<strong>en</strong>tal Parser.<br />

Keywords: discourse functions, citation, concept-matching, robust syntactic parsing.<br />

Résumé :<br />

Nous allons prés<strong>en</strong>ter <strong>de</strong>ux outils <strong>de</strong> traitem<strong>en</strong>t automatique <strong>de</strong> langues naturelles qui surlign<strong>en</strong>t<br />

<strong>de</strong>s passages dans <strong>de</strong>s textes sci<strong>en</strong>tifiques pour accélérer l’accès aux connaissances. Le premier<br />

système détecte <strong>de</strong>s phrases qui conti<strong>en</strong>n<strong>en</strong>t <strong>de</strong>s expressions véhiculant <strong>de</strong>s fonctions discursives<br />

dans l’argum<strong>en</strong>tation sci<strong>en</strong>tifique comme connaissance <strong>de</strong> base, phrase-résumé, contraste avec<br />

<strong>de</strong>s résultats précéd<strong>en</strong>ts, etc. Le <strong>de</strong>uxième système détecte <strong>de</strong>s phrases qui conti<strong>en</strong>n<strong>en</strong>t <strong>de</strong>s<br />

référ<strong>en</strong>ces bibliographiques et caractérise la relation décrite par les auteurs <strong>en</strong>tre leur travail et<br />

l’œuvre auquel ils se référ<strong>en</strong>t. Les systèmes sont implém<strong>en</strong>tés avec le Xerox Increm<strong>en</strong>tal Parser.<br />

Mots-clés: fonctions discursives, citation, concept-matching, parsing syntaxique robuste.<br />

1. Intro<strong>du</strong>ction<br />

The growing number of sci<strong>en</strong>tific research publications makes it difficult for researchers<br />

to keep up with the state of the art ev<strong>en</strong> in their own domain. Since most research publications<br />

are available electronically, natural language processing tools might provi<strong>de</strong> useful support.<br />

We propose two tools that are int<strong>en</strong><strong>de</strong>d to help researchers assimilate the cont<strong>en</strong>ts of sci<strong>en</strong>tific<br />

research papers. The first one highlights and types expressions that fulfill relevant discourse<br />

functions in sci<strong>en</strong>tific argum<strong>en</strong>tation, and the second highlights and types expressions<br />

that qualify the relationship betwe<strong>en</strong> the articles and other articles that they refer to. Both<br />

Ágnes Sándor, Aaron Kaplan, Gilbert Ron<strong>de</strong>au<br />

« Discourse and citation analysis with concept-matching »<br />

Schedae, 2006, prépublication n°19, (<strong>fascicule</strong> n°1, p. 147-152).<br />

147


148<br />

systems are based on <strong>de</strong>tecting expressions with the concept-matching framework. In sections<br />

2 and 3 we will <strong>de</strong>scribe our motivations and the functionalities of both tools. Section 3<br />

explains the concept-matching framework and section 4 our <strong>de</strong>velopm<strong>en</strong>t software and the<br />

architecture of the systems.<br />

2. Tool for discourse analysis<br />

Sci<strong>en</strong>tific articles are highly structured and follow argum<strong>en</strong>tative patterns that gui<strong>de</strong> the<br />

rea<strong>de</strong>r in the compreh<strong>en</strong>sion of the train of thought <strong>de</strong>scribed (Hyland 2005, Lewin et al. 2001,<br />

Mizuta & Collier 2004, Ravelli & Ellis 2004, Teufel 1998, Teufel & Mo<strong>en</strong>s 2002, Tognini-Bonelli &<br />

Del Lungo Camiciotti 2005). The overall structure of the argum<strong>en</strong>tation is articulated through<br />

the formal division of publications into sections, and the finer structure through meta-discourse<br />

expressions that make the argum<strong>en</strong>tative discourse functions of the smaller units (s<strong>en</strong>t<strong>en</strong>ces<br />

or passages) explicit. Oft<strong>en</strong>, especially in the domain of experim<strong>en</strong>tal research, the titles of<br />

the sections are not related to the topics discussed but instead they refer to their discourse<br />

functions: intro<strong>du</strong>ction, background, methods, result, conclusion, etc. In many domains, these<br />

section titles are becoming templates used by a great number of authors, and sometimes<br />

ev<strong>en</strong> required by the publishers.<br />

However, this formal structuring is insuffici<strong>en</strong>t: On the one hand, within one section that<br />

is supposed to fulfill the discourse function referred to by its title, the authors very oft<strong>en</strong> inclu<strong>de</strong><br />

digressions fulfilling differ<strong>en</strong>t discourse functions. For example, a section on results oft<strong>en</strong> contains<br />

s<strong>en</strong>t<strong>en</strong>ces of background knowledge or methods, which also have sections of their own.<br />

On the other hand, the diversity of the relevant discourse functions is greater than that of<br />

section types. For example an important way of convincing the rea<strong>de</strong>rs is contrasting one's<br />

results with other results. “Contrast”, however, is not a usual title for a section.<br />

The tool we pres<strong>en</strong>t marks particular discourse function types of s<strong>en</strong>t<strong>en</strong>ces in or<strong>de</strong>r to<br />

provi<strong>de</strong> the rea<strong>de</strong>r with additional support for repres<strong>en</strong>ting sci<strong>en</strong>tific work in a structured<br />

way. In its pres<strong>en</strong>t state our system id<strong>en</strong>tifies the following expressions fulfilling relevant<br />

discourse functions in sci<strong>en</strong>tific argum<strong>en</strong>tation: background knowledge, logical contradiction,<br />

an elem<strong>en</strong>t insuffici<strong>en</strong>tly or not known, research tr<strong>en</strong>d, summary s<strong>en</strong>t<strong>en</strong>ce, contrast<br />

with past findings and substantially new finding.<br />

The system has be<strong>en</strong> implem<strong>en</strong>ted for processing biomedical literature in the Pubmed<br />

repository (Lisacek et al. 2005). The user <strong>en</strong>ters a Pubmed query and an additional list of<br />

important keywords that is used for relevance ranking. The output is the list of the retrieved<br />

abstracts ranked according to the frequ<strong>en</strong>cy of the <strong>de</strong>sired keywords, and the s<strong>en</strong>t<strong>en</strong>ces<br />

containing the above-m<strong>en</strong>tioned cont<strong>en</strong>t types are highlighted.<br />

2. Tool for citation analysis<br />

Whereas the first tool we pres<strong>en</strong>ted gui<strong>de</strong>s rea<strong>de</strong>rs in following the train of thought of<br />

one article, citation analysis yields help for awar<strong>en</strong>ess of “inter-article” relationships.<br />

Wi<strong>de</strong>ly used citation analysis tools are Google Scholar and CiteSeer whose main function<br />

is to link citer and citee. Whereas Google Scholar returns a list of publications with the links<br />

of the citations, Citeseer also extracts the passage that inclu<strong>de</strong>s a refer<strong>en</strong>ce, and thus indicates<br />

its context.<br />

Our tool marks the context of citations according to the type of relationship betwe<strong>en</strong><br />

citer and cite (Trigg 1983). At its pres<strong>en</strong>t state the system extracts s<strong>en</strong>t<strong>en</strong>ces where the citation<br />

is ma<strong>de</strong>, and does not consi<strong>de</strong>r further s<strong>en</strong>t<strong>en</strong>ces that refer to that one, although they<br />

might obviously contain important elem<strong>en</strong>ts. We int<strong>en</strong>d to elaborate wi<strong>de</strong>r contexts at a<br />

later stage. The system id<strong>en</strong>tifies now four kinds of relationships: background knowledge<br />

Schedae, 2006, prépublication n°19, (<strong>fascicule</strong> n°1, p. 147-152).


(g<strong>en</strong>eral knowledge, knowledge that helps the rea<strong>de</strong>r to un<strong>de</strong>rstand the article or the topic<br />

of the article, but that is not linked to the <strong>de</strong>tails of the article), based-on (the citing article<br />

builds is based in some s<strong>en</strong>se on the article cited, i.e. the cited article has had some effect<br />

on the citing article), comparison (the cited article is compared to the citing article (differ<strong>en</strong>ces<br />

or resemblances), but no direct link betwe<strong>en</strong> the two articles is m<strong>en</strong>tioned, contrary<br />

to “based-on”) and assessm<strong>en</strong>t (the cited work is assessed, either positively or negatively).<br />

3. Methodology<br />

The discovery of the expressions fulfilling the above-m<strong>en</strong>tioned discourse functions is<br />

carried out by the implem<strong>en</strong>tation of the concept-matching framework (Sándor 2005). The<br />

particular difficulty is the high variability of these expressions both from structural a lexical<br />

points of view. In contrast to expressions conveying propositional cont<strong>en</strong>ts, they do not follow<br />

id<strong>en</strong>tifiable structural patterns and do not have a single conceptual c<strong>en</strong>tre that could serve as<br />

an anchor for their id<strong>en</strong>tification. The following three s<strong>en</strong>t<strong>en</strong>ces illustrate these observations.<br />

They all inclu<strong>de</strong> bibliographic refer<strong>en</strong>ces in or<strong>de</strong>r to provi<strong>de</strong> background knowledge:<br />

(1) Semantic Gossiping [3, 4] is a semantic reconciliation method that can be applied to foster<br />

semantic interoperability in <strong>de</strong>c<strong>en</strong>tralized settings.<br />

(2) Consequ<strong>en</strong>tly the necessity of a visual syntax for knowledge repres<strong>en</strong>tation (KR) languages<br />

has be<strong>en</strong> argued frequ<strong>en</strong>tly in the past [7, 14].<br />

(3) Many other possible approaches to negotiation exist ([4], [13]).<br />

The relevant expressions conveying the concept “background knowledge” are the following:<br />

(1) Semantic Gossiping [3, 4] is a… method that can be applied.<br />

(2) … has be<strong>en</strong> argued frequ<strong>en</strong>tly in the past [7, 14].<br />

(3) … other … approaches… exist ([4], [13].<br />

In or<strong>de</strong>r to establish a common un<strong>de</strong>rlying repres<strong>en</strong>tation of the target expressions, we<br />

break down the target concepts into “constitu<strong>en</strong>t concepts”. In the case of the above target<br />

concept, i.e. “background knowledge”, we have id<strong>en</strong>tified three constitu<strong>en</strong>t concepts: Previous<br />

work[OTHER] provi<strong>de</strong>s g<strong>en</strong>eral[GEN] (background) knowledge[IDEA]. To each constitu<strong>en</strong>t<br />

concept we assign a list of keywords or expressions. The concept-matching framework is<br />

based on the co-occurr<strong>en</strong>ce of the expressions of all or a subset of the constitu<strong>en</strong>t concepts<br />

within the s<strong>en</strong>t<strong>en</strong>ces un<strong>de</strong>r two types of constraints. The first constraint is the pres<strong>en</strong>ce of a<br />

direct syntactic <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cy relationship betwe<strong>en</strong> pairs of concepts. The second constraint is<br />

the application of rules that <strong>de</strong>fine the co-occurr<strong>en</strong>ce of the subset of the constitu<strong>en</strong>t concepts<br />

in the s<strong>en</strong>t<strong>en</strong>ces that are necessary for matching the target concept. The above s<strong>en</strong>t<strong>en</strong>ces<br />

are matched <strong>du</strong>e to the fact that the necessary constitu<strong>en</strong>t concepts are pres<strong>en</strong>t and<br />

moreover, they are pairwise in syntactic <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cy relationships with one another:<br />

(1) DEPENDENCY(Semantic Gossiping[OTHER],is[GEN])<br />

DEPENDENCY(Semantic Gossping[OTHER],[3,4][OTHER])<br />

DEPENDENCY(is[GEN],method[IDEA])<br />

DEPENDENCY(method[IDEA],can be[GEN])<br />

DEPENDENCY(can be[GEN],applied[IDEA])<br />

(2) DEPENDENCY(has be<strong>en</strong>[GEN],argued[IDEA])<br />

DEPENDENCY(argueed[IDEA],frequ<strong>en</strong>tly[GEN])<br />

Schedae, 2006, prépublication n°19, (<strong>fascicule</strong> n°1, p. 147-152).<br />

149


150<br />

DEPENDENCY(argued[IDEA],past[GEN])<br />

DEPENDENCY([7,14][OTHER])<br />

(3) DEPENDENCY(other[OTHER],approaches[IDEA])<br />

DEPENDENCY(approaches[IDEA],exist[GEN])<br />

DEPENDENCY([4],[13][OTHER])<br />

As for the status of our method among cont<strong>en</strong>t <strong>de</strong>tection methods, we note that it <strong>de</strong>tects<br />

more precise cont<strong>en</strong>t than search based on bags of words in that it requires the pres<strong>en</strong>ce<br />

of direct syntactic <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cies betwe<strong>en</strong> classes of keywords. On the other hand, it covers a<br />

larger variety of patterns than search based on the <strong>de</strong>tection of precise predicate-argum<strong>en</strong>t<br />

structures <strong>du</strong>e to two reasons: our keywords in the same class are highly heterog<strong>en</strong>eous in<br />

nature (in the same class we may find verbs, prepositions or adverbs), and matching particular<br />

<strong>de</strong>p<strong>en</strong>d<strong>en</strong>cy types is not required. We can say that our method is betwe<strong>en</strong> bag-of-words<br />

approaches and bag-of-phrases approaches; we may call it a bag-of-<strong>de</strong>p<strong>en</strong>d<strong>en</strong>cy-pairs<br />

approach.<br />

4. Developm<strong>en</strong>t software and architecture<br />

Our systems have be<strong>en</strong> <strong>de</strong>veloped with the Xerox Increm<strong>en</strong>tal Parser (XIP) (Aït-Mokhtar<br />

et al. 2002). XIP is a natural language analysis tool <strong>de</strong>signed for extracting <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cy functions<br />

betwe<strong>en</strong> pairs of words within the s<strong>en</strong>t<strong>en</strong>ces. The concept-matching grammars are built<br />

on top of a g<strong>en</strong>eral rule-based robust <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cy grammar that has be<strong>en</strong> <strong>de</strong>veloped in Xerox<br />

Research C<strong>en</strong>tre Europe in the XIP formalism. The following schema illustrates the architecture<br />

of the system:<br />

6. Acknowledgem<strong>en</strong>t<br />

The <strong>de</strong>velopm<strong>en</strong>t of the tool for citation analysis is fun<strong>de</strong>d by the Vikef European<br />

project: http://www.vikef.net/.<br />

Schedae, 2006, prépublication n°19, (<strong>fascicule</strong> n°1, p. 147-152).<br />

Architecture of the concept-matching systems.


Bibliography<br />

AIT-MOKHTAR S., CHANOD J.-Pierre & ROUX C. (2002), “Robustness beyond shallowness: increm<strong>en</strong>tal<br />

<strong>de</strong>p<strong>en</strong>d<strong>en</strong>cy parsing”, Natural Language Engineering, 8, 2/3, p. 121-144.<br />

HYLAND K. (2005), Metadiscourse, Continuum.<br />

LEWIN B. A., FINE J. & YOUNG L. G. (2001), Expository Discourse, Continuum.<br />

LISACEK F., CHICHESTER C., KAPLAN A. & SÁNDOR Á., (2005), “Discovering Paradigm Shift Patterns in Biomedical<br />

Abstracts: Application to Neuro<strong>de</strong>g<strong>en</strong>erative Diseases”, in Proceedings of the First International<br />

Symposium on Semantic Mining in Biomedicine (SMBM), p. 41-50.<br />

MIZUTA Y. & COLLIER N. (2004), “Zone Id<strong>en</strong>tification in Biology Articles as a Basis for Information Extraction”,<br />

in Proceedings of the Joint Workshop of Natural Language Processing in Biomedicine and Its Applications<br />

(JNLPBA) at the COLING International Confer<strong>en</strong>ce, p. 19-35.<br />

RAVELLI L. J. & ELLIS R. A. (eds.) (2004), Analyzing Aca<strong>de</strong>mic Writing, Continuum.<br />

SÁNDOR Á. (2005), “A framework for <strong>de</strong>tecting contextual concepts in texts”, in Proceedings of the Electra<br />

Workshop at the SIGIR-2005 Confer<strong>en</strong>ce, p. 15-19.<br />

TEUFEL S. (1998), “Meta-discourse markers and problem-structuring in sci<strong>en</strong>tific articles”, in Proceedings<br />

of the Workshop on Discourse Relations and Discourse Markers at the 17th International Confer<strong>en</strong>ce on<br />

Computational Linguistics, p. 43-49.<br />

TEUFEL S. & MOENS M. (2002), “Summarizing Sci<strong>en</strong>tific Articles: Experim<strong>en</strong>ts with Relevance and Rhetorical<br />

Status”, Computational Linguistics, 28(4), p. 409-445.<br />

TOGNINI-BONELLI E. & DEL LUNGO CAMICIOTTI G. (eds.) (2005), Strategies in Aca<strong>de</strong>mic Discourse, John<br />

B<strong>en</strong>jamins Publishing Company.<br />

TRIGG R. (1983), A Network-Based Approach to text Handling for the Online Sci<strong>en</strong>tific Community, PhD<br />

Thesis, University of Maryland, Departm<strong>en</strong>t of Computer Sci<strong>en</strong>ce (typed).<br />

Schedae, 2006, prépublication n°19, (<strong>fascicule</strong> n°1, p. 147-152).<br />

151


152<br />

Schedae, 2006, prépublication n°19, (<strong>fascicule</strong> n°1, p. 147-152).


Liste <strong>de</strong>s auteurs<br />

AMGOUD Leila (IRIT-CNRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

AOULADOMAR Farida (IRIT-CNRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

BESTGEN Yves (<strong>Université</strong> catholique <strong>de</strong> Louvain) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

BEXTEN Birgitta (Leid<strong>en</strong> University C<strong>en</strong>ter for Linguistics) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />

BILHAUT Frédérik (GREYC, CNRS – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie) . . . . . . . . . . . . . . . . 41, 141<br />

BOUFFIER Amanda (Laboratoire d’Informatique <strong>de</strong> Paris-Nord) . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

COUTO Javier (Instituto <strong>de</strong> Computación, Facultad <strong>de</strong> Ing<strong>en</strong>iería, Universidad <strong>de</strong> la República) . . . 105<br />

CRÉMILLEUX Bruno (GREYC, CNRS – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie) . . . . . . . . . . . . . . . 69<br />

DEGAND Liesbeth (<strong>Université</strong> catholique <strong>de</strong> Louvain). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

FERRARI Stéphane (GREYC, CNRS – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie) . . . . . . . . . . . . . . . 57<br />

HEMPEL Susanne (<strong>Université</strong> catholique <strong>de</strong> Louvain) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

JACQUES Marie-Paule (ERSS, <strong>Université</strong> Toulouse 2 – Le Mirail). . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

KAPLAN Aaron (Xerox Research C<strong>en</strong>tre Europe). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

KRECZANIK Thomas (ERSICOM – <strong>Université</strong> Jean Moulin Lyon 3) . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

LAIGNELET Marion (ERSS, <strong>Université</strong> Toulouse 2 – Le Mirail) . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

LE DEUFF Olivier (Cersic-Erellif, R<strong>en</strong>nes 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129<br />

LEGALLOIS Dominique (CRISCO, CNRS – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie) . . . . . . . . . . . 57<br />

LEHMAM Ab<strong>de</strong>rrafih (Pertin<strong>en</strong>ce Mining SARL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

LUCAS Nadine (GREYC, CNRS – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie) . . . . . . . . . . . . . . . . . . 69<br />

MANCINI Clara (C<strong>en</strong>tre for Research in Computing, The Op<strong>en</strong> University) . . . . . . . . . . . . . . . . . 91<br />

MINEL Jean-Luc (MoDyCO, CNRS – <strong>Université</strong> Paris X Nanterre) . . . . . . . . . . . . . . . . . . . . . . . 105<br />

PIMM Christophe (ERSS, <strong>Université</strong> Toulouse 2 – Le Mirail) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />

REBEYROLLE Josette (ERSS, <strong>Université</strong> Toulouse 2 – Le Mirail) . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

RONDEAU Gilbert (Xerox Research C<strong>en</strong>tre Europe) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

SAINT-DIZIER Patrick (IRIT-CNRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

SÁNDOR Ágnes (Xerox Research C<strong>en</strong>tre Europe) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

SCOTT Donia (C<strong>en</strong>tre for Research in Computing, The Op<strong>en</strong> University). . . . . . . . . . . . . . . . . . . 91<br />

SOPHIE Piérard (<strong>Université</strong> catholique <strong>de</strong> Louvain) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

STEIN-ZINTZ Sandrine (<strong>Université</strong> Paul-Verlaine Metz). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

TEUFEL Simone (Computer Laboratory, University of Cambridge) . . . . . . . . . . . . . . . . . . . . . . . 153<br />

WIDLÖCHER Antoine (GREYC, CNRS – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie) . . . . . . . . . . . . . 141<br />

ZERIDA Nadia (GREYC, CNRS – <strong>Université</strong> <strong>de</strong> Ca<strong>en</strong> Basse-Normandie). . . . . . . . . . . . . . . . . . . 69

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!