Télécharger l'intégralité du fascicule en PDF - Université de Caen ...

Schedae 

Prépublications de l’Université de Caen Basse-Normandie 

Colloque International 

Discours et Document 

Fascicule n° 1 2006 

International Symposium 

Discourse and Document 

Presses 

universitaires 

de Caen 

I

Schedae, 2006 

Présidents du colloque 

M.-P. PÉRY-WOODLEY, U. Toulouse 2 ; 

P. ENJALBERT, U. Caen ; 

M. GAIO, U. Pau et Pays de l’Adour. 

Comité de programme 

J. BATEMAN, U. Bremen, Allemagne ; D. BATTISTELLI, U. Paris 4, France ; Y. BESTGEN, U. C. Lou- 

vain, Belgique ; B. BOGURAEV, IBM T.J. Watson Research Center, USA ; A. BORILLO, U. Tou- 

louse 2, France ; N. BOUAYAD-AGHA, U. Pompeu Fabra, Barcelona, Espagne ; F. CERBAH, 

Dassault Aviation, France ; M. CHAROLLES, U. Paris 3, France ; D. CRISTEA, U. Iasi, Romania ; 

L. DEGAND, U. C. Louvain, Belgique ; D. DUTOIT, Sté Memodata, France ; P. ENJALBERT, U. Caen, 

France ; S. FERRARI, U. Caen, France ; O. FERRET, CEA, France ; M. GAIO, U. Pau, France ; 

B. GRAU, U. Paris-Sud, France ; N. HERNANDEZ, U. Caen, France ; G. LAPALME, U. Montréal, 

Québec, Canada ; A. LE DRAOULEC, U. Toulouse 2, France ; A. LEHMAM, Sté Pertinence 

Mining.com, France ; D. LEGALLOIS, U. Caen, France ; N. LUCAS, U. Caen et CNRS, France ; 

F. MAUREL, U. Caen, France ; A. MAX, U. Paris-Sud, France ; J.-L. MINEL, U. Paris 4, France ; 

M. MOJAHID, U. Toulouse 3, France ; M.-P. PÉRY WOODLEY, U. Toulouse 2, France ; H. SAGGION, 

U. Sheffield, Angleterre ; I. SALEH, U. Paris 8, France ; S. SALMON, Alt ATILF-CNRS, France ; 

L. SARDA, CNRS, LATTICE, France ; D. SCOTT, Open University, Angleterre. 

Comité d’organisation 

S. FERRARI, Coordinateur ; F. BILHAUT ; N. HERNANDEZ ; A. WIDLÖCHER. 

GREYC – Groupe de Recherche en Informatique, 

Image, Automatique et Instrumentation de Caen 

Statut : Unité mixte de recherche université, CNRS et ENSICAEN – UMR 6072 

Directeur : Régis CARIN 

Fascicule n° 1 

Colloque International : Discours et Document 

International Symposium: Discourse and Document 

Responsable : Patrice ENJALBERT 

L’objectif du colloque Discours et Document est de rassembler des chercheurs intéressés 

par ce qu'on peut appeler le « niveau document » en linguistique du discours, en 

TAL ou en ingénierie documentaire. Ce fascicule regroupe les communications présentées 

au colloque. 

Directeur-adjoint : Étienne GRANDJEAN 

Axes de recherches: algorithmique, sécurité, information, langage, interface homme-machine, 

image, automatique, instrumentation, capteurs, électronique 

III

Schedae, 

2006 

Sommaire 

Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 

Session 1 : Organisation discursive : études de corpus et modélisation 

Marie-Paule JACQUES 

& Josette REBEYROLLE 

: 

Titres et structuration des documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

Farida AOULADOMAR, 

Leila AMGOUD, 

Patrick SAINT-DIZIER 

: 

On Argumentation in Procedural Texts. 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

Sophie PIÉRARD 

& Yves BESTGEN 

: 

Adverbiaux temporels et expressions référentielles 

comme marqueurs de segmentation : emploi simultané ou exclusif ? . . . . . 23 

Sandrine STEIN-ZINTZ 

: 

De l’altérité spatiale à l’organisation textuelle : 

la locution d’une part… d’autre part . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

Susanne HEMPEL 

& Liesbeth DEGAND 

: 

The use of sequencers in academic writing: 

a comparative study of French and English . . . . . . . . . . . . . . . . . . . . . . . . . 35 

Session 2 : Discours, document, et TAL 

Frédérik BILHAUT 

: 

Introducteurs intra-prédicatifs d’univers de discours 

et leur détection automatique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

Marion LAIGNELET 

: 

Les titres et les introducteurs de cadres comme indices pour le repérage 

de segments d’information évolutive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

Dominique LEGALLOIS 

& Stéphane FERRARI 

: 

Vers une grammaire de l’évaluation des objets culturels . . . . . . . . . . . . . . . 57 

Nadia ZERIDA, 

Nadine LUCAS, 

Bruno CRÉMILLEUX 

: 

Combinaison de descripteurs linguistiques 

et de structure pour la fouille d’articles biomédicaux . . . . . . . . . . . . . . . . . . 69 

Amanda BOUFFIER 

: 

Segmentation de textes procéduraux pour l’aide à la modélisation 

de connaissances : le rôle de la structure visuelle . . . . . . . . . . . . . . . . . . . . . 79 

Christophe PIMM 

: 

Quelle plus-value linguistique pour la segmentation automatique de texte ? 85 

Session 3: Nouveaux types de documents, 

nouveaux modes d’accès à l’information textuelle 

Clara MANCINI 

& Donia SCOTT 

: 

Hyper-Document Structure: Maintaining Discourse Coherence 

in Non-Linear Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

Javier COUTO 


& Jean-Luc MINEL 

: 

SEXTANT, un langage de modélisation des connaissances 

pour la navigation textuelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 

Birgitta BEXTEN 

: 

Hypertext and Plurilinearity: Challenging an Old-fashioned Discourse Model 117 

VII 

V

VI 

Thomas KRECZANIK 

: 

Modélisation de parcours dans des hypertextes pédagogiques : 

typage des ressources et des liens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

Olivier LE 

DEUFF 

: 

Des bons mots au bon document. 

Comment éduquer à l’usage des mots-clés efficaces 

pour accéder à la pertinence documentaire . . . . . . . . . . . . . . . . . . . . . . . . . 129 

Session 4 : Systèmes de TAL, démonstrations 

Abderrafih LEHMAM 

: 

Solutions de traitement du document textuel 

avec prise en charge de ressources linguistiques . . . . . . . . . . . . . . . . . . . . . 135 

Frédérik BILHAUT 

& Antoine WIDLÖCHER 

: 

Analyse de structures discursives avec la plate-forme LinguaStream . . . . . . 141 

Ágnes SÁNDOR, 

Aaron KAPLAN, 

Gilbert RONDEAU 

: 

Discourse and citation analysis with concept-matching . . . . . . . . . . . . . . . . 147 

Conférence invitée 

Simone TEUFEL 

: 

Discourse structure in scientific articles: argumentation and citation (à venir) . . 153

Schedae, 

2006 


Preface 

ISDD 2006: aims and scope 

In connection with the development of digital documents, discourse linguistics, document 

engineering and NLP are increasingly converging: applying corpus analysis methods to 

discourse calls for greater use of NLP techniques while new modes of access to the contents 

of documents place more emphasis on exploiting discourse structure. This convergence is 

manifest in a number of joint studies, and results in cross fertilisation of the disciplines. This is 

the analysis which led us, in the call for papers for Discourse and Document 2006, to explicitly 

reach out towards researchers concerned with “the document level” in discourse linguistics, 

computational linguistics, and document-engineering. 

We present in this volume twenty contributions by authors who must have recognised 

themselves in this way of setting out the issues. The aim of the symposium is to build on the 

convergence of questions and objectives which clearly emerge from these contributions. 

Beyond their specific scientific interest, the challenge is to arrive at a usable definition of an 

emergent research field, with implications both in discourse linguistic and document engineering 

areas. 

The first two sessions can be described as presenting different takes on document organisation. 

Each paper tends to focus on a particular view of what may be semantically important 

in discourse processing. One such view is that documents are organised in topics (in the 

sense of “what is being talked about”), and can be segmented in terms of this organisation 

(whether via automatic procedures to identify breaks in lexical cohesion or via analyses of 

reference chains). Other approaches stress argumentative structure, and identify segments 

that fulfil particular argumentative or rhetorical functions. In both these views, the organisation 

is assumed to be largely implicit: various techniques are brought to bear to identify the 

shifts between continuity and discontinuity, to tease out discourse function on the basis of 

surface markers. Another take is to consider explicit clues to document organisation, such 

as metadiscursive expressions, or elements of the so-called “logical structure”. 

These questions are considered in a largely descriptive manner in the first session, while 

the second focuses on the design of NLP procedures to identify such structures in text. Indeed 

a major field in NLP is the development of systems concerned with facilitating access to the 

information stored in documents, and there is a growing awareness of the need to take better 

account of the organisation of the documents being processed. Another facet of this evolution 

is that researchers into discourse organisation gradually move towards more empirical 

methods and require computational instruments to analyse large volumes of data. The third 

session provides a very concrete illustration of these trends, through the presentation and 

demonstration of NLP systems, originating in both academic and industrial contexts. 

VII

VIII 

Finally, new document types - hyper-documents - raise radically new questions about discourse 

organisation and the interaction between semiotic functions. What makes such documents 

cohere (or not)? How are they read and understood? How can this reading process 

be made easier, more efficient? But further, what new insight into the organisation of “ordinary” 

text can be gained through the comparison with these new non linear textual forms? 

Some of these questions apply equally at the level of document bases - now widely accessible 

thanks to internet and other electronic devices -, which can be seen as “macro-texts” 

through which the user has to wander as s/he scours for relevant information. And the notion 

of navigation is also at stake in the case of “classical” texts, with new NLP techniques going 

into the design of much needed tools to assist the reader in non-linear text browsing. From 

linear document to hyper-document to document bases, and back to non-linear modes of 

access to “classical” documents, we've gone full circle… These are some of the stimulating 

questions which are addressed in the final session. 

Taken as a whole, the twenty papers presented at ISDD'06 provide a rich and accurate 

view of a number of complementary aspects of discourse structure in relation with the functional 

notion of document. A promising area of research is outlined, an area which, as it extends 

across discipline boundaries, requires a scientific community to gradually form, with a common 

language and common references. The organisers of ISDD 2006 hope this symposium 

is a step in the right direction. 

We thank the authors for their interest in taking part in this project, and the Programme 

Committee members for their precious contribution with formulating the scope of the symposium 

and refereeing the papers. We also thank our sponsors: the GREYC laboratory, the University 

of Caen, the CNRS, the City of Caen and the Council of the Region of Basse-Normandie. 

And finally the Organisation Committee whose work allowed ISDD'06 to become reality. 

ISDD'06 Chair 

Patrice Enjalbert Mauro Gaio Marie-Paule Pery-Woodley

session 1 

Organisation discursive : 

études de corpus et modélisation

Schedae, 2006 

Prépublication n° 1 Fascicule n° 1 

Titres et structuration des documents 

Marie-Paule Jacques & Josette Rebeyrolle 

ERSS (UMR5610)/Maison de la Recherche 

Université Toulouse-Le Mirail – 5, allées A. Machado – 31058 Toulouse Cedex 9 

mpjacques@univ-tlse2.fr, rebeyrol@univ-tlse2.fr 

Résumé : 

La structuration d’un document peut être assurée, entre autres moyens, par un découpage en 

sections et sous-sections, généralement dotées d’un titre. Nous nous focalisons sur ces titres et 

sur la façon dont, en plus d’assurer la segmentation et l’organisation visuelle du texte, ils contribuent 

à la construction de son contenu sémantique. Nos travaux antérieurs nous ayant permis de 

dégager deux grands types d’implication des titres dans cette construction, la question essentielle 

est ici de mettre au jour les corrélats formels qui permettent de distinguer ces deux types 

d’implication et de montrer que selon le registre de textes l’implication des titres est différente. 

Mots-clés : titres, document, linguistique du discours, structuration du texte, analyse de 

corpus. 

Abstract : 

Textual organization of a document includes material characteristics such as sections which usually 

have a heading. We are particularly interested in headings and especially in how headings 

contribute to the construction of the meaning of a text. In previous work a functional approach of 

headings was presented in detail. In the present paper, our study is meant to identify in corpora 

linguistic correlates of the two types of heading implication in discourse : referential/thematic. The 

final corpus analysis shows how the headings are distributed in the texts of the corpus. 

Keywords : headings, document, discourse linguistics, text structure, corpus analysis. 

Sommairement 

Sans entrer dans la délicate question de définir rigoureusement ce qu’est un document 

1 , nous considérerons qu’un document écrit est un texte i. qui forme un tout (même 

si l’on peut y repérer une certaine intertextualité et/ou des références et renvois à d’autres 

documents), ii. qui présente une organisation interne, notamment dans le cas de ce que 

1. Voir la réflexion de Roger T. Pédauque (2003), Document : forme, signe et médium, les re-formulations du 

numérique, disponible sur http://archivesic.ccsd.cnrs.fr/sic_00000413.html page consultée le 13-05-06. 

Marie-Paule Jacques & Josette Rebeyrolle 

« Titres et structuration des documents » 

Schedae, 2006, prépublication n°1, (fascicule n°1, p. 1-12). 

1

2 

l’on peut appeler des documents longs tels que rapports, thèses, articles scientifiques, 

ouvrages, etc. 

Nous proposons ici une analyse descriptive de ce que nous pensons être des constituants 

essentiels de cette structuration : les titres de section. La suite explique moins sommairement 

la problématique. 

Le document : un tout structuré 

Aux deux caractéristiques formelles du document postulées ci-dessus correspondent 

deux propriétés sémantiques : un document présente un niveau de contenu sémantique 

et, simultanément, un niveau abstrait de structuration de ce contenu. Nous voulons dire 

par là que le document ne délivre pas son contenu sémantique « en vrac », mais comme 

contenu organisé, structuré, hiérarchisé. C’est de cet ensemble que le lecteur construit un 

discours, c’est-à-dire un modèle mental de ce qui est en train de s’énoncer, au fur et à 

mesure qu’il lit le document. 

Divers modes de structuration discursive font l’objet de recherches, notamment les 

moyens de cohésion lexicale, qui construisent des chaînes référentielles (Cornish 2003) ou 

les expressions introductrices de cadres de discours, qui construisent des univers de discours 

particuliers, les cadres : « plusieurs propositions apparaissant dans le fil d’un texte 

entretiennent un même rapport avec un certain critère et sont, de ce fait, regroupables à 

l’intérieur d’unités que nous appellerons des cadres. » (Charolles 1997). À côté de ceux-là, 

d’autres moyens de structuration discursive sont encore assez peu étudiés comme tels, 

hormis par le même M. Charolles (2002). Il s’agit de la segmentation matérielle du texte 

écrit en paragraphes, sections et sous-sections, ces dernières étant généralement dotées 

d’un titre. 

Ce découpage fournit au lecteur une structuration visuelle du texte qui, avant même 

d’entrer dans son contenu, lui permet de commencer à construire la structuration discursive : 

le lecteur perçoit des blocs, des enchâssements, qu’il peut utiliser comme autant de « cases 

de l’esprit » 2 dans lesquelles classer les éléments du discours en train de se construire. Et 

si les segments perceptibles visuellement sont titrés, alors les différents blocs ne constituent 

plus d’anonymes étagères ou tiroirs pour ordonner le propos, classer et ranger les éléments 

du discours, ils tirent aussi de leur titre d’autres éléments pour la structuration, qui sont précisément 

l’objet de notre étude. 

Nous avons fait remarquer que ces moyens visuels d’organisation du texte n’ont guère 

été étudiés en tant que moyens de structuration discursive, ce qui ne veut pas dire qu’ils n’ont 

pas été étudiés du tout. Au contraire, le Modèle d’Architecture Textuelle (Luc & Virbel 2001) 

est un cadre théorique qui rend compte du fait que, tout texte écrit étant inscrit sur un support, 

il possède des caractéristiques matérielles qui peuvent jouer un rôle au plan textuel 

(plus récemment, voir aussi le travail de Power, Scott & Bouyad-Agah 2003). Par exemple, 

on peut réaliser une énumération de diverses manières, en utilisant des marqueurs lexicaux 

du type le premier, le deuxième, le troisième, ou bien en utilisant exclusivement des moyens 

visuels : disposition dans l’espace du support, indentation, puces ou numéros… La figure 

ci-dessous représente ces deux types d’énumération. 

2. Précisons que cette expression ne véhicule aucune hypothèse sur notre conception de l’esprit. Nous la 

reprenons d’une communication d’Anne Le Draoulec, qui elle-même l’emprunte à Heinrich Weil (1844), De 

l’ordre des mots dans les langues anciennes comparées aux langues modernes. Question de grammaire 

générale. Paris, Didier Érudition, réédition 1991. 

Schedae, 2006, prépublication n°1, (fascicule n°1, p. 1-12).

XXX__________________________________________________________________. Premièrement, 

_________________________________________. Deuxièmement,_______________________________ 

_____________________________________________________________________. Troisièmement, _____ 

________________________________________________________________________. 

XXX___________________________________________________. 

1. ___________________________________________________________ 

2. ___________________________________________________________ 

3. ___________________________________________________________ 

En prenant cette matérialité au sérieux, autrement dit en en faisant une composante à 

part entière du texte, le Modèle d’Architecture Textuelle définit des objets textuels qui se 

caractérisent par un contraste de mise en forme matérielle avec le reste du texte et par une 

fonction au sein du texte. Sans développer outre mesure, parmi les objets textuels identifiés 

dans le cadre de ce modèle, citons dans le désordre les énumérations, les paragraphes, 

les titres. 

Dans cet ensemble plus vaste que ces quelques exemples, nous nous focalisons sur 

les titres de section car ils présentent la particularité d’être un objet à deux faces. 

Les titres de section, objet à deux faces 

L’une de leurs faces est constituée de cette propriété matérielle d’être un objet contrastant 

avec le reste du texte et opérant ainsi une segmentation, une délimitation en sections, 

sous-sections, sous-sous-sections, etc. Notons que les séparations ainsi marquées ne 

sont pas de simples bornes de segments de textes car les titres sont hiérarchisés – une hiérarchie 

elle aussi marquée par des moyens typo-dispositionnels – et cette hiérarchisation se 

répercute sur les sections titrées. De ce fait, nous l’avons déjà souligné, le texte peut être 

appréhendé non comme une suite linéaire de blocs de natures diverses, mais comme une 

structure faite d’éléments de plus haut niveau englobant d’autres éléments, hiérarchie qui 

n’est assurément pas neutre. 

Les titres présentent aussi une seconde face, non plus matérielle mais sémantique, liée 

au fait que les titres sont composés d’unités lexicales et syntaxiques, porteuses elles-mêmes 

d’une signification. Ce qui implique que les titres participent doublement à la construction 

de la sémantique du document, non seulement ils segmentent et hiérarchisent, mais leur 

propre contenu sémantique interagit avec le contenu sémantique du reste du texte. En un 

certain sens, les titres sont à la fois dans et hors du texte. Dans parce que nous allons montrer 

maintenant qu’ils sont partie prenante du contenu du texte, qu’ils remplissent certaines 

fonctions discursives ; hors parce qu’ils ont ce statut particulier de se distinguer du corps 

de texte, de jouer ce rôle d’organisateur textuel visuel. 

Nous exposons maintenant les modalités pratiques de notre étude : quels textes, quelle 

méthodologie ; puis nous indiquerons les résultats actuels de notre analyse. Dans la dernière 

partie, nous abordons un autre aspect de notre problématique : la relation entre formefonction 

des titres et registre de textes. 

Méthodologie, corpus et tout ça… 

Figure 1 : Énumérations discursive et visuelle. 

Pour comprendre quel est le rôle des titres sur le plan de la structuration discursive de 

documents textuels, il est essentiel de disposer de documents textuels dans lesquels il y a 

des titres et d’indicateurs de la fonction discursive des titres. Le premier point qui pourrait 

paraître une boutade n’en est qu’à moitié une et nous sert à souligner que nous avons résolument 

inscrit notre étude dans le cadre d’une analyse de corpus, c’est-à-dire que nous avons 

réuni un ensemble de textes authentiques, comportant des titres de sections, nous allons 


3

4 

y revenir. Le second point n’est pas plus trivial : analyser les fonctions discursives des titres, 

soit, mais avec quels instruments d’analyse ? À quoi s’apprécie le rôle joué par un titre au 

niveau discursif ? Les deux choses sont liées dans la mesure où le type de support de l’analyse 

détermine en partie le type d’indicateurs. 

Nous avons réuni trois ensembles de textes de provenances diverses : articles scientifiques 

des domaines de l’ingénierie des connaissances et de la géopolitique ; écrits élaborés 

dans un cadre professionnel de gestion des déplacements : comptes rendus, rapports, 

projets, description de tâches… Ce corpus a été constitué de telle manière que chaque 

ensemble présente un nombre équivalent de titres de section, pas tout à fait 350 pour chaque, 

avec un total de 1 041 titres. 

Si nous avions suivi une façon de faire bien établie dans les études sur le discours, nous 

aurions travaillé à l’identification des fonctions des titres à partir d’un petit nombre d’exemples, 

authentiques ou fabriqués pour nos besoins, dont nous aurions proposé un classement 

de nature à illustrer des fonctions discursives. Le nombre considéré ici se prête à une autre 

démarche : non un classement global de chaque titre selon l’interprétation que l’on peut en 

donner, mais une saisie plus analytique de traits formels. Cette démarche répond à diverses 

exigences : 

1 plus on s’appuie sur des traits formels, moins on fait entrer en jeu la subjectivité 

et donc la dépendance d’un jugement à l’égard d’un analyste ; 

2 on peut saisir ainsi plus facilement les variations qui ne concernent qu’un ou 

deux des traits pris en considération, ce qui n’est guère facile lorsque le classement 

repose sur un jugement global ; 

3 on obtient une quantification de chaque trait, à partir de laquelle on peut procéder 

à des traitements statistiques qui permettent de mesurer les phénomènes 

de corrélation, de co-variation ou d’indépendance ; 

4 les fonctions décrites le sont non en terme d’interprétation, mais en terme de 

corrélats linguistiques de nature formelle ; 

5 il est possible de faire émerger diverses configurations de traits statistiquement 

valides et de les mettre en rapport avec le genre de textes, comme on le verra 

dans la dernière partie de l’article. 

La clé de voûte de la démarche réside alors dans le choix des traits formels à prendre 

en considération. Comme notre analyse vise les fonctions discursives des titres et la façon 

dont ils contribuent à l’organisation du discours et à la construction de la sémantique du texte, 

les traits choisis concernent d’une part des éléments factuels liés au titre indépendamment 

de son co-texte, tels que la forme et le niveau du titre (par exemple, SN, SV, SP, niveau 1, 

2, 3 ou 4), d’autre part des éléments co-textuels que nous supposons aptes à saisir la façon 

dont le titre s’intègre au texte, tels que le fait que le titre ait été préalablement introduit 

dans le discours et/ou qu’il fasse l’objet d’une reprise anaphorique. 

S’agissant des premiers, outre la catégorie grammaticale (SN, SV, SP, phrase), nous 

avons noté si le titre présente une partition interne telle qu’une coordination, par exemple : 

Nature des savoirs et type de connaissance 

ou une ponctuation, par exemple : 

1. Deux grandes approches : l’ouverture ou la substitution aux importations. 

Ceci nous permet de distinguer ce que nous avons appelé les titres bipartites des titres 

qui sont formés d’un bloc syntaxique unique comme La question agricole ou Penser la guerre 

totale. 

Pour ce qui est des seconds, notre description la plus aboutie à ce jour porte sur les 

reprises. Lorsque le titre fait l’objet d’une anaphore, on note : 


– la forme de la reprise : 

• strictement identique ; 

• la totalité du lexique du titre mais pas nécessairement à l’identique ; 

• une partie seulement du titre ; 

• un pronom ; 

• une phrase présentative ou autre (il s’agit…). 

– l’« éparpillement de la reprise » : reprise unique ou reprises à des endroits épars ; 

– une éventuelle conversion, par ex. comparaison repris par le verbe comparer ; 

– la localisation de la reprise : 

•1 ère phrase de la section ; 

• ailleurs dans le paragraphe. 

– la position sujet ou non de la reprise ; 

– la présence d’un autre titre et une éventuelle reprise dans cet autre titre. 

L’annotation de ces modalités de reprise nous permet de construire un modèle théorique 

des fonctions des titres. Nous exposons maintenant ce modèle tel qu’il s’est élaboré 

au fur et à mesure de l’analyse des titres, et dans la section suivante, nous montrerons comment 

l’analyse statistique corrobore en partie ce modèle. 

Modèle des fonctions discursives des titres 

Pour classer les titres, nous nous appuyons sur leur type d’implication dans l’organisation 

du contenu textuel (cf. Ho-Dac, Jacques & Rebeyrolle 2004 (classification inspirée de 

Halliday 1985)). Et nous distinguons deux grands types d’implication : une implication référentielle, 

c’est-à-dire une contribution du titre à la gestion des référents du discours, et une 

implication thématique, c’est-à-dire une délimitation du thème général dans lequel s’inscrit 

ce dont on va parler : un domaine d’activité, un domaine de connaissances, un point de vue, 

une situation spatio-temporelle, etc., spécifiques. Ces deux pôles renvoient à des processus 

interprétatifs différents : il s’agit dans le premier cas, d’attirer l’attention du lecteur sur un ou 

des référents du discours particulier(s), dans le second, de canaliser certaines de ses connaissances 

d’arrière-plan. 

De l’implication référentielle… 

Les titres à implication référentielle constituent un maillon d’une chaîne de référence 

dont les éléments s’égrènent au fil du texte, parfois avant, toujours après le titre. Celui-ci 

assure généralement la mise en saillance de ce référent. Trois types se dégagent : 

1. Titres préparatoires 

Le référent exprimé dans le titre fait l’objet d’une introduction, en position saillante, dans 

la première (ou éventuellement la seconde) phrase du paragraphe. Ce n’est qu’après cette 

introduction, liée souvent à une explicitation ou une justification de ce que le référent a à 

voir avec le propos global, que ce référent devient le topic des phrases qui suivent. 

5.3. La réutilisation 

L’une des techniques proposées pour faciliter le processus de modélisation, en ingénierie des 

besoins comme en ingénierie des connaissances, est la réutilisation de modèles. Elle devient un 

objectif prépondérant. Il s’agit de réutiliser des modèles (ou des parties de modèles) conçus 

sous une forme générique, précédemment développés et stockés dans des bibliothèques spécialisées. 

2. Titres focalisateurs 

Le titre remet au premier plan de l’attention un référent déjà présent dans le discours, 

qui peut éventuellement avoir été introduit plusieurs sections ou paragraphes auparavant. 


5

6 

Mais le Kremlin compte à la fois sur le jugement des dirigeants de ces pays et sur la vigilance 

de leurs autres voisins, principalement la Chine et l’Iran. L’avenir décidera de la pertinence de 

ces calculs. [deux paragraphes] 

La Chine 

Quoique de façon moins spectaculaire que la Russie, la République populaire de Chine (RPC) 

n’a pas, elle non plus, hésité à se joindre à la Sainte-Alliance. […] 

Mais la Chine avait deux raisons principales d’affirmer sa solidarité avec les États-Unis au lendemain 

du 11 septembre. D’une part, elle doit faire face à ses propres problèmes de minorité […] 

3. Titres installateurs 

À la différence du type précédent, le référent n’a pas déjà été introduit dans le discours, 

il ne fait pas non plus l’objet d’une introduction en début de section titrée, c’est le titre seul 

qui installe le référent dans le discours. 

3.3. L’ontologie computationnelle 

L’ontologie computationnelle est spécifiée dans le langage DefOnto (Barry et al. [2001]). Elle 

est obtenue en codant les propositions semi-informelles en propositions formelles (voir fig. 4). 

… à l’implication thématique 

Au pôle opposé, les titres à implication thématique ouvrent un espace thématique qui 

est ensuite déployé dans la section. D’une certaine manière, ces titres condensent le contenu 

de la section titrée pour délimiter, canaliser les connaissances et inférences qui devront 

être mobilisées par le lecteur pour une interprétation de ce qui suit. 

4.2. Adhésion et observance 

À l’issue des expérimentations, 70 enregistrements de décision ont été exploitables, correspondant 

à un total de 236 recommandations […]. En ce qui concerne l’adhésion, elle a été 

meilleure […]. Quant à l’observance, les résultats obtenus… 

Chacun des éléments du titre est repris dans un introducteur de cadre (Charolles 1997) 

qui ponctue la section titrée et permet d’en ordonner le contenu. 

Le titre thématique permet aussi de réduire l’univers de discours à un domaine de 

connaissance, un point de vue, une situation spatio-temporelle : 

4.1 Spécificités du contexte pédagogique 

4.1.1. Du point de vue du domaine 

[…] 

4.1.2. Du point de vue de l’organisation de l’activité 

[…] 

4.1.3. D’un point de vue technique 

Premièrement, l’interface a été conçue pour inciter les étudiants à utiliser certains outils […] 

Deuxièmement, l’articulation des outils synchrones et asynchrones ne fait pas l’objet d’un dispositif 

technique, mais de l’intervention d’un des étudiants, rôle attribué par émergence. 

Enfin, la circulation des données entre les étapes ne fait pas l’objet d’un dispositif technique ; 

elle est gérée par le tuteur, afin que celui-ci soit partie intégrante de l’activité. 

Dans ce second exemple, le titre définit littéralement un point de vue à partir duquel les 

spécificités du contexte pédagogique sont abordées. Hormis l’adjectif technique qui réapparaît 

deux fois, réaffirmation de ce point de vue, ce titre ne donne pas lieu à une anaphore. 

La bipolarité que nous venons d’exposer s’est faite jour lors de l’analyse manuelle des 

titres, au fur et à mesure de leur annotation. Elle se fonde sur des corrélats formels qui permettent 

de fixer des prototypes (au sens d’exemplaires typiques) de chaque extrémité. 


Corrélats formels 

La mise au jour de corrélats de l’implication des titres dans le discours servira de base à 

la construction de variables permettant la vérification sur corpus des hypothèses théoriques. 

Pour caractériser formellement les titres, rappelons que nous disposons de deux grands 

types de traits : des traits liés à la forme du titre, des traits liés à ses modalités de reprise. 

Du côté de l’implication référentielle se positionnent des titres : 

– formés d’un bloc unique ; 

– de type SN ; 

– donnant lieu à une reprise : 

• consistant en une répétition strictement identique du titre ou en une 

anaphore pronominale, dans tous les cas une reprise unique ; 

• immédiate ; 

• en position sujet. 

Par exemple : 

3. Notre méthode 

Notre méthode offre un cadre (fig. 1) au sein duquel les choix méthodologiques et techniques 

proposés restent ouverts. 

2.2.3 SYNTHÈSE DES BOUCHONS 

Elle fera l’objet d’une fiche, mentionnant la situation, au moment de la transmission, sur la zone 

d’action du CETE du Sud-Ouest. 

Du côté de l’implication thématique se positionnent des titres : 

– de type SP, SV, SN bipartites ou phrases ; 

– donnant lieu à une reprise : 

• d’une partie ou de l’ensemble des éléments lexicaux du titre, mais 

éparpillée dans le texte (reprise multiple) ; 

• distante (pas la première phrase de la section) ; 

• en position autre que sujet. 

Par exemple : 

3.2. Analyse par scénarios et recueil 

Concevoir l’ontologie, c’est d’abord identifier les notions du monde que l’on veut représenter. 

Ces notions étant accessibles au travers du langage, il s’agit de recueillir et d’analyser des corpus 

langagiers en étant guidé par des scénarios d’utilisation. Les corpus que nous avons 

recueillis et analysés sont : […] 

Soulignons qu’entre ces deux pôles qui représentent deux types d’implication tranchés, 

la majorité des titres ne présente qu’une partie de ces caractères formels et se range plutôt 

sur une position intermédiaire entre implication référentielle et implication thématique. 

Nous éprouvons maintenant la validité de ce modèle bipolaire par des moyens statistiques. 

Validation statistique du modèle 

Le modèle fonctionnel des titres de section tel que nous l’avons présenté est donc un 

modèle qui articule divers traits linguistiques formels. Ainsi conçu le modèle présuppose 

qu’une fonction donnée n’est pas liée à une variable unique, mais qu’elle dépend de 

l’influence conjointe de divers facteurs. Dès lors que l’on envisage de mesurer statistiquement 

une telle influence, c’est une approche multifactorielle qui s’impose. Il s’agit en effet 

d’une analyse qui permet de tenir compte non du rôle des variables indépendamment les 

unes des autres mais de leur influence conjointe. Ce type d’analyse statistique permet de 


7

8 

confirmer les oppositions posées théoriquement comme pertinentes en validant statistiquement 

ou non la pertinence des traits linguistiques considérés comme déterminants 

pour classer les titres et d’interpréter ces classements en termes de fonctions discursives. 

Plus précisément, l’analyse statistique sera utilisée ici pour regrouper les titres qui partagent 

un ensemble de traits communs et pour les opposer à ceux qui partagent d’autres 

traits. On pourrait, par exemple, obtenir les regroupements suivants : les titres qui ont la 

forme d’un SN pourraient être rassemblés d’un côté, alors que les titres qui ont la forme 

d’un SP, d’un SV ou d’un SN bipartite ou encore d’une phrase se trouveraient quant à eux 

réunis de leur côté. Ce type de résultat serait un premier pas vers la validation de notre 

modèle. Mais voyons maintenant les résultats que nous avons obtenus… 

Deux dimensions 

Au terme de l’analyse factorielle des correspondances multiples, nous retenons deux 

axes factoriels (que nous appelons dimensions en utilisant la terminologie de D. Biber) qui 

expliquent 30.5 % (de l’inertie totale), soit respectivement 19.89 %, pour le premier axe et 

10.61 %, pour le second. 

Dans les tableaux ci-dessous (de même que dans les figures qui suivent), nous faisons 

apparaître uniquement les traits linguistiques qui contribuent le plus fortement à la définition 

des deux dimensions. Pour chaque trait, nous fournissons les coordonnées des variables 

- chaque variable est codée en oui/non : autrement dit si un titre a la forme d’un SN, 

on codera « oui », si ce n’est pas le cas la même variable sera codée « non ». Les coordonnées 

permettent de positionner les modalités des variables sur les axes - et nous indiquons 

leur contribution à la définition statistique de la dimension concernée. 3 

Dimension 1 : dimension formelle Coordonnées Contributions 

Côté positif de l’axe 

le titre a la forme d’un bloc syntaxique unique de type SN 

SN = non 

SN = oui 

Côté négatif de l’axe 

le titre a une forme bipartite (bipartite) 

coordination = non 

coordination = oui 


ponctuation médiane = non 

ponctuation médiane = oui 

la reprise est multiple 

non 

oui 

1,54 

-0,53 

-0,17 

1,73 

-0,22 

1,90 

-0,35 

0,66 

Tableau 1 : Variables qui ont le plus de poids 3 sur la dimension 1. 

Dimension 2 : dimension cohésive 

Côté positif de l’axe 

Coordonnées Contributions 

la reprise se fait en position sujet 

11,6 

non -0,38 

oui 0,35 

Côté négatif de l’axe 

la reprise est lexicale 

non 

oui 

la reprise est identique 

non 

oui 

-0,30 

1,46 

0,39 

-1,02 

Tableau 2 : Variables qui ont le plus de poids sur la dimension 2. 

3. Il s’agit des variables qui contribuent le plus fortement à la définition statistique de l’axe. 

37,3 

13,4 

19,1 

10,6 

21 

14,1

On peut interpréter le premier axe comme une dimension formelle parce qu’il oppose 

les titres en fonction de la forme syntaxique qu’ils revêtent. Les titres placés du côté positif 

de l’axe sont les titres qui ont une structure syntaxique qu’on peut analyser comme bipartite 

et ceux qui se trouvent réunis du côté négatif sont les titres qui ont la forme d’un syntagme 

nominal. 

On peut interpréter le second axe comme une dimension cohésive parce qu’il oppose 

les titres en fonction de la forme sous laquelle s’opère la reprise. Les titres placés du côté 

positif de l’axe sont les titres qui sont repris par le biais d’une reprise lexicale et ceux qui se 

trouvent du côté négatif de l’axe sont ceux qui voient leur reprise se faire à l’identique ou 

par le biais d’un pronom. 

Confirmation de l’opposition 

entre titres référentiels et titres thématiques 

Rappelons que notre approche de la fonction des titres est une approche classificatoire 

qui ordonne les titres sur un continuum allant du tout référentiel d’un côté, au tout thématique 

de l’autre. Plus précisément, il s’agit d’une catégorisation graduelle qui oppose les 

titres maximalement référentiels aux titres maximalement thématiques. Évidemment, la plupart 

des titres ne se trouvent pas au centre de ces deux grandes classes, mais ils se situent 

à la périphérie. En d’autres termes, tous les titres ne remplissent pas nécessairement tous 

les critères que nous avons définis comme pertinents. C’est cette hypothèse que nous permet 

de vérifier l’analyse multifactorielle. Afin de faciliter la lecture des résultats obtenus, nous 

proposons ci-après une figure qui nous permet de visualiser l’opposition entre deux grandes 

classes de titres que nous avons posées. Nous obtenons cette figure en croisant nos deux 

dimensions. Ce croisement dessine un plan factoriel sur lequel nous pouvons situer les variables 

qui ont les plus fortes contributions. 

Les cercles dessinés sur la figure nous servent à signaler les rapprochements statistiques 

qui s’opèrent entre des sous-ensembles d’indices linguistiques que l’on a théoriquement 

considérés comme définitoires de l’implication des titres. 

D’un côté, en bas et à gauche, se trouvent réunis les titres qui se réalisent syntaxiquement 

sous la forme d’un syntagme nominal (SN) et qui sont repris dans le texte qui suit sous 

une forme en tout point identique (reprise identique) et une seule fois dans la section titrée 

(reprise unique). Ces trois éléments sont caractéristiques des titres dont l’implication dans 

le texte a été qualifiée de référentielle. 

De l’autre côté, en haut et à droite, se trouvent réunis les titres qui partagent les propriétés 

suivantes : ils se réalisent syntaxiquement sous une forme bipartite, ils sont repris sous 

la forme de l’une des unités lexicales qui les composent et cela dans diverses phrases de 

la section titrée. Ces trois caractéristiques sont au nombre de celles que nous avons décrites 

comme définitoires des titres dont l’implication notionnelle dans le texte est de type 

thématique. 

L’interprétation de l’analyse multifactorielle nous conduit à valider, au moins en partie, 

notre modèle théorique. Mais en partie seulement et cela pour deux raisons. D’abord, 

parce que certains indices linguistiques n’ont pas participé statistiquement à la définition 

des deux dimensions que nous avons présentées. Il s’agit des deux variables suivantes : la 

variable « localisation de la reprise » et la variable « le titre est un SV » (cf. § Méthodologie, 

corpus et tout ça…). Ensuite, parce que d’autres indices vont dans le sens inverse de notre 

modèle. C’est le cas notamment de la variable « position sujet de la reprise ». En outre, 

contrairement à ce qu’affirme notre modèle, les reprises qui remplissent la fonction sujet 

n’entretiennent pas de lien statistique avec les autres indices linguistiques caractéristiques 

de l’implication référentielle. 


9

10 

titres thématiques 

Bloc unique : SN 

Dimension 2 : cohésion 

reprise unique 

Figure 2 : Validation de l’hypothèse d’une opposition entre des titres référentiels et des titres thématiques. 

S’agissant des variables « localisation de la reprise » et « position sujet de la reprise », 

on observe cependant une forte corrélation, comme le montre le tableau suivant (X 2 significatif 

à .000) : 

Première phrase Ailleurs 

nbre d’occ % nbre d’occ % 

Non sujet 246 45 77 65 323 

Sujet 306 55 41 35 347 

Total 552 100 % 118 100 % 

Tableau 3 : La fonction syntaxique de la reprise dépend sa localisation. 

Lorsque la reprise s’opère dans la phrase qui suit immédiatement le titre, elle occupe 

la position syntaxique de sujet. En revanche, lorsque la reprise est localisée ailleurs dans la 

section, elle assumera préférentiellement d’autres fonctions syntaxiques. Ce résultat nous 

invite à construire une nouvelle variable combinant la fonction et la localisation afin de faire 

entrer dans l’analyse les deux variables conjointes. Nous espérons alors mieux faire apparaître 

le lien entre la fonction syntaxique de sujet et la fonction référentielle du titre. 

Titres référentiels ou thématiques : 

des préférences selon les genres textuels 

Les résultats de l’analyse multifactorielle permettent de montrer que les titres n’assument 

pas les mêmes fonctions discursives dans tous les textes. Pour s’en convaincre, il suffit 

d’observer la place qu’occupent les sous-corpus sur les deux dimensions dégagées. Mais 

auparavant une précision s’impose. Pour bien comprendre ce qui est en jeu ici, il faut se 

souvenir que les calculs statistiques ont été réalisés à partir d’informations qui décrivent les 

titres eux-mêmes (forme, type de reprise, etc.). À ce stade, en revanche, il s’agit uniquement 

de projeter les sous-corpus d’où sont extraits les titres analysés sur les axes qui ont été calculés. 

En d’autres termes, les sous-corpus ne participent pas à l’analyse statistique, il s’agit 

d’une information disponible (on connaît pour chaque titre le corpus d’où il est extrait) que 

l’on projette sur les axes pour voir si les titres tirés des mêmes sous-corpus se rassemblent 

sur l’espace à deux dimensions défini par l’analyse statistique précédente. Ce sont précisément 

ces regroupements que l’on fait apparaître sur la figure 3 (il s’agit ici de représenter 

la place qu’occupe la variable supplémentaire « sous-corpus » dans le plan factoriel obtenu 

par le croisement des deux dimensions). Pour interpréter cette figure, il faut observer successivement 

les deux axes : 


position sujet reprise lexicale 

reprise identique 

reprise partielle 

reprise multiple 

Titre bipartite 

Dimension 1 : formelle 

titres référentiels

– sur le premier axe (dimension 1), du côté positif, on observe que se trouvent réunis les 

titres des articles des domaines géopolitique et ingénierie des connaissances alors 

que les titres extraits des textes professionnels sont regroupés sur le côté négatif de 

l’axe ; 

– sur le second axe (dimension 2), on observe les mêmes regroupements : d’un côté, les 

titres tirés de l’ensemble des articles scientifiques et de l’autre les titres extraits des 

textes professionnels. 

titres thématiques 

Bloc unique : SN 

L’observation de la place qu’occupent les corpus sur les deux dimensions nous renseigne 

sur les relations entre notre classement fonctionnel des titres et le genre des textes et 

nous conduisent à la conclusion suivante : l’implication des titres dans le discours fournit un 

indice du type de texte. 

Conclusion 

Textes professionnels 

reprise unique 

position sujet reprise lexicale 

reprise identique 

reprise partielle 

Articles géopolitique / ingénierie 

reprise multiple 

Titre bipartite 

titres référentiels 

Figure 3 : Projection des sous-corpus sur les axes dégagés par l’analyse multifonctionnelle. 

En appréhendant les documents écrits sous leur aspect matériel, on est conduit à prendre 

en compte des éléments structurants qui s’imposent visuellement tels que les sections, 

paragraphes et leurs titres. Nous nous sommes intéressées au rôle joué par ces derniers dans 

la construction de la sémantique du texte et avons dégagé deux fonctions polaires par rapport, 

d’un côté à la gestion des référents, de l’autre à la thématique. Se construit ainsi de 

l’une à l’autre un continuum sur lequel se placent les divers titres du corpus, en fonction des 

valeurs des différents traits formels utilisés pour les caractériser. 

La description précise des indices linguistiques de l’implication des titres dans le discours 

suivie de leur codage dans un vaste corpus permet de quantifier les indices considérés 

comme théoriquement pertinents. Cette étape de validation empirique d’un modèle théorique 

a été franchie avec un relatif succès, dans cette étude, puisque les corrélats formels 

théoriquement pertinents l’ont été aussi statistiquement. Le travail de description sur la fonction 

syntaxique de la reprise doit néanmoins être poursuivi afin de mieux expliquer les résultats 

contradictoires obtenus. Par ailleurs, l’ensemble des titres ne donnant pas lieu à anaphore 

doit être caractérisé par les autres traits annotés. L’une de nos hypothèses actuelles est qu’ils 

s’apparentent à des introducteurs de cadre, elle doit être maintenant explorée. 

Le second enseignement que l’on peut tirer du travail présenté ici concerne les possibilités 

de caractérisation du contenu textuel via les titres de section. L’analyse portant sur un 


11

12 

corpus diversifié, on peut en effet affirmer qu’il existe des affinités entre certains types de 

titres et certains genres ou registres de discours. Ce résultat ouvre sur une application possible 

de ce travail vers le profilage automatique de textes (Habert et al. 2000). Si ce résultat 

se confirme sur un plus grand nombre de corpus, on peut imaginer faire entrer les caractéristiques 

des titres parmi les différents traits de surface qui seraient utilisés pour une catégorisation 

automatique des textes. 

Dans le même genre de perspectives, plusieurs applications concrètes sont envisageables. 

Pour une navigation intradocumentaire sélective, le typage des titres s’avérerait fructueux, 

ce serait une information supplémentaire que le lecteur pourrait utiliser pour décider 

de lire ou non telle ou telle portion de texte. Pour des tâches automatiques telles que la 

recherche d’information, il semble de plus en plus nécessaire de cesser de considérer les 

textes comme des « sacs de phrases » et de bâtir des systèmes qui prennent en compte leur 

structuration. Les applications impliquant un accès au contenu textuel ont tout à gagner d’une 

meilleure compréhension du fonctionnement de ces éléments de structuration. 

Bibliographie 

BIBER D. (2003), « Variation among University Spoken and Written Registers : a new multi-dimensional 

analysis », in Corpus analysis. Language structure and language use, P. Leistyna & C. F. Meyer (éds), 

Amsterdam – New York, Rodopi, p. 47-67. 

CHAROLLES M. (1997), « L’encadrement du discours : univers, champs, domaines et espaces», Cahier de 

Recherche Linguistique, 6, p. 1-73. 

CHAROLLES M. (2002), « Organisation des discours et segmentation des écrits», in Actes de la rencontre 

Inscription Spatiale du Langage : structures et processus, Toulouse, p. 31-39. 

CORNISH F. (2003), « The roles of (written) text and anaphor-type distribution in the construction of 

discourse », Text, 23, 1, p. 1-26. 

HABERT B., ILLOUZ G., LAFON P., FLEURY, S., FOLCH H., HEIDEN S. & PRÉVOST S. (2000), « Profilage de textes : 

cadre de travail et expérience », in JADT (Journées Internationales d’Analyse Statistique des Données 

Textuelles), M. Rajman (éd.), Lausanne. 

HALLIDAY M.A.K. (1985), An introduction to Functional Grammar, London, Edward Arnold. 

HO-DAC M., JACQUES M.-P. & REBEYROLLE J. (2004), « Sur la fonction discursive des titres », in L’unité 

texte, S. Porhiel & D. Klingler (éds.), Pleyben, Perspectives, p. 125-152. 

LUC C., & VIRBEL J. (2001), « Le modèle d’architecture textuelle Fondements et expérimentation », 

Verbum, 23, 1, p. 103-123. 

POWER R., SCOTT D. & BOUYAD-AGAH N. (2003), « Document structure », Computational Linguistics, 29, 2, 

p. 211-260. 


Schedae, 2006 


On Argumentation in Procedural Texts 

Farida Aouladomar, Leila Amgoud, Patrick Saint-Dizier 

IRIT-CNRS 

118, route de Narbonne – 31062 Toulouse Cedex France 

aouladom@irit.fr, amgoud@irit.fr, stdizier@irit.fr 

Abstract : 

Procedural texts consist of sequences of instructions designed to reach an objective. The user 

must follow step by step the instructions in order to reach the results expected. In this paper, we 

explore the different facets of natural argumentation used in such texts that reinforces the plangoal 

structure. 

Keywords: procedural texts, plan-goal structure, natural argumentation. 

Résumé: 

Les textes procéduraux sont composés de séquences d’instructions visant à atteindre un objectif. 

L’utilisateur doit suivre étape par étape les instructions pour atteindre les résultats souhaités. 

Dans cet article, nous explorons les différentes facettes de l’argumentation contenue dans ce 

genre textuel servant à renforcer la structure plan-but des textes procéduraux. 

Mots-clés: textes procéduraux, structure plan-but, argumentation. 

Introduction 

Procedural texts consist of a sequence of instructions designed with some accuracy in 

order to reach an objective (e.g. assemble a computer). In our perspective, procedural texts 

range from apparently simple cooking receipes to large maintenance manuals (whose paper 

versions are measured in tons e.g. for aircraft maintenance). They also include documents 

as diverse as teaching texts, medical notices, social behavior recommendations, directions 

for use, do-it-yourself and assembly notices, itinerary guides, advice texts, savoir-faire guides, 

etc. 

In most types of procedural texts, in particular social behavior, communication, etc. 

procedural discourse has two dimensions: an explicative component, constructed around 

rational and objective elements (goals and plans), and a seduction component whose goal 

is (1) to encourage the user, (2) to help him revise his opinions, (3) to enrich the goals and 

the purposes, by outlining certain properties or qualities or consequences of a certain action 

or prevention. This seduction component closely associated with the rational elements, 

forms, in particular, the argumentative structure of the procedural text. 

Farida Aouladomar, Leila Amgoud, Patrick Saint-Dizier 

« On Argumentation in Procedural Texts » 


13

14 

Another important feature, which is rather implicit, is the way instructions or groups of 

instructions are organized and follow each other, and both the logic (objective aspect) and 

the connotations (subjective aspects) that underlie this organization (sequential, parallel, 

concurrent, conditional, etc.). 

In procedural texts, goals are, roughly, reached by means of sequences of instructions. 

These sequences are meaningful essentially w.r.t. the goals to reach. Similarly, the argumentative 

structure supports the execution of the instructions in various ways. Arguments 

get also their meaning w.r.t. the goal-sequences of instruction structure. 

The diversity of procedural texts, their objectives and the way they are written is the 

source of a large variety of natural arguments. We briefly present them in this paper. This 

paper basically relates the argumentative structure of procedural texts as they are in French. 

This study is based on a extensive corpus study, within a language production perspective. 

This approach allows us to integrate logical, linguistic (e.g. Moeschler 1985, Anscombre et 

al. 1981) and philosophical views of argumentation. It is basically linguistic and conceptual. 

In the remainder of this paper, we briefly outline the theoretical basis of argumentation, 

from an AI and cognitive perspective; we then present the structure of procedural texts. Then, 

we show the different conceptual and linguistic facets of arguments, as found in our corpora, 

and attempt to make explicit and categorize the roles these may play. 

Argumentation process and argument typology 

A rational agent can express claims and judgments, aiming at reaching a decision, a 

conclusion, or informing, convincing, negotiating with other agents. Pertinent information 

may be insufficient or conversely there may be too much, but partially incoherent information. 

In case of multi-agent interactions, conflicts of interest are unavoidable. Agents can 

be assisted by argumentation, a process based on the exchange and the valuation of interacting 

arguments which support opinions, claims, proposals, decisions,… 

According to Dung (1995), an argumentation framework is defined as a pair consisting of 

a set of arguments and a binary relation representing the defeasibility relationship between 

arguments. 

Definition 1. An argumentation framework is a pair where A is a set of arguments 

and R is a binary relation representing a defeasibility relationship between arguments, i.e. 

R ⊆ A × A. (a, b) ∈ R or equivalently “a R b” means that the argument a defeats b. 

Among all the conflicting arguments, it is important to know which arguments will be 

kept for inferring conclusions and for making decisions. In (Dung, 1995), different semantics 

for the notion of acceptability have been proposed. Let's recall them here. 

Definition 2. (Conflict-free, Defence) Let B ⊆ A. 

– B is conflict-free iff there exist no a i , a j in B such that a i R a j ; 

– B defends an argument ai iff for each argument aj ∈ A, if aj R ai , then there exists ak ∈ B 

such that ak R aj . 

Definition 3. (Acceptability semantics) Let B be a conflict-free set of arguments, and let 

F: 2 A→ 2 A be a function such that F(B) = {a | B defends a}. 

– B is admissible iff B ⊆ F(B); 

– B is a complete extension iff B = F(B); 

– B is a grounded extension iff it is the minimal (w.r.t. set-inclusion) complete extension; 


– B is a preferred extension iff it is a maximal (w.r.t. set-inclusion) complete extension; 

– B is a stable extension iff it is a preferred extension that defeats all arguments in A\B. 

Let E = {E1 , …, En } be the set of all possible extensions under a given semantics. 

Note that there is only one grounded extension. It contains all the arguments which 

are not defeated and also the arguments which are defended directly or indirectly by nondefeated 

arguments. 

In the above framework, an argument is an abstract entity whose role is only determined 

by its relation to other arguments. Then its structure and its origin are not known. However, 

in many applications of argumentation, for instance for handling inconsistency in knowledge 

bases, arguments take the form of explanations, called in (Amgoud & Prade 2005) explanatory 

arguments. However, recent works on negotiation have argued that argumentation can 

play a key role in finding a compromise. Indeed, an offer supported by a `good’ argument 

has a better chance to be accepted by another agent. Argumentation may also lead an agent 

to change its goals and finally may constrain an agent to respond in a particular way. In 

addition to explanatory arguments studied in classical argumentation frameworks, works 

on argumentation-based negotiation have emphasized other types of arguments such as 

threats, rewards, tips and warnings (see section 5). For example, if an agent receives a threat, 

this agent may accept the offer even if it is not really acceptable for him (because otherwise 

really important goals would be threatened). The figure below shows clearly the differences 

between the four types of arguments. 

Statement: If ‘a’ then ‘b’, where ‘a’ is a potential action of hearer 

Is ‘b’ desirable or undesirable for hearer 

desirable undesirable 

Is ‘b’ a potential action of speaker ? Is ‘b’ a potential action of speaker ? 

no yes yes no 

Tip Reward Threat Warning 

The Context: Procedural text structure 

Under the heading of procedural texts, there is a quite large diversity of texts. Procedural 

texts can be grouped into families according to their main objectives and style (Adam 2001). 

We have, for example, regulatory texts (Mortara Garavelli 1988), procedural texts (Longacre 

1982), ‘programmatory’ texts (Greimas 1983), instructional-prescriptive texts (Werhlich 1975), 

injunctive texts (Adam 1987), advice texts (Lüger 1995) and receipe texts (Qamar 1996), etc. 

All these views share common structures: specification of goals, description of ingredients/ 

materials to use, and description of sequences of instructions. Procedural texts obey to a 

number of structural criteria which are quite well-defined. They indeed share common stylistic 

forms, e.g. preference for imperative forms, and a number of typographic elements 

such as enumerations. 

Procedural texts explain how to realize a certain goal by means of actions which are at 

least partially temporally organized; they also outline the way these actions can be realized, 


15

16 

with advices and preferences. The organization of a procedural text is in general made visible 

by means of linguistic and typographic marks. 

Another feature is that procedural texts tend to minimize the distance between language 

and action. The main structure of procedural texts can refer to plans and goals theory in IA 

theory. In procedural texts, plans to realize a goal are made as immediate and explicit as 

necessary, the objective being to reduce the inferences that the user will have to make before 

acting. Texts are thus oriented towards action, they therefore combine instructions with icons, 

images, graphics, summaries, preventions, advices, etc. 

We based our studies of procedural texts on their discursive aspects in order to identify 

and isolate the main informational modules that will be useful for answering procedural questions 

on the web in a QA system (see (Aouladomar 2005) for more details). 

Instructions may be sequential, or may have a more complex structure including, for 

example, options, alternatives or operations to realize in parallel with others. This level also 

includes the analysis of markers proper to certain types of instructions and markers that 

connect instructions. 

The goal-plan structure of procedural texts has been described using a grammar formalism 

that presents the main elements composing procedural texts, that we use for annotating 

them. 

The goals and sub-goals of procedural texts represent the skeletal structure of those 

texts. Every structure identified contributes to the realization of those goals. 

Methodology 

The methodology we use to represent the structure of procedural texts is based on 

corpora analysis. Our corpus is built following two steps: (1) a user-centred method, (2) an 

enhancement of this first corpus when important categories of procedural texts were missing. 

First, we collect procedural queries from queries inventories on the web, which we use 

to select associated procedural texts. At the end of this stage, we gathered 78 texts from 

essentially technical (ex: computer assembly) and communication domains (how to write a 

CV). Then, we added 47 procedural texts from important missing categories (recipes, injunctions, 

etc.). The work presented below corresponds to a manual analysis of procedural texts 

in order to describe their organization. The description is based on example/counter example 

method. 

A Discursive analysis of procedural texts 

Procedural texts can be a simple, ordered list of instructions to perform to reach a goal, 

but they can also be less linear, outlining different ways to realize something, with arguments, 

conditions. They often also contain a number of recommendations, warnings, and comments 

of various sorts. 

Here is, represented by means of a grammar, the structure we have elaborated for procedural 

texts from a corpora analysis. 

Structures reported below essentially correspond to the organization of the informational 

contents. Elements concerning the layout (e.g. textual organizers such as: titles, enumerations, 

etc.), and linguistic marks of various sorts are used as triggers or delimiters in the implementation 

of this grammar. In what follows, parentheses express optionality, + iteration, {} 

express the compulsory character of an element but which is not always realized linguistically, 

the comma is just a separator with no temporal connotation a priori, / is an or and the operator 

< indicates a preferred precedence. Each symbol corresponds to an XML-tag, allowing 

us to annotate procedural texts. 


– Text title, (summary), (warning)+, (pre-requisites)+, (picture) + < objective; 

– Summary title+. “Summary” describes the global organisation of the procedure, it may 

be useful when procedures are complex (summary can be a set of hyper-links, often 

pointing to titles); 

– Warning (picture)+, (pre-requisites), (arguments). “Warnings” represent global precautions 

or preventions associated with actions or objectives (e.g. switch off electricity prior 

to any action); 

– Pre-requisites list of objects, (instruction sequences). “Pre-requisites” describe all kinds 

of equipments needed to realize the action (e.g. the different constituents of a receipe) 

and preparatory actions; 

– Picture describes a sequence of charts and/or schemas of various sorts. They often 

interact with instructions by e.g. making them clearer; 

– Objective {goal} < (warning), (picture), (pre-requisites), instruction sequences+ / objective. 

This structure corresponds to the subgoals and sub-plans of procedural texts. It is 

the main structure of procedural texts, that we use for the answering process of the QA 

system; 

– Instruction sequences instseq < {connector} < instruction sequences / instseq; 

– Instseq imperative linear sequence / optional sequence / alternative sequence / imperative 

co-temporal sequence; 

– Imperative linear sequence instruction < {temporal mark} < imperative linear sequence / 

instruction. (e.g. cook peeled potatoes and reduce them out of mashed potatoes); 

– Optional sequence optional expression < imperative linear sequence. (e.g. if you 

prefer a stronger flavour, add curry powder and cream); 

– Alternative sequence (conditional expression), (argument), imperative linear sequence, 

(alternative-opposition mark) < instseq / (conditional expression, instseq). (e.g. peel 

potatoes, or leave the peel on if it is thin); 

– Imperative co-temporal sequence Imperative linear sequence < co-temporal mark < 

imperative co-temporal sequence / instruction. A co-temporal sequence relates instructions 

which must be realized at the same time, or more generally non-sequentially 

(e.g. mash tomatoes while mixing with garlic and olive oil); 

– Instruction (iterative expression), action, (argument)+, (reference)+, (picture)+ (warning). 

“Instruction” is the lowest level, instructions can be complex since they may contain 

their own goals, warnings, pictures, arguments, etc. 

Besides this aspect of analysis for QA systems, procedural texts seem of much interest 

for other various linguistic analysis: one can explore their layout structure, temporal structure, 

rhetorical structure (Kosseim 2000, Vander Linden 1995, Rosner 1992), argumentative 

structure, logical structure, etc. 

We focus in the rest of this paper on the argumentative aspects of procedural texts. 

Argumentation in procedural texts 

General considerations 

Argumentation is a process used by a person to convince an audience (Oléron 1983). 

Procedural texts are a form of argumentation structure since they (1) make interact the instructions 

producer and receiver, (2) are also a process that exert an influence on the receiver (the 

user must realize the instructions), (3) give justifications or elements that prove the appropriateness 

of the instruction, using rational elements (see our argument typology below). 


17

18 

Procedural texts are specific forms of discourse, satisfying constraints of economy of 

means, accuracy, etc. They are in general based on a specific discursive logic, made up of 

presuppositions, causes and consequences, goals, inductions, warnings, anaphoric networks, 

etc., and more psychological elements (e.g. to stimulate a user). The goal is to optimize 

a logical sequencing of instructions and make the user feel safe and confident with 

respect to the goal(s) he wants to achieve (e.g. clean an oil filter, learn how to organize a 

customer meeting). Procedural texts, from this point of view, can be analyzed not only just 

as sequences of mere instructions, but as efficient, one-way (i.e. no contradiction, no negotiation) 

argumentative discourses, designed to help a user to reach a goal, making the best 

decisions (see e.g. Amgoud et al. 2001, 2005). 

Producing explanations is a rather synthetic activity whose goal is to use the elements 

introduced by knowledge explicitation mechanisms to induce generalizations, subsumptions, 

deductions, relations between objects or activities and the goals to reach. This is particularly 

visible in the lexical choices made and in the choice of some constructions, including 

typographic. Procedural discourse is basically interactive: it communicates, teaches, justifies, 

explains, warns, forbids, stimulates, evaluates. It contains a number of facets, which all are 

associated in a way to argumentation. 

The author of procedural texts must consider different dimensions (Donin et al. 1992), 

among others: (1) cognitive: notions referred to must be mastered and understood by the 

target users, (2) epistemic: take into account, possibly to deny them, the beliefs of those 

users. The producer of procedural texts starts from a number of assumptions or presuppositions 

about potential users, about their knowledge, abilities and skills, but also about their 

beliefs, preferences, opinions, ability to generalize and adapt (to adapt instructions to their 

own situation, which is never exactly the one described in the procedure), perception of 

generic situations, and ability to follow discursive processes. 

The producer of procedural texts has then, from this basis, to re-inforce or weaken presuppositions, 

to specify some extra knowledge and know-how, possibly beliefs or opinions. 

He has to convince the reader that his text will certainly lead to the success of the target 

goal, modulo the restrictions he includes. Texts are also expected to be locally and globally 

coherent, with no contradictions, and no space for hesitation or negotiation. 

Given a certain goal, it is also of much interest to compare or contrast the means used 

by different authors, possibly for different audiences. Resorting to arguments for the producer 

of procedural texts can thus depend on several factors: the author beliefs, the type 

and the complexity of procedural texts (i.e. technical procedural texts are very rich in arguments 

compared to receipes), or the expertise level of users (i.e. a text designed for experts 

may contain less arguments than for non-experts of a domain). 

Argumentation in procedural texts is found in the expression of objectives, in the expression 

of disjunction, alternatives, warnings, and within instructions (see the grammar above). 

Arguments are thus structurally and semantically dependent of the local structures or the 

general plans and goals structure they are associated with. 

Definitions of arguments 

Two families of arguments are found in the logical and psychological literature of argumentation, 

depending on the involvement of the producer of the argument: advices and 

inducements. In procedural texts, those arguments describe the reason why users could, 

should or must do the prescribed instructions. 

– Inducements are speech acts uttered in an attempt to make another person do, or 

refrain from doing some actions (Fillenbaum 1986). They consists of either promises 

(rewards) or threats: 


• A promise encourages an action p by offering q as a reward. (i.e. send the 

formula on time, and you will get a free installation of your phone line); 

• A threat aims to deter behavior by pointing to potential punishment. (i.e. it 

is forbidden to smoke, to eat and to drink in the library. Non respecting 

these rules will lead to the immediate exclusion from the library). 

– Advices involve recommendations about future behaviors. They consist of tips or warnings: 

• A tip underlines potentially positive consequences for the addressee 

resulting from the satisfaction of p. (i.e. use total sunblock with a high 

protecting coefficient, you will have a smooth skin even if white for long 

time); 

• A warning highlights either (1) a negative consequence that will surely 

follow an action p unless one refrains from doing p or (2) a negative 

consequence that will likely ensue if one doesn’t realize p. (i.e. Versez 

graduellement le lait froid, en fouettant vivement pour éviter la formation 

de grumeaux, N’utilisez pas d’acides de solutions chlorées, ces produits 

peuvent détériorer les sangles et nuire à l’intégrité de l’appareil. (gloss: 

pour gradually cold milk, whipping firmly in order to prevent the forming 

of lumps; don’t use chlored solutions, these products may damage straps 

and harm the integrity of the machine). 

Promises and threats express a more certain less probabilistic relationship between 

antecedent and consequent than do tips and warnings (Ohm 2005). 

Besides these arguments, explanations are a neutral form of argumentation. They provide 

a motivation and an internal coherence to procedural texts. Explanations are the only 

arguments in procedural texts that can be used with any other kind of arguments. For example, 

in N’utilisez pas de laques pour les cheveux car elles ne sont pas adaptées au type de 

poil et risquent à la longue de le « casser », (gloss: don’t use hair spray because it is not 

adapted to the type of hair and it may break it), the first part argues for not doing p, the 

second part is an explanation and the last part is a warning that both aims to motivate why 

the user must not realize p. 

From the analysis, mainly psychological or cognitive, of the different forms of procedural 

texts mentioned above (see section 3), we categorize procedural discourse into 4 main categories 

for our purpose: 

– Procedures, e.g.: receipes, maintenance and construction manuals, some medical 

texts, etc. 

– Injunctions, e.g.: orders, regulations, rules, security measures, etc. 

– Advices/communication, e.g.: beauty advices, ways to fill in forms, administrative procedures, 

to behave in certain environments, how to manage a meeting, etc. 

– Question answer pairs extracted from different FAQ’s on the web. 

The table below summarizes the definitions of arguments, the author strategies and 

the procedural texts involved for each category of arguments. 

Types of Explanations Inducements advises 

arguments 

Promises Threats Tips warnings 

Definitions Provide Encourage an deter behavior Highlight Highlight 

coherence to action p by by pointing to positive negative 

actions. offering a reward potential consequences consequences 

q punishment of an action of an action 

Results of the Realization of Realization of Absence of a Realization of Absence of a 

wanted actions the action to the action to bad the action to bad 

reach a reach a positive consequence reach a consequence 

positive result result 

positive result 


19

20 

Involvement of 

the speaker in the 

consequences of 

an action p 

Types of 

procedural texts 

involved 

Typology of Arguments in procedural texts 

Let us review here the 4 major forms of arguments we found frequently in corpora. Verb 

classes referred to are in general those specified in WordNet (Fellbaum 1998): 

– explanations are the most usual ones. We find them in any kind of procedural texts. 

They usually introduce a set of sequences or more locally an instruction implemented 

in the “goal” symbol of the grammar. 

The abstract schemas are the following: (1) purpose connectors-infinitive verbs, (2) causal 

connectors-deverbals and (3) titles. 

The most frequently used causal connectors are: pour, afin de, car, c’est pourquoi, etc. 

(to, in order to) (e.g. to remove the bearings, for lubrification of the universal joint shafts, 

because it may be prematurely worn due to the failure of another component). 

– warning arguments embedded mostly either in a “negative” formulation. They are 

particularly rich in technical domains. 

Their role is basically to explain and to justify. Negative formulation is easy to identify: 

there are prototypical expressions that introduce the arguments. 

Negative formulation follows the abstract schemas: negative causal connectors-infinitive 

risk verbs; negative causal marks-risk VP; positive causal connectors-VP negative syntaxic 

forms, positive causal connectors-prevention verbs. 

• negative connectors: sous peine de, sinon, car sinon, sans quoi, etc. 

(otherwise, under the risk of) (e.g. sous peine d'attaquer la teinte du bois); 

• risk class verbs: risquer, causer, nuire, commettre etc. (e.g. pour ne pas 

commettre d'erreur); 

• prevention verbs: éviter, prévenir, etc. (e.g. afin d'éviter que la carte se 

déchausse lorsqu'on la visse au châssis}, gloss: in order to prevent the 

card from skipping off its rack); 

• Positive causal mark and negative syntaxic forms: de facon à ne pas, pour 

ne pas, pour que… ne… pas etc. (in order not to) (e.g. pour ne pas le 

rendre brillant, gloss: in order not to make it too bright). 

– Tip arguments: these arguments are less imperative than the other ones, they are 

advices, evaluations. They are particularly rich in communication texts. 

The corresponding abstract schemas are: causal connectors-performing NP; causal 

connectors-performing verbs; causal connectors-modal-performing verbs; performing 

proposition. 

• performing verbs: e.g. permettre, améliorer, etc. allow, improve; 

• performing PPs: e.g. Pour une meilleure finition; pour des raisons de 

performances; 

• performing proposition: e.g. Have small bills. It's easier to tip and to pay 

your bill that way. 

– threatening arguments and reward arguments: these arguments have a strong impact 

on the user's intention to realize the instruction provided, the instruction is almost made 

compulsory by using this kind of argument. This is the injunctive form. 


neutrality Involvement Involvement Neutrality Neutrality 

Technical 

texts 

Advises texts 

Medical texts 

Injunctions 

Receipes 

QA pairs 

QA pairs 

Injunctions 

QA pairs 

Injunctions 

Technical texts 

Advises texts 

Medical texts 

Injunctions 

Receipes 

QA pairs 

Technical 

texts 

Advises texts 

Medical texts 

Injunctions 

Receipes 

QA pairs

We could not find any of these types of arguments in procedural texts, except in QA 

pairs and injunctions texts (e.g. rules) where the author and the adressee are clearly identified. 

Therefore, in those arguments we often find personal pronouns like “nous” “vous” (we, 

you). For threatening arguments, it follows the following schemas: otherwise connectorsconsequence 

proposition; otherwise negative expression-consequence proposition: 

• otherwise connectors: sinon; 

• otherwise negative expression: si… ne… pas… (e.g. si vous ne le faites 

pas, nous le périmerons automatiquement après trois semaines en ligne). 

For reward arguments, the schemas associated are the following: personal pronouns – 

reward proposition: 

• reward proposition: using possession transfer verbs (gagner, donner, 

bénéficier, etc. (win, give, benefit …) 

Besides these four main types of arguments, we found some forms of stimulation-evaluation 

(what you only have to do now...), and evaluation. 

Conclusion 

In this paper, we have shown the variety of natural argumentation forms found in procedural 

texts. To get a more accurate view of the diversity of argumentation in this type of 

text, we need to also consider more subtle language forms such as: modalisators, tonality, 

opinion marks, evaluation marks, illocutionary force in arguments, etc. 

Let us conclude with some interesting observations and remarks that need to be 

developed by comparative analysis of different procedural texts. 

– Using emphasizing arguments to express the importance of following instructions, can 

depend on the nature of procedural texts. Preliminary observations tend to show that 

technical procedural texts are richer in argumentation than, for instance, receipes. Arguments 

in procedural texts seem to depend also on the complexity or “dangerousness” 

of the procedure. Further investigations in those directions but also in the existence of 

specific syntactic and semantic schemas of arguments proper to different types of procedural 

texts would be interesting to carry out; 

– Arguments can depend on the user’s expertise or familiarity with the domain. In that 

case, arguments are means, for the producer, of adapting his writing strategies according 

to the user. 

All these considerations can lead to recommendations for writing assistance tools. Results 

can also help to develop different strategies when generating answers to procedural questions 

by: (1) adding arguments in the answer of a QA system which is a way to give justifications 

to the generated answer; (2) using arguments adapted to user levels. 

Bibliography 

ADAM J.-M. (2001), “Types de texts ou genres de discours? Comment classer les textes qui disent de et 

comment faire?”, Langages, 141 (Les discours procéduraux), p. 10-27. 

ADAM J.-M. (1987), “Types de séquences textuelles élémentaires”, Pratiques, 56. 

AMGOUD L. & PRADE H. (2005), “Handling threats, rewards and explanatory arguments, in a unified 

setting”, International Journal Of Intelligent Systems, 20, 12, p. 1195-1218. 

AMGOUD L., PARSONS S., MAUDET N. (2001), “Arguments, dialogue, and negotiation”, in Proceedings of 

the 14th European Conference on Artificial Intelligence, Berlin. 

AMGOUD L., BONNEFON J.F., PRADE H. (2005), “An argumentation-based approach to multiple criteria 

decision”, in Proceedings of the 8th European Conference on Symbolic and Quantitative Approaches 

to Reasoning with Uncertainty (ECSQARU'2005), Barcelona. 


21

22 

ANSCOMBRE J.-C., DUCROT O. (1981), “Interrogation et Argumentation”, Langue française, 52 (L'interrogation), 

p. 5-22. 

AOULADOMAR F. (2005), “Towards answering procedural questions”, in Proceedings of IJCAI05 Workshop 

on Knowledge and Reasoning for Answering Questions (KRAQ’05), F. Benamara, M.F. Moens, and 

P. Saint-dizier (eds), Edinburgh, p. 21-32. 

AOULADOMAR F., SAINT-DIZIER P. (2005), “An exploration of the diversity of natural argumentation in 

instructional Texts”, in Proceedings of IJCAI05 Workshop on Computational Models of Natural 

Argument (CMNA’05), C. Reed (ed), Edinburgh, p. 69-72. 

DONIN J., BRACEWELL R. J., FREDERIKSEN C. H., DILLINGER M. (1992), “Students’ strategies for writing 

instructions: organizing conceptual information in text”, Written Communication, 9, p. 209-236. 

DUONG P. M. (1995), “On the acceptability of arguments and its fundamental role in nonmonotonic 

reasoning, logic programming and n-person games”, Artificial Intelligence Journal, 77, p. 321-357. 

FELLBAUM C. (1998), WordNet An Electronic Lexical Database, The MIT Press. 

FILLENBAUM S. (1986), “The use of conditionals in inducements and deterrents”, in On conditionals, 

E.C. Traugott, A.T. Meulen, J.S. Reilly & C.A. Ferguson (eds), Cambridge, Cambridge University Press, 

p. 179-195. 

GREIMAS A. (1983), “La soupe au pistou ou la conversation d’un objet de valeur”, in Du sens II, Paris, Seuil. 

KOSSEIM L., LAPALME G. (2000), “Choosing rhetorical structure to plan instructional texts”, in Computational 

intelligence, Boston, Blackwell. 

LONGACRE R. (1982), “Discourse typology in relation to language typology”, in Text processing, 

proceeding of nobel symposium 51, Sture Allen (ed.), Stocholm, Almquist and Wiksell, p. 457-486. 

LUGER H.H. (1995), Pressesprache, Tubingen, Niemeyer. 

MOESCHLER J. (1985), Argumentation et conversation, éléments pour une analyse pragmatique du 

discours, Paris, Hatier/Credif. 

MORTARA GARAVELLI B. (1988), “Tipologia dei testi”, in Lexicon der romanistischen linguisti, G. Hodus et 

al. (eds), IV, Tübingen, Niemeyer. 

OHM E. (2005), The relationship between formal and informal reasoning, Thesis, University of Saskatchewan, 

Saskatoon, Canada. 

OLERON P. (1983), L'argumentation, Paris, Presses Universitaires de France. 

QAMAR H. (1996), Quand dire c’est: écrire-comment-faire. Un autre type de texte: le RECETTAL, Thesis, 

Université Lumière Lyon II. 

ROSNER D., STEDE M. (1992), “Customizing RST for the automatic production of technical manual”, in 

Proceedings of the 6th International Workshop on Natural Language Generation, R. Dale, E. Hovy, D. 

Rösner and O. Stock (eds), Berlin, Springer Verlag, p. 199-214. 

VANDER LINDEN K., MARTIN J. (1995), “Expressing local rhetorical relations in instructional Text: a case 

study of the purposes relation”, Computational Linguistics, 21, 1, p. 29-57. 

WERLICH E. (1975), Typologie der texte, Heidelberg, Quelle and Meyer. 


Schedae, 2006 


Adverbiaux temporels 

et expressions référentielles 

comme marqueurs de segmentation : 

emploi simultané ou exclusif ? 

Sophie Piérard & Yves Bestgen 1 

Université catholique de Louvain 

Place Cardinal Mercier, 10 ; 1348 Louvain-la-Neuve – Belgique 

sophie.pierard@psp.ucl.ac.be 

Résumé : 

Cette recherche essaye d’éclaircir une question initiée par une recherche de Vonk et al. (1992) 

sur l’utilisation simultanée ou non de deux types de marqueurs de la segmentation : les expressions 

temporelles et les anaphores nominales. Par une analyse de corpus, nous montrons que ces 

deux types d’expressions apparaissent simultanément et permettent de confirmer l’intérêt des 

recherches de détection automatique des ruptures thématiques basées sur le cumul d’indices. 

Mots-clés : adverbiaux temporels, expressions référentielles, nom propre, marqueur de la 

structure. 

Abstract : 

This research tries to answer a question initiated by Vonk et al. (1992) on the simultaneous use or 

not of two types of segmentation markers : temporal expressions and nominal anaphora. A corpus 

analysis shows that these two types of expressions appear simultaneously to highlight a paragraph 

shift. This observations confirm the interest of automatic text segmentation procedures that are 

based on the coccurrence of indices. 

Keywords : temporal adverbials, referential expressions, proper name, segmentation 

markers. 

De nombreux moyens linguistiques sont à la disposition de l’auteur d’un texte pour 

signaler les ruptures thématiques. Il s’agit par exemple des adverbiaux temporels et des 

expressions référentielles (Charolles 1997, Laignelet 2004). D’une manière générale, nos 

1. Yves Bestgen est chercheur qualifié du Fonds national de la recherche scientifique (FNRS). Cette recherche 

est financée par une « Action de Recherche concertée » du Gouvernement de la Communauté française 

de Belgique. 

Sophie Piérard & Yves Bestgen 

« Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif ? » 


23

24 

travaux visent à étudier l’emploi de ces marqueurs dans de grands corpus de textes (Piérard & 

Bestgen 2005). Sont-ils bien associés à des ruptures thématiques ? Certaines expressions 

sont-elles de meilleurs signaux ? Pour identifier les ruptures de thème, nous employons un 

indice qui traduit, au moins partiellement, les intentions de l’auteur d’un texte : les changements 

de paragraphe (Hofmann 1989, Longacre 1979). Nous utiliserons dans cette recherche 

une technique d’analyse qui fait l’objet d’un regain d’intérêt (Hoey 2005). 

En plus de répondre à ces questions, la présente étude vise un objectif plus spécifique : 

étudier les relations entre deux types de marqueurs de la segmentation d’un texte : les adverbiaux 

temporels et les expressions référentielles (nom propre, pronom, nom avec déterminant 

indéfini, défini, démonstratif et possessif de la 3e personne). La question principale à 

laquelle nous voulons répondre trouve son origine dans une recherche de Vonk et al. (1992). 

Ces auteurs s’intéressent au rôle des expressions référentielles comme marqueurs de la structure. 

En effet, selon ceux-ci, une expression référentielle plus spécifique que nécessaire 

indique un changement de thème. Des expressions, telles que le pronom personnel, sont 

utilisées dans des situations de continuité de thème. Par contre, des expressions nominales 

(comme « Jacky » mais aussi « le pharmacien »), lorsqu’elles sont utilisées alors que l’accessibilité 

à l’antécédent est forte, indiquent une transition vers une nouvelle unité du discours. 

Les expressions nominales sont donc des signaux de changement de thème lorsqu’elles 

sont employées alors que le contexte ne le nécessite pas (Fox 1984). Dans une de leurs 

expériences, Vonk et al. (1992) ont demandé à leurs participants d’écrire une suite à de 

courtes histoires de deux lignes mettant en scène un personnage. Dans l’une des conditions 

expérimentales, les chercheurs imposaient aux participants d’écrire une suite en rupture ou 

en continuité thématique par rapport au début du texte. Ils ont observé que les ruptures 

de thème étaient liées à l’emploi d’anaphores plus spécifiques que nécessaire, c’est-à-dire 

d’anaphores nominales. De plus, ils ont observé que lorsqu’il y a un changement de thème 

dans une narration, l’auteur a tendance à employer soit une expression temporelle en début 

de phrase et un pronom soit un nom seul. Ils expliquent cette observation en soutenant que 

la présence d’un marqueur temporel de la segmentation réduit les chances d’observer une 

expression référentielle plus spécifique que nécessaire. Ils concluent donc qu’il n’y a pas 

d’emploi simultané de ces deux dispositifs qui indiquent un changement de thème. 

Ces résultats ont été obtenus au travers d’une tâche relativement artificielle (imposer 

aux participants de produire des suites en continuité ou en rupture thématique). Dans la 

présente recherche, nous voulons déterminer si ce même emploi exclusif de ces deux types 

de marqueurs peut être mis en évidence par une analyse de corpus. 

Le corpus 

Le corpus qui a été utilisé est composé de textes littéraires extraits des bases ABU, 

Intratext et Wordthèque. Il contient 67 romans (du XIX e et XX e siècle) et approximativement 

4 300 000 mots. Les textes ont été découpés en phrases et lemmatisés au moyen du programme 

TreeTagger de Schmid (1994). Nous avons retiré du corpus les paragraphes qui 

contenaient des dialogues afin de focaliser les analyses sur l’emploi des indicateurs de la 

structure du discours écrit. 

Expressions temporelles et paragraphe 

Dans un premier temps, nous avons employé une procédure d’extraction d’expressions 

régulières pour sélectionner de manière automatique les phrases contenant une expression 

temporelle comme une date (le 4 janvier), une partie de journée (dès le matin), une indication 

d’heure (vers midi), un délai (une heure/semaine/année plus tard), etc. Au total, les 


phrases sélectionnées représentent 3 % des phrases de notre corpus. Nous avons classé ces 

phrases selon que l’expression temporelle est présente au début, au milieu ou en fin de 

phrase. Ensuite, nous nous sommes intéressés au positionnement de ces phrases dans les 

paragraphes. Afin d’avoir un point de référence, nous avons calculé le pourcentage de 

chance qu’a une phrase, contenant ou non une expression temporelle, d’arriver en tête de 

paragraphe : ce pourcentage est de 26 % 2 . Lorsqu’une phrase contient une expression temporelle, 

elle apparaît dans 38 % des cas en tête de paragraphe. Ce pourcentage masque 

une grande disparité selon la position qu’occupe l’expression temporelle dans la phrase : 

51 % des phrases introduites par une expression temporelle sont en début de paragraphe 

contre 37 % pour les phrases qui se terminent par ce genre d’expressions et 31 % lorsque 

l’expression est au milieu de la phrase. Cette observation confirme l’importance de la position 

initiale dans la phrase pour qu’une expression temporelle signale efficacement un changement 

thématique (Costermans & Bestgen 1991, Charolles 1997, Virtanen 1992). 

Nous avons également observé des différences entre les types d’expressions temporelles 

présentes en début de phrase. En effet, certains types de marqueurs apparaissent 

beaucoup plus souvent en tête de paragraphe (Chi2 (7) = 31.704, p < 0.0001), comme nous 

pouvons le constater dans le tableau ci-dessous. 3 

Exemples des types d’expressions temporelles Nombre de phrases en 

tête de paragraphe 

Expressions référentielles et paragraphe 

Nombre de phrases 

non en tête de 

paragraphe 

« le 1er juillet »… 41 19 

« le lendemain »… 150 87 

« le soir », « l’avant-midi »… 200 214 

« vers 14 heures »… 79 88 

« une heure après », « deux jours après »… 89 114 

« une heure/jour/mois plus tard »… 20 31 

« en 1975 »,… 7 11 

« en été » 3… 2 2 

Dans un second temps, nous nous sommes intéressés aux expressions référentielles 

présentes dans tous le corpus. Nous avons déterminé, au moyen d’une série d’heuristiques 

syntaxiques, quel était le sujet du premier verbe conjugué de chacune des phrases. Puis, 

nous avons observé si les phrases dont le sujet est un syntagme avec un article indéfini, un 

déterminant possessif, etc. étaient plus souvent en tête de paragraphe ou pas. Les phrases 

dont le sujet est un nom propre ont 38 % de chances d’apparaître en début de paragraphe 

(contre 26 %, quelle que soit le sujet de la phrase). Les pronoms, à titre de comparaison, 

ont 21 % de chances d’apparaître en tête de paragraphe (Chi 2 (1) = 1437.2, p < 0.0001). 

Nous avons effectué ces mêmes calculs sur un sous ensemble de notre corpus, à savoir, 

sur les phrases contenant une expression temporelle. Pour chaque position de l’expression 

temporelle dans la phrase (début, milieu, fin), nous avons également observé comment se 

distribuaient les phrases selon leur sujet grammatical. 

Comme on peut le voir dans le tableau, seul le nom propre est plus souvent le sujet 

d’une phrase en tête de paragraphe. Les sujets grammaticaux d’autres catégories apparaissent 

plus souvent dans les phrases qui ne sont pas en tête de paragraphe, et ce, de 

2. Cette valeur correspond à des paragraphes d’en moyenne 3,84 phrases. 

3. Comme cette catégorie rassemble peu d’occurrences, nous avons également calculé le Chi 2 sans celle-ci ; 

le Chi 2 reste toujours aussi significatif : Chi 2 (6) = 31.703, p < 0.0001. 

Schedae, 2006, prépublication n°3, (fascicule n°1, p.23-28). 

25

26 

Catégorie grammaticale du sujet du premier 

verbe conjugué d’une phrase contenant une 

expression temporelle 

manière statistiquement significative (Chi 2 (6) = 114.627, p = 0.001). Le nom propre fonctionne 

donc comme un marqueur de la structure. Cette constatation rejoint les observations 

de Hofmann (1989) et de Schnedecker (1997) pour lesquels l’« unité paragraphique » 

coïncide avec d’autres traits linguistiques dont les syntagmes nominaux. Ceux-ci apparaissent 

aux points de fracture du texte. 4 

Expressions temporelles et expressions référentielles 

La dernière analyse vise à répondre à notre question spécifique : l’emploi de marqueurs 

temporels en tête de paragraphe réduit-il l’apparition d’expressions référentielles plus spécifiques 

comme un nom propre par rapport à un pronom. Selon cette thèse, on devrait observer 

moins de noms propres sujets et plus de pronoms sujets lorsque l’expression temporelle 

est en tête de phrase et en tête de paragraphe ne vont pas dans ce sens. Lorsque le marqueur 

temporel est en tête de phrase, on observe 175 noms propres sujets de phrases en 

tête de paragraphe et 87 noms propres sujets de phrases qui ne sont pas en tête de paragraphe. 

D’autre part, on observe 127 pronoms sujets de phrases en tête de paragraphe et 

192 pronoms sujets de phrases qui ne sont pas en tête de paragraphe (Chi2 (1) = 41.96, p 

< 0.0001). En poussant plus loin l’analyse, on remarque également que le nom propre présent 

dans une phrase débutant par un marqueur temporel, est dans 58 % des cas une reprise 

d’un nom propre cité dans les 10 phrases qui précédent. Il apparaît que l’utilisation d’un type 

de marqueurs de rupture comme les adverbiaux temporels n’empêche pas l’utilisation d’autres 

types de marques comme une expression référentielle plus spécifique, tel le nom propre, 

contrairement à l’idée avancée par Vonk et al. (1992). Ce résultat est en accord avec les 

observations faites par Hofmann (1989) et Schnedecker (1997). Les indices de segmentation 

textuelle, comme la marque de paragraphe, induisent le lecteur à conclure le traitement d’un 

bloc d’information et à en initialiser un nouveau. Ce nouveau bloc peut débuter par différents 

types d’expressions et parmi celles-ci, nous pouvons citer les marqueurs temporels. 

Cette opération implique une accessibilité moins importante des entités contenues dans le 

paragraphe qui vient d’être clôturé. Il est donc nécessaire d’utiliser des marqueurs de plus 

faible accessibilité, comme les noms propres. 

Conclusion 

Cette recherche avait pour objectif d’étudier l’emploi simultané ou exclusif de deux types 

d’expression qui signalent une rupture thématique, à savoir les expressions temporelles et 


Nombre de phrases en 

tête de paragraphe 

contenant l’expression 

Nombre de phrases 

qui ne sont pas en tête 

de paragraphe 

contenant l’expression 

Déterminant défini + syntagme nominal 247 404 

Déterminant démonstratif + syntagme nominal 30 56 

Déterminant possessif + syntagme nominal 20 47 

Déterminant indéfini + syntagme nominal 65 113 

Nom propre 368 299 

Pronom personnel 307 712 

Autre4 271 492 

Total 1308 2123 

4. Cette catégorie reprend les sujets grammaticaux qui ne sont pas repris dans les autres catégories, comme 

par exemple, le « on » impersonnel.

les anaphores nominales. Nous avons analysé, au moyen de procédures automatiques, un 

corpus de textes littéraires. Nos résultats plaident pour une utilisation combinée de ces deux 

types d’indices. Le caractère additif de ce type d’expressions dans le marquage de la segmentation 

d’un texte confirme l’intérêt de développer de procédures d’identification des 

ruptures basées sur l’accumulation d’indices. 

Bibliographie 

CHAROLLES M. (1997), « L’encadrement du discours – univers, champs, domaines et espaces », Cahier de 

recherche linguistique, 6, p. 1-73. 

COSTERMANS J. & BESTGEN Y. (1991), « The role of temporal markers in the segmentation of narrative 

discourse », Cahiers de Psychologie Cognitive, 11, p. 349-370. 

FOX B.A. (1984), « Anaphora in popular written English narratives », in Coherence and grounding in 

discourse, R.S. Tomlin (éd.), 11 (Typological studies in language), Amsterdam, Benjamins. 

HOEY M. (2005), Lexical priming : a new theory of words and language, Londres, Routledge. 

HOFMANN T.R. (1989), « Paragraphs, & anaphora », Journal of Pragmatics, 13, p. 239-250. 

LAIGNELET M. (2004), Les titres et les cadres de discours temporels, Mémoire de DEA en Sciences du 

langage, Université de Toulouse 2 – Le Mirail, 196 pages (dactyl.). 

LONGACRE R. E. (1979), « The paragraph as a grammatical unit », in Syntax and Semantics, 12 (Discourse 

and Syntax), T. Givón (éd.), New York, Academic Press, p. 115-134. 

PIÉRARD S. & BESTGEN Y. (2005), « Deux indices pour l’étude des marqueurs de la continuité thématique 

dans de grands corpus », Communication présentée aux 4es journées de Linguistique de Corpus, 

Université de Bretagne-Sud, Septembre 2005. 

SCHMID H. (1994), « Probabilistic Part-of-speech tagging using decision trees », in Proceedings of 

International Conference on New Methods in Language Processing. 

SCHNEDECKER C. (1997), Nom propre et chaînes de référence, Paris, Klincksieck. 

VIRTANEN T. (1992), Discourse functions of adverbial placement in English, Åbo, Åbo Akademi University 

Press. 

VONK W., HUSTINX L.G. & SIMONS W.H. (1992), « The use of referential expressions in structuring 

discourse », Language and cognitive processes, 7, 3/4, p. 301-333. 

Schedae, 2006, prépublication n°3, (fascicule n°1, p.23-28). 

27

28 


Schedae, 2006 


De l’altérité spatiale 

à l’organisation textuelle : 

la locution d’une part… d’autre part 

Sandrine Stein-Zintz 

Université Paul-Verlaine Metz, 

Ile du Saucy – 57000 Metz 

centaurian@voila.fr 

Résumé : 

La locution adverbiale d’une part… d’autre part dont il est question dans cette étude est très largement 

décrite so us l’angle de la série. Dans les faits, un certain nombre d’énoncés sont compatibles 

avec une analyse sérielle. Néanmoins, certaines configurations discursives dans lesquelles 

apparaît d’une part… d’autre part échappent à une telle analyse. Sans vouloir totalement remettre 

en cause le fonctionnement sériel de d’une part… d’autre part, nous aimerions montrer que 

cette locution nécessite pourtant un examen qui va au-delà de ce type d’emplois. 

Mots-clés : organisateurs textuels, marqueurs d’intégration linéaire, série. 

Abstract : 

The french adverb d’une part… d’autre part is usually described like a serial adverb. In fact, some 

examples seem to be compatible with a serial analysis. However, some discur configurations in 

wich appear d’une part… d’autre part can’t be described with the notion of series. We would like 

to show that d’une part… d’autre part had to be analysed beyond its serial employements. 

Keywords : french adverb, series. 


A. Auchlin (1981), dans le cadre d’une analyse sur les marqueurs de structuration de la 

conversation, est le premier à s’intéresser à la locution adverbiale d’une part… d’autre part 

qu’il baptise « marqueur d’intégration linéaire » 1 . G. Turco et D. Coltier (1988) feront des MIL 

une catégorie de marqueurs linguistiques à part entière qui, disent-ils, « accompagnent l’énumération 

sans fournir de précision autre que le fait que le segment discursif qu’ils introduisent 

1. Désormais MIL. 

Sandrine Stein-Zintz 

« De l’altérité spatiale à l’organisation textuelle : la locution d’une part… d’autre part » 


29

30 

est à introduire de façon linéaire dans la série » (1988 : 57). G. Turco et D. Coltier (1988) proposent 

également un premier inventaire de la catégorie des MIL. Ils en dénombrent quatre : 

deux MIL dont l’origine morphosémantique est le lieu (d’une part… d’autre part et d’un 

côté… d’un autre côté), un MIL dont l’origine morphosémantique est le temps (d’abord… 

ensuite… enfin) et un MIL dont l’origine morphosémantique est la numération (premièrement… 

deuxièmement… troisièmement). 

L’aspect sériel de d’une part… d’autre part sera par la suite très largement relayé. 

M. Nøjgaard (1992) en fait d’ailleurs une caractéristique essentielle, classant cette locution 

parmi ce qu’il nomme les « adverbes sériels corrélatifs ». Pourtant, nous n’avons à l’heure 

actuelle aucune description précise du type de série encadrée par cette locution. Il s’agira 

pour nous de compléter ces travaux en nous interrogeant dans un premier temps sur les 

emplois de d’une part… d’autre part dans les configurations discursives sérielles. Dans un 

second temps, nous verrons qu’un certain nombre d’emplois de la locution échappent à 

une analyse en termes de série 2 . 

1. Un fonctionnement sériel… 

1.1. Taille de la configuration encadrée par d’une part… d’autre part 

La locution d’une part… d’autre part encadre au moins deux constituants discursifs. La 

présence de d’une part dans un énoncé crée en effet un sentiment d’attente fort. Si cette 

attente n’est pas comblée, le résultat est étrange : 

(1) ? J’aime bien Pierre. D’une part, il est serviable. 

Il suffit de rétablir la deuxième partie de la locution pour rendre cet énoncé acceptable : 

(2) J’aime bien Pierre. D’une part, il est serviable. D’autre part, il est généreux. 

Il est également possible pour d’une part… d’autre part d’encadrer une configuration discursive 

de plus de deux éléments, en entrant en combinaison avec un autre MIL comme enfin. 

Dans l’exemple (3), sont énumérées trois raisons à la disparition des costumes folkloriques : 

(3) L’essor de la confection industrielle d’une part, celui des communications de masse d’autre part, 

enfin la dynamique des styles de vie et des valeurs modernes ont, en effet, entraîné non seulement 

la disparition des multiples costumes régionaux folkloriques, mais aussi l’atténuation des 

différentiations hétérogènes dans l’habillement […] (G. Lipovetsky 1987 dans Frantext) 

Les emplois de d’une part… d’autre part répondent donc à une première contrainte 

numérique, permettant une analyse sous l’angle de la série : l’encadrement d’au moins deux 

constituants discursifs. 

1.2. Homogénéité de la configuration 

encadrée par d’une part… d’autre part 

D’une part… d’autre part apparaît dans des configurations caractérisées par une équivalence 

des segments textuels mis en relation. Cette équivalence est le résultat d’un fort 

parallélisme syntaxique mais également d’une homogénéité à la fois sémantique et énonciative. 

2. Cette étude n’est pas à proprement parler une analyse de corpus. Nous avons néanmoins essayé de traiter 

un maximum d’exemples dont certains sont issus de la base textuelle Frantext. Par ailleurs, notre travail 

ne s’accompagne d’aucunes données numériques. 


Au plan syntaxique d’abord, on observe que les constituants mis en relation par d’une 

part… d’autre part relèvent d’une même catégorie grammaticale, par exemple des syntagmes 

prépositionnels dans (4), des syntagmes nominaux dans (5) : 

(4) La perception des performances de l’économie japonaise est largement biaisée par la tentation 

d’une part, de la référence historique, qui la confronte à ses propres succès passés, et, d’autre 

part, de la comparaison géographique, qui la mesure à l’aune de l’insolente prospérité américaine 

(Le Monde du 09.12.1997) 

(5) Elles (les constructions détachées) comprennent d’une part un GN, d’autre part un adjectif, un 

GP ou un participe prédicatif (Grammaire méthodique du français p. 192) 

Au plan énonciatif, d’une part… d’autre part articule des constituants obligatoirement 

dans un rapport monologique. Cette locution ne peut pas encadrer deux constituants produits 

par deux énonciateurs différents (cf. Auchlin 1981 à ce propos) : 

(6) A : J’aime bien Pierre. D’une part, il est serviable. 

?? B : D’autre part, il est généreux 

Quant à l’homogénéité sémantique des constituants encadrés par d’une part… d’autre 

part, elle peut se manifester de différentes façons. Dans l’exemple suivant, c’est la répétition 

du substantif cotisation qui assure l’identité sémantique : 

(7) Les charges de la section des salariés sont couvertes, d’une part, par les cotisations proportionnelles 

à l’ensemble des rémunérations […] et d’autre part, par les cotisations et ressources 

affectées aux prestations familiales (La réforme de la sécurité sociale 1968 dans Frantext) 

L’homogénéité sémantique peut également être garantie par un élément présent dans 

le cotexte gauche de la locution, un élément baptisé classifieur, à l’origine d’une « idée fédératrice 

» (Jackiewicz 2003 : 4). Dans l’exemple (8), c’est le substantif raison qui joue le rôle 

de classifieur. Accompagné de l’adjectif numéral deux il nous renseigne sur la longueur et 

l’homogénéité de la série, composée des deux raisons expliquant pourquoi le locuteur aime 

Pierre : 

(8) J’aime Pierre pour deux raisons. D’une part il est serviable, d’autre part il est généreux. 

2. … partiellement remis en question 

Pourtant, malgré la compatibilité de d’une part… d’autre part avec les configurations 

discursives sérielles, certains éléments nous montrent qu’il faut approfondir l’analyse de cette 

locution, dont le fonctionnement est plus complexe qu’il n’y paraît. 

2.1. Une configuration dont la longueur est limitée 

Si d’une part… d’autre part peut participer à la mise en relation de plus de deux constituants 

discursifs, en s’associant avec un autre MIL, ce type de configuration est pourtant 

contraint. Les configurations auxquelles participent d’une part… d’autre part semblent en 

effet être limitées à trois éléments : nous n’avons trouvé aucun exemple dans lequel d’une 

part… d’autre part participe à une configuration discursive composée de quatre éléments 

(ou plus). Il s’agit d’une caractéristique qui distingue d’une part… d’autre part des adverbiaux 

ordinaux, susceptibles de se « multiplier à l’infini » (Nøjggard 1992 : 246). C. Schnedecker 

(2001) note cependant que « dans la pratique, les séries (d’adverbes ordinaux) sont pourtant 

limitées à un maximum de quatre unités […]. Au-delà, il semble qu’on leur préfère les 

chiffres » (Schnedecker 2001 :282). 


31

32 

2.2. Une configuration non ordonnée 

Les combinaisons entre MIL attestent d’une part d’une souplesse d’emploi, d’autre part 

de l’homogénéité de cette catégorie d’organisateurs textuels. Nous l’avons vu supra, d’une 

part… d’autre part se combine avec enfin 3 . Cette souplesse se manifeste également dans 

les possibilités de permutation d’une partie de la locution avec un autre MIL. Par exemple, 

d’une part peut être associé, non pas à d’autre part, mais à d’un autre côté : 

(9) Si elle manque à ce point d’humour, de tendresse, de poésie, c’est tout bonnement, d’une part, 

qu’elle a pour unique objet l’intelligible, et que, d’un autre côté, l’intelligible, n’est ni amusant, 

ni émouvant, ni poétique (Brémond 1926 dans Frantext). 

Une contrainte pèse cependant sur ces possibilités de permutation : d’une part ne 

semble pas pouvoir entrer dans une configuration dans laquelle d’autre part est remplacé 

par adverbial ordinal. Cette contrainte pèse également sur d’une part qui permute difficilement 

avec premièrement : 

(10) ? J’aime bien Pierre : premièrement il est serviable, d’autre part il est généreux. 

(11) ? J’aime bien Pierre : d’une part il est serviable, deuxièmement il est généreux. 

Il s’agit d’une différence importante entre d’une part… d’autre part et les autres MIL : 

seuls les MIL premièrement… deuxièmement et d’abord… ensuite… enfin semblent pouvoir 

ordonner une configuration discursive. D’une part… d’autre part se rapproche ici d’un 

autre MIL, d’un côté… d’un autre côté qui présente les mêmes restrictions d’emploi : on ne 

peut pas remplacer d’un côté ou d’un autre côté par un adverbial ordinal. 

2.3. Une homogénéité sémantique non imposée 

Certains exemples échappent à l’homogénéité sémantique qui caractérisait les énoncés 

(7) et (8). Dans l’exemple suivant, d’une part est associé, non pas à d’autre part, mais à 

l’adverbe inversement : 

(12) Si, d’une part, le sémiologue est toujours vigilant derrière le chroniqueur d’actualité (dont les 

articles sont de véritables travaux de sémiotique qui relèvent de ce que l’on pourrait appeler 

une sémiotique militante, engagée), inversement, on voit poindre l’humour concret et l’ironie 

caustique du polémiste dans les recherches théoriques du sémiologue (cité par Turco & Coltier 

1988 : 69). 

Il est difficile d’analyser de type d’exemple sous l’angle de la série : le contenu sémantique 

des constituants encadrés n’est pas dans une relation d’identité, mais plutôt dans une 

relation d’opposition : la vigilance du sémiologue opposée à l’humour et l’ironie du polémiste. 

Ici, d’une part et inversement permutent facilement avec d’un côté… d’un autre côté, qui 

n’impose pas une identité sémantique entre les constituants mis en relation. À l’inverse, d’une 

part et inversement ne peuvent pas permuter avec premièrement… deuxièmement. 

Cette absence d’homogénéité sémantique s’observe également pour les emplois de 

d’une part associé à d’autre part. Dans l’exemple (13), les verbes nourrir et atrophier sont 

dans une relation sémantique d’antonymie : 

(13) Elle (la culture de masse) fantomalise le spectateur, projette son esprit dans la pluralité des univers 

imagés ou imaginaires, fait essaimer son âme dans les innombrables doubles qui vivent 

pour lui… D’une part, la culture de masse nourrit la vie, d’autre part, elle atrophie la vie (Lipovetsky 

1987 dans Frantext). 

3. Nous limitons notre propos à d’une part… d’autre part. Il est cependant important de noter que les possibilités 

de combinaisons caractérisent tous les MIL (cf. Turco & Coltier 1988) 


Conclusions 

La locution adverbiale d’une part… d’autre part peut entrer dans des configurations 

discursives sérielles : elle encadre au moins deux constituants discursifs dans une relation 

d’équivalence (énonciative, sémantique, syntaxique). Pourtant, ce fonctionnement sériel 

soulève un certain nombre de questions. Tout d’abord une question d’ordre numérique : la 

longueur de la série à laquelle participe d’une part… d’autre part semble en effet être limitée 

à un maximum de trois éléments. Ensuite, d’une part… d’autre part n’ordonne pas la 

configuration à laquelle cette locution participe : peut-on, dans ce cas, encore parler de 

série ? Si l’on se base sur les travaux récents en traitement automatique des textes, l’ordre 

est pourtant une caractéristique essentielle des configurations sérielles. L’insertion de la 

locution dans une configuration sérielle n’est d’ailleurs pas une contrainte d’emploi. C’est 

ce qu’indiquent par exemple les derniers énoncés examinés, qui excluent totalement une 

analyse sérielle, l’homogénéité sémantique n’étant pas respectée. Pourtant, dans tous ses 

emplois, la locution d’une part… d’autre part témoigne d’un fonctionnement binaire : c’est 

seulement sous certaines conditions qu’elle peut participer à des configurations discursives 

sérielles. 

L’apport sémantique de autre explique ce fonctionnement avant tout binaire : autre 

implique l’existence d’un premier élément. Cet aspect rétroactif de autre fonctionne parfaitement 

dans d’une part… d’autre part, même s’il s’agit d’une locution figée. D’autre part 

est en effet associé à d’une part que l’on retrouve dans le cotexte gauche. Même si les possibilités 

de combinaison entre MIL permettent la substitution de d’une part par un autre 

MIL, le fonctionnement rétroactif de d’autre part n’est pas remis en question. C’est également 

le cas quand d’autre part est employé de façon isolée, sans d’une part ou un autre 

organisateur textuel : le fonctionnement binaire est toujours activé, pour preuve, l’impossibilité 

pour d’autre part d’initier un énoncé. Mais il ne faudrait pas oublier l’apport sémantique 

de part : part signifiait côté en ancien français. Ce sens originel locatif ne survit que 

dans un certain nombre de locutions adverbiales figées, par exemple de toutes parts, de 

part en part. Cette origine spatiale explique d’ailleurs la proximité de d’une part… d’autre 

part avec la locution d’un côté… d’un autre côté : comme pour d’une part… d’autre part, 

l’analyse de d’un côté… d’un autre côté en termes de série pose problème. Mais, alors que 

d’une part… d’autre part peut participer à une configuration discursive sérielle, cette possibilité 

semble tout à fait exclue pour d’un côté… d’un autre côté, essentiellement à cause 

de l’opposition que cette locution exprime, incompatible avec le caractère homogène d’une 

série. 

Bibliographie 

AUCHLIN A. (1981), « Réflexions sur les marqueurs de structuration de la conversation », Études de linguistique 

appliquée, 44, p. 88-103. 

JACKIEWICZ A. & MINEL J-L. (2003), « L’identification des structures discursives engendrées par les cadres 

organisationnels », TALN, 1, p. 155-164. 

NØJGAARD M. (1992), Les adverbes du français : essai de description fonctionnelle, Historisk-filosofiske 

Meddelelser, 66, 1. 

SCHNEDECKER C. (1998), « Les corrélats anaphoriques : une entrée en matière », Recherches linguistiques, 

22, p. 3-36. 

SCHNEDECKER C. (2001), « Adverbes ordinaux et introducteurs de cadre », Lingvisticae Investigationes, 2, 

24, p. 257-287. 

TURCO G. & COLTIER D. (1988), «Des agents doubles de l’organisation textuelle, les marqueurs d’intégration 

linéaire », Pratiques, 57, p. 57-79. 


33

34 


Schedae, 2006 


The use of sequencers in academic writing: 

a comparative study of French and English 

Susanne Hempel & Liesbeth Degand 

Université catholique de Louvain 

Abstract: 

This paper presents the results of a parametric and frequency analysis of discourse structuring 

devices in written texts. We present a typology of organisational metadiscourse markers and 

examine one specific category of these markers – sequencers - in more detail (Jackiewicz 2002, 

2003). A manual corpus analysis, allying descriptive and quantitative analyses, gives a detailed 

picture of how sequencers are used in the specific genre of academic writing by native authors 

of French and English. 

Keywords: comparative study, organisational metadiscourse markers, corpus analysis, 

text production. 

Résumé: 

Ce travail présente les résultats d’une analyse paramétrique et fréquentielle d’éléments linguistiques 

structurant des textes écrits. Nous établissons une typologie de marqueurs organisationnels 

métadiscursifs, ainsi qu’une description détaillée d’une catégorie de ces marqueurs – les 

séquenceurs (Jackiewicz 2002, 2003). Par une analyse de corpus manuelle, alliant analyse descriptive 

et quantitative (Degand & Bestgen 2004), nous réalisons une étude comparative de l’emploi 

des séquenceurs en anglais et en français dans le genre spécifique des textes académiques. 

Mots-clés: étude comparative, marqueurs organisationnels métadiscursifs, analyse de 

corpus, production de texte. 

The primary objective of our paper is to analyse how textual organisation works on the 

metadiscourse level. To do this, we present a descriptive corpus analysis of one specific 

type of text structuring devices, namely sequencers, in two different languages (French and 

English) and their actual use in the genre of academic writing. 

Consider the following examples: 

1 “Les sentiments ont été classés selon deux critères. D'une part, leur structure 

actantielle: ego passif, réflexif, actif sur un ou plusieurs congénères ou objets; 

d'autre part, le taxème où ils sont indexés.” (French_Academic) 

2 “Since the union organisations are part of PRI, they have a dual function: firstly, 

as a pressure group lobbying for a greater share of social benefits for labour; 

secondly, as an apparatus of political control of the working class.” (BNC World 

Edition) 

Susanne Hempel & Liesbeth Degand 

« The use of sequencers in academic writing: a comparative study of French and English » 


35

36 

In both examples, the ideational content of the text is structured by linguistic items (d’une 

part/ d’autre part; firstly/ secondly). These sequencing devices are items belonging to the 

domain of textual metadiscourse, whose function is to allow the understanding of the primary 

message by making explicit the organisational structure of the propositional content (Hyland 

1998). Building our conception of metadiscourse on Hyland’s typology 1 , we focus on his 

category of frame markers as they best represent what we call organisational metadiscourse 

markers. A further categorisation of these markers has been developed: Our new subdivision 

consists of sequencers (elements used to introduce a sequence in the discourse), topicalisers 

(elements indicating the introduction of a new subject), illocution markers (elements 

indicating the illocutionary act the writer has been realising in the discourse) and reviews/ 

previews (elements anticipating or repeating a stage in the discourse). 

Our understanding of sequencers is based on the theoretical framework of discourse and 

cognition proposed by Charolles (1997) and on the methodological outline of MIL (marqueurs 

d’intégration linéaires) described by Jackiewicz (2002). Following these authors’ approach, 

sequencers can be classified into three types: spatial sequencers (linguistic elements relative 

to space), temporal sequencers (introducing a temporal sequence) and numerical sequencers 

(elements relative to enumeration). 

The series of a sequence follow certain structural parameters. We defined a reference 

structure of a sequence, drawing both on the analysis of some instances of these structures and 

on the study of different theoretical models, notably the one by Jackiewicz & Minel (2003). 

– A typical sequence has to be introduced by an introductory phrase, clearly stating the 

main federative idea with the help of a quantifier and a classifier. The introductory phrase 

can be a separate phrase before the organisational frame, it can be a proposition at the 

head of the same phrase containing the sequencer, or it can be situated after the several 

series of the sequence; 

– Each series constitutes an organisational frame, and each organisational frame has to 

be opened explicitly by a sequencer, or implicitly by another linguistic item which signposts 

the beginning of its series; 

– The sequencers are organised as follows: the first sequencer is the ‘indicator’, followed 

by the ‘intermediate’ sequencer and the ‘closing sequencer’. If there are only two sequencers 

in a sequence, the last sequencer automatically makes up the ‘closing sequencer’; 

– A sequence should preferentially be homogeneous; it is not homogeneous if it contains 

constituents belonging to two different series, if the sequence is incomplete or not explicitly 

closed, or if the sequence presents a certain variability concerning the classifier; 

– A minimal sequence should be two-fold, but there is no restriction as to a maximum of 

series in a sequence; 

– The sequencers are independent of the propositional content of the phrase, and as such 

are supposed to be mostly placed at the beginning of the sentence, either without or 

before a punctuation marker; 

– The scope of the individual sequencers can be on an intra-sentential level, or on an intersentential 

level; 

– Another sequence can be embedded in the main sequence, and if this is the case, the 

same structural parameters apply to it. 

Ideally, following these parameters, a sequence should look like this: 

1. Hyland’s taxonomy of textual metadiscourse is five-fold, containing transitions, frame markers, endophoric 

markers and code glosses (Hyland 1998). 


3 He gives three main reasons for his doubts – 

• Firstly, he could not reconcile his own experience with the descriptions 

of conversion given in books on the subject, such as Repentance by 

William Perkins; 

• Secondly, he was disturbed by the fact that spiritual truths didn’t stir his 

emotions or grip his imagination as Perkins; 

• Thirdly, he was concerned about the possibility that his faith was merely 

an intellectual understanding coupled with a fear of God, and that he 

was not truly regenerate. (BNC World Edition). 

In a preceding corpus analysis of English (Hempel & Degand 2005), the actual use of 

sequencers has been analysed with respect to this reference model. We derived a detailed 

picture of how native authors use sequencers in their texts, and how they are distributed 

among different text genres. The results showed that the actual use of sequencers does not 

correspond to the prescription of manuals for L1 writers. While such guides urge them to use 

structuring devices in order to be more coherent and recommend homogeneous/ complete 

series of metadiscourse markers, concrete texts do not apply those rules. Furthermore, writers 

are obviously not precise when using specific series of sequencers and complete sequences. 

Moreover, genre proved to be a decisive factor concerning the choice of structuring devices. 

Our hypothesis that academic writing is the genre the most structured by metadiscourse 

markers proved to be right. We are therefore interested in a comparative study of how 

sequencers are used in this specific genre, both in English and French. 

The methodology we used to conduct our study consists in a parametric and statistical 

analysis of the given corpus data (Degand & Bestgen 2004, Pit 2003, Pander Maat & Degand 

2001, Spooren, Sanders, Huiskes, Degand, in press). It allows us to combine a quantitative 

approach – or more precisely, a frequency analysis – with a qualitative one – that is to say, 

a parametric analysis of our data. This method is situated on a continuum where “intuition 

and data collection work hand in hand” (Partington 1998: 1): between a strictly deductive 

approach, exclusively relying on the researcher’s intuition as a native speaker, and a strictly 

inductive approach, exclusively founded on the linguistic facts. The corpus we used for the 

present study in English is a sub-corpus of academic writing of 28 421 624 words, retrieved 

from the BNC. The French corpus (1 380 956 words) is an assembly of freely available online 

papers, stemming from three sources: the publications from IFRI, and from the online journals 

Methodos and Texto 2 . 

The results of our frequency analysis show how the chosen sequencers are distributed 

among the two languages. As our corpora were not of equal size, it was necessary to apply 

a coefficient to harmonise results over one million words (Table 1). 

FRENCH 1 380 956 ENGLISH 28 421 624 

occurrences /1 000 000 /1 000 000 occurrences 

D’une part 146 105,72 15,66 445 On the one hand 

D’autre part 133 96,31 52,04 1479 On the other hand 

Premièrement 29 21,00 18,19 517 Firstly 

Deuxièmement 28 20,28 31,49 895 Secondly 

Troisièmement 7 5,07 9,53 271 Thirdly 

D’abord 243 175,97 11,65 331 At first 

Ensuite 210 152,07 143,83 4088 Then 

Enfin 523 378,72 62,87 1787 Finally 

Table 1: Frequency Analysis. 

2. We would like to thank Lydia-Mai Ho-Dac (University of Toulouse) and Paula Chesley (University at Buffalo) 

for making these data available to us. 


37

38 

As we can see, there is a difference in French and in English concerning the homogeneous 

use of sequencers. In French, the spatial sequence d’une part/ d’autre part is used 

in a homogeneous way, the indicator d’une part co-occuring quasi systematically with the 

closing sequence d’autre part, whereas in English, the under-use of the indicator (on the 

one hand) is apparent. The same difference has been noticed with the numerical sequence, 

whose chronological order is respected in French, but not in English. And as to the temporal 

sequence, English again shows an under-use of the indicator when compared to French. 

It can be said that in French, the sequences seem to be more homogeneous or complete 

than in English, when considering the amount of indicators and intermediate sequencers. 

Our parametric study yielded interesting results as well (Table 2). It can be observed 

that the use of the three sequencer types is principally similar in both languages. Minor differences 

concern the introduction of a sequence by a preceding phrase, sentential scope, 

completeness and the number of series in a sequence. However, a major difference has 

been noticed concerning syntax: it appears that English authors make use of a bigger variety 

of syntactic position in their texts. As to spatial sequencers, they also show a bigger variety 

of the position of punctuation markers than in French. This under-use of syntactic possibilities 

in French seems odd, especially if one considers the relative liberty in French syntax. As it 

seems easier to juggle with the syntactic position of metadiscourse markers in French, a concrete 

study in text production has to be undertaken. This result confirms the observation in 

our frequency analysis, namely that French authors apply the parameters of our reference 

model more rigorously than English authors, and tend to produce more complete sequences. 

Sequencer 

type 

Spatial 

sequencer 

Numerical 


Temporal 


Parameters ENGLISH FRENCH 

Common 

Introductory phrase 

Nb. of series in sequence 

Homogeneity/ completeness 

Syntactic position 

Punctuation 

Scope 

Classifier 

Quantifier 





Punctuation 

Scope 

Classifier 

Quantifier 





Punctuation 

Scope 

Classifier 

Quantifier 

The results of this study, i.e. the differences and common points between French and 

English as to the use of metadiscursive items, will serve as an interesting baseline for future 

research in L2. We would like to examine how language learners of both languages handle 

these differences when transferring from their mother tongue to L2. How are the differences 

transferred, and how are the common characteristics transferred? How does metadiscourse 

influence L2 production? These questions will need further analysis. 


yes no 

2 series 

yes 

initial/ middle middle 

absent/ after/ enclosing after 

intra-sentential 

yes no 

no 

yes 

3 series 2 series / +3 series 

yes/no yes 

initial 

after 

inter-sentential 

yes 

specified 

no 

2 series 1 /2 /3 series 

no 

initial/ middle middle 

absent 

intra-sentential inter-sentential 

no 

no 

Table 2. Parametric Analysis.

Bibliography 

CHAROLLES M. (1997), “L’encadrement du discours – Univers, champ, domaines et espace”, Cahier de 

recherche linguistique, 6. 

DEGAND L. & BESTGEN Y. (2004), “Connecteurs et analyse de corpus: de l’analyse manuelle à l’analyse 

automatisée”, in L’Unité Texte, S. Porhiel and D. Klingler (eds), France, Perspective, p. 49-73. 

HEMPEL S. & DEGAND L. (2005), “Qualitative analysis of sequencers in three text genres: academic writing, 

journalese and fiction” (submitted). 

HYLAND K. (1998), “Persuasion and Context: The pragmatics of academic discourse”, Journal of Pragmatics, 

30, p. 437-455. 

HYLAND K. & TSE P. (2004), “Metadiscourse in Academic Writing: A Reappraisal”, Applied Linguistics, 25, 2, 

p. 156-177. 

JACKIEWICZ A. (2002), “Repérage et délimitation des cadres organisationnels pour la segmentation 

automatique des textes”, in Actes de CIFT’02, Hammamet, Tunisia, p. 95-105. 

JACKIEWICZ A. & MINEL J. (2003), “L’identification des structures discursives engendrées par les cadres 

organisationnels”, in Actes de la 10e Conférence Traitement Automatique du Langage Naturel (TALN 2003), 

Batz-sur-Mer, p. 155-164. 

PANDER MAAT H. & DEGAND L. (2001), “Scaling causal relations and connectives in terms of Speaker 

Involvement”, Cognitive Linguistics, 12, p. 211-245. 

PIT M. (2003), How to express yourself with a causal connective – Subjectivity and causal connectives in 

Dutch, German and French, Amsterdam – New York, Rodopi – USL&C. 

SPOOREN W., SANDERS T., HUISKES M. & DEGAND L. (to appear), “Subjectivity and Causality: A Corpus Study 

of Spoken Language”, in Empirical and Experimental Methods in Cognitive/Functional Research, S. Rice 

and J. Newman (eds), CSLI Publications. 

TURCO G. & COLTIER D. (1988), “Des agents doubles de l’organisation textuelle, les marqueurs d’intégration 

linéaire”, Pratiques, 57, p. 57-79. 


39

40 


session 2 

Discours, document et TAL

Schedae, 2006 


Introducteurs intra-prédicatifs d’univers 

de discours et leur détection automatique 

Frédérik Bilhaut 

GREYC (CNRS – UMR 6 072) – Université de Caen Basse-Normandie 

fbilhaut@info.unicaen.fr 

Résumé : 

Cet article concerne le modèle de l’encadrement du discours et plus particulièrement les univers 

de discours. En nous basant sur des exemples, nous questionnons l’existence d’introducteurs 

d’univers qui ne seraient pas détachés syntaxiquement, mais qui joueraient sous certaines conditions 

un rôle analogue aux introducteurs tels que considérés habituellement. Dans un second 

temps, nous envisageons différents critères susceptibles de conduire à leur détection automatique 

dans le cadre de l’analyse thématique du discours. 

Mots-clés: encadrement du discours, analyse thématique, analyse automatique du discours. 

Abstract : 

This paper relates to the discourse framing theory, and more precisely to discourse universes. 

Basing on excerpts, we call into question the existence of universe introducers that would not 

be syntactically detached, but that would play, under some circumstances, a similar role. In a 

second time, we consider the various criteria that may pertain to their automatic analysis in the 

context of thematic analysis of discourse. 

Keywords : discourse framing, thematic analysis, automatic discourse analysis. 


Au sein des récents travaux visant l’annotation automatique de structures discursives, 

l’hypothèse de l’encadrement du discours de Michel Charolles (1997) a souvent été mise à 

contribution (Jackiewicz 2003, Ferret 2001, Bilhaut et al. 2003), généralement avec des visées 

applicatives telles que la recherche d’information ou le résumé automatique. Rappelons 

que ce modèle décrit des segments dits « cadres de discours », homogènes par rapport a 

un critère sémantique (par exemple une localisation spatiale ou temporelle) spécifié par une 

expression détachée en initiale de phrase dite « introducteur de cadre » (dorénavant IC). Les 

IC sont présentés comme des marqueurs d’indexation « permettant de répartir les contenus 

propositionnels dans des blocs homogènes relativement à un critère spécifié par le contenu 

de l’introducteur » (Charolles 1997 p. 24). 

Frédérik Bilhaut 

« Introducteurs intra-prédicatifs d’univers de discours et leur détection automatique » 


41

42 

On peut dire que la reconnaissance par la communauté du TAL de l’intérêt majeur de 

l’encadrement du discours dans les contextes applicatifs qui sont les siens constitue une certaine 

forme de validation de ce modèle. Ou du moins les premiers résultats obtenus par les 

différents travaux mentionnés plus haut laissent-ils à penser que l’évaluation qualitative extrinsèque 

(auprès d’utilisateurs réels) des systèmes qui en découleront pourra contribuer, outre les 

expérience psycho-linguistiques proprement dites, à affirmer l’hypothèse de l’encadrement. 

En contrepartie, la formalisation rigoureuse que requiert le développement de systèmes 

d’annotation automatique des cadres sur corpus, et surtout le processus d’observation et 

d’évaluation des résultats obtenus fournissent une opportunité non négligeable de constituer 

des observables susceptibles de faire évoluer le modèle lui-même. 

Le travail ici présenté relève de cette démarche. Dans la perspective de l’analyse automatique 

de thèmes discursifs, nous avons été amené à nous essayer à l’analyse automatique 

de cadres temporels dans les documents géographiques (Bilhaut et al. 2003), en nous 

appuyant sur des travaux portant plus précisément sur cette composante de l’organisation 

discursive (Le Draoulec & Péry-Woodley 2001, Ho-Dac et al. 2001). Nous avons par la suite 

élargi notre étude à d’autres structures discursives et d’autres domaines de spécialité, ce 

qui nous a conduit à introduire les notions de « thème composite » et d’« axe sémantique » 

(Bilhaut & Enjalbert 2005). C’est ainsi que nous avons été amené à considérer différentes 

structures semblant fonctionner comme des cadres de discours, sans pour autant se conformer 

strictement à la définition de M. Charolles. 

Nous allons ici nous concentrer sur un type particulier de structure, qui nous apparaît 

comme un « cadre » dont l’introducteur serait bien en position initiale, mais pas détachée, et 

faisant même partie de la prédication principale au sein de la phrase qui l’héberge. À partir 

d’exemples, nous nous efforcerons dans un premier temps de mettre en lumière certaines 

propriétés de ces pseudo-introducteurs que nous appellerons ici introducteurs d’univers 

intra-prédicatifs (dorénavant IUIP ). Dans un second temps, nous montrerons comment certaines 

de ces propriétés peuvent être exploitées en combinaison avec des connaissances de 

domaine pour reconnaître ces introducteurs automatiquement, et si possible évaluer leur 

portée. Précisons que nous nous limitons ici aux cadres particuliers dits « univers de discours » 

(temporels, spatiaux, praxéologiques, etc.). 

Introducteurs intra-prédicatifs 

Comme nous le rappelions plus haut, l’hypothèse de M. Charolles procède tout d’abord 

à la caractérisation de ce qui peut constituer des introducteurs de cadres, syntagmes prépositionnels 

particuliers car susceptibles d’introduire un cadre, c’est à dire d’avoir une portée. 

Il s’agit typiquement de constituants extra-prédicatifs détachés en initiale de phrase, éventuellement 

précédés d’un connecteur de discours. Voici un exemple présentant deux cadres 

successifs : 

§ [ {Dans l’enseignement primaire, on assiste à une forte diminution du taux de retard scolaire. 

Cette baisse est en partie attribuable à la réduction du nombre d’élèves par classe, qui […]} S1 

{Dans le secondaire, on assiste au contraire à une augmentation sensible du taux de retard. 

Celle-ci est principalement imputable à […]} S2] S0 

Nous sommes ici en présence d’introducteurs « typiques », répondant bien à la description 

que nous venons de mentionner. Ils introduisent deux univers de discours liés à deux 

niveaux du système éducatif, correspondant aux deux segments S1 et S2 , le segment S0 dans 

son ensemble étant quant à lui relatif au thème du « retard scolaire ». 

On rencontre toutefois des structures qui paraissent analogues bien que ne présentant 

pas toujours des cadres « prototypiques » comme les précédents. Il semblerait, pour des 


aisons que l’on peut supposer liées à des contraintes d’ordre stylistique, que les successions 

de cadres comme la précédente cèdent fréquemment la place à des structures plus hétérogènes. 

Voici par exemple une version légèrement différente de l’exemple précédent : 

§ { {L’enseignement primaire (P1) a connu une forte diminution du taux de retard scolaire ces 

dernières années.} U1 Cette baisse est en partie attribuable à la réduction du nombre d’élèves 

par classe, qui […]} S1 {Dans le secondaire (P2), on assiste au contraire à une augmentation sensible 

du taux de retard. Celle-ci est principalement imputable à […]} S2 

Dans cette version, le segment S1 n’est plus introduit par un introducteur de cadre stricto 

sensu : « l’enseignement primaire » apparaît ici comme sujet de la prédication, et n’est donc 

plus syntaxiquement détaché. Il est toutefois évident que, tout comme dans l’exemple précédent, 

P1 fait ici écho à P2 , et que l’ensemble du passage reste organisé pour opposer ces 

deux niveaux scolaires. La fonction discursive de P1 paraît analogue à celle du premier introducteur 

de la version précédente, dans la mesure où il spécifie bien un critère d’interprétation 

s’appliquant au propos central du discours (« le retard scolaire »), et que ce critère vaut 

pour plusieurs propositions sans être explicitement repris. 

Tout se passe donc comme si P1 bénéficiait d’une portée comparable à celle d’un introducteur 

syntaxiquement détaché, et nous le considérons donc ici comme un IUIP . Notre hypothèse 

est que nous sommes ici en présence d’une structure discursive fonctionnellement 

équivalente à la précédente, et que P1 y joue bien un rôle équivalent à un introducteur. Différents 

facteurs semblent pouvoir expliquer ce phénomène. 

i) Il convient tout d’abord de considérer avec attention l’antécédent du syntagme pronominal 

« cette baisse » : il est clair dans ce cas qu’il ne reprend pas seulement le référent de 

la « forte diminution du retard scolaire », mais bien l’ensemble du contenu propositionnel 

de l’énoncé qui précède U1 , qui pourrait s’exprimer par « la diminution du retard scolaire 

dans le primaire ». De ce fait, on peut considérer que l’objet sémantique auquel se rapporte 

la chaîne de référence du segment S1 est bien une structure complexe, centrée sur la « forte 

diminution », mais emportant avec lui « le primaire ». 

ii) La forme même du contenu propositionnel de U1 est particulière. En effet, l’acception 

ici employée du verbe « connaître » correspond ici à un méta-prédicat, c’est à dire un 

prédicat dont le second argument est lui-même un prédicat. Celui-ci est exprimé par la nominalisation 

du verbe « diminuer », et son argument est spécifié sous la forme du complément 

du nom « le taux de retard scolaire ». Or, ce méta-prédicat est neutre, et la structure sémantique 

résultante peut être « réduite » sans perte d’information, comme nous l’avons représenté 

dans la figure 1, en une autre structure dont la formulation la plus immédiate serait 

« le taux de retard scolaire a diminué dans le primaire ». 

Vraisemblablement, le choix par le scripteur d’une construction du type « X a connu Y » 

dans un cas comme celui-ci vise la topicalisation de X, qui apparaît ainsi en initiale. Toutefois, 

du fait de son rôle sémantique qui demeure « périphérique », il semble que cette topicalisation 

ne suffise pas ici à définir l’à propos de l’énoncé, tout comme un adverbial détaché 

ne définit pas à lui seul le thème au sens de l’à propos, comme le remarque Charolles (2004). 

Ainsi, dans notre exemple, « l’enseignement primaire » est topicalisé sans pour autant constituer 

le noyau thématique du segment S1 ce qui nous semble caractéristique de cette fonction 

discursive. On peut donc voir ici une forme de pseudo-détachement que l’on pourrait 

qualifier de « détachement sémantique ». 

iii) Il est également possible de faire apparaître ce phénomène de pseudo-détachement 

à l’aide de la théorie du centrage (Grosz et al. 1995) augmentée de la notion de « coût » 


43

44 

Figure 1 : Transformations de la structure sémantique associée au méta-prédicat « X a connu P ». 

introduite par Strube et Hahn (1999). Pour argumenter ce point, annotons ainsi le début de 

notre exemple : 

§ {L’enseignement primaire (P1) a connu une forte diminution du taux de retard scolaire (P2) ces 

dernières années.} U1 {Cette baisse (P3) est en partie attribuable à la réduction du nombre d’élèves 

par classe, qui […]} U2 Dans le secondaire (P4), on assiste au contraire à […] 

Soit E1 l’entité réalisée par le syntagme P1 , E2 l’entité réalisée par les syntagmes P2 et 

P3 (E2 est bien l’élément le plus central de l’antécédent de P3 , même si, comme nous l’avons 

remarqué en (i), il ne s’y réduit pas), et E3 l’entité réalisée par P4 . Dans les termes posés par la 

théorie du centrage, l’ensemble des centres anticipateurs de l’énoncé U1 est Ca (U1 ) = {E1 , E2 }. 

D’autre part, si l’on s’autorise à appliquer au Français la règle d’ordonnancement donnée 

dans (Grosz et al. 1995) pour déterminer le centre préféré (sujet > objet(s) > autres) 1 , le centre 

préféré de U1 est Cp (U1 ) = E1 . Enfin, considérant que l’énoncé U1 n’est précédé d’aucun 

autre, son centre rétroactif est indéterminé : Cr (U1 ) =. Pour l’énoncé U2 , le centre rétroactif est 

Cr (U2 ) = E2 , et pour les même raisons que précédemment, son centre préféré est Cp (U2 ) = E2 . 

Nous nous trouvons donc dans la situation suivante : Cp (U2 ) = Cr (U2 ) et Cr (U1 ) =. Selon 

les critères donnés dans (Walker et al. 1998), il s’agit d’un cas de continuation, qui correspond 

en l’occurrence à l’instauration de E2 comme noyau thématique. Toutefois, on ne pourra 

que convenir du statut particulier de l’entité E1 qui constitue, du point de vue du centrage 

d’attention, le centre préféré de U1 . Or un centre préféré constitue par définition « une prédiction 

sur le centre rétroactif de l’énoncé suivant » (Ibid.), prédiction ici contrariée par le fait 

que E1 n’est pas repris dans l’énoncé U2 : Cr (U2 ) - Cp (U1 ). 

Cette configuration, qui nous intéresse ici particulièrement, n’est pas explicitement envisagée 

dans (Grosz et al. 1995), mais est en revanche examinée dans (Strube & Hahn 1999) 

autour de la notion de coût attribuée aux relations entre énoncés. Les auteurs considèrent une 

transition comme peu coûteuse si Cr (Un + 1 ) = Cp (Un ), et avancent que les relations 

peu coûteuses seront généralement préférées. Or nous observons ici une continuation 

sur E2 dont la particularité est justement d’être initiée par une relation coûteuse. 

Ceci implique que l’interprétation de cette transition nécessite un effort cognitif particulier, 

qui nous semble renforcer l’effet de pseudo-détachement de P1 , comme le figure le schéma 

de la figure 2, que l’on pourrait cette fois qualifier de « détachement référentiel ». 

1. Cette règle n’est pas donnée comme complète ni universelle, mais paraît suffisante dans le cas simple qui 

nous occupe, et les autres règles formulées par la suite aboutiraient ici à la même conclusion. 


Figure 2 : Cas de « détachement référentiel ». 

iv) Enfin, la portée de P1 nous semble également explicable en recourant à la notion 

d’univers « virtuel » proposée par Charolles. Il se trouve en effet que le syntagme « dans le 

secondaire », dont on ne peut douter du statut d’introducteur, projette un univers parent 

implicite lié à l’ensemble des niveaux scolaires du système éducatif français (pré-élémentaire, 

primaire, secondaire, supérieur). Or il se trouve que « le primaire » est bien un univers dérivé 

de cet univers parent, ce qui nous incite probablement à le considérer de façon équivalente 

à l’univers du « secondaire ». Et le fait que l’introducteur au sens strict apparaisse après celui 

que nous qualifions d’intra-prédicatif ne semble pas problématique si l’on adopte comme 

Charolles une approche incrémentielle, qui prévoit « des possibilités de réanalyse a posteriori 

avec mise à jour des interprétations construites » (1997 p. 3). 

Nous rejoignons ici la notion d’écho entre ces deux univers, déjà mentionnée plus haut. 

Les connaissances de domaine semblent ici jouer un rôle important, puisque la familiarité 

supposée du lecteur avec les niveaux du système scolaire interviennent dans la reconnaissance 

de la structure discursive du passage comme quasi-énumérative. 

Considérons maintenant deux autres exemples qui nous semblent relever du même phénomène. 

Le premier est en tout point semblable au précédent, mais fait cette fois intervenir 

des univers temporels : 

À la fin des années 80, Ullman estimait que ces deux modèles étaient même incompatibles, ce 

que confirmaient les faits puisque jusqu’alors les bases de données avaient été soit déclaratives 

mais orientées-valeur, soit orientées-objet mais non-déclaratives. Cependant, les années 90 ont 

vu apparaître plusieurs tentatives de conciliations, que nous présentons brièvement dans cette 

synthèse avant d’en développer deux plus longuement dans le reste de ce chapitre. Ces tentatives 

peuvent être réparties en deux domaines : les bases de données (monde système) et les 

bases de connaissances (monde IA). Au risque d’une simplification excessive, on dira que ces 

domaines se distinguent par le fait que le premier privilégie les aspects pratiques et l’efficacité, 

et le deuxième les aspects théoriques et l’expressivité. 

Source : Systèmes d’information logiques, un paradigme logico-contextuel pour interroger, naviguer et apprendre, 

Sébastien Ferré 

Le second se distingue des précédents par le fait qu’il ne recours pas au procédé du métaprédicat 

et que l’IUIP apparaît ici sous la forme d’une extension prépositionnelle dans le syntagme 

sujet : 

§ Pour ce qui est du transport ferroviaire, la législation en matière de transport de marchandises 

dangereuses par rail a été renforcée et, à la suite de la scission de la société nationale des 

chemins de fer en 5 sociétés au début de 1999, la restructuration du secteur ferroviaire a été 

poursuivie en 2000. […] 

§ Les activités dans le domaine de la navigation intérieure ont fort souffert du blocage du Danube 

dû à la crise du Kosovo, ce qui a eu pour conséquence de priver ce secteur des ressources financières 

nécessaires à son adaptation à l’acquis de l’UE. Les aspects pratiques concernant la conformité 

des navires roumains aux normes de l’UE pourraient poser problème pour des motifs 

d’ordre économique, eu égard à l’objectif des autorités roumaines d’accès au Rhin. Un décret 

ministériel a été adopté afin de transposer les règles de l’UE relatives à l’accès à la profession 

de transporteur de marchandises par voie navigable. […] 

Source : Synthèse d’un rapport de la communauté européenne sur les transports en Roumanie 


45

46 

Il est remarquable ici que malgré sa faible saillance au niveau de la phrase qui l’héberge 

(Ariel 2001), le syntagme « le domaine la navigation intérieure » ait bien une portée significative. 

Alors que dans les précédents exemples le phénomène de pseudo-détachement semblait 

jouer un rôle non négligeable dans la perception du rôle des syntagmes concernés, cet 

IUIP apparaît ici dans une position « syntaxiquement profonde » a priori peu favorable à lui 

conférer une portée. Il semble pourtant que cette portée soit bien réelle, puisque si le champ 

lexical lié à la navigation est significativement présent dans texte qui suit, il n’y a aucune 

reprise du qualitificatif « intérieure », qui est pourtant persistant. D’autre part, il est clair que 

cet IUIP possède bien une fonction d’indexation au même titre que « le transport ferroviaire » 

auquel il répond 2 . On peut raisonnablement supposer que dans ce cas l’apparition en initiale 

de paragraphe joue un rôle important, mais là encore la relation sémantique entre plusieurs 

introducteurs successifs et comparables au sein d’une structure plus globale semble 

à prendre sérieusement en considération. 

Nous risquons l’hypothèse que c’est essentiellement la relation sémantique forte et 

supposée connue entre ces introducteurs qui autorise l’un (ou même plusieurs) d’entre eux à 

apparaître dans une position qui n’est pas explicitement détachée. Comme nous le verrons 

dans la seconde partie, c’est ce dernier critère qui agira de façon prédominante dans la détection 

automatique de ces structures discursives particulières. 

Segmentation automatique 

exploitant les « cadres » introduits par des IU IP 

La détection des cadres de discours est d’un intérêt considérable dans le domaine de 

l’analyse automatique du discours. En particulier, si l’on adopte une perspective thématique 

à même de servir les besoins d’indexation dans le domaine de la recherche d’information, 

l’analyse fine de la répartition du contenu informationnel nécessite la prise en compte de ce 

type de structure. 

La notion d’univers du discours nous paraît particulièrement intéressante dans ce contexte, 

car elle fait très clairement apparaître un phénomène thématique totalement inaccessible 

aux méthodes d’indexation « classiques », qui ne font pas ou peu intervenir de 

considérations linguistiques. Du point de vue de l’à propos, le rôle des introducteurs est en 

effet très particulier dans la mesure où il ne consiste pas à définir le thème proprement dit, 

mais vient seulement situer un thème instauré par ailleurs. Pourtant, il paraît inadéquat de 

négliger leur rôle dans l’instauration d’un thème discursif, puisqu’ils participent clairement 

à l’introduction en discours de « ce dont on parle ». Nous considérons donc qu’un IU joue 

bien un rôle thématique au sens de l’à propos, même si ce rôle n’est pas central et doit être 

rapporté à un thème « principal ». 

C’est ce mode d’organisation thématique en discours sur lequel repose l’idée de « thème 

composite » présentée dans (Bilhaut & Enjalbert 2005). Nous visons ainsi à exprimer certains 

thèmes discursifs sous la forme d’une structure composée d’un noyau thématique et d’un 

certain nombre de satellites thématiques, le premier étant relatif au thème d’un segment, 

et les seconds aux univers de discours associés. Nous avons identifié une certaine variété de 

configurations discursives susceptibles d’instaurer ces thèmes composites, et développé une 

méthode de segmentation automatique du discours se basant sur ces principes, qui permet 

in fine d’obtenir une indexation intra-documentaire fine des passages concernés par ce type 

de structures. 

2. Nous considérons bien ici ce dernier comme un IU et non comme un introducteur de cadre thématique, 

puisqu’il ne définit pas réellement le thème du cadre qu’il introduit, mais constitue pour nous un « satellite 

thématique » au sens que nous préciserons plus loin. 


Les cadres de discours figurent bien-sûr en bonne place parmi les structures discursives 

que nous repérons ainsi, dans la mesure où il semblent constituer la forme préférentielle 

d’établissement de thèmes composites en discours. Il a toutefois été nécessaire de prendre 

en considération d’autres structures analogues de ce point de vue, parmi lesquelles les cadres 

introduits par des IUIP . Mais si la détection automatique des introducteurs détachés est relativement 

aisée et peut être réalisée avec une très bonne précision (Ferrari et al. 2005), la détection 

des IUIP est plus complexe dans la mesure où ils sont par définition dans une position 

beaucoup moins caractéristique que les premiers. 

Parmi les divers critères évoqués dans la section précédente, se pose la question de 

ceux qui sont à la fois suffisamment généraux et applicables automatiquement. Sur ce point, 

les détachements « sémantique » et « référentiel » ne sont pas nécessairement de bons candidats, 

d’une part parce qu’ils sont difficiles à reconnaître automatiquement (car impliquant 

respectivement une analyse sémantique profonde et une détection fiable des chaînes de 

référence), mais surtout parce qu’ils ne semblent pas systématiquement associés aux IUIP même s’il on les observe fréquemment. Il nous semble préférable dans ce contexte de considérer 

que la présence d’une relation sémantique avec d’autres constituants comparables 

dans le discours environnant constitue un indice à la fois plus fiable et plus facilement repérable 

automatiquement. C’est bien ce qui se produit (certes parfois en conjonction avec d’autres 

phénomènes) dans les trois exemples que nous avons reproduit plus haut : chacun des IUIP que nous avons rencontrés font bien écho à une autre entité apparaissant dans le co-texte 

(droit ou gauche) sous la forme d’un introducteur syntaxiquement détaché. 

Il semble que dans ce cas, la fonction d’indexation d’un référent du discours puisse apparaître 

très clairement au lecteur sans que sa textualisation fasse l’objet d’aucun détachement, 

qu’il soit syntaxique, sémantique ou référentiel. Notre hypothèse est donc que cette situation 

est suffisante à l’apparition d’un IUIP (même si elle n’est pas nécessaire dans la mesure où 

l’on peut trouver des exemples analogues ne faisant intervenir aucun introducteur au sens 

strict). 

Cette hypothèse est effectivement mise en œuvre dans notre système d’analyse thématique 

automatique, qui permet quand cela est nécessaire de tenir compte de connaissances 

d’ordre ontologique. Celles-ci sont formalisées sous forme d’axes sémantiques, qui 

correspondent à des espaces notionnels susceptibles de participer à l’indexation de l’information 

dans les textes considérés. Il pourra s’agir d’axes génériques comme le temps ou espace, 

ou d’axes plus spécifiques à un domaine ou à une pratique (axe des niveaux scolaires, des 

types de transports, etc.). Les axes sont fournis au système par différentes méthodes selon 

les cas : il s’agit le plus souvent d’entrées lexicales simples, mais des ressources plus complexes 

sont parfois nécessaires, comme pour les expressions temporelles ou spatiales. 

Dans le cas où des ressources lexicales sont jugées suffisantes, les axes sont représentés 

par des ensembles structurés : les termes qui composent un axe donné sont organisés de 

façon à pouvoir faire état d’un éventuel degré d’équivalence ou de recouvrement entre deux 

items. En pratique, chaque axe sera représenté par une structure arborescente, même si 

d’autres modes de représentation pourraient facilement être intégrés au système. 

Dans le cas où une analyse syntagmatique des expressions concernées est nécessaire, 

nous faisons appel à des méthodes d’analyse sémantique compositionnelle. Le procédé de 

comparaison entre deux items dépend alors de la forme des représentations symboliques 

effectivement utilisées pour représenter lesdites expressions. Concernant l’analyse des 

expressions spatiales et temporelles, nous faisons appel à des grammaires locales d’unification 

(Charnois 2003), et les expressions sont représentées in fine par des intervalles à une 

ou deux dimensions, sur lesquels on peut aisément procéder à des calculs d’intersection. 

À l’aide de ces ressources, le système est capable de reconnaître non seulement des 

entités apparaissant comme introducteurs d’univers syntaxiquement détachés (ceux-ci sont 


47

48 

détectables relativement facilement, à l’aide de critères essentiellement positionnels), mais 

aussi des entités qui leur sont comparables sans pour autant apparaître dans des positions 

caractéristiques, comme des IUIP . Dès lors qu’un introducteur explicite est détecté, des entités 

appartenant au même axe sémantique sont recherchées dans les co-textes droit et gauche, 

ce qui permet dans de nombreux cas de détecter des IUIP qui seraient pas accessibles 

en tant que tels à l’analyse automatique. À partir des différents introducteurs détectés, le 

système peut alors procéder à la phase de segmentation qui se limite pour l’heure, la question 

de l’analyse automatique de leur portée étant loin d’être résolue en toute généralité, 

à fermer un cadre lorsqu’un nouveau cadre du même type est ouvert, ou que la fin de paragraphe 

est rencontrée. On notera que ce procédé de segmentation s’inscrit dans un système 

d’analyse thématique du discours plus général, qui procède à l’analyse d’autres types de 

structure discursives, et qui vise aussi bien la segmentation proprement dite que la description 

des thèmes des segments (cf. Bilhaut & Enjalbert 2005). L’ensemble du système a été 

élaboré sous LinguaStream (Bilhaut & Widlöcher 2006). 

Conclusion 

Nous défendons ici l’hypothèse que des constituants non détachés syntaxiquement peuvent 

dans certains cas constituer des introducteurs d’univers dotés d’une réelle portée, et spécifier 

à ce titre des critères d’interprétation portant sur plusieurs propositions sans faire appel 

aux mécanismes référentiels. Nous avons montré à travers plusieurs exemples que des mécanismes 

de pseudo-détachement peuvent intervenir (détachement « sémantique » ou « référentiel 

»), mais aussi que la saillance présupposée de certaines relations sémantiques avec 

un autre introducteur semble autoriser une absence de marque de détachement explicite. 

Il nous semble que cette approche « assouplie » de ce qui peut constituer un introducteur 

d’univers est particulièrement intéressante si l’on considère ces derniers du point de vue 

de l’à propos, en cherchant à évaluer leur fonction thématique au niveau textuel en tant que 

complément d’un thème « principal ». Ce point de vue amène en effet à considérer avec 

attention ce qui peut constituer, pour reprendre les termes de Hutchins (1977), des « points 

de contact » entre le texte et les connaissances propres du lecteur. Il peut alors être intéressant 

de considérer que le pouvoir d’indexation des introducteurs d’univers est d’autant plus 

fort que les référents impliqués apparaissent clairement comme « connus » ou « donnés » au 

lecteur, même s’ils n’apparaissent pas comme « thématiques » ou « topicaux » au sens propre, 

ce qui peut être pris en considération en conjonction avec le degré de détachement. 

Bibliographie 

ARIEL M. (2001), « Accessibility Theory : Overview », in Text Representation : Linguistic and Psycholinguistic 

Aspects, T. Sanders, J. Schilperoord & W. Spooren (éds), Amsterdam, Benjamins. 

CHAROLLES M. (1997), « L’encadrement du dicours – Univers, champs, domaines et espace », Cahiers de 


CHAROLLES M. (2003), « De la topicalité des adverbiaux détachés en tete de phrase », in Adverbiaux et 

topiques, M. Charolles et S. Prevost (éds), Travaux de Linguistique (47), Louvain la Neuve. 

BILHAUT F., HO-DAC L.-M., BORILLO A., CHARNOIS T., ENJALBERT P., LE DRAOULEC A., MATHET Y., MIGUET H., 

PERY-WOODLEY M.-P. et SARDA L. (2003), «Indexation discursive pour la navigation intradocumentaire: cadres 

temporels et spatiaux dans l’information géographique», in Actes de la 10e Conférence Traitement Automatique 

du Langage Naturel (TALN’03), Batz-sur-Mer, France. 

BILHAUT F. et ENJALBERT P. (2005), «Discourse Thematic Organisation Reveals Domain Knowledge Structure», 

in Proceedings of the 2nd Indian International Conference on Artificial Intelligence (IICAI’05), Pune, India. 

BILHAUT F. & WIDLÖCHER A. (2006), «LinguaStream: An Integrated Environment for Computational Linguistics 

Experimentation », in Proceedings of the 11th Conference of the European Chapter of the Association of 

Computational Linguistics, Trento, Italy. 


CHARNOIS T., MATHET Y., ENJALBERT P., BILHAUT F. (2003). « Geographic Reference Analysis for Geographic 

Document Querying», Workshop on the Analysis of Geographic References, Human Language Technology 

Conference (NAACL-HLT), Edmonton, Alberta, Canada. 

FERRARI S., BILHAUT F., WIDLÖCHER A. & LAIGNELET M. (2005), « Une plate-forme logicielle et une démarche 

pour la validation de ressources linguistiques sur corpus : application à l’évaluation de la détection automatique 

de cadres temporels », in Actes des 4es Journées de linguistique de corpus, G. WILLIAMS (éd.), à 

paraître aux Presses Universitaires de Rennes. 

FERRET O., GRAU B., MINEL J.-L. & PORHIEL S. (2001), «Repérage de structures thématiques dans des textes», 

in Actes de la 8e Conférence Traitement Automatique du Langage Naturel (TALN’01), Tours, France. 

GROSZ B. J., JOSHI A. K., & WEISTEIN S. (1995), « Centering : A framework for modelling the local coherence 

of discourse », Computational Linguistics, 21 (2). 

HO-DAC L.-M., LE DRAOULEC A. & PERY-WOODLEY M.-P. (2001), « Cohabitation des dimensions temps, 

espace et « phénomènes » dans un texte géographique », Cahiers de Grammaire, 26. 

HUTCHINS W. (1977), « On the Problem of Aboutness in Document Analysis », Journal of Informatics, 1, 1. 

LE DRAOULEC A. & PERY-WOODLEY M.-P. (2001), « Corpus-based identification of temporal organisation in 

discourse », in Proceedings of the Corpus Linguistics 2001 Conference, P. Rayson, A. Wilson, T. McEnery, 

A. Hardie & S. Khoja (éds.), Lancaster. 

JACKIEWICZ A. & MINEL J.-L. (2003), « L’identification des structures discursives engendrees par les cadres 

organisationnels », in Actes de la 10e Conférence Traitement Automatique du Langage Naturel (TALN’03), 

Batz-sur-Mer, France. 

STRUBE M. & HAHN U. (1999), « Functional Centering : Grounding Referential Coherence in Information 

Structure », Computational Linguistics, 25 (3). 

WALKER M. A., JOSHI A. K., & PRINCE E. (1998), Centering theory in discourse, Oxford, Oxford University Press. 


49

50 


Schedae, 2006 


Les titres et les introducteurs de cadres 

comme indices pour le repérage 

de segments d’information évolutive 

Marion Laignelet 

ERSS – Université Toulouse 2 – Le Mirail, Toulouse 

et Société INITIALES, Montpellier 

marion.laignelet@univ-tlse2.fr 

Résumé : 

Nous supposons que la combinaison d’une analyse discursive à une analyse linguistique plus 

locale peut permettre le repérage automatique de segments textuels contenant de l’information 

susceptible d’évoluer dans le temps dans le cas de textes encyclopédiques. Dans cet article, nous 

présentons comment l’hypothèse de l’encadrement du discours ainsi que le rôle des titres apporte 

un gain qualitatif non négligeable pour l’objectif visé. Cet objectif s’inscrit dans un projet industriel 

visant la création d’une application ayant pour but l’aide à la mise à jour de l’information de 

fiches encyclopédiques en français pour le domaine de l’édition. 

Mots-clés: navigation intra-documentaire, information évolutive, encadrement du discours, 

titres. 

Abstract : 

The purpose of this paper is to find methods to automatically highlight text segments containing 

information that could evolve in time. In order to do this, we hypothesize that combining a discourse 

analysis with a more local linguistic analysis is a possible method to follow. More precisely 

we are going to present how a discourse framing hypothesis as well as the role of headings could 

be a significant qualitative solution to reach our objective. This objective is part of an industrial 

project developing an application that assists human users in updating encyclopedia file information 

in French for publishing companies. 

Keywords : intra-document navigation, evolving information, discourse framing hypothesis, 

headings. 

Le rôle des marqueurs de discours au sein des textes est aujourd’hui au centre de nombreux 

travaux linguistiques. Nous souhaitons montrer dans cet article que la prise en compte 

du niveau discursif peut être utile à un système de TAL visant une application industrielle 

précise. Cet article ne présente qu’un aspect spécifique d’un projet plus global : nous visons 

la création d’un prototype logiciel d’aide à la mise à jour de l’information des documents 

Marion Laignelet 

« Les titres et les introducteurs de cadres comme indices pour le repérage de segments d’information évolutive » 


51

52 

encyclopédiques pour le domaine de l’édition 1 . Nous cherchons à déterminer des méthodes 

et techniques (linguistiques et informatiques) pour le repérage de « SEgments de DIScours 

contenant de l’information évolutive (ε) » ou SEDIS-ε. Déterminés et définis par rapport à 

un usage concret et réel (la mise à jour éditoriale), les SEDIS-ε sont des portions textuelles 

contenant une ou plusieurs information(s) susceptible(s) d’évoluer dans le temps 2 . Nous ne 

nous situons pas dans une problématique d’extraction d’information mais plutôt dans celle 

de la navigation intra-documentaire : nous cherchons à signaler au rédacteur des zones 

pertinentes pour la tâche de mise à jour de l’information dans le but de l’assister et non de 

le remplacer. La mise à jour de l’information proprement dite lui incombe entièrement. 

Pour répondre à cet objectif de repérage automatique des SEDIS-ε, nous prenons le 

parti de nous baser essentiellement sur des connaissances linguistiques, et notamment sur 

les notions de marqueurs textuels et discursifs comme les « mots-repères » ou les « motstitres 

», notions déjà envisagées par Edmundson (1969), les cue phrases (Grosz & Sidner 

1986) ou encore les éléments participant de l’analyse de la structure de texte (Marcu 2000). 

Dans cet article, nous focalisons notre analyse sur les aspects discursifs des documents à 

travers deux types de marqueurs : les titres et les introducteurs de cadre de discours (Charolles 

1997). Nous souhaitons montrer que ces deux niveaux de structuration « à gros grain » 

occupent une place importante dans la description et le repérage des SEDIS-ε. 

Corpus, indices et marqueurs (textuels et discursifs) 

Méthodologie générale 

Comme nous l’avons précisé en introduction, si nous sommes capable de définir un 

SEDIS-ε relativement à l’usage (des segments contenant une information susceptible d’évoluer 

dans le temps), notre objectif est d’en donner une description linguistique et formelle 

suffisamment fine et précise dans le but d’automatiser leur repérage. La méthodologie 

adoptée a été décrite avec précision dans (Laignelet 2006). 

Nous travaillons sur un corpus préliminaire constitué de 38 fiches encyclopédiques 3 

dans lesquelles nous avons annoté manuellement les SEDIS-ε (718 SEDIS-ε de longueurs 

variables, de l’expression locale à la phrase ou à un ensemble de phrases). Sur ce corpus 

préalablement annoté, nous projetons un certain nombre d’indices textuels et discursifs 4 

(id.) et observons leur distribution au sein du document (à l’intérieur d’un SEDIS-ε annoté 

manuellement ou non). Nous parlons d’indices du fait de leur caractère multi-fonctionnel 5 

et nous supposons que leur aptitude à délimiter un SEDIS-ε est liée au fait qu’ils vont apparaître 

ensemble, de manière conjointe et non isolée. Ainsi, ces indices ne deviennent des 

marqueurs de SEDIS-ε que dans des conditions particulières et spécifiques que nous cherchons 

à déterminer. 

1. Contrat CIFRE entre le laboratoire ERSS, Toulouse, et la Société INITIALES, Montpellier. 

2. La mise à jour de l’information est ici entièrement liée à des objectifs de ré-édition des fiches encyclopédiques 

qui ont été éditées une première fois en 2001-2003 et qui doivent être rééditées en 2006-2007 ou 

plus tard. 

3. Les documents constituant notre corpus présentent cette caractéristique commune d’être ancrés dans une 

situation spécifique, l’édition encyclopédique, et d’être inscrits sur un support précis, le fascicule, support 

qui leur confère des caractéristiques matérielles particulières orientant leur usage et leur signification. Il 

s’agit de fiches fonctionnant sous forme d’abonnement ; le client s’abonne à un moment T et pendant une 

durée déterminée, il reçoit un nombre déterminé de fiches tous les mois. Ce type d’édition dure en général 

entre 5 et 7 ans voire plus si la collection fonctionne bien. 

4. Pour le moment, les indices pris en compte sont : des adverbiaux temporels, des argumentatifs, des marqueurs 

aspecto-verbaux, des adverbes de temps, des indices discursifs (titres, introducteurs de cadres). 

5. Les indices pris en compte ont plusieurs fonctions dans les textes, nous supposons qu’ils peuvent aussi être 

pertinents pour le repérage des SEDIS-ε. 


Le repérage des indices textuels et discursifs se fait de manière automatique à l’aide de 

LinguaStream. Cette « plateforme générique pour le TAL » (Widlöcher & Bilhaut 2005) nous 

a permis, entre autres, de construire des ressources linguistiques spécifiques (notamment 

des lexiques) et d’écrire des grammaires Prolog pour le repérage des adverbiaux temporels 

tout en leur associant un certain nombre de traits sémantiques renseignant sur leur nature 

déictique ou non, leur référence temporelle, etc. Elle nous permet également de récupérer 

des informations sur la structure logique du document grâce au formalisme XML et ainsi de 

travailler sur les éléments titres. Nous supposons pour la présente étude que le repérage de 

ces indices est acquis (Laignelet 2006) et nous nous focalisons sur le gain qualitatif que peut 

représenter la prise en compte d’une analyse discursive pour l’objectif du projet (repérer 

automatiquement des SEDIS-ε et, d’un point de vue ergonomique, satisfaire l’utilisateur final). 

Définitions et délimitation : les indices de nature discursive 

L’hypothèse de l’encadrement du discours définit un cadre de discours comme un regroupement 

de plusieurs propositions sous un critère sémantique véhiculé par une expression 

introductrice de cadre (IC). Un IC est un adverbial situé à l’initiale d’une proposition, généralement 

en position détachée. Nous nous focalisons exclusivement sur les cadres de discours 

temporels («En 2003… », «Actuellement… »). Les titres peuvent être de natures diverses. 

La raison pour laquelle nous traitons précisément ces deux éléments de discours est 

qu’ils participent des mêmes métafonctions telles que définies par Halliday & Hasan (1976) 

(Charolles et al. 2005, Laignelet 2004). En effet, il est possible de dire que les cadres de discours 

et les segments titrés revêtent : 

– une fonction textuelle : des segments discursifs (les parties titrées ou les cadres) sont 

mis en évidence par la présence de titres ou d’introducteurs de cadres qui ont pour 

fonction de regrouper des segments tels que les propositions, les paragraphes ou les 

cadres ; 

– une fonction idéationnelle : les titres et les introducteurs de cadre posent un critère 

sémantique suivant lequel les propositions suivantes sont à interpréter. 

Le rôle des titres et des segments titrés nous semble similaire à celui des IC et des 

cadres de discours au sein des textes, à ceci près qu’ils fonctionnent au sein d’une structure 

à « gros grain ». 

Intérêt pour l’application : typer les SEDIS-ε 

Nous pouvons d’ores et déjà définir deux types de SEDIS-ε (réactualisation vs. mise à 

jour) ainsi que deux niveaux de granularité (SEDIS-ε minimal vs. segment d’interprétation). 

Les SEDIS-ε à réactualiser sont des segments dans lesquels l’information restera vraie 

dans l’absolu mais, en vue d’une ré-édition et d’une diffusion, les événements et dates 

associés doivent être modifiés pour faire référence à un moment plus proche du moment 

de lecture/réédition. 

L’organisation mondiale de la santé (OMS) estime, en effet, à 160 millions le nombre annuel de 

nouveaux cas dans le monde en 2002. 

Dans cet exemple, le SEDIS-ε minimal correspond à la valeur chiffrée et à la date (expressions 

soulignées). A noter que ce genre d’expressions est à la fois indice et SEDIS-ε. Cependant, 

visant une application d’aide à la mise à jour, nous pensons que le contexte de la 

phrase dans laquelle un SEDIS-ε apparaît est le segment minimal requis pour que la personne 

chargée de mettre à jour l’information ait un contexte d’interprétation suffisant. 


53

54 

D’autre part, nous définissons des SEDISε « à mettre à jour » : dans ce cas, l’information 

n’est potentiellement plus vraie au moment de lecture/réédition ou alors, étant une prédiction 

sur l’avenir de la part du rédacteur, elle s’est ou non vérifiée. 

La découverte du virus a permis la mise au point d’une méthode de dépistage […]. On peut 

ainsi savoir qu’une personne est infectée longtemps avant que la maladie ne se déclare. Il 

n’existe pas à l’heure actuelle de vaccin contre le sida. Si les thérapies actuelles permettent 

d’améliorer sensiblement la durée et les conditions de vie du malade, aucune n’est capable 

d’éliminer le virus. 

À cette distinction basée sur la nature des segments recherchés, nous supposons l’importance 

de la notion de segment d’interprétation au sein desquels IC et titres vont avoir un 

rôle central. Nous distinguons donc les SEDISε qui sont de l’ordre de l’expression locale de 

ceux qui correspondent à des segments d’interprétation, et qui nécessitent un cadre correspondant 

au moins à la phrase. 

Exemples et Résultats 

Nous avons montré dans (Laignelet 2006) que prendre en considération les indices de 

manière isolée est insuffisant pour déterminer si le segment ( a minima la phrase) dans laquelle 

2 

l’indice est présent peut être considéré comme un SEDISε. Même si le test du CHI a montré 

que les indices que nous prenons en compte apparaissent de manière significative dans les 

SEDISε annotés manuellement, il semble incontournable de les traiter en configurations, 

i.e. de définir des schémas d’indices. 

Dans cette optique, la prise en compte des IC et des titres nous semble être un gain 

(qualitatif) pour le repérage (automatique) des SEDISε dans la mesure où ils semblent permettre 

l’ouverture de segments d’interprétation. C’est ce que nous pouvons observer dans 

les deux exemples suivants. 

Texte 1 : Exemple de SEDISε introduit par un IC temporel. 

Texte 2 : Exemple de SEDISε chapeauté par un titre. 

Dans le premier exemple ( Texte 1), 

le SEDISε s’ouvre sur un introducteur de cadre temporel. 

Dans ce cas, il est important de noter que toutes les informations contenues dans ce 

Schedae, 

2006, prépublication n°7, (fascicule n°1, p. 51-56).

segment ne sont pas à mettre à jour et notamment les propositions soulignées (en ondulé), 

pour lesquelles une référence temporelle différente est explicitement signalée. L’intérêt de 

considérer l’IC temporel « En 2003 » (dans l’encadré) est que le critère sémantique (la référence 

temporelle « 2003 ») qu’il véhicule est valable pour l’ensemble du paragraphe. Ainsi, 

les deux valeurs chiffrées dans les ovales ont une relation (temporelle) à travers l’expression 

« En 2003 ». Les deux éléments dans les encadrés arrondis sont également des informations 

à mettre à jour du fait de leur proximité temporelle. 

Dans le second exemple (Texte 2), le segment titré en entier constitue un SEDIS-ε. Cependant, 

comme cela apparaît à travers le jeu des encadrés, un certain nombre d’indices permettent 

de délimiter cinq SEDIS-ε de granularité inférieure (de longueur d’une phrase chacun). 

Le titre « Perspective », qui est de niveau 1 et qui, par sa sémantique, oriente une interprétation 

vers quelque chose situé dans le futur, influe sur l’ensemble de la section. Enfin, il est 

important de noter que la position en fin de document, en position de conclusion dans la 

fiche, confère à cet élément titre un rôle et une fonction particulière au sein du document 

(Marcu 2000). 

Quantitativement, environ 50 % des IC temporels sont inclus dans un SEDIS-ε, ce qui 

est loin d’être négligeable étant donné qu’en nombre de phrases, la proportion de SEDIS-ε 

au sein de notre corpus est d’environ 9 % du corpus. Environ 1/3 des IC présents dans un 

SEDIS-ε ont une portée couvrant plus de deux phrases 6 . Concernant les titres, leur proportion 

à apparaître avant une série de SEDIS-ε est de 9 % environ et parmi eux, 25 % sont en 

position de conclusion dans la fiche. 

Le segment d’interprétation : un apport plus qualitatif que quantitatif ? 

Les IC étant des adverbiaux, et ces derniers étant, comme les valeurs chiffrées, à la fois 

des indices et des SEDIS-ε minimaux 7 , c’est le critère positionnel de ces expressions à l’initiale 

de la proposition qui va permettre l’ouverture d’un cadre d’interprétation. La portée de 

l’IC fonctionne généralement vers l’avant (cf. le sens des flèches sur nos segments). Concernant 

les titres, leur fonctionnement est sensiblement différent. Ainsi, sauf dans quelques cas 

bien précis, l’expression contenue dans le titre n’est pas un SEDIS-ε à proprement parler et 

n’est pas non plus inclus dans le SEDIS-ε. D’un côté, le rôle de certains titres est de prédire 

la présence d’un ou plusieurs SEDIS-ε. De l’autre, lorsque plusieurs SEDIS-ε apparaissent 

en série dans une même partie, et lorsque le titre appartient à une classe sémantique spécifique 

8 , alors, par propagation (vers l’arrière), l’ensemble de la partie titrée peut être définie 

comme un segment d’interprétation. Dans tous les cas, dans un segment d’interprétation, 

il peut se trouver des segments qui ne nécessitent pas de mise à jour (cf. ce qui est souligné 

en ondulé dans Texte 1). 

Conclusion et Perspectives 

La notion de cadre d’interprétation nous semble intéressante, à la fois dans une optique 

linguistique à travers la description du fonctionnement des IC et des titres, mais également 

pour l’objectif applicatif visé. Il nous semble en effet qu’un accès à des mises à jour de grains 

différents (SEDIS-ε minimaux vs. segments d’interprétation) peut améliorer l’utilisation d’un 

tel outil d’aide à la mise de l’information. Il sera néanmoins incontournable de procéder à 

une évaluation de cette distinction auprès d’utilisateurs finaux. Nous projetons le traitement 

6. La portée a été observée et calculée manuellement. 

7. Généralement, la valeur de la référence temporelle doit être modifiée. 

8. Un travail de typage des expressions pouvant occuper la position titre est en cours. 


55

56 

des IC médiatifs (« Selon une étude du Ministère… ») et des IC spatiaux (« En France… »), car 

il semble qu’ils ont également cette capacité à ouvrir un cadre d’interprétation : 

Selon une enquête du Ministère du travail, sur 13,5 millions de salariés, 21,3 % déclarent ne pas 

entendre une personne qui leur parle normalement, […]. 27 % seraient même exposés à des 

bruits supérieurs à 85 dB, […]. Ces affections représentent actuellement près de 33 % des rentes 

[…]. 

Enfin, une étude sur un corpus encyclopédique différent est prévu, ainsi qu’une évaluation 

de nos analyses. 

Bibliographie 

CHAROLLES M. (1997), « L’encadrement du discours, univers, champs, domaine et espaces », Cahiers de 

Recherche linguistique, 6. 

CHAROLLES M., LE DRAOULEC A., PÉRY-WOODLEY M.-P., SARDA L. (2005), « Temporal and spatial dimensions 

of discourse organisation », Journal of French Language Studies, 15, 2, p. 203-218. 

EDMUNDSON H. (1969), « New methods in automatic abstracting », Journal of ACM, 16, 2, p. 264-285. 

GOSSELIN L. (2005), Temporalité et modalité, Bruxelles, Éditions Duculot. 

GROSZ J. & SIDNER A. (1986), « Attention, intentions, and the structure of discourse », Computational 

linguistics, 3, 12, p. 175-204. 

HALLIDAY M.A.K. & HASAN R. (1976), Cohesion in English, Londres, Longman Group Limited. 

HO-DAC M., JACQUES M.-P. & REBEYROLLE J. (2004), « Sur la fonction discursive des titres », in L’unité texte, 

S. Porhiel et D. Klingler (éds.), Pleyben, Perspectives, p. 125-152. 

LAIGNELET M. (2006), «Repérage de segments d’information évolutive dans des documents de type encyclopédique 

», in Actes de la 13e conférence sur le Traitement Automatique des Langues Naturelles (RECITAL), 

P. Mertens, C. Fairon, A. Dister et P. Watrin (éds.), Presses universitaires de Louvain, Belgique, p. 690-699. 

LAIGNELET M. (2004), Les titres et les cadres de discours temporels – Structuration des discours et organisation 

de l’information, Mémoire de DEA, Université Toulouse 2 – Le Mirail. 

MARCU D. (2000), «The rhetorical parsing of unrestricted texts: A surface-based approach », Computational 

Linguistics, 26, 3, p. 395-448. 

WIDLÖCHER A. & BILHAUT F. (2005), « La plate-forme LinguaStream : un outil d’exploration linguistique sur 

corpus », in Actes de la 12e Conférence Traitement Automatique du Langage Naturel (TALN), M. Jardino 

(éd.), France, ATALA LIMSI, p. 517-522. 


Schedae, 

2006 


Vers une grammaire 

de l’évaluation des objets culturels 

Dominique Legallois 

CRISCO (CNRS – FRE 2 805) – Université de Caen Basse-Normandie 

Dominique.Legallois@unicaen.fr 

Stéphane Ferrari 


Stephane.Ferrari@info.unicaen.fr 

Résumé : 

Cette étude traite de l’identification des formes linguistiques destinées à l’expression de l’évaluation 

des objets culturels. À partir d’un corpus, nous dégageons trois niveaux coordonnés et complémentaires 

qui, une fois formalisés et implémentés, constituent une grammaire de l’évaluation 

à partir de laquelle le phénomène peut être abordé (au moins partiellement) automatiquement. 

Ces trois niveaux sont : le niveau expérientiel, le niveau lexico-grammatical, le niveau énonciatif. 

Nous présentons une expérimentation informatique montrant la faisabilité de l’implémentation, et 

ouvrant la voie à un type d’analyse discursive automatisée traitant du phénomène de l’évaluation. 

Mots-clés : expression de l’évaluation, grammaire locale, expérimentation sur corpus. 

Abstract : 

This paper focuses on the identification of the linguistics objects used to express evaluation. On 

the basis of a corpus study, we draw three coordinated and complementary levels of rules which 

constitute a grammar of evaluation once formalized and implemented. These levels are the experiential, 

the lexico-grammatical and the enunciative ones. We present a computer experimentation 

proving the feasibility of an implementation, and leading to further developments for an automatic 

discourse analyzer taking the evaluation phenomenon into account. 

Keywords : formulation of evaluation, local grammar, corpus experimentation. 


Les sites amazon.fr et fnac.fr offrent la possibilité pour les lecteurs de déposer leurs 

avis sur les livres lus, afin de les recommander ou de les déconseiller aux consommateurs 

internautes. Quelques-unes de ces critiques, réunies dans un corpus restreint à 51 092 mots 

(représentant approximativement 400 critiques, essentiellement de romans, mais aussi de 

Dominique Legallois & Stéphane Ferrari 

« Vers une grammaire de l’évaluation des objets culturels » 

Schedae, 

2006, prépublication n°8, (fascicule n°1, p. 57-68). 

57

58 

BD, de poésie et d’essais) constituent un objet d’observation et d’analyse précieux et complexe 

pour un travail d’identification des formes linguistiques destinées à l’expression de 

l’évaluation dans les discours. Évaluation est ici entendu dans une acception large, d’ailleurs 

assez difficile à circonscrire : appréciation des qualités esthétiques, pratiques d’un objet, mais 

aussi réaction affective, comportementale, voire somatique face aux qualités des choses, 

des personnes et des événements, ou encore jugement d’ordre moral ou éthique. Notre 

objectif à terme, est l’élaboration d’une grammaire de l’évaluation des objets culturels (livres, 

films, théâtre, etc.) implémentable à des fins d’extraction automatique, pour l’analyse de 

comparaison entre textes : devant la complexité et la permanence du phénomène évaluatif, 

nous nous attendons à des mises en discours fortement différentes de son expression selon 

les objets évalués et les stratégies évaluatives. 

Notre approche est donc fondée sur l’usage discursif 1 , plutôt que sur la description lexicologique 

entreprise, par exemple, par certains travaux sur le lexique des sentiments (cf. le 

numéro 105 de Langue Française, ou Mathieu 2000) ; elle diffère également des analyses 

thématiques (Rastier 1995), fondée sur l’étude lexicométrique, en privilégiant les propriétés 

lexico-grammaticales et énonciatives d’expressions routinières. En effet, notre corpus comprend 

nombre de textes largement stéréotypés, dans lesquelles les expressions dédiées à 

l’évaluation sont souvent préconstruites, prédonnées : le langage évaluatif portant sur les 

livres est en partie formulaire. 

Nous reconnaissons à l’évaluation une portée considérable sur des champs linguistiques 

entiers : au niveau lexical 2 , un grand nombre de lexèmes, quelle que soit leur catégorie, sont 

par nature évaluatifs : tragédie, succès, splendide, échouer, réussir, heureusement, etc. ; au 

niveau des constructions, le système comparatif et superlatif constitue une expression grammaticalisée 

de l’évaluation ; au niveau énonciatif, la pragmatique linguistique inspirée par 

Ducrot et Anscombre place la fonction évaluative au cœur même du dispositif argumentatif : 

c’est un bon livre ne constitue pas d’emblée un énoncé informatif, c’est d’abord un énoncé 

argumentatif fondé sur une évaluation 3 ; les marqueurs enclosifs 4 (une espèce de/un vrai/ 

un véritable N) sont employés dans des énoncés évaluatifs ; enfin, un certain type de métaphores 

nominales, parmi les plus répandues et acceptant les modifications enclosives, est 

essentiellement évaluatif (Sophie est une vipère). Mais ces champs ne seront pas étudiés 

ici pour eux-mêmes ; notre point de départ reste les discours avérés et leur complexité, et 

l’évaluation sera considérée comme phénomène textuel plutôt que phénomène inhérent à 

la langue elle-même. 

Nous présentons dans ce qui suit, les caractéristiques des niveaux fonctionnels dégagés 

par l’observation et l’étude du corpus ; nous donnons ensuite, avant d’exposer la méthode 

d’implémentation employée, l’exemple d’une analyse d’un texte qui illustre l‘enchevêtrement 

des niveaux à la base de notre grammaire. 

Analyse du corpus 

À l’issu de l’examen de notre corpus, nous avons considéré trois niveaux fonctionnels 

complémentaires et interactifs pour la constitution de la grammaire de l’évaluation : 

1. L’analyse linguistique de l’acte d’évaluation a fait récemment l’objet d’un certain nombre d’études 

« corpus driven approach » dans le domaine anglo-saxon : par exemple, l’ouvrage collectif sous la responsabilité 

de S. Hunston et G. Thompson (2000) dont les contributions montrent des traitements sémantiques 

et grammaticaux possibles de l’évaluation ; et, de façon encore plus substantielle, le travail de J. Martin et 

P. White (2005) sur la notion d’appraisal, dans la perspective de la grammaire fonctionnelle systémique. 

2. C. Kerbrat-Orecchioni 1997. 

3. On pourra lire O. Galatanu (2002) pour l’analyse des valeurs intrinsèques au lexique et leurs effets en discours. 

4. Cf. Legallois 2002. 


– Niveau des cadres expérientiels ; 

– Niveau des séquences lexico-grammaticales ; 

– Niveau des configurations énonciatives. 

Ces trois niveaux correspondent aux méta-fonctions que distinguent Halliday (1996) : 

fonction idéationnelle (pour nous, cadre expérientiel), fonction textuelle (niveau lexicogrammatical), 

fonction interpersonnelle (niveau énonciatif). 

I Les cadres expérientiels 

Le premier niveau identifie les aspects de l’objet évalué. Une analyse de l’évaluation d’un 

livre est vite confrontée à un problème inhérent à la constitution de l’objet même : on peut 

évaluer différents aspects ou qualia ; par exemple, le contenu, le style, la satisfaction ou la 

déception par rapport à des attentes, etc. L’évaluation peut porter également sur l’auteur du 

livre, sur l’histoire. Autrement dit, la forme de l’expression d’un jugement est naturellement 

configurée par rapport à ce que nous avons nommé des cadres expérientiels. Quelques exemples 

de cadres : 

L’emprise du livre sur le lecteur : On ne peut plus le lâcher, jusqu’à la fin/Comme beaucoup 

d’entre vous, je suis tombée sous le charme de la douceur du récit de Philip Roth. 

Les attentes satisfaites ou non du lecteur : Je reste de loin sur ma faim/Je m’attendais à mieux 

de K. DICK/J’ai été surprise par le style de ce livre/Vivement la suite ! 

L’effort investi pour sa lecture : Lisez le livre, il en vaut la peine/Le livre se lit facilement et rapidement/Il 

faut s’accrocher au début 

Son impact affectif sur le lecteur : On pleure un peu, on rit, on s’émeut !… 

Sa valeur axiologique : L’Aliéniste est avant tout un EXCELLENT roman. 

La prescription ou la proscription du livre (recommander un livre est une façon indirecte mais 

implacable de l’évaluer positivement) : A conseiller pour ceux qui aiment les thrillers. 

Ces cadres, même s’ils sont identifiés à partir d’un corpus précis, sont suffisamment 

généraux pour être appliqués à l’évaluation d’autres objets culturels ; en effet, l’observation 

d’avis portant sur des CD musicaux, des jeux vidéos ou des films permet de constater la 

présence de cadres identiques. Ce phénomène s’explique ainsi : l’évaluation porte rarement 

sur les propriétés intrinsèques de l’œuvre, mais sur les rapports que les sujets ont avec cette 

œuvre. De ce fait, les aspect jugés par la critique livresque sont facilement transposables à 

d’autres objets : efforts, impacts affectifs, prescriptions, attentes, mais aussi style, effets hédoniques 

(par ex. passer un agréable moment : Voici le plus beau recueil de lettres au collège 

de pataphysique. Un réel moment de bonheur de découvrir ce monde inexploré (à propos 

de Je voudrais pas crever de B. Vian)), etc. sont autant de cadres communs à l’expérience 

des objets culturels. 

II Séquences lexico-grammaticales 

Le second niveau est celui des séquences lexico-grammaticales ; c’est ainsi que nous 

proposons une articulation du phénomène phraséologique à l’analyse de l’évaluation. À 

condition de ne pas voir dans la phraséologie un ensemble de formes radicalement figées, 

il est possible de concevoir des séquences lexico-grammaticales récurrentes, bien que 

polymorphes, dédiées ici à l’évaluation. Autrement dit, notre tâche a été de recenser les 

expressions « préfabriquées », de la simple collocation (par ex. conseiller vivement) aux 

configurations plus larges. Par exemple : 

on n’a jamais aussi bien rendu l’amour réciproque/Aucun livre de ma connaissance n’a jamais 

si bien démontré […] les dégâts […] que peuvent occasionner la vie 


59

60 

ce « pattern » [ne jamais (aus)si bien + verbe de représentation/explication] est ici considéré 

comme une construction relativement ouverte, mais constituant malgré tout une unité 

prédonnée, directement disponible dans la compétence linguistique du locuteur. Les séquences 

lexico-grammaticales ont en partie été repérées grâce au logiciel « Collocates 5 » qui permet 

d’identifier les n-grams du corpus ; nous procédons à une vérification afin de nous assurer 

que les répétitions collocatives sont porteuses d’évaluation ou en sont des indices. 

Parmi ces séquences, certaines sont entièrement dédiées à un cadre expérientiel, d’autres 

sont beaucoup plus indépendantes et peuvent s’actualiser dans plusieurs cadres. Nous donnons 

quelques exemples parmi les dizaines répertoriées (à noter que l’évalué renvoie à l’objet 

évalué, l’évaluatème à la valeur accordée à l’évalué, le siège à la personne qui « expérimente » 

l’évalué – le siège peut être ou non l’évaluateur) : 

[à lire absolument] : cette séquence figée, employées 16 fois dans le corpus, s’actualise dans 

le cadre « prescription », comme la collocation [[Évaluateur [conseiller vivement] [Évalué]] 

[siège] [ne pas pouvoir lâcher avant/jusque] : cette séquence (11 occurrences) s’actualise dans 

le cadre « emprise », et connaît plusieurs réalisations : 

Pas question de lâcher le bouquin avant la fin. 

Je n’ai pas pu le lâcher avant de l’avoir terminé. 

On ne peut plus le lâcher, jusqu’à la fin. 

On ne parvient à lâcher le roman qu’à la dernière page. 

(enfin/voilà/voici) un [évalué] qui [évaluatème] : il s’agit d’une construction à phrase averbale 

particulièrement récurrente dans le corpus (22 fois). Cette séquence s’actualise dans plusieurs 

cadres possibles : un livre qui donne à rêver (cadre « hédonique ») ; un livre qui fait réfléchir (cadre 

« valeur intellectuelle ») ; un roman qui tiraille le lecteur entre notamment l’humour, l’amour, les 

rejets, les situations grotesques (cadre « emprise »). 

Det ([enclosure]) [évaluatème]: cette séquence s’actualise principalement dans le cadre «valeur»: 

Dix petits nègres est un vrai petit bijou ; un vrai petit Jules Vernes ou Barjavel ; la présence de 

l’enclosure ici, est un indice imparable de la fonction évaluative du terme subséquent. Ainsi, 

Jules Vernes/Barjavel sont-ils étiquetés évaluatèmes. 

Nous recensons ainsi près d’une trentaine de séquences évaluatives ou introductrices 

d’évaluation dont les rôles thématiques sont étiquetées non pas à partir de catégories générales 

(par ex. agent, bénéficiaire, etc.), mais à partir de rôle propres à l’expression de l’évaluation. 

Ces séquences sont de dimensions et de natures hétérogènes : du syntagme récurrent 

à la phrase figée. Là encore, une projection sur d’autres textes (projection qui n’est pas encore 

systématisée à l’heure actuelle) permet de voir des constructions fort apparentées sémantiquement 

et grammaticalement ; par exemple, au sujet de l’audition du requiem de Mozart : 

Cette interprétation du requiem k626 est un véritable feu d’artifice. J’en suis resté scotché sur 

mon fauteuil. Bravo ! (amazon.fr) 

Ou à propos du jeu vidéo Morrowind : 

Ce jeu est tout simplement magnifique : si vous avez une x-box, Morrowind est incontournable. 

Les graphismes sont superbes et l’ambiance vous immerge totalement dans l’univers. Les quêtes 

sont très variées et le joueur ne s’ennuie jamais : il y a toujours quelque chose à faire !!! Je suis 

resté scotché sur ce jeu pendant toute une semaine et je suis même pas au 1/4 du jeu ! Je le 

recommande même à ceux qui ne sont pas spécialement fan du genre : vous ne serez pas déçu ! 

(amazon.fr) 

Ainsi, dans la perspective d’une implémentation rendant compte de l’évaluation de tout 

objet culturel, il est important d’assigner aux deux séquences ne pas pouvoir lâcher/rester 

5. Conçu par Michael Barlow. 


scotcher une catégorie subsumant les diverses réalisations. C’est par ce travail de généralisation 

que pourra être établie une systématicité valant pour l’ensemble des objets culturels. 

III Configurations énonciatives 

Le niveau énonciatif est fondamental pour une analyse générale du discours évaluatif de 

l’objet culturel 6 . Les évaluations, en tant qu’acte de discours, doivent être mesurées selon leur 

force illocutoire. C’est à ce niveau que s’articulent et se construisent les stratégies argumentatives 

: il s’agit, pour le locuteur, de se mettre en scène pour faire partager son avis : premier 

plan, engagement, retrait, prise en charge faible, etc. Cette mise en scène, dans notre corpus, 

est relativement normée dans la mesure où le genre est lui-même partiellement stéréotypé ; 

mais là encore, la formalisation du niveau énonciatif devra permettre toute projection vers 

d’autres objets afin d’élaborer des points de comparaisons et de différences. 

Ainsi, par exemple : 

Les marqueurs restreignant au seul énonciateur la validation de l’énoncé : À mon goût, à mon 

avis, selon moi. 

Les marqueurs délimitant le public intéressé : une mine d’informations pour tous ceux qui s’intéressent 

à la psychologie en général. 

Les verbes d’attitude propositionnelle (impliquant la modalité épistémique) : Je crois que Philip 

Roth a atteint le sommet avec Opération Shylock. 

Les tournures concessives : Ce bouquin est certes intéressant au début, mais il devient très vite 

rébarbatif. 

Les adverbes intensifs (marquant explicitement le degré d’engagement de l’énonciateur): Vraiment, 

véritablement, absolument, impérativement, totalement, etc. 

Pronoms personnels (l’évaluateur peut s’effacer devant l’expérimentateur, attribuer le jugement 

à une instance collective, projeter une évaluation du destinataire, etc.) : Plus vous avancerez 

dans la lecture, plus vous serez dégoûtés par ce simili d’érudition prétentieux et bourré 

de fautes ! 

Les interjections : Vraiment, beurk… 

Ce niveau est le plus complexe des trois à formaliser dans la mesure où les formes sont 

extrêmement hétérogènes, de dimensions parfois larges, dépassant le simple énoncé. La 

«stratégie» consiste en fait à s’appuyer le plus possible sur les séquences lexico-grammaticales, 

qui constituent à notre avis, le niveau intermédiaire entre niveau des cadres expérientiels 

et niveau des configurations énonciatives. Nous voudrions illustrer ce phénomène par un 

exemple. 

IV Exemple d’un traitement d’un avis 

L’exemple tiré du corpus est le suivant (à propos de Le sang du temps de Maxime 

Chattam) : 

je suis déçu par ce livre, on regrette la fameuse trilogie. Malgré cela on se laisse quand même 

entraîner dans notre lecture mais pas jusqu’à l’envoûtement. 

On voit ici les divers niveaux enchevêtrés dont nous donnons les éléments dans un 

tableau pour faciliter la lecture : 

6. Cf. Charaudeau 1988. 


61

62 

FORMES CADRES 

EXPERIENTIELS 

L’illustration par ce simple exemple montre la difficulté mais aussi l’intérêt de la tâche. 

Dans le même texte, figurent plusieurs cadres expérientiels ; chaque cadre est cependant 

marqué par des indices lexicaux et grammaticaux propres qui suffisent à identifier la nature du 

cadre. De même, les valeurs énonciatives accordées aux pronoms sont inférées d’une part, 

de la forme même du pronom (je – on), et, d’autre part, de la combinaison entre le pronom et 

le verbe, voire de la valeur intrinsèque de l’adjectif (fameux, dans cet emploi, est un adjectif 

médiatif indicateur d’une jugement collectif). On notera que la notion d’évaluateur collectif 

ne renvoie pas à une instance énonciative, ni à une source évaluative effective : il s’agit d’une 

construction – d’une stratégie – de la part du locuteur afin de minimiser son engagement personnel, 

mais aussi de l’inscrire dans une participation collective certes factice mais efficiente. 

L’étiquetage des séquences lexico-grammaticales s’appuie sur les données d’un analyseur 

syntaxique (Tree Tagger) ; les données de Tree Tagger doivent pourtant être reconfigurée 

dans un format plus « sémantique » dans lequel figurent, par exemple, les rôles thématiques 

propres à l’évaluation, ou encore la fonction de connecteur à portée énonciative. 

Ni le tableau, ni l’analyse implémentée ne donnent directement l’interprétation globale 

de la nature évaluative ; plutôt, ils fournissent les indices discursifs généralisés nécessaires à 

l’interprétation « humaine », et conduisent à une factorisation des données utiles au balisage 

de parcours interprétatifs. 

Expérimentation informatique 

Afin d’expérimenter le modèle sur corpus, nous utilisons LinguaStream 7 , une plateforme 

de TAL qui permet notamment l’utilisation dans une même chaîne de traitements de 

différents formalismes (Widlöcher & Bilhaut 2005, Enjalbert 2005, chap. 10). L’objectif est 

pour nous de réaliser un outil informatique facilitant l’observation des régularités lexicogrammaticales 

précédentes, tant sur le corpus d’étude original que sur de nouvelles données. 

Nous visons à plus long terme la possibilité d’apprécier de manière semi-automatisée 

la variation de l’expression de l’évaluation selon les textes. 

Une expérimentation comme celle que nous proposons ici suppose de reformuler 

l’ensemble de nos hypothèses précédentes, à caractère plutôt descriptif, en un modèle opératoire, 

à caractère prescriptif, comme montré par Ferrari et al. (2005). Les formalismes mis 


SÉQUENCES LEXICO- 

GRAMMATICALES 

je suis déçu par ce livre Attente (déçue) [Évalué] [décevoir] 

[Évaluateur] 

on regrette la fameuse 

trilogie 

Attente (déçue) [Évaluateur] [regretter] 

[Évaluer] 

la fameuse trilogie Renommée [adj. Évaluatème] 

[Évalué] 

on se laisse quand 

même entraîner dans 

notre lecture 

Emprise [Siège de l’expérience] 

[se laisser entraîner/ 

envoûter/prendre] 

[dans/par Évalué] 

Malgré Connecteur 

argumentatif 

quand même Connecteur 

argumentatif 

mais pas jusqu’à 

l’envoûtement 

7. http://www.linguastream.org/ 

CONFIGURATIONS 

ÉNONCIATIVES 

Je = Évaluateur 

Énonciateur 

On = Évaluateur 

collectif 

Évaluateur collectif 

On = Évaluateur 

collectif 

concession 

concession 

Emprise [jusqu’à Évaluatème] Force de l’évaluation

à disposition dans LinguaStream laissent une grande liberté dans l’expression du modèle 

opératoire, qui peut être mis en œuvre tant à l’aide d’automates de type expressions régulières 

que de grammaires de type Prolog. Nous avons tiré parti de cette offre, certains types 

d’analyse étant mieux adaptés à la mise en œuvre des patrons lexico-grammaticaux, d’autres 

à la « remontée » d’informations sémantiques depuis un lexique jusqu’à des éléments textuels. 

Cependant, ni les formalismes exploités ni les composants développés ne sont le reflet direct 

de l’analyse précédente, car les trois niveaux de la grammaire proposée sont en réalité dispersés 

dans de multiples composants, réalisés à l’aide de formalismes différents, d’une part, 

et certains cohabitent quelquefois au sein d’un même composant, d’autre part. Enfin, le 

corpus d’origine a été préalablement transcodé en XML, selon les méthodes préconisées 

par Habert et al. (1998). Il contient désormais des informations sur les éléments logiques 

des avis, selon leur disponibilité : titre, date, lecteur diffusant l’avis, titre et auteur du livre 

visé… L’extrait de la figure 1 permet d’apprécier ces différents éléments. 

Figure 1 : extrait du corpus en version structurée XML. (L’affichage est réalisé à l’aide d’une 

feuille de style CSS qui différencie visuellement les éléments de structure XML. Les avis y 

sont regroupés par œuvre, tels que collectés.) 

Chaîne de traitements pour observer l’expression de l’évaluation 

Parmi les trois niveaux de la grammaire précédente, nous proposons une première mise 

en œuvre particulièrement adaptée pour les niveaux I et II, c’est-à-dire le niveau expérientiel 

et le niveau lexico-grammatical. Nous donnons quelques pistes pour permettre une prise en 

considération du niveau III de l’énonciation. 

La chaîne LinguaStream de la figure 2 montre les différents composants utilisés pour 

l’expérimentation. Chaque boîte y représente un composant ou une ressource, les flèches 

entre les boîtes représentent la transmission d’information entre composants. La première 

colonne de composants consiste en quelque sorte en une préparation du corpus aux analyses 

suivantes. La première boîte représente une ressource : la version XML du corpus (CCL pour 

corpus de Critiques de Livres). La boîte suivante, CCL XML Marker, est un composant Lingua- 

Stream permettant de sélectionner les éléments XML pertinents d’une ressource structurée 

pour les analyses ultérieures, et, le cas échéant, de les typer ; dans notre cas, nous concentrons 

les analyses sur le titre et le corps des avis, les informations concernant par exemple les 

dates et les auteurs des avis seront ignorées des analyses menées ultérieurement. Les deux 

boîtes suivantes représentent une segmentation en mots (Tokenizer) et la catégorisation 

grammaticale à l’aide du tree tagger (Schmid 1994). À l’issue de cette première colonne de 

composants, la chaîne d’analyse se poursuit avec la transmission de deux informations en 

parallèles : une version du document d’origine enrichi au fur et à mesure d’ancres permettant 

d’y repérer les différents éléments analysés, et les résultats des analyses, transmis en parallèle 

et codés dans un fichier indépendant lors d’une sauvegarde. Cette première colonne 

de composants influence la qualité des résultats des composants dédiés à la mise en œuvre 

de notre modèle, dans la mesure où ils exploitent une partie des informations qui y ont été 

produites. 


63

64 

Figure 2 : chaîne de composants d’analyse dans LinguaStream. 

La deuxième colonne de composants est celle qui représente le plus la partie des analyses 

qui concerne notre modèle. La boîte RE – Idiom Regexp exploitent des automates pour 

une amorce de l’analyse des formes lexico-grammaticales, fondée sur la présence de certains 

mots dans un certain ordre, avec vérification de la catégorie grammaticale si besoin. 

Ainsi, la structure Aucune comparaison avec [comparant] s’y traduit par la règle déclarative 

suivante : 

privatif () %[0-2] {lemma : comparaison} 

/sem {synt : SPpost_avec, sem : aucunecomp, eval : idiom} 

et une règle intitulée « privatif » exploitée par la précédente et disponible pour d’autres : 

(« pas » « de » | « plus » « de » | « guère » « de » | {lemma : aucun} | {lemma : nul}) 

La première règle permet de marquer comme élément idiom un mot dont le lemme 

est « comparaison » et qui est précédé d’un privatif, un ou deux mots supplémentaires pouvant 

s’intercaler. L’information qui est associée à l’élément découvert est une structure de trait 

renseignant sur la nature de l’élément repéré et/ou précisant quelle analyse mener ensuite 

pour compléter le patron : eval : idiom permet de caractériser ici un type de résultat de l’analyse 

de l’évaluation, sem : aucunecomp précise quel patron a été employé, synt : SPpost_avec 

sera utilisé par un composant ultérieur pour associer le syntagme prépositionnel suivant 

l’expression repérée. La deuxième règle a pour objectif de généraliser le patron initialement 

observé, afin de permettre une certaine variabilité lexicale lors de la confrontation à de nouveaux 

corpus. 

La deuxième boîte SN DCG Marker représente un composant d’analyse de syntagmes 

nominaux. Il s’agit d’une grammaire Prolog 8 dans laquelle nous avons injecté une partie de 

l’information lexicale liée à notre modèle. Les clauses suivantes illustrent la notion pour les 

noms présents dans notre lexique : 

nom (lem : L..E) -- > ls_lookupToken (_,tag : nom..lemma : L,_), ls_lexicon (eval, E, lemma). 

nom (lem : L) -- > ls_token (_,tag : nom..lemma : L). 

La première clause, appliquée en priorité lors de l’appel du prédicat nom (), permet de 

récupérer le lemme issu des premières analyses (tree tagger), sans consommer le mot analysé, 

8. Composant réalisé en collaboration avec T. Charnois, GREYC – CNRS UMR 6 072. Travail en cours. Plus 

précisément, les clauses exploitent le formalisme GULP, proposé par Covington (1994), pour permettre la 

manipulation en Prolog des structures de traits. 


et de combiner à cette information celle présente dans un lexique de formes lemmatisées. 

Si le mot analysé n’est pas dans le lexique, la deuxième clause s’appliquera alors, se contentant 

de récupérer le lemme du nom. 

Dans cette phase, toute information lexico-sémantique susceptible de concerner l’expression 

de l’évaluation est exploitée. Pour le niveau I, on retrouve par exemple le cadre 

expérientiel de la valeur axiologique, avec des adjectifs comme bon, mauvais, superbe, 

extraordinaire… Pour le niveau III, on retrouve des informations sur les adverbes intensifs, les 

interjections… Pour le niveau II, l’analyse effectue directement le repérage des structures préconstruites 

comme Det ([enclosure]) vrai/véritable/pur [évaluatème]. Il s’agit à cette étape 

de l’analyse de fournir aux modules suivants toute information lexicalisée susceptible d’être 

exploitée pour un niveau ou pour un autre de la grammaire. 

Les deux dernières boîtes de la deuxième colonne de composants représentent un 

complément d’analyse lexicale permettant de compléter l’information précédente notamment 

pour la catégorie verbale, qui n’est pas actuellement exploitée par le module d’analyse 

des syntagmes. Ce découpage temporaire des premiers modules reste quelque peu artificiel, 

il est destiné à terme à être remplacé par l’utilisation d’un analyseur syntaxique robuste 

et d’une analyse lexicale unique 

L’exploitation de tous les résultats précédents se fait par les composants représentés par 

les deux premières boîtes de la troisième colonne, qui consistent en un filtrage des informations 

précédemment associées aux syntagmes pour ne conserver que celles en rapport avec 

notre étude. En effet, sur le corpus de critiques de livres, conserver l’ensemble des informations 

de cette analyse conduit à un fichier de 30 Mo pour l’affichage dans un navigateur 

(présence de nombreuses divisions HTML cachées contenant les informations associées aux 

syntagmes). Mais ces derniers composants dédiés ont pour objectif essentiel de limiter la 

taille du fichier destiné à l’affichage ; rien n’empêche de stocker par ailleurs la totalité des 

informations pour une autre exploitation. Les autres composants représentés dans la troisième 

et la dernière colonne consiste en une préparation à l’affichage, conduisant aux exemples 

présentés dans la section suivante. 

Exemples de résultats 

Les multiples analyses précédentes permettent d’associer et de combiner différentes 

informations à différentes unités textuelles. Le résultat consiste la plupart du temps en l’association 

d’une structure de traits comme celles de la figure 3 à une unité textuelle particulière. 

Figure 3 : 2 exemples de structures de traits et tolérance à l’agrammaticalité. 

Dans ces exemple, le groupe nominal « un vrai petit bijou » est repéré comme pertinent 

pour notre analyse, c’est-à-dire exprimant l’évaluation ou en rapport direct avec un autre 


65

66 

élément l’exprimant. En consultant la structure de traits associés, on remarque la présence 

d’un adjectif marquant une enclosure, issu du niveau II de notre grammaire. Les analyses 

menées permettent de repérer aussi cette structure lorsque l’accord est incorrect, comme 

dans le deuxième extrait de la figure 3, « une vrai perle ». En effet, les règles Prolog d’analyse 

locale n’exploitent que la catégorie grammaticale principale, sans vérifier ni tenir compte 

de l’accord en genre et en nombre. Le filtrage des informations permet d’obtenir des résultats 

comme celui de la figure 4, où un des verbes associé au cadre expérientiel de l’emprise 

est suivi de groupes prépositionnels pour lesquels l’information syntaxico-sémantique est 

conservée. 

Les résultats obtenus à l’heure actuelle permettent essentiellement de valider les motifs 

initialement proposés et d’envisager leur exploitation sur un autre corpus. Les structures 

de traits qui sont construites à ce stade d’avancement de nos travaux et la nature des éléments 

sur lesquels elles portent n’ont pas de fait un caractère définitif. Il reste notamment 

à mener une réflexion sur le type d’information que nous désirons y faire figurer, cela en 

rapport avec un éventuel cadre applicatif particulier. Dans leur état actuel, il est toutefois 

déjà possible de remonter par exemple sur des unités telles la phrase ou des éléments de 

structure logique (paragraphe, section et avis dans ce corpus) une information quantifiée 

indiquant combien d’éléments de chaque niveau de notre grammaire ont été employés au 

sein de telles unités, ou encore quels cadres expérientiels. 

Conclusion générale et perspectives 

Nous avons proposé une grammaire locale de l’évaluation s’articulant sur trois niveaux : 

expérientiel, lexico-grammatical et énonciatif. Une première expérimentation a montré la 

faisabilité de la mise en œuvre pour les deux premiers niveaux de cette grammaire. Cette 

expérimentation exploite une chaîne de traitements fondés sur des formalismes différents ; 

cette chaîne utilise de multiples composants linguistiques déjà développés par ailleurs et 

pour d’autres besoins. Le dernier niveau, celui de l’énonciation, présente cependant un 

degré de difficulté supérieur. Il nécessite selon nous la manipulation d’unités discursives 

diverses pour lesquels les formalismes actuellement exploités (automates, grammaire Prolog) 

ne sont pas les mieux adaptés. Aussi, nous envisageons un nouveau composant consacré 

à ce niveau, qui permette l’expression de contraintes sur des unités variées, sans tenir 

compte nécessairement de l’ordre entre ces unités ni de l’ordre dans leur traitement, en 

s’appuyant sur un formalisme tel celui proposé par Widlöcher (2006). 

Nous visons une implémentation possédant plusieurs champs d’applications possibles. 

Ainsi, nous voudrions examiner les éléments généraux communs à l’évaluation 

d’objets culturels différents, afin d’extraire les éléments constitutifs du genre. Les différences 

spécifiques de chaque objet devront bien sûr être théorisées (par exemple, une critique 

cinéma peut porter sur le jeu des acteurs, aspect qui n’a pas sa contrepartie dans la 


Figure 4 : filtrage pour affichage.

critique livresque). Une observation des différences de modalités évaluatives selon les genres 

des livres devra être menée (intuitivement, une critique d’un roman paraît différente d’une 

critique d’un essai ou d’une BD). 

La projection du système pourra permettre également de mesurer sur corpus proximités 

et différences entre critiques « amateurs » et critiques professionnelles (par exemple, au 

niveau des cadres expérientiels) dans l’espoir d’analyser les modes d’institutionnalisation 

de la critique. D’autres types de textes devront également être pris en compte ; nous pensons 

à la publicité des objets culturels (encart publicitaire pour tel livre dans tel quotidien) : on 

perçoit des liens évidents entre le langage formulaire des internautes et ceux des publicitaires, 

par exemple dans la construction averbale très récurrente : un livre qui + évaluatème. 

Enfin, l’implémentation d’une grammaire de l’évaluation peut apporter un outil appréciable 

pour procéder à une comparaison entre types de textes différents, mais qui partagent 

tous la mise en discours des valeurs individuelles et collectives propres à une société : discours 

épidictiques 9 , politiques et idéologiques. Construire en discours l’évaluation, c’est toujours 

construire sa propre subjectivité (et son ethos) pour l’orienter dans le champ des valeurs 

sociales. 

Bibliographie 

CHARAUDEAU P. (1988), « La critique cinématographique : faire voir et faire parler », in La presse : produit, 

production, réception, Didier érudition (Langages Discours et Sociétés), p. 47-70. 

COVINGTON M. A. (1994), GULP 3.1 : An Extension of Prolog for Unification-Based Grammar. Research 

Report AI – 1994 – 06, The University of Georgia, Artificial Intelligence Center, Athens, Georgia, USA. 

DOMINICY M. & FREDERIC M. (éds.) (2001), La mise en scène des valeurs : la rhétorique de l’éloge et du 

blâme, Lausanne, Delachaux et Niestlé. 

ENJALBERT P. (dir.) (2005), Sémantique et traitement automatique du langage naturel, Hermès Sciences, 

Traité IC2. 

FERRARI S., BILHAUT F., WIDLÖCHER A. & LAIGNELET M. (2005), « Une plate-forme logicielle et une démarche 

pour la validation de ressources linguistiques sur corpus: application à l’évaluation de la détection automatique 

de cadres temporels », in Actes des 4es Journées de la Linguistique de Corpus, G. WILLIAMS 

(éd.), à paraître aux Presses Universitaires de Rennes. 

GALATANU O. (2002), « Le concept de modalité : les valeurs dans la langue et dans le discours », in Les 

valeurs: séminaire Le lien social, Nantes, 11 et 12 juin 2001/organisé par le CALD-GRASP; coord. scientifique 

et présentation Olga Galatanu, Maison des Sciences de l’Homme Ange Guépin. 

GROSS M. (1995), «Une grammaire locale de l’expression des sentiments», Langue Française, 105, p. 70-87. 

HABERT B., FABRE C. & ISSAC F. (1998), De l’écrit au numérique : constituer, documenter, normaliser un 

corpus électronique, Paris, InterEditions. 

HALLIDAY M. A. K. (1996), An introduction to functional grammar, Sydney, Arnold. 

HUNSTON S. & THOMPSON G. (éds) (2000), Evaluation in Text. Authorial Stance and the Construction of 

Discourse, Oxford, Oxford University Press. 

KERBRAT-ORECCHIONI C. (1997), L’énonciation : de la subjectivité dans le langage, Paris, A. Colin. 

LEGALLOIS D. (2002), « Incidence énonciative des adjectifs vrai et véritable en antéposition nominale », 

Langue Française, 136. 

MARTIN J. & WHITE P. (2005), The Language of Evaluation : Appraisal in English, Palgrave Macmillan 

Hardcover. 

MATHIEU Y.Y. (2000), Les verbes de sentiment : de l’analyse linguistique au traitement automatique, 

Paris, CNRS Éditions. 

RASTIER F. (dir.) (1995), L’analyse thématique des données textuelles : l’exemple des sentiments, Paris, 

Didier érudition. 

9. Dominicy & Frédéric 2001. 


67

68 

SCHMID H. (1994), « Probabilistic Part-of-Speech Tagging Using Decision Trees », International Conference 

on New Methods in Language Processing, Manchester, UK. 

WIDLÖCHER A. (2006), « Analyse par contraintes de l’organisation du discours », in Actes de la Conférence 

Traitement Automatique du Langage Naturel (TALN 2006), Louvain, Presses universitaires de Louvain, 

Belgique, p. 367-376. 

WIDLÖCHER A. & BILHAUT F. (2005), « La plate-forme LinguaStream : un outil d’exploration linguistique 

sur corpus », in Actes de la 12e Conférence Traitement Automatique du Langage Naturel (TALN), 

M. Jardino (éd.), ATALA LIMSI, Dourdan, France, p. 517-522. 


Schedae, 2006 


Combinaison de descripteurs linguistiques 

et de structure pour la fouille 

d’articles biomédicaux 

Nadia Zerida, Nadine Lucas, Bruno Crémilleux 


nadia.zerida@info.unicaen.fr, nadine.lucas@info.unicaen.fr, bruno.cremilleux@info.unicaen.fr 

Résumé : 

Ce travail propose une combinaison originale de descripteurs linguistiques et de descripteurs de 

structure avec une méthode de fouille de données. L’objectif est de montrer l’apport de ces descripteurs 

prenant en compte la structure des documents pour caractériser trois types de textes 

biomédicaux : articles de recherche, articles de synthèse et articles de clinique. La description du 

texte est faite à différents niveaux, du global au local. Nous montrons que l’utilisation du plan et 

de différents contextes permet de mener à bien la tâche de caractérisation de ces trois classes. 

Nous donnons une évaluation quantitative de la caractérisation grâce aux capacités des techniques 

de fouille de données basées sur les motifs émergents. 

Mots-clés : caractérisation, descripteurs linguistiques, descripteurs de plan, fouille de 

données. 

Abstract : 

This work proposes an original combination of linguistic and structural descriptors with one of data 

mining methods. The objective is to show the effectiveness of descriptors taking into account the 

structure of documents to characterise three kinds of biomedical texts (reviews, research and clinical 

papers). The description of the text is made at various levels, from the global level to the local 

one. The use of the plan and various contexts makes it possible to characterise the three classes. 

The characterisation of the textual resources is carried out quantitatively by using the discriminating 

capacity of techniques of data mining based on emerging patterns. 

Keywords : characterisation, linguistic descriptors, plan descriptors, data mining. 


La confrontation à la masse des documents électroniques textuels biomédicaux est un 

grand défi. Ce travail exploite d’une part, un ensemble de descripteurs linguistiques et de 

structure, et d’autre part, une méthode efficace de fouille de données pour la caractérisation. 

Il est réalisé dans le cadre du projet Bases de données INductives et données GénOmiques, 

Nadia Zerida, Nadine Lucas, Bruno Crémilleux 

« Combinaison de descripteurs linguistiques et de structure pour la fouille d’articles biomédicaux » 


69

70 

Bingo 1 qui a entre autres pour but d’extraire des connaissances biomédicales à partir de ressources 

textuelles pour mieux exploiter les résultats issus de l’extraction de connaissances 

de données d’expression de gènes. L’objectif à moyen terme de notre travail est de cibler 

le contenu des textes biomédicaux pour pouvoir faire émerger de nouvelles connaissances. 

Dans cet article, nous présentons les résultats obtenus lors du processus de fouille de textes 

mis en place. 

Dans ce travail, nous considérons les propriétés linguistiques et structurelles des documents 

comme des critères de base. Un savoir de nature linguistique est exploité, à partir de 

travaux théoriques tels que (Parsons 1990). On en a dérivé une grammaire du texte, dans une 

approche comparable à celle de Kando (1999) ou Karlgren (2005). Nous avons opté pour 

l’exploitation de l’article en entier pour pouvoir gérer des espaces d’observation différents, 

tels que le corps de texte, les parties, les sections, les paragraphes, les phrases et les virgulots 

2 , ces unités servent ensuite de fenêtres d’observation multi-échelle. Il ne s’agit pas d’une 

simple utilisation de mots clés ou d’une analyse distributionnelle des mots, mais d’une analyse 

qui met en jeu la notion de contexte à travers la hiérarchie de mise en forme matérielle. 

C’est en ce sens que nous cherchons à donner à nos descripteurs une valeur sémantique. 

La pertinence des associations entre ces descripteurs est automatiquement extraite par une 

technique performante de fouille de données, les motifs émergents (Dong & Li 1999). Nous 

montrons que la combinaison d’associations extraites réussit à caractériser les trois principaux 

types d’articles biomédicaux (synthèse, recherche et clinique). Ces types d’articles sont 

les plus utilisés. Les articles intéressant prioritairement les biologistes dans le projet sont les 

synthèses. Les expérimentations fournissent une quantification des résultats et montre la 

pertinence de l’approche adoptée. 

Cet article est organisé de la façon suivante. La section 2 présente les différentes 

familles de descripteurs, les grandes lignes de notre approche sont décrites à la section 3 

et la méthode de fouille de données utilisée à la section 4. Finalement, les expériences à 

la section 5 montrent l’efficacité de cette approche. 

Les différentes familles de descripteurs 

La fouille de textes de spécialité est un domaine de recherche qui a récemment gagné 

l’attention de nombreux chercheurs car il fait appel à des techniques capables de manipuler 

efficacement un très grand volume de données textuelles. Mais la plupart des travaux 

ont pour trait commun l’exploitation des titres et des résumés proposés par PubMed 3 et de 

considérer que le texte n’est qu’un simple sac de mots sur lequel on peut appliquer l’une 

des techniques de fouille de données classiques faisant référence à des ressources thésaurales 

telles que MeSH 4 (Hersh et al. 2003, Dayanik et al. 2003). Pour pouvoir extraire de la 

nouvelle connaissance, la majorité de ces travaux se sont orientés plutôt vers l’évaluation 

des techniques de représentation du mot dans le document (Wilcox & Hripcsak 1995), ou 

l’étude de la variation des concepts (Ruch et al. 2003). Sinon, parmi le peu de travaux qui se 

sont intéressés naturellement à l’utilisation de la notion de structure et du contenu, quelques 

uns ont travaillé au niveau des propositions Mesh (Rosario & Hearst 2005), d’autres 

1. http://www.info.unicaen.fr/~bruno/bingo/ 

2. Espace ponctué par une virgule. 

3. http://ncbi.nih.gov/entrez/query.fcgi. 

4. Medical Subject Heading. 


sur l’exploitation de la location de l’information et la fréquence des mots dans les phrases 

des résumés (Blott 2003, Kayaalp et al. 2003), et plus rarement l’exploitation de l’article en 

entier enrichi par des connaissances linguistiques (Ruch et al. 2003). 

Dans ce travail, nous formulons l’hypothèse que les différentes catégories d’articles 

(recherche, synthèse, clinique) sont susceptibles d’avoir une certaine organisation de l’écrit et 

un contenu spécifiques. La construction des descripteurs de plan et de style vise à exploiter 

ces spécificités portant sur l’organisation textuelle de l’article. Dans cette section, nous commençons 

par présenter ces descripteurs. Puis, nous indiquons rapidement les descripteurs 

métriques et lexicaux. Ceux-ci nous seront utiles pour comparer l’apport des descripteurs de 

plan et de style par rapport à ces deux dernières familles, les descripteurs lexicaux correspondant 

à une approche classique. 

Les descripteurs au niveau global 

Un premier jeu de descripteurs concerne l’organisation textuelle de l’article, il s’agit des 

descripteurs de plan (cf. tableau 1). L’idée sous-jacente est que chaque article est constitué 

d’un ensemble de parties qui sont établies pour jouer chacune une fonction bien déterminée, 

mais elles sont aussi reliées logiquement entre elles. Cette relation, exprimée par le plan 

de l’article, permet de construire une structure logique de ce dernier. Cette constatation nous 

a conduit à préserver l’unité globale de l’article de façon à présenter une information structurée 

logiquement. Ainsi les intitulés des parties constituant le plan ont été utilisés comme 

descripteurs au niveau « article ». 

Abstract 


Materials & Methods 

Results 

Footnotes 

Les descripteurs stylistiques multi-échelle 

References Discussion 

Aknowledgments 

Conclusion 

Keywords 

Learn obj 

Tableau 1 : Exemples de descripteurs de plan. 

Les études linguistiques (voir par exemple Parsons 1990) sont à la base de cette 

deuxième famille de descripteurs. Plusieurs études se sont intéressées aux descripteurs de 

texte, la plupart de ces études se basent sur les mots (Ahmed et al. 2005), quelques recherches 

sur les styles et les relations ont été établies par Karlgren (2005). Ses expérimentations 

montrent que selon certains scénarios, une polarisation claire vers certains types ou genres 

de textes peut être trouvée. Partant de l’hypothèse que la variation dans le choix lexical 

reflète une variation intéressante dans la variation du style global, il a défini deux types de 

descripteurs statistiques. Le premier type comprend des statistiques au niveau du mot telles 

que le nombre de mots les plus longs, la longueur moyenne des mots, nombre de pronoms 

etc. Un deuxième type de descripteurs est établi au niveau de la phrase ; il s’agit entre autres 

de la longueur de la phrase, de la moyenne maximale de la profondeur d’un arbre syntaxique 

d’une phrase, du nombre de skips dans les phrases, d’un indicateur propositionnel tel 

que la moyenne de TextTiles 5 , le nombre de chaque type pronoms pour prédire le registre 6 

du texte, la présence ou absence des contractions (isn’t, does’nt), liste des adverbes pour 

renforcer l’assertion des propositions textuelles, la fréquence relative des verbes modaux 

(seem, appear) utilisés en début de texte. 

5. Nombre de segments compris comme subtopic, par Hearst 1997. 

6. Par exemple familier ou soutenu « formal », par Biber 1988. 


71

72 

À la différence de ces derniers, les descripteurs de style que nous proposons sont établis 

pour six niveaux mis en relation avec la mise en forme matérielle. Ils sont définis à travers 

des classes définies pour chaque niveau, et qui comprennent non seulement des mots mais 

aussi des traits discontinus (notion de portée des marqueurs discursifs). Notre hypothèse est 

que chaque type d’article comporte une variation stylistique propre à ce dernier, l’idée fondatrice 

de ces descripteurs et que l’information pertinente pour l’utilisateur peut se localiser 

dans plusieurs fenêtres d’observation. Cette famille de descripteurs s’appuie essentiellement 

sur deux notions de base qui sont respectivement : la notion de position et celle de l’héritage 

du contexte (Lucas et al. 2003). 

Niveau Descripteurs 

Temporel : Now, Present, Past, Future, Ever, Current, Often. Superpersonnel : we, 

us, I, our, Think, thought, believe, believed, suggest, suggested, that, to, is, are, 

as Mode : can, may, should, would 

Appel : Appels aux références bibliographiques ou aux figures Penser : think, 

thought, believ (e|ed), suggest, suggested Voix : is, was, were, are, ed 

NegationList : do not, no FuturList : will, would Passé : ed, had, were, might, 

could Aspect : do, has, ed Determinants : these, this, those, that, the, a, an 

Connecteurs adverbiaux : moreover, thus, therefore, indeed, in fact, ly Anaphore : 

this, these, those, that, the, thus Conjonctions : Because, if, whether, how, for this 

reason, although, though, as, as well as, as well, due to, however 

Conjonctions : why, because, if, how for this reason, although, though, as well, 

due to, however, while, when, which, where Evaluation_Comparaison : even, they, 

it is, one, most, some, all, a number, several, few, first, second, third, its, their, 

such, only, other, otherwise, same 

Prepositions : In, At, For, From, to, with, by, of, by contrast, among, within 

Adverbiaux : inside, outside, through, after, before, mean, while, despite, Indeed, 

in fact, in spite of Evaluation quantifiée : one, most, some, all, a number, several, 

few, first, second, third, fourth, fifth, it, they Négation : do not, no Determinants : 

this, that, the, a, an Coordination : and, but, also, or, instead, moreover 

Ponctuation : … ; : , Adverbes : generally, particularly, specifically, clearly, 

obviously, interestingly, accordingly 

Coordination : and, but Reflexif : sel (f|ves) 

Passé : ed, ould, ought Forme « ing » : ing Adverbes : ly Forme « s » : s 

Determinants : the, a, an Déictique : this, these, those, that, there, thus, therefore, 

there is, there are, the other 

Ces descripteurs (cf. tableau 2) peuvent s’organiser implicitement selon une certaine 

hiérarchie qui représente le modèle logique du document. La combinaison de descripteurs 

de plusieurs niveaux de la hiérarchie permet de multiplier le poids des descripteurs de plus 

haut niveau. Ainsi, les mots n’auront pas le même rôle, ni la même importance, suivant leur 

place dans le document (titre, résumé, introduction, etc.). Leur importance varie aussi suivant 

leur position dans une fenêtre d’observation (partie, paragraphe, section, etc.). Par exemple 

parmi les coordinations de phrase, and et but – qui sont fréquents – seront renforcés au niveau 

du paragraphe, qui comprend des coordinations comme moreover., qui est plus significatif 

lorsqu’il se trouve en début de phrase. Les indicateurs les plus fréquents se retrouvent dans 

le niveau le plus fin pour minimiser l’héritage dans le niveau au dessous. La position relative, 

en début ou en fin d’une fenêtre change dans la hiérarchie d’une fenêtre à une autre. Pour 

tenir compte des inclusions, le début ou la fin d’une fenêtre se traduisent respectivement 

par la première (ou la dernière) sous-fenêtre d’une fenêtre donnée, par exemple, le début et 

la fin d’un paragraphe sont respectivement la première et la dernière phrase du paragraphe. 

Descripteurs métriques 

Les descripteurs métriques portent sur la longueur des différentes unités textuelles obtenues 

lors de la segmentation : la longueur du corps de texte (exprimée en nombre de parties), 


Tableau 2 : Descripteurs stylistiques (extrait).

des parties (exprimée en nombre de sections ou de paragraphes), des sections (exprimée 

en nombre de paragraphes), des paragraphes (exprimée en nombre de phrases) et des phrases 

(exprimée en nombre de virgulots). Nous avons également pris comme descripteur la 

longueur du titre et des sous titres de l’article (exprimée en nombre de caractères). 

Descripteurs lexicaux 

Enfin, dans le but de comparer notre travail avec une approche classique, nous avons 

utilisé les 47 résumés des articles pour extraire les mots clés caractérisant ces articles. Les 

descripteurs lexicaux forment une base de comparaison avec les descripteurs de plan, discursifs 

et métriques. 

Le processus de fouille 

Cette expérience est conçue dans le but de comparer les résultats obtenus par les différentes 

familles de descripteurs. La figure 1 synthétise le processus général de notre approche, 

il s’agit de comparer des descripteurs linguistiques et de structure versus une simple 

approche sac de mots représentée par descripteurs lexicaux. 

Figure 1 : Les grandes lignes de l’approche. 

La première étape concerne le choix des classes d’articles utilisées, qui tiennent compte 

des attentes des biologistes : l’information qui intéresse prioritairement les spécialistes se 

trouve dans ces trois classes. La première classe correspond aux articles de synthèse qui 

représentent une revue très complète et exhaustive, commençant par l’historique jusqu’aux 

connaissances actuelles sur un sujet très précis ; la deuxième classe contient des articles de 

recherche qui présentent un travail personnel effectué par rapport à l’état des connaissances 

actuelles ; enfin, la classe des articles de clinique qui décrivent une observation particulière 

par rapport à sa rareté ou son caractère démonstratif. On a exclu dans cette expérience par 

exemple les éditoriaux, qui peuvent contenir des hypothèses non démontrées. 

D’autre part, suite à des attentes plus spécifiques de biologistes au sein du projet Bingo, 

le sujet des articles est le cancer du cerveau ou de la prostate. Les articles ont été collectés 

à partir d’une recherche documentaire classique par mots-clés MeSH sur la base documentaire 

en ligne PubMed. 

La deuxième étape concerne la récupération des résumés du corpus et l’application 

des différentes étapes des approches sac de mots, telles que la lemmatisation (stemming) 

et l’élimination des mots vides. Pour chaque article on garde les dix premiers mots les plus 


73

74 

fréquents (seuil > = 2), pour ce jeu de données, une ligne représente un article et une 

colonne représente la présence ou l’absence d’un mot dans l’article. 

La troisième étape consiste à segmenter le corpus en unités textuelles telles que le titre, 

les sous titres, les parties, les sections, les paragraphes, les phrases et les virgulots en utilisant 

une méthode de découpage qui s’appuie sur la mise en forme matérielle du HTML, puis 

sont extraits les différents descripteurs linguistiques et structuraux de chaque niveau en utilisant 

des expressions régulières. Un jeu de données par niveau est ainsi obtenu. Schématiquement, 

pour chaque jeu de données, une ligne peut être vue comme un segment du 

texte (exemple : virgulots, phrases etc.) et une colonne code la présence ou l’absence d’un 

descripteur pour chaque segment. 

La caractérisation des articles est finalement obtenue en utilisant une méthode de fouille 

de données, les motifs émergents (cf. section 4). 

Des contraintes externes portant sur l’accessibilité des articles de PubMed ont influencé 

la taille du corpus. En effet, la majorité des articles en accès libre sont au format PDF, ce qui 

rend la tâche de prétraitement très complexe. Dans ce travail, nous nous sommes limités au 

format HTML. Le sous-ensemble de textes ainsi obtenu rassemble 47 articles. Nous sommes 

conscients que cet échantillon est restreint. Cependant, nous verrons à la section 5 que cette 

échantillon va contenir 20 237 unités à explorer. 

Fouille de données de motifs contraints 

La fouille de données a pour but la découverte d’information nouvelle utile aux utilisateurs. 

Les méthodes typiques de fouille de données extraient tous les motifs vérifiant certaines 

propriétés. Dans ce travail, les motifs sont des associations de descripteurs (e.g., stylistiques, 

métriques) présents dans les articles. Du point de vue du processus de fouille, les propriétés 

recherchées sont traduites par des contraintes qui expriment ainsi le point de vue de l’utilisateur 

et on parle de fouille de données sous contraintes (Bayardo 2005). Une contrainte est 

une restriction devant être satisfaite par un motif. Considérons par exemple la table 3 qui 

est un extrait d’un ensemble de données notée D contenant trois types d’articles (Cc pour 

clinique, Cs pour synthèse et Cr pour recherche). Chaque ligne est un article décrit par les titres 

des quatre parties Introduction, Material & Methods, Conclusion. Par exemple, « {Introduction, 

Material & Methods} » est un motif composé de deux descripteurs qui vérifie la contrainte 

« être présent au moins 3 fois dans D », en effet 4 segments contiennent ce motif, il s’agit des 

segments 1, 2, 3 et 6. On dit que la fréquence de ce motif est 4. Il est possible d’exprimer 

des contraintes très variées, comme le motif possède (ou ne possède pas) un descripteur, le 

motif vérifie une certaine longueur, l’aire d’un motif (i.e., le produit de sa longueur par sa 

fréquence) dépasse un seuil, etc. Une caractéristique importante de la fouille de données 

sous contraintes est qu’on veut obtenir tous les motifs satisfaisant la contrainte. Cette complétude 

de la réponse à la requête est nécessaire pour obtenir toute l’information des données. 

Elle exige des stratégies efficaces de fouille de données afin de ne pas avoir à parcourir tout 

l’espace des motifs potentiels. 

Dans ce travail, nous cherchons à caractériser des collections de données (i.e., les types 

d’articles) les unes par rapport aux autres. Pour cela, nous nous intéressons aux « motifs 

émergents ». 

Segment Classe Items 

1 CCIntroduction, Material & Methods 

2 CCIntroduction, Material & Methods 

3 CSIntroduction, Material & Methods, Conclusion 


4 CSIntroduction, Conclusion 

5 CSConclusion 6 CRIntroduction, Material & Methods, Conclusion 

7 CRMaterial & Methods 

Ces motifs sont des motifs dont la fréquence varie fortement entre deux ou plusieurs 

classes (Soulet et al. 2005), une classe correspondant ici à un type d’articles. Soit Di (i : 1..3) 

l’ensemble des articles d’un même type. La fréquence F (X, D) d’un motif X dans D est le 

nombre d’articles contenant X dans D. Par exemple, F ({Introduction, Material & Methods}, 

D) = 4. Le concept de motif émergent est relié à la notion de différence de fréquence entre 

classes. La quantification du contraste entre une classe i et les autres classes est mesurée 

par le taux de croissance (ou « growth rate ») et noté GRi : 

GR i (X) = [(|D| – |D i|)/|D i|] × [F (X, Di)/ (F (X, D) – F (X, Di))] 

On dit que X est un motif émergent de D\Di dans Di, si GRi (X) > = ρ avec ρ > 1. Par 

exemple le motif {Introduction, Material & Methods} est un motif émergent de D\Cc dans 

Cc car le GR1 ({Introduction, Material & Methods}) = 2.5 

Résultats et discussion 

Tableau 3 : Extrait d’un ensemble de données. 

La segmentation des articles en unités textuelles (le corps de texte, les parties, les sections, 

les paragraphes, les phrases et les virgulots) est une des tâches initiales de notre travail. 

Il s’agit d’un traitement de surface pour découper le texte en unités que l’on supposera 

élémentaires et qui serviront de fenêtres d’observation. En ce qui concerne le corpus utilisé 

dans cet article, on obtient 12 246 virgulots, 5 404 phrases, 1 767 paragraphes, 416 sections, 

310 parties et 47 corps de texte ainsi que 47 résumés, soit au total 20 237 unités. 

Les tableaux 4 et 5 donnent les résultats pour les meilleurs motifs émergents (EP) résultant 

de l’utilisation des descripteurs lexicaux et métriques. Le processus est effectué trois 

fois : on caractérise la classe Clinique par rapport aux Synthèse et Recherche et on donne 

le meilleur motif émergent EP1, on caractérise la classe Synthèse par rapport aux Clinique 

et Recherche et on donne le motif émergent EP2, et on fait la même chose pour la classe 

Recherche et on donne le motif émergent EP3. Pour chaque motif émergent on associe son 

GR et sa fréquence relative dans une classe donnée (représentée par la ligne). Par exemple 

11,76 % est la fréquence relative de EP3 = {high} dans la classe « articles de recherche ». Ces 

tables montrent que les descripteurs lexicaux et métriques sont uniformément distribués dans 

les trois classes et le contraste exprimé par le GR est très faible. Ces descripteurs seuls ne 

permettent pas de caractériser les trois classes. 

Classe Motifs Emergents (ρ = 2) GR Fréquences relatives 

Clinique vs. Synthèse et 

Recherche 

Synthèse vs. Recherche et 

Clinique 

Recherche vs. Synthèse et 

Clinique 

Clinique Synthèse Recherche 

EP1 = {tumor, treat} 2.0588 30,00 % 25,88 % 23,52 % 

EP2 = {combination} 2.0461 13,00 % 15,88 % 16,38 % 

EP3 = {high } 2.1025 13,29 % 10,96 % 11,76 % 

Tableau 4 : Exemples des meilleurs résultats des descripteurs lexicaux. 


75

76 



Clinique vs. 

Synthèse 

et Recherche 

EP1 = {longueur_Titre_Article ∈ [35,195]} 2.000 91,00 % 83,12 % 88,23 % 

Synthèse vs. 

Recherche 

et Clinique 

Recherche vs. 

Synthèse 

et Clinique 

EP2 = {longueur Crps_txt < 6} Inf. 00,00 % 46,16 % 00,00 % 

EP3 = {longueur_Section ∈ ]5,10]} 2.016 78,37 % 100 % 89,05 % 

Tableau 5 : Exemples des meilleurs résultats des descripteurs métriques. 

Les tableaux 6 et 7 montrent les résultats en employant les descripteurs de plan et les 

descripteurs stylistiques. Le motif {Discussion, Footnotes}{Abstract, Introduction, Material 

& Methods} est un des motifs émergents mis en évidence avec les descripteurs de plan : sa 

fréquence est 100 % pour les articles de recherche et 88,23 % pour les articles de clinique. 

En revanche, il n’est pas présent dans les articles de synthèse. Cela signifie que la présence 

de ce motif dans un article exclut qu’il s’agisse d’un article de synthèse. Nous disons alors 

que la caractérisation des articles de synthèse est négative (par absence de ce motif dans 

un article). Cela signifie que les articles de synthèse sont organisés différemment des articles 

de recherche et des articles de clinique. 

On observe un résultat similaire avec les descripteurs stylistiques. On remarque qu’au 

niveau du corps du texte, il existe des motifs émergents présents jusqu’à 82 % dans les articles 

de recherche et 69 % des articles de synthèse, mais 0 % des cliniques. La caractérisation 

des articles de clinique est alors aussi négative. On note également que les résultats sont 

conformes avec les résultats des descripteurs de plan, car c’est au niveau des parties que 

les articles de synthèse sont discriminés. 



Clinique vs. EP1 = {Footnotes, 

Synthèse 

et Recherche 

Aknowledgement} {Abstract, 

Introduction, Material & Methods, 

Results} 

2.7451 82,35 % 00,00 % 100 % 

Synthèse vs. 

Recherche 

et Clinique 

Recherche vs. 

Synthèse 

et Clinique 

EP2 = {Conclusion, abstract} 10.4615 05,88 % 61,53 % 05,88 % 

EP3 = {Discussion, Footnotes} 

{Abstract, Introduction, 

Material & Methods, Results} 


2.0000 88,23 % 00,00 % 100 % 

Tableau 6 : Exemples des meilleurs résultats des descripteurs de plan. 

Classe Niveau Motifs Emergents (ρ = 2) GR 

Clinique vs. 

Synthèse 

et Recherche 

Synthèse vs. 

Recherche 

et Clinique 

Recherche vs. 

Synthèse 

et Clinique 

Corps 

de 

texte 

Fréquences relatives 


EP1 = {TEMP_Début, 

SUPPERS_Fin} 2.1176 35,29 % 15,38 % 17,64 % 

EP2 = {MOD_Fin, 

SUPPERS_Fin} Inf. 00,00 % 53,84 % 00,00 % 

EP3 = {SUPPERS_Début, 

SUPPERS_Fin} 2.7451 82,00 % 69,23 % 35,00 %

Clinique vs. 

Synthèse 

et Recherche 

Synthèse vs. 

Recherche 

et Clinique 

Recherche vs. 

Synthèse 

et Clinique 

Clinique vs. 

Synthèse 

et Recherche 

Synthèse vs. 

Recherche 

et Clinique 

Recherche vs. 

Synthèse 

et Clinique 

Cette expérience montre que notre méthode basée sur les descripteurs stylistiques et les 

descripteurs de plan combinée avec les motifs émergents discrimine bien les trois classes 

en employant la caractérisation négative. Avec des règles de type X = > non (classei), c’està-dire 

que la présence du motif X exclut la classe i. 

Le pré-traitement nécessaire pour les descripteurs stylistiques suppose une annotation 

différenciée a priori de tous les niveaux d’un article. Toutefois, ce travail montre que pour 

caractériser des classes d’articles, il suffit de segmenter les articles jusqu’au niveau des sections 

et d’annoter les parties et les sections. Pour d’autres corpus, l’annotation pourra s’arrêter 

aux sections et le traitement sera ainsi plus léger. 

Conclusion 

Parties 

Sections 

Le présent travail montre l’existence d’une différence significative dans l’organisation 

de l’écrit et dans le style des articles biomédicaux. Ce résultat est obtenu grâce à l’utilisation 

de descripteurs linguistiques et de structure à partir desquels les associations sont extraites 

automatiquement par des outils de fouille de données. Les descripteurs métriques et lexicaux 

ne sont pas performants pour cette tâche. La caractérisation est réalisée grâce à l’utilisation 

conjointe de motifs émergents, chacun de ces motifs excluant une classe. 

Ces résultats exploratoires nous encouragent à tester l’efficacité de cette approche sur 

un corpus de taille plus grande pour une autre tâche de caractérisation. En outre, remarquons 

que cette approche peut être combinée avec une approche « sacs de mots » pour prendre en 

compte les thèmes des articles. 

Remerciements 

EP1 = {CONADV_D, CONJ_D, 

APPEL_F, TEMP_H}{APPEL_D, 

VOIX_D, PAS_D, ASP_D, 

DET_D, NAPH_D, VOIX_F, 

PAS_F, ASP_F, DET_F, 

ANAPH_F, SUPPERS_H} 

EP2 = {NEG_D, 

DET_F}{DET_D, ANAPH_D, 

SUPPERS_D} 

NEANT 

EP1 = {CONJ_D, NEG_P, 

MOD_C} {VOIX_P, PAS_P, 

ASP_P, CONJADV_P, 

ANAPH_P, CONJ_P, 

SUPPERS_C} 

EP2 = {EVAL_COMP_F, NEG_P, 

FUT_P}{VOIX_P, PAS_P, ASP_P, 

DET_P, CONJADV_P, 

ANAPH_P, CONJ_P, 

SUPPERS_P} 

EP3 = {TEMP_C, 

MOD_C}{VOIX_P, PAS_P, 

ASP_P, DET_P, ANAPH_P, 

SUPPERS_C} 

4.45113 41,18 % 00,00 % 35,29 % 

3.01852 47,06 % 69,23 % 29,41 % 

NEANT NEANT NEANT NEANT 

22.5904 17,65 % 07,69 % 00,00 % 

14.0959 05,88 % 15,38 % 00,00 % 

2.06569 17,65 % 00,00 % 23,53 % 

Tableau 7 : Exemples des meilleurs résultats des descripteurs stylistiques 

Ce travail est partiellement financé par l’ACI masse de données (ministère de la recherche), 

projet Bingo (MD 46, 2004-2007). 


77

78 

Bibliographie 

AHMED S., CHIDAMBARAM D., DAVULCU H., BARAL C. (2005), Intex : A syntactic role driven proteinprotein 

interaction extractor for bio-medical text, in Proceedings ISMB/ACL Biolink, p. 54-61. 

BAYARDO R. (2005), « The Hows, Whys, and Whens of Constraints in Itemset and Rule Discovery», in 

Proceedings of the workshop on Inductive Databases and Constraint Based Mining. 

BLOTT S., GURRIN C., JONES G.J.F., SMEATON A.F. & SODRING T. (2003), « On the Use of MeSH Headings to 

Improve Retrieval Effectiveness », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference 

(TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 215-224. 

DAYANIK A., NEVILL-MANNING C.G., OUGHTRED R. (2003), « Partitioning a graph of sequences, Structures 

and Abstracts for Information Retrieval », in NIST Special Publication 500-255 : The Twelfth Text REtrieval 

Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 522-531. 

DONG G. & LI J. (1999), « Efficient Mining of Emerging Patterns : Discovering Trends and Differences », 

in 5th ACM SIGKDD Int’l Conf. On knowledge Discovery and Data Mining (KDD’99), San Diego, 

Californie, USA, p. 43-52. 

HERSH W., BHUPATIRAJU R.T., PRICE S. (2003), « Phrases, Boosting, and Query Expansion Using External 

Knowledge Resources for Genomic Information Retrieval», in NIST Special Publication 500-255: The Twelfth 

Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 503-509. 

KANDO N. (1999), « Text Structure Analysis as a Tool to Make Retrieved Documents Usable», in Proceedings 

of the 4th International Workshop on Information Retrieval with Asian Languages, Taipei, Taiwan, p. 126- 

135. 

KARLGREN J. (2005), « Meaningful models for information access systems », in Inquiries into Words, 

Constraints and Contexts: Festschrift in the Honour of Kimmo Koskenniemi on his 60th Birthday, CSLI 

Studies in Computational Linguistics, CSLI Publications, Stanford, Californie, p. 241-248. 

KAYAALP M., ARONSON A.R., HUMPHREY S.M., IDE N.C., TANABE L.K., SMITH L.H., DEMNER D., LOANE R.R., 

MORK J.G., BODENREIDER O., DEMNER D. (2003), « Methods for Accurate Retrieval of MEDLINE Citations 

in Functional Genomics », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference 

(TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 441-450. 

LUCAS N., CRÉMILLEUX B., TURMEL L. (2003), Signalling well-written academic articles in an English corpus by 

text-mining techniques, UCREL technical papers, 16 (Special issue Proceedings Corpus Linguistics 2003), 

p. 465-474. 

PARSONS G. (1990), Cohesion and coherence: Scientific texts. A comparative study, Nottingham, Angleterre, 

Department of English Studies, University of Nottingham. 

ROSARIO B. & HEARST M. (2005), « Multi-way Relation Classification : Application to Protein-Protein Interaction 

», in Proceedings of the HLT-NAACL’05, Vancouver (à paraître). 

RUCH P., BAUD R. & GEISSBHLER A. (2003), « Learning-free Text Categorization », in Proceedings of the 9th Conference on Artificial Intelligence in Medicine Europe AIME 2003, M. Dojat, E. Keravnou & P. Barahona 

(éds), Springer, p. 199-208. 

RUCH P., CHICHESTER C., COHEN G., CORAY G., EHRLER F., GHORBEL H., MÜLLER H. & PALLOTTA V. (2003), «Report 

on the TREC 2003 Experiment : Genomic Track », in NIST Special Publication 500-255 : The Twelfth Text 

REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 756-761. 

SOULET A., CRÉMILLEUX B., RIOULT F. (2005), « Condensed Representation of EPs and Patterns Quantified by 

Frequency-Based Measures », in Post-proceedings of the International Workshop on Knowledge Discovery 

in Inductive Databases (KDID'04) co-located with the ECML-PKDD'04, B. Goethals et A. Siebes (éds.), 

Springer (Lecture Notes in Computer Science 3370), p. 173-190. 

WILCOX A. & HRIPCSAK G. (2000), « Medical text representations for inductive learning », in Proceedings of 

the American Medical Informatics Association Fall Symposium, USA, AMIA. 


Schedae, 2006 


Segmentation de textes procéduraux pour 

l’aide à la modélisation de connaissances : 

le rôle de la structure visuelle 

Amanda Bouffier 

Laboratoire d’Informatique de Paris-Nord 

99 avenue Jean-Baptiste Clément – 93 430 Villetaneuse 

Amanda.bouffier@lipn.univ-paris13.fr 

Résumé : 

Dans cet article, nous étudions le rôle de la structure visuelle pourla segmentation automatique 

de textes procéduraux. Nous nous focalisons sur un type de textes procéduraux particulier : les 

Guides de Bonnes Pratiques médicales. Une étude linguistique effectuée sur ce corpus montre 

la pertinence ainsi que les limites des indices visuels, pour délimiter des ensembles conditionsactions, 

qui forment des unités sémantiques de base pour la segmentation. 

Mots-clés : aide à la modélisation, linguistique textuelle, textes procéduraux. 

Abstract : 

In this paper, we study the role of the visual organization (paragraphs, headings, lists…) for a segmentation 

task of procedural texts. We focus on a particular type of procedural texts : medical 

pratice guidelines. A linguistic study shows the relevancy and the limits of the structural clues to 

delimit the condition-action units, which form the basic semantic units for the segmentation task. 

Keywords : modelling support tool, text linguistics, procedural texts. 

Les textes procéduraux sont des textes qui ont pour objectif de prescrire des actions 

au vu de certaines conditions. Ils reçoivent une attention croissante en entreprise car ils ont 

des conséquences importantes en termes de sécurité et en termes légaux. Ils sont pourtant 

souvent peu lus ou peu adaptés aux conditions de travail effectives (situations d’urgence, 

habitudes de travail difficiles à modifier). Dès lors, le développement de systèmes facilitant 

l’accès aux instructions présentes dans les textes de manière adaptée aux situations de travail 

représenterait un bénéfice incontestable. 

Pour construire ces systèmes, les textes ont besoin d’être modélisés. Or, le passage du 

texte brut au modèle reste une étape le plus souvent manuelle, donc coûteuse. Fort de ce 

constat, l’objectif de notre travail est de fournir une aide à la modélisation en proposant une 

première représentation structurée de ces textes. La structuration consiste à isoler les unités 

textuelles qui correspondent aux conditions et aux actions et à remettre en correspondance 

Amanda Bouffier 

« Segmentation de textes procéduraux pour l’aide à la modélisation de connaissances : le rôle de la structure visuelle » 


79

80 

ces unités entre elles. Des phénomènes de portée étendue concernant les unités exprimant 

une condition rendent la tâche complexe. La difficulté est de calculer la portée de ces unités. 

La portée étant représentée par un cadre (Charolles1997) 1 . L’étape de structuration doit donc 

être précédée d’une étape de segmentation, qui consiste à délimiter les cadres engendrés 

par les unités. De nombreux indices dans le texte suggèrent la fermeture ou la continuation 

d’un cadre. Nous concentrons ici sur le rôle que peuvent jouer les indices relatifs à la structure 

visuelle des textes (découpage en paragraphes, titres, structures énumératives etc.). 

1 Des phénomènes de portée 

Un cadre représente la portée d’une unité-condition appelée introducteur de cadre. Le 

fait, pour une unité-condition, d’avoir une portée étendue (i. e supérieure à sa propre phrase), 

peut se réaliser de différentes manières sur le plan linguistique. Dans un premier cas, l’introducteur 

de cadre est un titre ou une expression non intégrée syntaxiquement à la phrase, 

comme dans l’exemple de la figure 1 (sur le corpus étudié, voir la section 3). 

Figure 1 : Exemples de cadres introduits par des expressions détachées. 

Cet exemple montre trois cadres introduits par des expressions détachées en début de 

phrase. 

Dans d’autres cas, la portée d’un introducteur s’établit par le biais de liens anaphoriques 

(parfois doublés de phénomènes complexes d’ordre temporel). 

Pour délimiter la fin de ces cadres (de types différents) de nombreux indices peuvent 

intervenir. Nous nous concentrons ici sur le rôle des indices relatifs à la structure visuelle des 

textes. 

2 Segmenter en cadres : le rôle de la structure visuelle 

Nous faisons l’hypothèse que les indices relatifs à la structure visuelle sont un ensemble 

d’indices très pertinents pour les textes procéduraux. En effet, parce qu’ils doivent être lus 

rapidement et efficacement, ces textes sollicitent fortement ce type de structuration. 

Pour tester cette hypothèse, nous avons effectué une étude sur un corpus de recommandations 

médicales : les Guides de Bonnes Pratiques. Ces textes sont écrits par des autorités 

en matière de santé et sont adressés aux médecins afin d’uniformiser leurs pratiques. Suite 

au constat que leur simple diffusion avaient peu d’impact sur les pratiques des médecins, de 

nombreux travaux ont vu le jour, avec l’objectif de contribuer au développement d’outils 

d’aide à la décision fondés sur ces guides (Séroussi 2003). 

Cette étude a utilisé 18 Guides de Bonnes Pratiques (environ 120 000 mots, disponibles 

sur http://www.anaes.fr) portant sur la prise en charge de diverses pathologies. 500 expressions 

1. Nous lui empruntons les notions de portée et de cadre. Néanmoins, notre définition est plus vaste : la portée 

d’une unité peut se réaliser de différentes manières sur le plan linguistique. On inclut notamment les 

cas où celle-ci s’établit à partir de relations anaphoriques remontantes. Voir section 1 


de condition introductrices de cadre ont été isolées (titres, expressions détachées ou intégrées). 

Pour chaque introducteur, le cadre qu’il engendre a été délimité avec l’aide d’un 

expert (Catherine Duclos du laboratoire LIM & Bio de l’université Paris 13). Plusieurs paramètres, 

en relation avec la structure visuelle, jugés comme indices potentiellement pertinents 

pour la segmentation ont été retenus : la portée de l’introducteur par rapport au découpage 

en paragraphes, la position de celui-ci dans le paragraphe, la relation qu’il entretient avec le 

titre de la section dont il fait partie, et quand il fait également partie d’une structure énumérative, 

la relation avec cette dernière. Pour chaque introducteur, la valeur de chaque paramètre 

a été relevée. Pour tester la corrélation entre certains paramètres, un chi carré a été 

calculé. 

Le principal résultat obtenu montre que les indices relatifs à la structure visuelle sont très 

discriminants, en particulier en ce qui concerne la structuration en paragraphes, les titres 

ainsi que les structures énumératives. 

Nous avons notamment observé que 60 % des expressions détachées engendrent un 

cadre qui se ferme à la fin du paragraphe. Ce résultat montre que le découpage logique en 

paragraphes est un indice très discriminant. 

En revanche, il a également été observé, de manière inattendue, que 6,8 % des expressions 

détachées engendrent un cadre qui inclut des paragraphes de même niveau que l’introducteur. 

Ces cas sont liés à une redondance entre le titre et l’expression détachée, ce qui 

entraîne une confusion de leurs portées respectives. Ce résultat est surprenant car ce qui était 

attendu est un fonctionnement exclusif entre les titres et les expressions détachées, autrement 

dit qu’ils ne puissent pas assumer la même fonction au même moment. Cependant, 

dans notre corpus, dans 51 % des cas, le premier introducteur de type expression détachée 

présent après le titre est redondant totalement ou partiellement avec celui-ci, comme en 

témoigne l’exemple de la figure 2. 

Figure 2 : Un cas de redondance entre le titre et l’expression détachée. 

Dans cet exemple, l’introducteur initié par en cas de colite chronique a une portée qui 

dépasse le paragraphe dont il fait partie. Ceci est lié à une redondance entre l’introducteur 

et une partie du titre initié par IV.1 Surveillance. Cette redondance provoque une confusion 

de leurs portées respectives. 

Dans ce type de cas, la similarité entre le titre et l’expression détachée est alors un indice 

pertinent pour calculer la portée de cette dernière. 

Enfin, 14,6 % des expressions détachées sont inclus dans une structure énumérative, 

comme l’illustre l’exemple de la figure 3 où l’introducteur joue le rôle d’amorce de l’énumération. 


81

82 

Dans ce type de cas, il est nécessaire de pouvoir repérer les structures énumératives 

pour calculer la portée des introducteurs se trouvant dans ce type de configuration. 

Si une segmentation basée sur des indices visuels est donc pertinente, elle a néanmoins 

des limites : c’est le cas notamment 18 % des expressions détachées où le cadre se ferme 

entre la phrase de l’introducteur et la fin du paragraphe ainsi que 11,5 % d’expressions intégrées 

qui ont une portée dépassant leur propre phrase. Pour les cas non résolus par les indices 

relatifs à la structure visuelle, d’autres classes d’indices ont été isolés. Dans le cas des 

expressions détachées, des marqueurs de relations sémantico-rhétoriques sont pertinents : 

notamment des marqueurs de relations de contraste (cependant, en revanche) ou des marqueurs 

de relations de justification (en effet, en fait). Dans le cas des expressions détachées, 

des marqueurs de relations anaphoriques sont de bons indices, comme en témoigne l’exemple 

de la figure 4. 

Dans cet exemple, Dans les deux cas, qui est un marqueur anaphorique, renvoie le lecteur 

aux deux conditions énoncées auparavant (lorsque l’HbA1c est > 8 %/lorsque l’HbA1c 

est comprise entre 6,6 % et 8 %) et indique que l’action qui suit tombe sous la portée de ces 

deux conditions. 

3 Vers une automatisation de la segmentation 

Cette étude linguistique sur corpus nous a permis de définir une architecture modulaire 

exploitant les indices présentés dans la section précédente pour segmenter et structurer les 

textes. Un premier module est dédié au repérage des introducteurs de cadre qui sont des 

expressions de condition. Un deuxième module a pour charge de repérer les différents indices 

pertinents pour délimiter la fin des cadres. Un troisième module, enfin, est dédié au calcul 

de la délimitation des cadres sur la base d’heuristiques exploitant les indices. De manière 

générale, une segmentation par défaut est fixée au paragraphe courant dans le cas des 

expressions détachées et à la phrase courante dans le cas des expressions intégrée. Cette 

segmentation par défaut est remise en question lorsqu’apparaissent d’autres types d’indices. 

Dans le cas d’indices conflictuels (i. e amenant à des segmentations divergentes), des 

heuristiques ont été écrites afin de gérer certaines priorités. 


Figure 3 : Un introducteur amorce d’une énumération. 

Figure 4 : Un anaphorique comme indice de continuation.

Les modules sont écrits en Perl et XSLT. Tous les modules prennent en entrée un fichier 

XML et produisent en sortie les mêmes fichiers XML modifiés. 

Cette architecture, en cours d’implémentation, a été validée sur certains aspects (démarche 

générale, repérage des introducteurs et des énumérations) avec l’aide d’experts du 

domaine. Une fois l’implémentation terminée, l’outil sera évalué sur un autre corpus de textes 

procéduraux, afin de mettre à l’épreuve et évaluer la généricité de la méthode. 

4 Positionnement de l’approche 

L’analyse de textes de spécialité est un des champs applicatifs du TAL qui a connu un 

grand succès ces dernières années : des travaux se sont concentrés sur les méthodes d’extraction 

de termes ou de relations entre ces termes. Leur objectif étant d’aider à modéliser, 

nous nous inscrivons pleinement dans la lignée de ces travaux. Néanmoins, nous nous en 

distinguons par la prise en compte d’un niveau d’analyse différent. En effet, les travaux susmentionnés 

s’appliquent à un niveau interne à la phrase tandis que notre niveau d’analyse 

est le texte en lui-même. 

Dans la mesure où l’objet de notre étude est le texte et sa structure, nous intéressons 

naturellement aux travaux en linguistique textuelle. Les travaux fondateurs de Halliday, sur la 

notion de cohérence textuelle constituent l’arrière plan de notre étude. Nous nous inspirons 

fortement de la théorie de l’encadrement du discours de Charolles (1997), dont nous reprenons 

en partie la notion de cadre et de portée. Nous empruntons également aux travaux 

de Virbel et Luc (2001), qui étudient le fonctionnement de la structure visuelle d’un texte. 

Nous portons enfin une attention toute particulière aux travaux de Pascual et Péry-Woodley 

(Péry-Woodley 1998) qui a notamment travaillé sur l’interaction entre différentes structures 

textuelles. 

Au-delà de l’analyse linguistique, nous nous démarquons des travaux précédents en 

visant le développement d’un outil permettant le repérage de ces structures et leur exploitation 

dans le cadre d’une tâche d’aide à la modélisation. La description est donc faite avec un 

souci d’opérationnalisation qui oblige à fonder l’analyse linguistique sur des indices repérables 

automatiquement en corpus. 

Cet objectif d’opérationnalisation nous inscrit dans le cadre des systèmes d’accès à 

l’information qui exploitent la structure du texte – qu’elle soit de nature thématique ou rhétorique 

– ou des structures spécifiques comme les cadres de discours. 

5 Conclusion 

Nous nous sommes concentrés dans cet article sur le rôle de la structure visuelle pour la 

segmentation. Une étude linguistique, effectuée sur un corpus de textes de recommandations 

médicales, a montré la pertinence ainsi que les limites de ce type d’indices. 

L’enjeu principal consiste désormais à étudier la portée de ce travail et sa généricité. 

Chaque texte procédural est spécifique et, si l’on espère qu’une partie de ce travail (marqueurs, 

indices visuels…) est réutilisable, une autre partie devra être adapté. Nous travaillons 

actuellement sur d’autres corpus, afin de déterminer des stratégies d’adaptation efficaces 

en fonction des textes et de la tâche envisagée. 

Bibliographie 

CHAROLLES M. (1997), « L’encadrement du discours-univers, champs, domaines et espaces », Cahier de 

recherche linguistique, 6, p. 1-73. 


83

84 

PÉRY-WOODLEY M-P. (1998), « Modes d’organisation et de signalisation dans des textes procéduraux », 

Langages, 141, p. 28-46. 

SÉROUSSI B., GEORG G. & BOUAUD J. (2003), « Dérivation d’une base de connaissances à partir d’une 

instance GEM d’un guide de bonnes pratiques médicales textuel », in Actes des 14es Journées 

Francophones sur l'Ingénierie des Connaissances (IC' 2003), Dieng-Kuntz (éd.). 

VIRBEL J-L. & LUC C., (2001), « Le modèle d’Architecture Textuelle : fondements et expérimentation », 

Verbum, 23, 1, p. 103-123. 


Schedae, 2006 


Quelle plus-value linguistique 

pour la segmentation automatique de texte? 

Christophe Pimm 

ERSS, Université de Toulouse-le-Mirail 

5 Allées Antonio Machado – 31058 Toulouse Cedex 9 

cpimm@univ-tlse2.fr 

Résumé : 

Cet article s’inscrit dans le domaine de l’analyse du discours. Dans cet article se focalise sur une 

partie de mon travail de thèse qui vise à la description de mécanismes complexes de structuration 

du discours. Elle se base sur la description de l’interaction de plusieurs mécanismes complémentaires 

dans la construction de la cohérence discursive. Le but de cette étude sur corpus est 

d’utiliser ces descriptions pour la réalisation d’un module de segmentation automatique. 

Mots-clés : Analyse du discours, TAL, RST, MAT, Encadrement du discours, cohérence, 

organisation hiérarchique du discours, segmentation statistique, segmentation du discours. 

Abstract : 

This paper situates itself in the field of discourse analysis. It focuses on a part of my work for my 

PhD aiming to describe complex mechanisms in the structuration of discourse. It is based on the 

description of the interaction between various complementary mechanisms for the construction 

of discourse coherence. The goal of this corpus-based study is to build an automatic segmentation 

module based on these descriptions. 

Keywords : Discourse analysis, computational linguistics, RST, Text Architecture Model, 

Discourse Framing, coherence, hierarchical organization of discourse, statistical segmentation, 

discourse segmentation. 

Au sein du TAL, le domaine de la segmentation automatique de texte s’est considérablement 

développé depuis quelques années répondant à des besoins et aux avancées de 

l’informatique. 

Dans cet article qui s’inscrit dans le domaine de l’analyse du discours, je me propose 

de revenir sur des méthodes de traitement automatique statistiques (basées sur la notion 

de cohésion lexicale) en soulignant leurs caractéristiques et leurs limites et d’évaluer la plusvalue 

que pourrait leur apporter l’utilisation de modèles et théories de l’analyse du discours 

(qui étudient les mécanismes de cohérence du discours). Mon but n’est pas de totalement 

rejeter les approches statistiques, qui ont quand même des qualités, au profit de modélisations 

purement linguistiques mais plutôt de proposer une approche hybride statistique et 

Christophe Pimm 

« Quelle plus-value linguistique pour la segmentation automatique de texte ? » 


85

86 

linguistique de segmentation automatique permettant de dégager des segments de discours 

cohérents et pertinents. Je présenterai enfin les applications envisagées qui guident 

le choix des modèles utilisés. 

1. Cadre de l’étude – l’analyse du discours 

Cette étude s’inscrit dans le domaine du TAL mais également dans le domaine de l’analyse 

du discours. En effet, si ce travail a des visées applicatives et utilise des outils et des 

méthodes de TAL, une grande partie du travail précédant l’étape de l’automatisation est 

un travail de description linguistique sur les textes constituant le corpus. Je vais maintenant 

brièvement présenter chaque méthode et modèle utilisés avant de montrer en quoi il est 

pertinent de considérer ces modèles ensembles dans une tâche d’observation des phénomènes 

de cohérence en vue de leur utilisation dans un système de segmentation automatique. 

La cohérence est une notion centrale de l’analyse du discours. En effet, un discours n’est 

pas une simple succession de phrases mises à la suite les unes des autres mais bien un tout 

cohérent dans lequel tous les segments sont liés les uns aux autres de façon hiérarchique. 

Un grand nombre de théories et modèles de la cohérence existent à l’heure actuelle et j’ai 

choisi pour mon étude d’en utiliser trois, leur choix étant motivé à la fois par leur complémentarité 

et par les applications de TAL visées. 

1.1. Trois théories et modèles de la cohérence discursive 

L’Encadrement du discours de Charolles (1997) décrit l’organisation et le fonctionnement 

de segments discursifs appelés cadres de discours. Les cadres sont définis par Charolles 

(1997) comme des unités contenant « plusieurs propositions apparaissant dans le fil 

d’un texte [et qui] entretiennent un même rapport avec un certain critère » ce dernier étant 

souvent marqué par une expression détachée en tête de phrase et initiant le cadre : l’introducteur 

de cadre (IC). Sa portée dépasse la proposition et peut s’étendre sur plusieurs phrases. 

Charolles (1997) a ainsi dégagé quatre grands types de cadres, chacun étant introduit 

par un type d’IC 1 . Participant à la construction de la cohérence discursive, les cadres ne sont 

pas des segments isolés mais peuvent être liés entre eux par des relations de deux types : 

la subordination ou la coordination. L’Encadrement du discours offre des perspectives intéressantes 

dans la description de la cohérence car même si il ne peut être appliqué à l’ensemble 

d’un texte, il permet une description de phénomènes au fonctionnement particulier et 

qui complète bien (comme nous allons le voir) la description d’autres segments et relations 

du discours. 

La RST (Rhetorical Structure Theory) est une théorie développée Mann & Thompson 

(entre autres Mann & Thompson 1988 & 2001). Elle décrit l’interaction entre des segments 

de discours à l’aide d’un jeu ouvert de relations rhétoriques. Dans la RST, les relations occupant 

une place centrale sont définies par un ensemble de contraintes sur la relation et sur les 

segments liés par cette relation. La RST distingue entre deux types de relations : les relations 

noyau-satellite (où le noyau est le segment principal) et les relations multinucléaires (liant 

plusieurs noyaux). Un des avantages de la RST est la variété des relations proposées. Elle 

permet également de rendre compte de la structure hiérarchique du discours. Par contre, 

faire une analyse RST d’un texte n’est jamais aisé car le jeu des relations n’est pas fixe et il 

n’est parfois pas évident de décider quelle relation convient le mieux pour relier deux segments. 

1. Les univers de discours temporels et spatiaux, les cadres thématiques, les domaines qualitatifs et les 

espaces de discours. 


Le MAT (Modèle de l’Architecture Textuelle) est un modèle décrivant la mise en forme 

matérielle (MFM) des textes comme participant à la construction de la cohérence du discours. 

On peut en trouver des descriptions dans Luc (2000) et Luc & Virbel (2001). Selon ce modèle, 

chaque élément de formatage des textes peut être exprimé par un métalangage. Les titres 

ou les énumérations sont des exemples d’objets textuels qu’il est possible de décrire à l’aide 

du MAT et repérables grâce à des marqueurs (par exemple, l’alignement du texte ou des 

caractères en gras). Le MAT est un modèle pertinent quand on travaille sur des textes écrits 

car les aspects de MFM des textes sont des indicateurs précis des intentions de l’auteur et 

facilitent la construction de la cohérence du discours du lecteur à partir du texte. Il est intéressant 

d’utiliser ce modèle lorsqu’on travaille dans une optique de segmentation automatique 

car la MFM la facilite et les marqueurs de formatage sont relativement faciles à repérer 

de façon automatique. 

1.2. Une étude sur les titres 

Pour compléter l’utilisation de ces modèles, j’ai entrepris une étude sur les titres au sein 

des documents de mon corpus 2 (présenté en section 2). Ce choix se justifie car les textes 

de mon corpus sont très fortement structurés et notamment avec des titres. Pour l’identification 

de segments et la segmentation, les titres fournissent un certain nombre d’indices. Si 

le discours est une entité hiérarchique, cette hiérarchie est aussi véhiculée par les titres. Dans 

l’étude des titres de section, les travaux de Ho-Dac, Jacques & Rebeyrolle (Rebeyrolle 2003, 

Ho-Dac et al. 2004) nous éclairent sur le rôle et la fonction des titres et nous donnent également 

des pistes pour leur étude. Les titres organisent doublement le discours car ils organisent 

les thèmes abordés dans un texte mais aussi le texte lui-même. 

Pour le présent travail, certains indices sont particulièrement intéressants. Tout d’abord, 

la forme des titres. Rebeyrolle (2003) avait constaté que les titres de section étaient majoritairement 

des SN mais pouvaient aussi par exemple être réalisés par des SP, des SN coordonnés 

ou des phrases. Un autre indice lié à l’organisation hiérarchique du texte est le niveau 

de hiérarchie du titre qui permet de situer le titre dans la hiérarchie du document et ainsi de 

voir ses relations avec les autres titres de ce document. Enfin, un dernier type d’indices dans 

les textes concerne la reprise des titres dans le segment titré (lieu et forme de la reprise). 

Combinée aux théories et modèles évoqués plus haut, cette étude des titres a le potentiel 

de faciliter le repérage et l’utilisation de certains segments de discours. 

2. Présentation du corpus 

Mon étude est une étude sur un corpus bilingue français/anglais de textes écrits longs 

et structurés appartenant à trois types de texte différents. Travailler sur des textes longs a 

été un choix qui se justifie par le besoin de les traiter efficacement mais aussi et surtout par 

la nécessité de disposer de textes assez longs pour observer les phénomènes de construction 

de la cohérence, ce qui est plus difficile à faire sur des textes courts, en particulier en ce 

qui concerne les titres qui doivent être nombreux si on veut observer leur fonctionnement. 

Un second critère qui a été retenu est qu’ils devaient être structurés sur le plan visuel et organisationnel, 

par l’utilisation de titres (avec au moins trois niveaux de titre) mais également par 

l’utilisation de la MFM comme des puces ou du gras. Les trois types de textes que j’ai retenus 

pour mon corpus sont des textes procéduraux (des manuels de logiciel – 172 000 mots), un 

2. Cette étude a été initiée dans le cadre du projet « Visualisation dynamique de texte : extraction sélective, 

affichage spatial multi-échelle et observation des stratégies de lecture » (voir http://www.limsi.fr/Individu/ 

jacquemi/COGNITIQUE02/). 


87

88 

texte institutionnel (le Traité établissant une constitution pour l’Europe – 320 000 mots) et 

des textes argumentatifs (des articles de presse spécialisée – 36 000 mots). 

Pour mon étude, le corpus a subi un certain nombre de pré-traitements : les formats 

des textes étant variés (Word, PDF, RTF, PS, etc.), je les ai d’abord tous convertis au format 

XML en leur donnant une DTD commune et je les ai également étiquetés à l’aide du Tree- 

Tagger, ce qui était nécessaire, notamment pour le traitement des textes par le TextTiling. 

3. Avantages et limites des méthodes statistiques 

Une étude préliminaire a été effectuée sur les méthodes statistiques de traitement automatique 

de textes. Il a d’abord été question de savoir si la LSA 3 étaient une méthode qui 

pouvait potentiellement être utilisée pour la segmentation automatique. Le plus grand problème 

que j’ai constaté est que la LSA est une méthode statistique basée sur des calculs de 

similarité qui dépend beaucoup trop de l’espace sémantique dans lequel a lieu la comparaison. 

De plus, la LSA ne permet pas de déterminer les segments à comparer pour la segmentation 

nécessitant donc trop de pré-traitements. 

Le TextTiling Algorithm de Hearst (1994, 1997) a également été considéré. Cette 

méthode de segmentation thématique est robuste et donne de bons résultats pour certaines 

applications. Mais elle a aussi des limites quand on travaille sur des textes structurés : 

un trop grand nombre de titres et des paragraphes trop courts entraînent des problèmes 

de découpage qui faussent la segmentation thématique. De plus, le TextTiling Algorithm 

utilise des pseudo-paragraphes des pseudo-phrases pour la segmentation, ce qui rajoute 

de l’« à peu près » dans la segmentation. Pour l’instant, j’ai évalué cet algorithme sur mon 

corpus à partir de son implémentation en Perl que j’ai réalisée. Cela ne suffit néanmoins pas 

et un protocole expérimental est en train d’être mis en place pour son évaluation plus en 

profondeur par rapport aux tâches finales qui sont présentées en conclusion de cet article. 

4. Une combinaison des modèles servant l’application 

Les différents modèles, théories et études présentés permettent de décrire chacun un 

aspect de la cohérence, cette description étant toujours motivée par des objectifs précis. Avec 

le développement des applications de TAL et le besoin de plus en plus grand de prendre 

en compte des informations linguistiques d’un côté et pour aboutir à une description plus 

poussée de la cohérence d’autre part, certains auteurs ont commencé à considérer conjointement 

plusieurs théories et modèles pour décrire des phénomènes complexes et répondre 

à ces besoins. C’est le cas de Luc (2000) et Luc & Virbel (2001) qui envisagent la complémentarité 

entre le MAT et la RST. De la même façon, Power et al. (2003) font le lien entre la structure 

du document et la structure rhétorique pour le développement d’outils de génération 

automatique de texte. Des travaux font cohabiter méthodes statistiques et méthodes linguistiques, 

la linguistiques complétant les méthodes statistiques. C’est le cas des travaux de 

Ferret et al. (2001) qui font cohabiter une segmentation à la Hearst et l’utilisation de l’Encadrement 

du discours en vue d’une application de résumé automatique 4 . Ces auteurs concluent 

que les méthodes statistiques sont performantes quand il y a des cassures franches 

entre les segments mais que dans le cas contraire, le repérage de marqueurs linguistiques 

donne de meilleurs résultats. La combinaison de méthodes statistiques et linguistiques peut 

3. Voir Landauer et al. (1998) pour une présentation de la LSA. 

4. Les auteurs utilisent également une troisième méthode faisant appel à des données externes au texte : un 

réseau de collocations construit à partir d’un corpus d’articles de journaux. 


donc fournir un bon compromis entre efficacité et précision. Les théories et modèles présentés 

en section 1 sont très complémentaires dans le sens où certains pallient des manques 

des autres. Par exemple, déterminer les indices de fermeture des cadres (souvent problématique), 

il est possible d’utiliser la MFM, les titres ou les relations RST. Après avoir observé 

le fonctionnement conjoint de ces modèles sur un corpus de textes procéduraux et argumentatifs 

lors de mon DEA (Pimm 2003), j’en ai conclu qu’ils se complétaient et interagissaient 

les uns avec les autres 5 et permettaient de dégager des macro-segments discursifs 

récurrents et propres à un type de texte particulier. 

Une première étude sur mon corpus m’a permis de dégager des macro-segments récurrents 

dans les textes procéduraux et le texte institutionnel. Ces segments mettent en jeu toujours 

la même configuration de marqueurs. Ces configurations ont été implémentées en 

Perl pour repérer automatiquement ces segments et relations. Ce programme constitue un 

squelette pour le programme de segmentation qui, une fois couplé avec un programme de 

segmentation statistique, permettra d’identifier ces macro-segments pour leur utilisation 

ultérieure dans des systèmes de TAL. 

5. En conclusion – les applications considérées 

Grâce à la combinaison de plusieurs modèles de l’analyse du discours combinés à une 

étude sur les titres, j’ai pu mettre à jour des configurations récurrentes de marques au sein 

de textes de types différents. Cette étude était motivée en partie par les applications pouvant 

tirer partie d’une segmentation discursive basée sur des indices de la cohérence discursive. 

L’une de ces applications est la visualisation et la navigation multi-échelle de textes 

pour laquelle on doit avoir la possibilité de visualiser le texte à des niveaux de grain plus ou 

moins fins et donc, de tirer partie de la structure hiérarchique du document, ce qui n’est pas 

possible avec une méthode statistique. Une deuxième application envisagée est l’aide à la 

rédaction. Un système d’aide à la rédaction de manuels procéduraux ou de textes institutionnels 

pourrait fournir un patron à remplir par le rédacteur contenant déjà toutes les relations 

et les types de segments à utiliser pour assurer une bonne compréhension des textes par les 

lecteurs. Dans ces deux exemples d’applications, il semble que la combinaison de méthodes 

statistiques et linguistiques est un compromis efficace. 

6. Bibliographie 

CHAROLLES M. (1997), « L’encadrement du discours : univers, champs, domaines et espaces», Cahier de 

Recherche Linguistique, 6, p. 1-73. 

FERRET O., GRAU B., MINEL J.-L. & PORHIEL S. (2001), «Repérage de structures thématiques dans des textes», 

in Actes de la conférence Traitement Automatique du Langage Naturel (TALN’01), ATALA, p. 163-172. 

HEARST M. (1994), « Multi-paragraph segmentation of expository text», in Proceedings of the 32nd Annual 

Meeting of the Association for Computational Linguistics, Las Cruces, p. 9-16. 

HEARST M. (1997), « TextTiling : Segmenting text into multi-paragraph subtopic passages», Computational 

Linguistics, 23, 1, p. 33-64. 

HO-DAC L.-M., JACQUES M.-P. & REBEYROLLE J. (2004), «Sur la fonction discursive des titres», in L’unité texte, 

S. Porhiel & D. Klingler (éds), Pleyben, Perspectives, p. 125-152. 

LANDAUER T., FOLTZ P. & LAHAM D. (1998), « Introduction to Latent Semantic Analysis », Discourse 

Processes, 25, p. 259-284. 

5. Il faut bien sûr garder à l’esprit que la cohérence discursive est un phénomène très complexe et même si 

on utilise conjointement plusieurs théories et modèles, nous sommes encore très loin de la décrire complètement. 


89

90 

LUC C. (2000), Représentation et composition des structures visuelles et rhétoriques du texte, Thèse de 

Doctorat, IRIT, Université Paul Sabatier – Toulouse III (dactyl.). 

LUC C. & VIRBEL J. (2001), « Le modèle de l’architecture textuelle – fondements et expérimentations », 

Verbum, 23 (Cohérence et relations de discours à l’écrit), 1. 

MANN W.C. & THOMPSON S. (1988), Rhetorical Structure Theory : Toward a functional theory of text organization, 

Text, 8, 3, p. 243-281. 

MANN W.C. & THOMPSON S. (2001), « Deux perspectives sur la Théorie de la Structure Rhétorique (RST)», 

Verbum, 23 (Cohérence et relations de discours à l’écrit), 1. 

PIMM C. (2003), Une étude sur corpus de textes anglais et français de cinq relations rhétoriques proches 

(la conséquence, la cause, la condition, la temporalité et le but), leurs réalisations, leur place, leur rôle 

et les liens qui les unissent dans les textes à consignes, Mémoire de DEA, Université de Toulouse-le- 

Mirail, Toulouse II (dactyl.). 

POWER R., SCOTT D. & BOUAYAD-AGHA N. (2003), « Document Structure », Computational Linguistics, 29, 

2, p. 211-260. 

REBEYROLLE J. (2003), « Forme linguistique et fonction discursive des titres de sections », in Actes du 

Colloque de l’Association for French language studies (AFLS) : Le français aujourd’hui : Problèmes et 

méthodes, Université de Tours, France. 


session 3 

Nouveaux types de documents, 

nouveaux modes d’accès 

à l’information textuelle

Schedae, 2006 


Hyper-Document Structure: 

Maintaining Discourse Coherence 

in Non-Linear Documents 

Clara Mancini & Donia Scott 

Centre for Research in Computing 

The Open University, Milton Keynes, MK7 6AA, UK 

C.Mancini@open.ac.uk, D.Scott@open.ac.uk 

Abstract : 

The passage from linear text to hypertext poses the challenge of expressing discourse coherence 

in non-linear text, where linguistic discourse markers no longer work. While hypertext introduces 

new possibilities for discourse organisation, it also requires the use of new devices which can support 

the expression of coherence by exploiting the technical characteristics and expressive richness 

of the medium. In this paper we show how in hypertext the notion of abstract document structure 

encompasses animated graphics as a form of meta-language for discourse construction. 

Keywords: hypertext, discourse coherence, cognitive coherence celations, document 

structure, visual meta-discourse. 

Résumé: 

Le passage du texte linéaire à l’hypertexte pose le problème d’exprimer la cohérence du discours 

dans une texte non-linéaire ou le marques linguistiques du discours ne fonctionnent pas. Pendant 

que l’hypertexte introduit des nouvelles possibilités d’organisation du discours, il aussi nécessite 

d’utiliser des nouveaux dispositifs qui peuvent supporter l’expression de la cohérence par l’exploitation 

des caractéristiques techniques et des capacités expressives du médium. Dans cet article 

nous montrons comment, dans l’hypertexte, la notion de structure abstraite de document inclut 

graphiques animés en tant qu’une forme de métalangage pour la construction du discours. 

Mots-clés: hypertexte, cohérence du discours, relations de cohérence cognitive, structure 

de document, métadiscours visuel. 

Introduction: possibilities and limitations of a medium 

There is a long and well-established literature on textual devices that signal the coherence 

structure of a discourse to the reader, within both theoretical (e.g., van Dijk 1977, Halliday & 

Hasan 1976, Grimes 1975, Brown & Yule 1983) and computational (e.g., Hobbs 1985, Mann & 

Thompson 1988, Schiffrin 1987, Knott & Mellish 1996) linguistics. However, most of the work 

Clara Mancini & Donia Scott 

« Hyper-Document Structure: Maintaining Discourse Coherence in Non-Linear Documents » 


91

92 

so far addresses the traditional conceptualisation of text as a two dimensional array on a 

physical page, traversed in a set pattern (e.g., left to right, top to bottom in the Western 

tradition). 

Hypertext is very different from traditional text: it is electronic, in that it can only be read 

on a computer screen, and it is non-linear, in that there are several paths available through 

the document. Instead of following a set path, the reader of a hypertext document moves 

from node to node in her chosen path by mouse-clicking on links. A node can be the equivalent 

of a traditional text page or can contain just a few sentences. A link can be a word in 

the text or a graphical element in the node. As nodes contain multiple links, the author can 

only partially control the order in which the reader will access them. In other words, hypertext 

introduces a new conceptualisation of text: as a three-dimensional array on a computer 

screen, which can be traversed in any number of ways. 

The well-understood discourse markers of the traditional notion of text e.g., cue- words, 

cue-phrases, and punctuation do not work well (if at all) for this new medium. Since the comprehension 

of a text relies on the reader’s construction of its underlying coherence structure, 

for which discourse markers are a key resource, this poses problems for the easy comprehension 

of hypertext documents. 

To overcome this, a new set of devices is needed to function as markers of discourse 

structure, together with formation rules to govern their usage, and supported by sound 

theoretical frameworks. 

We are exploring new possibilities for signalling coherence in non-linear, hypertextual, 

documents. Precisely because discourse in non-linear documents is organised as a network 

of self-standing units rather than as a hierarchy of interdependent segments, our analysis 

of discourse coherence departs from the tradition whereby text is described as a hierarchical 

structure (e.g., Mann & Thompson 1988). Instead, we take a cognitive approach where 

coherence is a characteristic of the mental representation that the reader constructs during 

the process of text interpretation (see, e.g., Johnson-Laird 1983). 

Coherence representation in linear text 

Text comprehension depends on the reader’s ability to construct a coherent representation 

of what (he thinks that) the text is conveying (Sanders & Spooren 2001). To do so the 

reader needs to be able to identify the conceptual relations (he thinks to be) holding between 

the set of discourse elements (whether these are sentences, paragraphs or entire text sections). 

Conceptual relations are primarily identified on the basis of the content of the related 

discourse elements, but in linear text their identification is facilitated by a number of cohesive 

formal elements. 

Over the years, the study of text coherence has concentrated on two types of cohesive 

element: those which function at the level of discourse structure and those which function at 

the level of document structure. A lot of work has focussed on discourse structure. Whether 

data driven (Halliday & Hasan 1976, Martin 1992, Knott & Dale 1994) or theory driven (Hobbs 

1985, Kamp & Ryle 1993, Mann & Thompson 1988, Sanders et al. 1993), this work has mainly 

studied the use of discourse markers (in particular, cue-words and -phrases) and referring 

expressions. For instance, in the sentence 

Lucia arrived at work late because she had missed her train. 

the two clauses are related through the connective because and through the pronouns 

she and her, whose semantic content facilitates the interpretive work of the reader. It also 

contributes to the fluency of the text. 


Other work, on the other hand, has highlighted the role played by graphical features 

such as punctuation and layout in text organisation. In particular, Nunberg (1990) distinguishes 

text structure from syntactic structure. For Nunberg, text structure can be realised, by punctuation 

and other graphical marks such as parentheses, dashes, white-space etc., which are 

concrete features of abstract, logical categories such as paragraph, text-sentence or textclause. 

For instance, in the sentence 

Lucia arrived at work late: she had missed her train. 

the same causal relation previously expressed by the connective “because” is now 

expressed by a colon. This distinction between abstract and concrete textual features has 

been extended by Power, Scott and Bouayad-Agha (2003) to yet another graphical feature 

of text, namely layout. For example, in the text segment 

To fix this house, I have to 

• repair the roof; 

• re-plaster the walls; 

• replace the floors. 

the conjunctive relation between the second, third and fourth clause is laid out as a 

bulleted, vertical list. 

In addition to layout, the abstract features also include other text categories whose 

graphical features define the general formatting of a document e.g., titles, chapter and 

section headings, emphasis, etc. In the example above, for instance, the words roof, walls 

and floors could be highlighted as the parts of the house that need fixing with the use of 

bold face. 

Elsewhere (Power et al. 2003) we propose that layout and formatting features deserve 

a separate descriptive level in the analysis and generation of written texts, which we term 

abstract document structure and which constitutes an extension to Nunberg’s ‘text-grammar’ 

(Nunberg 1990). The distinction between document structure and discourse structure is, we 

argue, equivalent to the distinction between semantics and syntax. Although document structure 

is an intrinsic part of text structure, its constituents work differently from the way in which 

both discourse markers and concrete textual features work, because they have different 

semiotic characteristics: whereas discourse markers and punctuation are textual, devices 

like layout and formatting are visual (Piwek et al. 2005). 

Abstract discourse structure: visual vs. textual 

In written text, the minimal linguistic unit is the character, a non-signifying differential 

element, whose combination generates words, successively articulated to produce phrases, 

clauses, sentences, etc (Saussure 1922). As the character is a symbolic element, in written 

text the association between signifier and signified is non-motivated: the correspondence 

between them is conventional. Because of this, in written text abstract concepts can be 

explicitly expressed for example, as we saw earlier, by using adverbial connectives like 

“because” to signal CAUSALITY. 

Its symbolic nature also implies that text can deploy along a single line, which can be 

articulated using punctuation, dashes, parentheses and the like (i.e., concrete textual features). 

These are purely graphical symbols, which signal different types of textual articulation 

and inflection, and whose use is also regulated by strict conventions. For instance, a 

period marks the end of a text-sentence, while a semicolon marks the end of a text-clause. 

Substantially different from both cue-phrases and punctuation, abstract features transform 


93

94 

the line of text into a visual configuration capable of conveying discourse structure on the 

space of the page. 

In visual configurations the association between a sign and its meaning is characterised 

by a degree of isomorphism, which makes this association partially motivated. For instance, 

in the following example of a horizontal list 

I had a busy morning: I had a work meeting, I went shopping, I picked up the children. 

the text segments in the list play an equivalent role within the sentence (Pander Maat 

1999). This rhetorical equivalence could be expressed as a vertical (e.g., bulleted) list, in 

which the segments are given the same visual rendering: each segment starts on a new line 

with a bullet. Likewise, the title of the sections in a text will be visually more prominent than 

the title of the subsections in order to signal their places in the hierarchy of the text structure, 

just as emphasis is visually expressed through a format that stands out. 

Unlike textual representations, visual representations tend to be regulated by conventions 

that are less strict and more dependent on the context of use. For instance, a list of 

clauses could be indented or not, bulleted, numbered or scored; whatever the chosen configuration, 

it is important that all listed clauses are rendered in the same way (i.e. with parallel 

syntax) and occupy the same horizontal position under the first (introductory) clause. 

Even though they respond to flexible conventions, however, visual features can express 

discourse connections so effectively that the use of cue phrases or punctuation becomes 

redundant. So, in a bulleted list the use of connectives (e.g., “and”) and commas is superfluous, 

as the conventions at work in the visual configuration of the list override the conventions 

that regulate the use of cue-words and punctuation. 

Coherence representation in non-linear text 

The devices described above constitute cohesive elements that can be used to express 

discourse coherence in linear text, either on paper or in electronic documents that maintain 

linearity. However, discourse markers such as relational and referential connectives can only 

be effectively used when discourse units are arranged in a predefined sequence, so that they 

are accessed in a univocal order. But because hypertext is a network of interconnected nodes, 

the order in which discourse parts will be accessed can only be partly controlled. Order can 

be established locally (a node can be linked to another node), but it is hardly possible to 

establish it globally through extended structures (unless one resorts to constrained paths, 

which would defeat the purpose of using a non-linear medium). 

So, relational and referential connectives cannot be used to signal the discourse relation 

between nodes, because each node is accessible in more than one way and thus the 

context in which it appears is not constant. As a result, hypertext nodes tend to be written 

as self-standing units of text: a hypertext node typically will not use pronouns or referential 

phrases to refer to the content of another node; instead, any information contained in the 

latter that would need to be referred to in the former has to be repeated. In fact, text sentences 

or paragraphs that are strongly related (for instance, by causality) will normally be 

kept within the same node: since they constitute strongly inter-dependent discourse parts, 

the writer is reluctant to put them in different nodes, because the reader might miss one or 

the other. However, it is less problematic to separate into different nodes, discourse parts 

that are less strongly related (for instance, by elaboration or background) and therefore less 

inter-dependent. They can more easily be put into different nodes, their connection being 

expressed paratactically via a link (Mancini & Buckingham Shum 2004). Finally, the same 

limitations that apply to discourse connectives also apply to punctuation and the like, which 


usually only work within nodes and do not facilitate the transition between link words and 

their target nodes (for example, it is no longer effective to introduce with a colon, a node 

containing the items of a list). 

If the non-linearity of hypertext does not lend itself to the use of discourse markers and 

concrete features, however, things are different for abstract document features, because 

they are visual and work in space. Because of its technical characteristics, hypertext is a 

spatial medium, and indeed numerous proposals that tackle the issue of non-linearity seek 

to compensate for the lack of control on discourse order by exploiting the spatial nature of 

hypertext. Some have proposed spatial metaphors as a way of describing discourse structure 

(Landow 1991, Bolter 1991, Kolb 1997); others propose the use of maps, schemas, 

outlines (Carter 2000) or navigational patterns (Bernstein 1998) to return to the author’s 

hands as much control as possible on the way in which discourse takes shape before the 

reader’s eyes and coheres in their mind. But it is also a temporal medium, in which spatial 

structures have a temporal dimension and realisation (Luesebrink 1998). So, both space 

and time can be exploited in hypertext to express discourse coherence and, we contend, 

in hypertext the notion of abstract document structure consists of both spatial and temporal 

configurations working in a three-dimensional space. 

From text to hypertext via abstract document structure 

If coherence is a cognitive phenomenon, then it is possible to express coherence relations 

not only through linguistic markers, but also through visual patterns. And if this can 

be done by using spatial abstract features in linear documents, then it can also be done by 

using spatial and temporal abstract features in non-linear documents. In particular, we propose 

that graphics and animation could be used to express discourse coherence in hypertext 

(see Mancini & Buckingham Shum 2004). 

At present, most hypertexts (especially on the web) make no use of graphical features 

to signal rhetorical relations between nodes, and nodes often consist of long text pages 

with a few links targeting other pages, from where the source page can no longer be seen. 

However, we believe that the non-linear medium could be used in a far more expressive 

and articulated way, if graphic features were exploited as discourse markers to support 

coherence. Our work precisely aims at identifying visual devices that can play the role of 

discourse markers in the non-linear, three dimensional space of hypertext. 

One of these devices could consist of creating much smaller hypertext nodes and using 

the screen as a visual field across which they can distribute as links are clicked and new nodes 

appear, composing meaningful patterns. The appearance and distribution of the nodes 

should signify the rhetorical role that their content plays within the discourse. To achieve 

that, rhetorical relations could be used as document structuring principles during discourse 

construction to define hypertext links. These could then be dynamically rendered during 

navigation through the consistent and concurrent use of the medium’s spatial and temporal 

graphic features. 

In this respect, having established a parallel between textual and visual processing 

(Riley & Parker 1998), Gestalt theory has proposed useful principles of document design 

(Campbell 1995). Furthermore, a number of representational rules for visually expressing discourse 

relations between hypertext nodes could be derived from the semiology of graphics, 

according to which graphic features can be employed to express conceptual relationships 

of similarity, difference, order and proportion exploiting the properties of the visual image, in 

a bi-dimensional static space (Bertin 1967) as well as in a three-dimensional dynamic space 

(Koch 2001). Using these rules, we have designed and begun testing a series of prototype 

visual patterns expressing coherence relations in non-linear discourse (Mancini 2005). 


95

96 

Visualising and testing rhetorical patterns 

Based on cognitive parameterisations of coherence relations (Sanders et al. 1993, Pander 

Maat 1999, Louwerse 2001), we selected a set of relations for experimental rendering and 

evaluation. The set included: CAUSALITY, CONDITIONALITY, SIMILARITY, CONTRAST, CONJUNCTION, 

DISJUNCTION, ELABORATION and BACKGROUND 1 . Here we report on one example: CAUSALITY. 

The graphical renderings of the relations were designed based on their parametrical description. 

In our descriptions of reference, the bipolar parameters defining CAUSALITY were: basic 

operation, according to which a relation can be causal or additive, and polarity, according to 

which a relation can be positive or negative. The values of each cognitive parameter defining 

the relations were rendered through graphical features. As a result, each relation was visually 

defined by the sum of the graphical features rendering the cognitive values that define it. 

The representation of CAUSALITY was defined by the features rendering the values causal and 

positive. 

To reify the relation renderings, examples of argumentative passages were taken from 

a history of science text. Short passages were isolated, each passage consisting of a pair or 

a triple of sentences. The sentences of each pair or group held with each other one of the 

eight selected relations, all signaled by appropriate connectives. Finally, each pair or triple 

of related sentences was represented on screen respectively within a pair or triple of related 

text windows, and those windows were attributed certain graphical properties expressing 

the relation holding between the content of one sentence and the content of the other. On 

screen, all connectives were removed from the text within the windows, and the connective 

function between the text spans was entirely delegated to the windows’ graphical properties. 

In order to be as differentiated as possible, each representation had to be kept as minimalist 

as possible, making use of no more formal elements than strictly necessary. A small 

number of graphical variables (Koch 2001) were used following specific rules of graphics 2 . 

Below is the description of the pattern designed for CAUSALITY. 

The text spans selected to reify the relation were: 

A. Galileo ignored Kepler’s demonstration of the elliptical orbits of planets and continued 

to believe that planetary revolutions were a “natural” motion requiring no external mover. 

B. Galileo failed to see that the actual geometry of the heavens contradicted any spherical 

model. 

C. Galileo missed the problem of how planets were retained in their elliptical orbits. 

The three windows respectively containing the three text spans were arranged one under 

the other, the second sliding down from behind the first as soon as the first had appeared, 

and the third sliding down from behind the second as soon as it had reached its position. 

They all shared the same width, while the height of each was determined by the quantity 

of text contained in each window. The value of the windows’ background became increasingly 

darker from the first to the third, and the ratio of increment was the same from the first 

to the second and from the second to the third, that is, they were equidistant, as far as the 

value was concerned. In this configuration, the order of the events was rendered by the 

arrangement of the text windows, while the fact that the second and the third windows 

appeared by sliding down from the previous one rendered the fact that the second and the 

third events followed, and were brought about, respectively by the first and the second 

event. At the same time, the darkening of the background rendered the idea of progression 

in the forging of a logical chain. Finally, the cohesion between the three events was reinforced 

by the fact that the three windows had the same width (Figure 1). 

1. For the criteria of selection and for the discussion of all the renderings, see Mancini (2005). 

2. For a detailed discussion of the design process for all the relational renderings see (Mancini, 2005). 


Figure 1: Two screen shots from the animated graphic rendering of causality 

(the letters beside the text boxes are for illustration purposes only). 

The whole set of relations was rendered with the purpose of testing the renderings and 

their impact on users. In particular we wanted to find out whether the concurrent and consistent 

use of visual features according to certain perceptual principles and design criteria 

would determine the expressiveness of the configurations designed to represent the selected 

sub-set of discourse relations and whether people would discriminate the relational expressiveness 

of different visual configurations. 

As a first form of verification, we designed and conducted an empirical study with a 

group of 24 participants. We asked them to choose from three different representations the 

one that in their judgement best expressed each relational concept: the one that had been 

designed to represent that particular relation, plus two alternative representations originally 

designed to express different relations. 

One at the time, the participants were given the original text that had been used to 

reify each relation, as well as an abstract definition of the relation in question, then were 

shown the three animations associated with it, from which they had to choose what they 

thought to be its most expressive representation. They were asked to go through a second 

round, in which they were allowed to modify, one way or the other, the choices made in the 

first round. 

R Caus. Cond. Conj. Disj. Sim. Cont. Back. Elab. 

1st 19 10 18 12 16 20 21 20 

2nd 22 13 21 12 18 20 21 21 

χ2 37 4.750 32.25 3.25 19.75 28 32.25 27.25 

p

98 

of events. However, conditionality and disjunction hold across two possible lines of events. 

That is, they implicate the cognitive projection into an alternative space-temporal dimension 

(or narrative axis), before the conditioned or disjuncted situations can be presented. Such an 

abstraction is easy to express in natural language, but it is not as easy to express in visual 

languages. 

This work is still in progress and we are still exploring ways of presenting hypertext which 

employ the graphical features of the medium in a systematic and principled way. We have not 

implemented a system yet, but that is our goal, and the experimental results that we have 

obtained so far are encouraging. 

Applying visual rhetorical patterns to hypertext 

Now let us illustrate an example of how in non-linear text the expression coherence could 

be supported by visualising rhetorical patterns. Consider the following text passage: 

Some animals are 'nice' to each other, especially those who live on the edge. 

For example, vampire bats have been shown to share meals. If a bat fails to find a meal it 

is often unable to survive until the next evening's hunting. A bat that has fed well, though, 

has more than enough to survive, and could easily spare some of its meal. So sometimes 

a full bat will regurgitate some of its meal to another that is starving. 

These animals are showing behaviour known as 'reciprocal altruism', which simply means that they 

lend each other favours in the expectation that the favours will be repaid some time in the future. 

[For example] A bat which one day might be bloated by a great meal, might on another 

evening be less lucky and be in need of help itself. By being generous one day at little cost 

to itself, it might be saved from starvation the next by another bat returning the favour. 

This process can be explained with a game called 'Prisoner's Dilemma'. In the game, two 

suspects have been arrested for a crime and the police question them in separate 

rooms. The police offer them each a deal. If they don't co-operate with each other (i.e. 

they give the police evidence that the other person is guilty) then they will be rewarded 

and the other person will be put away for the crime. If they both fail to co-operate, 

and give evidence against each other then they will both get locked up (although 

they will get a lesser sentence), but if they both co-operate with each other by keeping 

quiet then the police have no evidence and they will eventually both be released. 

[Going back to our example] For the bats the risk of starvation if they do not feed is very 

high, while the cost of co-operating is low, so it should be no surprise to us that they have 

come to co-operate with each other, with every bat benefiting from the arrangement. 

This sort of situation faces animals all the time, and by understanding what the rewards and 

costs are to them in each case, we can understand the way they behave. 

This is composed of four paragraphs, each of which is made up of two or three sentences. 

As far as the content is concerned, three different narrative levels marked by the indentation 

of the layout can be identified, whose relations are expressed by connective or referential 

phrases (in bold) or simply by paratactic juxtaposition (in bold and square brackets). The author 

explains an animal behaviour known as ‘reciprocal altruism’, at one level as an abstract concept, 

at another level with an example from the animal kingdom, and at yet another level 

with a metaphor from a game. Now let us consider the case in which the linear text passage 

is turned into a hypertext. 

In the hypertext version, the underlined words or clauses constitute links and the numbers 

in brackets next to them indicate their target node (nodes are numbered for illustration 

purposes). Each node has at least two links, which means that each node can be accessed 

at least from two other nodes. Because of that, none of the nodes here contain connectives or 

referential phrases that relate to other nodes: each one is a self-standing fragment, no matter 

from where it is accessed. If connectives and referential phrases are not used to express the 


[1] Some animals are 'nice' to each 

other (>2), especially those who live 

life on the edge (>4). 

[2] Certain animals show a behaviour 

known as 'reciprocal altruism‘ (>5), 

which simply means that they lend 

each other favours (>6) in the 

expectation that the favours will be 

repaid some time in the future (>3). 

[6] In the game 'Prisoner's Dilemma', two suspects 

have been arrested for a crime and the police 

question them in separate rooms. The police offer 

them each a deal. If they don't co-operate with each 

other (i.e. they give the police evidence that the other 

person is guilty) then they will be rewarded and the 

other person will be put away for the crime. If they 

both fail to co-operate, and give evidence against 

each other then they will both get locked up (although 

they will get a lesser sentence), but if they both cooperate 

(>5) with each other by keeping quiet then 

the police have no evidence and they will eventually 

be both released (>2). 

[4] Vampire bats have been shown to share meals 

(>5). If a bat fails to find a meal it is often unable to 

survive until the next evening's hunting. A bat that 

has fed well, though, has more than enough to 

survive, and could easily spare some of its meal. So 

sometimes a full bat will regurgitate some of its meal 

to another (>6) that is starving. 

[5] A bat which one day might be bloated by a great 

meal, might on another evening be less lucky and be 

in need of help (>4) itself. By being generous one 

day at little cost to itself, it might be saved from 

starvation the next by another bat returning the 

favour. 

For the bats the risk of starvation if they do not feed 

is very high, while the cost of co-operating is low, so 

it should be no surprise to us that they have come to 

co-operate with each other (>6), with every bat 

benefiting from the arrangement (>3). 

[3] Situations in which reciprocal 

altruism (>2) is necessary face 

animals all the time, and by 

understanding what the rewards and 

costs are to them in each case, we 

can understand the way they behave 

(>1). 

rhetorical relations holding between nodes, however, these relations could be expressed 

through graphic features. Following the rules of graphics visual attributes could be used consistently 

and concurrently to render relations of order between nodes in a three-dimensional 

space, marking the rhetorical relations holding between the discourse parts contained in the 

nodes. 

Let us hypothesise that one reader follows the path that leads from node 1, to node 2, 

to node 3, by following first the link ’nice’ to each other in node 1 and then the link repaid 

some time in the future in node 2. 

Some animals are 'nice' to each 

other, especially those who live life on 

the edge. 

Certain animals show behaviour 

known as 'reciprocal altruism‘, which 

simply means that they lend each 

other Situations favours in which in the reciprocal expectation altruism that 

the is necessary favours will face be animals repaid some all the time 

in time, the future. and by understanding what the 

rewards and costs are to them in 

each case, we can understand the 

way they behave. 

A B 


other, especially those who live life on 

the edge. 

Certain animals show behaviour 

known as 'reciprocal altruism‘, which 

simply means that they lend each 

other favours in the expectation that 

the favours will be repaid some time 

in the future. 

Situations in which reciprocal altruism 

is necessary face animals all the 

time, and by understanding what the 

rewards and costs are to them in 

each case, we can understand the 

way they behave. 

Node 1, the starting point in the hypertext, expresses in a nutshell the concept of ‘reciprocal 

altruism’, which is the subject of the passage. Node 2 elaborates the concept and, on the 

basis of that elaboration, node 3 comes to a conclusion. At first, node 1 is on the screen on 

its own, but, when the reader clicks on the link ‘nice’ to each other, node 2 appears (A). The 

relation of elaboration holding between nodes 1 and 2 could be expressed as follows: node 2 

overlaps on the lower edge of node 1, projecting a small shadow. That is, through the slight 

overlapping and projected shadow of node 2, this configuration aims to reflect the fact that 

the two units do not belong to the same discourse level: the first one, higher up and more 

in depth in the visual field, states the basic concept that the second one, lower and more 

to the forefront in the visual field, restates and expands. At this point, when the reader clicks 

on the link repaid some time in the future, node 3 slides down from behind node 2, greyed 

out at first (A). As it positions itself under node 2, node 3 becomes readable and node 1 greys 

out instead, leaving the other two both in evidence (B). The relation holding between the 


99

100 

nodes - conclusion - is a pragmatic form of causality. This is expressed by the origin and trajectory 

of node 3, which physically descends from node 2 and by the fact that the background 

of node 3 has a darker value. Moreover, the fact that node 2 and 3 have the same width and 

are aligned closely one under the other aims to express the fact that they constitute the interconnected 

parts of a larger unit. Finally, by the greying out of node 1 the presentation underlines 

the unity of node 2 and 3. 

Now let us hypothesise that another reader follows a different path, going from node 1, 

to node 6, to node 5, to node 3, by respectively following the links live life on the edge, regurgitate 

some of it’s meal to another, both co-operate and benefiting from the arrangement. 

This second reading constitutes a different navigational experience, to which corresponds a 

different visual experience. 


other, especially those who live life 

on the edge. 

Vampire bats have been 

shown to share meals. If a 

bat fails to find a meal it is 

A often unable to survive until 

the next evening's hunting. 

A bat that has fed well, 

though, has more than 

enough to survive, and 

could easily spare some of 

its meal. So sometimes a 

full bat will regurgitate some 

of its meal to another that is 

starving. 

At first, node 1 is on its own on the screen, but as soon as the reader clicks on the link 

live life on the edge, node 4 appears (A). The content of node 4 is an exemplification of the 

concept stated in node 1, and since exemplification is a form of conceptual elaboration, the 

visual relationship between node 1 and 4 is represented in the same way as the visual relationship 

between node 1 and 2 in the previous path, except that the background colour of 

node 4 is different from that of node 2 in the previous path. As the reader now clicks on the 

link regurgitate some of its meal to another, node 6 enters the screen from the right hand 

side (A) to position itself right next to node 4 (B). As it gets into place, the background colour 

of node 6 turns the same as the background colour of node 4. 



on the edge. 

Vampire bats have been 

shown to share meals. If a 

bat fails to find a meal it is 

B 

often unable to survive until 

the next evening's hunting. 

A bat that has fed well, 

though, has more than 

enough to survive, and 

could easily spare some of 

its meal. So sometimes a 

full bat will regurgitate some 

of its meal to another that is 

starving. 

This is how the conceptual similarity holding between the content of node 4 and the 

content of node 6 is rendered through a graphic similarity: node 6 moves in towards node 4, 

it has the same height as node 4, it positions itself next to it and it changes its original background 

colour (which signals a different domain from which the comparison is drawn) to match 

that of node 4. As the reader clicks on the link both co-operate, node 5 enters the screen 

from the left hand side to position itself where node 4 was before, so that it gets into the 

same position as node 4 with respect to node 6 (C). 


In the game 'Prisoner's Dilemma', two suspects 




other (i.e. they give the police evidence that the 

other person is guilty) then they will be rewarded 

and the other person will be put away for the crime. 

If they both fail to co-operate, and give evidence 

against each other then they will both get locked up 

(although they will get a lesser sentence), but if they 

both co-operate with each other by keeping quiet 

then the police have no evidence and they will 

eventually be both released. 













eventually be both released.



on the edge (>4). 

A bat which one day might 4. be Vampire bloated bats by a have been 

great meal, might on another shown evening to share be meals. If a 

less lucky and be in need of bat help fails itself. to find By a meal it is 

being generous one day at often little cost unable to to survive until 

itself, it might be saved from the starvation next evening's the hunting. 

next by another bat returning A bat the that favour. has fed well, 

For the bats the risk of starvation though, if has they more do than 

not feed is very high, while enough the cost to of survive, co- and 

operating is low, so it should could be no easily spare some of 

surprise to us that they have its come meal. to So cosometimes 

a 

operate with each other, with full every bat will bat regurgitate some 

benefiting from the arrangement. of its meal to another that is 

starving. 

This is to represent that the same conceptual similarity that holds between nodes 4 and 6 

also holds between nodes 6 and 5. Consistently with that, node 5 has the same height and 

background colour as node 4, as well as ending up in the same position. 

Conclusions 

C 













eventually be both released. 

If a reader is to understand a text, their mental representation of its content has (at least 

to some degree) to reflect the coherence structure intended by the writer. In linear documents, 

a number of textual devices facilitate this process of reconstruction by signalling the coherence 

structure of discourse. However, these devices only work within a linear structure and 

they are no longer helpful in the interpretation of non-linear documents. When it comes to 

non-linear media, such as hypertext, a different set of signalling devices is required, which 

we claim are visual rather than textual. These visual elements constitute the abstract document 

structure in traditional text, where they work within the bi-dimensional space of the page. 

However, in hypertext they have to work in a three-dimensional space as well as in time, which 

pushes the boundaries of the notion of abstract document structure. 

As we have argued, there is a fundamental semiotic difference between visual configurations 

and textual expressions: since it is a symbolic code, text can express relational concepts 

with degrees of precision and subtlety that are not easily available in the visual medium. 

However, although visual languages do not have the same semiotic capabilities of abstraction, 

there is theoretical ground and some preliminary evidence to suggest that they can 

express at least the most basic relational concepts (for instance, CAUSALITY, CONJUNCTION, 

SIMILARITY). The condition for that is the consistent and concurrent use of the properties of 

the image according to specific rules, in order to establish a linguistic context in which different 

configurations become recognisable as having different meaning. Of course, the use 

of visual patterns to express coherence relations in hypertext could be associated with other 

devices (Kress & van Leeuwen 2001). For instance, exploiting text generation capabilities, 

hybrid representational forms could be used, in which symbolic connectives are used in 

addition as soon as two nodes appear on the screen. However, our aim is to identify ways of 

presenting hypertext discourse which employ graphical features in a systematic and principled 

way, extending the notion of abstract document structure, so that it applies to hypertext 

as well as linear text, by making articulate use of the space-temporal dimensions of the 

electronic medium, fully exploiting its expressive potential. 

Still in its infancy, this work is at this stage more concerned with identifying the right 

questions than with presenting the right answers. We have not yet implemented a system, 

but that is our goal, and the experimental results obtained so far are encouraging. As a next 

step we will be carrying out further tests on the visual renderings of rhetorical relations. For 

example, we intend to test the same relational renderings with a larger number of participants 

from different backgrounds, carrying out a qualitative analysis of their responses. We 


101

102 

have also started to construct hypertext mock-ups using our set of coherence relations to 

define the links between nodes and rendering the connections through their corresponding 

visual patterns. These are to be tested with users: as they navigate and visual patterns take 

shape on the screen, they will be asked to identify the relations holding between nodes, which 

will be indicated solely by the graphical clues. Further tests will also be designed. 

Our long-term goal is the application of this work to a larger effort in natural language 

generation, whereby the same semantic content is rendered differently for different readerships. 

In particular, we are generating paraphrases that vary not just along the traditional 

dimensions (discourse, syntax, lexicalisation) but also in terms of graphical presentation, for 

example, as textual reports in different styles including linear vs. non-linear or as slides for 

a presentation. 

Acknowledgments 

We would like to thank Richard Power and the reviewers of ISDD’06 for their helpful 

feedback. 

Bibliography 

BERNSTEIN M. (1998), “Patterns of Hypertext”, in Proceedings of ACM Hypertext'98, Pittsburgh, PA, 

New York, ACM Press, p. 21-29. 

BERTIN J. (1967), Sémiologie Graphique, Paris – La Haye, Mouton – Gauthier-Villars; English translation 

(1983), Semiology of Graphics: Diagrams, Networks, Maps, Madison, University of Wisconsin Press. 

BOLTER J.D. (1991), Writing Space: The Computer, Hypertext, and the History of Writing, Cambridge MA, 

Eastgate Systems. 

BROWN G. & YULE G. (1983), Discourse Analysis, New York, Cambridge University Press. 

CAMPBELL K.S. (1995), Coherence, Continuity, and Cohesion. Theoretical Foundations for Document 

Design, Hillsdale (NJ), Lawrence Erlbaum Associates Publishers. 

CARTER L.M. (2000), Arguments in Hypertext: A Rhetorical Approach, in Proceedings of ACM Hypertext ‘00, 


DIJK van T.A. (1977), Explorations in the Semantics and Pragmatics of Discourse, London – NY, Longman. 

GRIMES J.E. (1975), The Thread of Discourse, Berlin – New York – Amsterdam, Mouton Publishers. 

HALLIDAY M.A.K. & HASAN R. (1976), Cohesion in English, New York, Longman. 

HOBBS J.R. (1985), On the Coherence and Structure of Discourse, Stanford, CSLI (Technical Report 85-37). 

JOHNSON-LAIRD P. N. (1983), Mental models: Towards a cognitive science of language, inference, and 

consciousness, Cambridge MA, Harvard University Press. 

KAMP H. & RYLE U. (1993), From Discourse to Logic, Dordrecht, Kluwer. 

KNOTT A., DALE R. (1994), “Using Linguistic Phenomena to Motivate a Set of Coherence Relations”, 

Discourse Processes, 18, 1, p. 35-62. 

KNOTT A., MELLISH C. (1996), “A feature-based account of the relations signalled by sentence and 

clause connectives”, Language and Speech, 39, 2/3, p. 142-183. 

KOCH W.G. (2001), “Jaques Bertin’s Theory of Graphics and its Development and Influence on 

Multimedia Cartography”, Information Design Journal, 10, 1, p. 37-43. 

KOLB D. (1997), “Scholarly Hypertext: Self-Represented Complexity”, in Proceedings of ACM Hypertext'97, 


KRESS G. & VAN LEEUWEN T. (2001), Multimodal discourse: the modes and media of contemporary 

communication, London, Arnold. 

LANDOW G.P. (1991), “The Rhetoric of Hypermedia: Some Rules for Authors”, in Hypermedia and Literary 

Studies, P. Delany and G.P. Landow (eds.), Cambridge MA, MIT Press, p. 81-104. 

LOUWERSE M. (2001), “An Analytic and Cognitive Parametrization of Coherence Relations”, Cognitive 

Linguistics, 12, 3, p. 291-315. 

LUESEBRINK M. (1998), “The Moment in Hypertext”, in Proceedings of ACM Hypertext'98, New York, 

ACM Press, p. 106-112. 


MANCINI C. (2005), Cinematic hypertext. Investigating a new paradigm, Amsterdam, IOS Press. 

MANCINI C. & BUCKINGHAM SHUM S. (2004), “Towards Cinematic Hypertext“, in Proceedings of ACM Hypertext'04, 


MANN W.C., THOMPSON S.A. (1988), “Rhetorical Structure Theory: Toward a Functional Theory of Text 

Organisation”, Text, 8, 3, p. 243-281. 

MARTIN J.R. (1992), English Text. System and Structure, Amsterdam, John Benjamins Publishing Co. 

NUNBERG G. (1990), The Linguistics of Ponctuation, Stanford, USA, CSLI. 

PANDER MAAT H. (1999), “The Differential Linguistic Realisation of Comparative and Additive Coherence 

Relations”, Cognitive Linguistics, 10, p. 147-184. 

PIWEK P., POWER R., SCOTT D., VAN DEEMTER K. (2005), “Generating multimedia presentations: from 

plain text to screenplay Intelligent Multimodal Information Presentation”, Text Speech and Language 

Processing, 27, O. Stock and M. Zancanaro (eds.), Dordrecht, Kluwer, p. 203-226. 

POWER R., SCOTT D., BOUAYAD-AGHA N. (2003), “Document Structure”, Computational Linguistics, 29, 

4, p. 211-260. 

RILEY K., PARKER F. (1998), “Parallels between visual and textual processing”, IEEE Transactions on 

Professional Communication, 41, p. 175-185. 

SANDERS T.J.M., SPOOREN W.P.M., NOORDMAN L.G.M. (1993), “Coherence Relations in a Cognitive 

Theory of Discourse Representation”, Cognitive Linguistics, 4, 2, p. 93-133. 

SANDERS T.J.M, SPOOREN W. (2001), “Text Representation as an Interface Between Language and its Users”, 

in Text Representation. Linguistic and psycholinguistic aspects, T.J.M. Sanders, J. Schilperoord, W. Spooren 

(eds.), University of Utrecht, University of Tilburg, Free University of Amsterdam Press, p. 1-26. 

SAUSSURE F. (1922), Cours de Linguistique Générale, Paris, Éditions Payot. 

SCHIFFRIN D. (1987), Discourse Markers, New York, Cambridge University Press. 


103

104 


Schedae, 

2006 


SEXTANT, un langage de modélisation 

des connaissances 

pour la navigation textuelle 

Javier Couto 

Universidad de la República – Facultad de Ingeniería – Instituto de Computación 

J. Herrera y Reissig 565– Montevideo – Uruguay 

jcouto@fing.edu.uy 

Jean-Luc Minel 

MoDyCO, UMR 7 114 CNRS- Université Paris X Nanterre 

200 Avenue de la République – 92001 Nanterre 

jean-luc.minel@u-paris10.fr 

Résumé : 

Nous présentons tout d’abord notre conception de la navigation textuelle conçue comme un processus 

cognitif qui convoque des connaissances qui sont propres à la finalité de la navigation. Nous 

formulons l’hypothèse que ces connaissances peuvent être, en partie, modélisées sous une forme 

déclarative avec le langage SEXTANT que nous décrivons. Enfin, nous présentons deux applications 

qui utilisent la plate-forme NaviTexte dans laquelle le langage SEXTANT est implémenté. 

Mots-clés : navigation textuelle assistée, langage de modélisation des connaissances. 

Abstract : 

In this paper, we present our approach to text navigation conceived like a cognitive process, which 

exploits navigation specific knowledge. We draw up the hypothesis that such knowledge can be 

designed in a declarative way with our language SEXTANT. Finally, two applications are described. 

Keywords : assisted navigation of texts, knowledge management language. 

Conceptions de la navigation textuelle 

Le terme de navigation textuelle reçoit de multiples interprétations. La plus commune 

renvoie inévitablement au processus mis en oeuvre par les outils de navigation utilisés pour 

circuler dans les documents hypertextes, c’est-à-dire la possibilité d’activer un lien pour déplacer 

le point de lecture ; ce déplacement pouvant être intra ou intertextuel. Plusieurs points 

Javier Couto & Jean-Luc Minel 

« SEXTANT, un langage de modélisation des connaissances pour la navigation textuelle » 

Schedae, 


105

106 

sont à souligner dans ce type de navigation hypertextuelle. Tout d’abord, l’activation du lien 

est « aveugle », plus précisément aucune signalétique (en dehors d’un titre ou de l’adresse 

Url qui est en général peu significative) ou instructions de navigation ne sont associées au 

lien. Deuxièmement cette navigation est linéaire, c’est-à-dire qu’une seule voie de navigation 

est offerte au lecteur quand celui-ci active le lien. Autrement dit, pour chaque nœud 

source il existe un seul nœud cible. De notre point de vue, cela constitue une contrainte trop 

restrictive vis-à-vis des fonctionnalités offertes à l’utilisateur. Troisièmement, l’orientation de 

la navigation n’est pas indiquée explicitement ; le lecteur ne sait pas si le déplacement se 

fait vers l’amont ou vers l’aval 1 du texte lu, ce qui entraîne entre autre des phénomènes de 

désorientation cognitive (Edwards & Hardman 1989, Cotte 2004). Dans certains systèmes, 

l’affichage d’une carte représentant l’ensemble du site et la localisation du point de lecture 

sont utilisés pour résoudre en partie ce problème (Danielson 2002). Enfin et surtout, les liens 

sont placés dans le corps même du texte, ce qui implique qu’il n´est pas possible d’adapter les 

parcours dans ce texte au lecteur. En d’autres termes aucune information ou connaissances 

complexes ne peuvent être associées à la navigation. 

Notre conception de navigation textuelle se démarque de ce type de navigation car nous 

considérons que circuler ou naviguer dans un texte est l’expression d’un processus cognitif 

qui convoque des connaissances qui sont propres à la finalité de la navigation (Minel 2003, 

Couto & Minel 2004). Ainsi, comme nous l’illustrerons en présentant différentes applications 

(section 4), un documentaliste qui doit écrire un résumé d’un texte (Endres-Niggemeyer et al. 

1995) ne navigue pas de la même façon qu’un lecteur intéressé par l’évolution des sentiments 

d’un des personnages d’un roman (Mathieu 2004) ou qu’un linguiste qui explore les annotations 

placées par un système automatique (Pery-Woodley 2004). Ainsi, le fait qu’un texte soit 

maintenant numérisé et qu’il soit présenté au lecteur sur un écran peut être considéré, de 

notre point de vue, comme une nouvelle mutation qui place le lecteur devant de nouvelles 

possibilités qui restent à explorer : 

Le texte […] offre en effet une richesse sémiotique particulière, qui fournit de multiples objets 

d’interprétation et de multiples pistes d’actions […] les lecteurs n’ont pas la même démarche 

envers l’objet ni la même définition de cet objet, ils ne « voient » pas la même chose (Souchier 

et al. 2003). 

Nous formulons l’hypothèse que la démarche du lecteur peut être assistée par l’exploitation 

de connaissances qui peuvent être, en partie, modélisées sous une forme déclarative. 

En conséquence, nous proposons le langage SEXTANT 2 pour exprimer ces connaissances 

(section 3). 

Du point de vue du lecteur, la navigation textuelle que nous proposons est très différente 

de la navigation hypertextuelle au sens ou nous considérons que le lecteur, qui active lui 

aussi des connaissances d’interprétation (Kintsch 2003, Baccino 2004) doit pouvoir interagir 

en choisissant la voie de navigation qui lui semble la plus appropriée pour sa tâche de lecture. 

Il est néanmoins évident que cette interaction est actuellement très limitée, car la navigation 

proposée reste dans les limites posées par le concepteur des modules de navigation (section 

3). En ce sens, il serait peut-être plus précis de parler de « navigation textuelle assistée ». 

Afin de proposer une approche systématisée à la navigation textuelle, quatre éléments 

sont nécessaires : 

– une représentation du texte pouvant décrire différents phénomènes linguistiques ; 

1. L’orientation n’a de signification que dans le cas d’une navigation intratextuelle. 

2. Par analogie avec les navigateurs du XVIII e siècle qui ont parcouru le monde en s’orientant sur les mers 

avec un sextant. 


– la possibilité de pouvoir isoler les connaissances de visualisation et de navigation ; 

– un agent (une personne, une équipe d’experts, un système, etc.) capable d’encoder ces 

connaissances ; 

– un système qui interprète ces connaissances. 

Nous n’aborderons pas dans cet article la modélisation des connaissances de visualisation, 

que l’on peut brièvement définir comme l’ensemble des opérations qui spécifient 

comment un texte est représenté sur l’écran (voir (Couto 2001, 2006) pour une présentation 

détaillée). Dans la section suivante nous présentons le modèle de texte que requiert 

cette conception de la navigation. 

Représentation du texte 

La représentation du texte, décrite dans un format standard XML, se divise en deux 

parties ; le Corps, où les unités textuelles, significatives pour la tâche sont délimitées, et la 

Tête, où s’expriment les relations non hiérarchiques entre ces mêmes unités. 

Le Corps 

Dans le Corps, l’élément de base de notre modèle est l’Unité Textuelle (UT) typée, ce qui 

permet d’incorporer de nouveaux éléments textuels de manière simple. Ces principes d’annotation 

sur lequel s’appuie NaviTexte sont classiquement ceux proposés par les standards tels 

que ceux de la TEI (Text Encoding Initiative). 

Concrètement, dans le Corps, une unité textuelle (UT) est balisée, avec la balise , 

et des attributs, en nombre illimité, peuvent lui être attribués. Chaque UT est typée et possède 

optionnellement un rang. Le type peut aussi bien dénoter la fonction structurelle de l’unité 

en question, sa caractéristique syntaxique, sa fonction discursive. On peut remarquer que ce 

type d’annotation laisse une marge de liberté très grande, notamment dans la répartition 

des valeurs d’annotation entre le type de l’UT et les attributs de cette UT (Couto et al. 2005). 

La Tête 

Néanmoins ce type de délimitation des unités est insuffisant pour traiter certains phénomènes 

linguistiques, tel que la discontinuité ou le recouvrement. Plusieurs solutions ont été 

proposées qui reposent généralement sur les fonctionnalités offertes par X-Link et XPointer. 

Mais la généricité et la relative complexité de ces approches associées à l’absence d’outils 

d’éditions sophistiqués rendent leur utilisation plutôt difficile dans le cadre du Traitement 

Automatique du Langage (TAL). C’est pour répondre à ce besoin, l’annotation des structure 

complexes rencontrées en TAL, que quatre structures, qui sont déclarées dans la Tête, ont été 

définies (Couto 2006). Ces quatre structures sont nommées Ensemble, Séquence, Référence 

et Graphe et elles permettent de déclarer de nouveaux éléments composés d’unités textuelles 

du Corps du texte. De plus, pour chacune de ces structures, des opérations de visualisation 

et de navigation prédéfinies sont en cours de développement. 

Un Ensemble déclare un ensemble non ordonné d’UT pour lesquelles existe, du point de 

vue de l’annotateur, une relation d’équivalence. Par exemple, des UT avec des étiquettes 

morpho-syntaxiques différentes peuvent exprimer un même thème. 

Une Référence décrit une relation orientée entre deux UT et une opération de navigation 

prédéfinie est associée à cet objet. Cette opération va du référé au référent. Typiquement 

une Référence permet de représenter le lien entre une anaphore et son référent discursif. Un 

autre exemple d’utilisation est la représentation des relations rhétoriques entre deux propositions 

comme le propose la Rhetorical Structure Theory (Thompson & Mann 1988). 


107

108 

Une Séquence permet de décrire des éléments discontinus dans un texte. Plus formellement, 

une Séquence est une suite ordonnée d’éléments à laquelle l’annotateur attribue 

une cohésion. L’intérêt de ce type de structure peut être illustré sur différents exemples. 

Le premier exemple est illustré par le besoin d’annoter un syntagme verbal dont la continuité 

est par exemple brisée par la négation. Ainsi, il n’est pas possible dans le Corps d’indiquer 

que dans la suite « ne sont pas stockées », le syntagme verbal composé de « sont » et 

de « stockées » constitue une seule unité, sans y inclure la marque de la négation. En effet, 

il est tout à fait possible de déclarer les unités indépendamment et de les inclure dans une 

autre unité, mais ce choix de segmentation ne correspond pas à la description linguistique 

visée. Or, l’objectif est de visualiser, avec une même couleur de fond par exemple, ces deux 

unités et de pouvoir déclencher la même opération de navigation à partir d’une de ces unités. 

La déclaration d’une Séquence composée de deux éléments : « sont » et « stockées », offre 

cette possibilité. 

Les cadres thématiques (Porhiel 2003) constituent un deuxième exemple de l’intérêt de 

cette structure puisqu’elle permet de déclarer les introducteurs de cadre comme appartenant 

à une même unité. 

Le dernier exemple concerne les chaînes de référence lexicales. Une chaîne de référence 

lexicale est constituée par l’ensemble des syntagmes nominaux qui réfèrent à un même objet. 

Ainsi, dans un article de presse (Le Figaro, le 16 juillet 2004) sur l’amnistie fiscale 3 , on trouve 

pour référer à « La taxe sur les fonds rapatriés en France », dix-sept corrélats linguistiques 

qui réfèrent au même référent dont par exemple « La taxe sur les fonds rapatriés en France », 

«une taxe sur les fonds placés à l’étranger et rapatriés en France », « une telle mesure», « elle », 

etc. La déclaration d’une Séquence composée de toutes ces unités textuelles, et qui concrétise 

la chaîne de référence lexicale, permet d’offrir au lecteur un parcours entre ces éléments 

en utilisant la même opération de navigation décrite précédemment. 

Comme l’illustrent ces trois exemples, l’objet Séquence qui combine une structure avec 

une opération de visualisation et une opération de navigation offre les moyens de traiter 

simplement des phénomènes linguistiques très fréquents. 

Le dernier type d’objet, Graphe est utilisé pour construire des relations multiples entre 

des UT. Il correspond exactement à la notion mathématique d’un graphe (Berge 1958) où les 

nœuds, qui représentent des UT sont liés par des arcs qui représentent les relations entre 

ces nœuds. Un Graphe permet ainsi de représenter un index comme on en trouve par exemple 

en fin d’ouvrage et permet ainsi de mettre en œuvre une autre conception de la navigation, 

plus figée que celle que nous proposons, comme celle que propose Nazarenko (2004). 

Ainsi, chaque entrée générique de l’index est un nœud du Graphe, les relations entre les 

entrées génériques et spécifiques sont représentées par les arcs et feuilles du graphe sont 

les UT du texte dont la chaîne lexicale a pour valeur une occurrence du terme indexé. 

Le langage SEXTANT 

Le langage SEXTANT a pour finalité d’offrir des fonctionnalités à la fois suffisamment 

génériques tout en proposant une sémantique qui se focalise sur l’essentiel du processus de 

visualisation et de navigation dans les textes, à l’inverse de langages de transformation ou 

de programmation comme, par exemple, XSLT (EXtensible Stylesheet Language) ou XPATH. 

Notre langage est donc de type déclaratif et propose des opérations prédéfinies 4 . 

3. Ce texte fait partie des textes recueillis et analysés par Lita Lundquist. 

4. Voir (Couto 2006) pour une description détaillée du langage de modélisation. 


Les vues d’un texte 

Le fait de pouvoir afficher un texte de manières différentes, et que chaque manière (vue 

du texte) comporte des indications précises sur les différentes options d’affichage (opérations 

de visualisation) et sur les interactions que l’utilisateur peut effectuer (opérations de navigation) 

constitue l’épine dorsale de notre approche. De plus, une vue d’un texte ne montre 

pas nécessairement tous les constituants d’un texte ; il peut s’agir d’une vue partielle se focalisant 

sur certains aspects spécifiques ou phénomènes présents dans celui-ci. Cela constitue, 

en quelque sorte, la vue d’un filtrage du texte. 

Afin de présenter une approche systématisée des différentes vues, nous proposons une 

classification selon leur type et leur contenu. Les types possibles sont : linéaire, arborescente 

et graphe tandis que les contenus possibles sont : les chaînes lexicales et les annotations. 

Il en résulte qu’il existe six combinaisons possibles. 

Certes, d’autres types de vues à ceux présentés ici sont envisageables, comme les vues 

basées sur la technique « Focus + Context » (Lamping & Rao 1996) (Dieberger & Russell 2002), 

par exemple ; ou d’autres plutôt ad-hoc comme la vue « docball » (Crestani et al. 2002), qui 

montre la structure hiérarchique d’un document. Néanmoins, le choix des types linéaire, 

arborescente et graphe correspond à la représentation de texte proposée, et constitue, de 

notre point de vue, un bon point de départ, pouvant s’enrichir des propositions et des 

développements postérieurs. 

Modules de connaissances et descriptions de vue 

Les éléments constitutifs d’une vue sont spécifiés dans une description de vue. Plusieurs 

descriptions de vue peuvent être rassemblées dans une entité cohérente d’après l’encodeur 

des connaissances, nommée module de connaissances. Nous pouvons concevoir la création 

d’une vue comme l’application d’une description de vue à un texte déterminé. Par analogie, 

l’application d’un module de connaissances à un texte implique la création d’un ensemble 

de vues. En conséquence, toute vue est liée à un texte, à une description de vue et, indirectement, 

à un module de connaissances. 

Une description de vue est identifiée dans le module par son nom. Afin de la définir, 

l’encodeur doit indiquer : 

– le type de vue selon les types de vue disponibles : linéaire, arborescente et graphe ; 

– le contenu de la vue selon les contenus disponibles : chaînes lexicales et annotations ; 

– ses paramètres, selon le type de représentation ; 

– ses contraintes de création (i.e. des conditions d’appartenance à la vue, à vérifier par les 

unités textuelles du texte) ; 

– un ensemble d’opérations de visualisation ; 

– un ensemble d’opérations de navigation ; 

– un ensemble d’opérations de coordination. 

Le fait de pouvoir créer des vues partielles d’un texte introduit le besoin de contraintes. 

Il s’agit de conditions sur les UT. 

Le langage de conditions 

Une partie importante de SEXTANT est le langage de conditions. Par exemple, on utilise 

une condition pour exprimer des contraintes d’appartenance d’une UT à une vue, pour indiquer 

les UT sur lesquelles une mise en relief s’applique, ou bien pour préciser la cible et la 

source dans la description d’une opération de navigation. Le langage de conditions est composé 

de conditions simples, de conditions d’existence sur les éléments des UT et de conditions 

sur la hiérarchie. 


109

110 

Les conditions simples portent sur les attributs et sur les annotations des UT. Pour ce 

type de conditions, nous utiliserons une notation proche de la notion de patron. On définit 

un opérateur UT comportant cinq opérandes qui correspondent aux propriétés suivantes 

d’une UT : le Type, le Numéro, le Rang, les Annotations et la chaîne lexicale. Avec les trois 

premiers opérandes on dénote des contraintes d’égalité, d’inégalité, d’ordre (inférieur et 

supérieur), de préfixe, de suffixe et de sous-chaîne par rapport à des valeurs. De même pour 

le cinquième opérande. Le quatrième opérande est utilisé pour indiquer l’existence ou nonexistence 

d’annotations, que ce soit un nom d’annotation, une valeur ou un couple nom 

d’annotation – valeur. 

Pour les conditions d’existence UT, un opérateur sans arguments est défini pour chaque 

élément (cf. tableau ci-après). 

existeAnnotations : teste si l’ensemble d’annotations d’une UT n’est pas vide ; 

existeChaîneLexicale : teste si la chaîne lexicale d’une UT est définie ; 

existeTitre : teste si le titre d’une UT n’est pas vide ; 

existeParent : teste si une UT a une UT parent ; 

existeFils : teste si la suite d’UT filles d’une UT n’est pas vide. 

Pour les conditions où se joue le rapport entre les UT dans la hiérarchie, des opérateurs 

unaires spécifiques sont définis. Ces opérateurs prennent comme argument une condition 

simple. Le tableau ci-dessus montre les opérateurs définis pour tester des conditions sur le 

rapport hiérarchique des UT. 

Les conditions peuvent se combiner en utilisant les opérateurs classiques OU, ET et NON, 

de la logique. Voici un exemple d’expression du langage qui exprime la condition suivante : 

« Les UT de type SN comportant une annotation de nom Référent discursif, tel qu’il existe 

dans les ascendants une UT de type Paragraphe qui ne comporte pas une annotation de 

nom Étiquette Sémantique et valeur Conclusion » 

Les opérations de SEXTANT 

Tableau 1 : Opérateurs d’existence sur les éléments des UT. 

estParent : teste si une UT est le parent dans la hiérarchie d’UT d’une UT décrite en utilisant 

une condition simple ; 

estFils : teste si une UT est le fils dans la hiérarchie d’UT d’une UT décrite en utilisant une 

condition simple ; 

estFrère : teste si une UT est le frère dans la hiérarchie d’UT d’une UT décrite en utilisant une 


estAscendant : teste si une UT est l’ascendant dans la hiérarchie d’UT d’une UT décrite en 

utilisant une condition simple ; 

estDescendant : teste si une UT est le descendant dans la hiérarchie d’UT d’une UT décrite 

en utilisant une condition simple ; 

contientDansTitre : teste si une UT contient dans les UT du titre une UT décrite en utilisant 

une condition simple ; 

estDansTitreDe : teste si une UT appartient aux UT du titre d’une UT décrite en utilisant une 


Tableau 2 : Opérateurs portant sur le rapport hiérarchique des UT. 

UT (Type = SN, *,*,{(Référent discursif, *)},*) 

ET 

estDescendant (UT (Type = Paragraphe,*,*,{ ¬∃(Étiquette Sémantique, Conclusion)},*)) 

Tableau 3 : Exemple d’utilisation du langage de conditions. 

Des trois types d’opérations possibles (visualisation, navigation et coordination), nous 

nous focalisons sur les opérations de navigation. La navigation est conceptualisée comme 

une opération reliant une UT source avec une UT cible. La manière dont ces deux UT sont 

liées est fonction de quatre paramètres : 


– la condition à vérifier par l’UT source ; 

– la condition à vérifier par l’UT cible ; 

– le type d’opération de navigation ; 

– le rapport existant entre l’UT source et l’UT cible. 

Une opération de navigation est définie comme une opération qui cherche l’UT cible à 

partir de l’UT source, en vérifiant les différentes conditions et en suivant l’orientation relative 

au type d’opération. La source est définie en utilisant une condition sur les UT. Implicitement, 

une opération de navigation est disponible pour une UT déterminée si celle-ci vérifie la condition 

exprimée par la source. La cible est déterminée à partir de deux paramètres : une 

condition à vérifier pour l’UT cible et le type d’opération de navigation. Une fois la source 

déterminée, plusieurs UT peuvent vérifier la condition de la cible, et c’est le type d’opération 

qui indique laquelle choisir d’entre elles. Chaque opération est donc typée avec une 

valeur qui appartient à l’ensemble {premier, dernier, suivant [i], précédent [i]}, i étant un 

nombre entier positif. Ces valeurs spécifient d’une part l’orientation, c’est-à-dire dans quel 

sens (avant ou après l’UT source) doit être effectué la recherche de l’UT cible, et d’autre part 

le référentiel, absolu (premier, dernier), ou relatif (suivant [i], précédent [i]), par rapport à la 

source. Dans le cas d’un référencement relatif, l’index i permet de spécifier le rang de la 

cible recherchée. Par exemple, le type « Suivant [3] » s’interprète comme la recherche, dans 

les UT vérifiant les conditions spécifiées pour la cible (i.e. les cibles potentielles), de la troisième 

unité textuelle située après l’unité textuelle source. 

opérationNavigation → OpNav (nomOpérationNavigation, 

typeOpérationNavigation, 

source, 

cible) 

nomOpérationNavigation → valeur 

typeOpérationNavigation → premier | dernier | suivant [valeur] | 

précédent [valeur] 

source → condition 

cible → condition 

Tableau 4 : Grammaire correspondant aux opérations de navigation. 

Dans sa première version, la puissance d’expression du langage était limitée par la nécessité 

d’exprimer de manière absolue les conditions sur les valeurs des attributs des UT. Cette 

limitation avait par exemple pour conséquence l’obligation d’écrire une opération de navigation 

différente pour naviguer entre chaque anaphore et son référent discursif. Dernièrement, 

nous avons enrichi le langage de conditions par la possibilité d’exprimer des relations entre 

les valeurs des attributs des UT de la source et de la cible, ce qui entraîne qu’une seule 

opération de navigation suffit pour traiter la navigation évoquée ci-dessus Les opérations 

de coordination, que nous ne détaillerons pas, ont pour finalité de synchroniser les déplacements 

du point de lecture dans les différentes de vue d’un même texte. Quant aux opérations 

de visualisation, elles permettent de spécifier les attributs visuels (police, couleur, 

espacement, etc.) de chaque vue. 

Implémentation dans NaviTexte 

Une première version développée en langage Java nous a permis de vérifier la validité de 

nos hypothèses. La plate-forme est ainsi composée de différents sous-systèmes. Un premier 

sous-système se charge de construire à partir d’un texte annoté, la représentation décorée 

du texte ; un deuxième sous-système gère les interactions avec l’utilisateur en chargeant et en 

interprétant à la demande les modules de navigation (écrits dans le langage SEXTANT). Le 

résultat de l’interprétation est un graphe de parcours qui est projeté sur la représentation 


111

112 

du texte La visualisation effective est assurée par un troisième sous-système qui sélectionne 

5 

dans la base des modèles une ou plusieurs formes sémiotiques {Sd} 

spécifiées dans le 

module. Il faut souligner qu’à tout moment un lecteur peut charger un module spécifique et 

que l’interprétation de celui-ci s’applique sur le ou les textes en cours. Enfin, des sous-sytèmes 

spécifiques se chargent de mémoriser les actions du lecteur afin de gérer un historique. 

Applications 

Plusieurs projets, qui s’appuient sur plateforme NaviTexte, 

sont en cours. Ils recouvrent 

des finalités très différentes, qui vont du parcours de lecture comme procédé de résumé 

automatique, à l’apprentissage du français comme langue seconde, à l’exploration des sentiments 

éprouvés par un des personnages dans un roman (Mathieu 2004). Nous présentons 

ci-dessous les deux premières applications qui sont les plus avancées. 

Parcours de lecture comme procédé de résumé automatique 

Un grand nombre de systèmes de résumé automatique ont été proposés ces dernières 

années (Mani 2001, Minel 2003). Tous ces systèmes, fondés sur le principe de l’extraction de 

phrases, ont été confrontés à deux problèmes intrinsèques au procédé d’extraction. D’une 

part, à la rupture de la cohésion textuelle, comme par exemple la présence d’anaphores sans 

leur référent discursif. D’autre part, à l’adaptation du résumé aux besoins spécifiques d’un 

lecteur. Jusqu’à présent ces problèmes n’ont pas reçu de solutions totalement satisfaisantes. 

Une autre approche consiste à considérer le processus de résumé comme un cheminement, 

plus exactement un parcours de lecture, dans le texte source qui soit propre au lecteur. Ainsi 

plutôt que de construire des fragments textuels, nous proposons des parcours de lecture 

spécifiques. 

Un exemple de parcours de lecture est illustré par la figure 1. Il s’agit d’un texte qui a 

été préalablement annoté par un système automatique, comme ContextO (Minel et al. 2001) 

5. Nous reprenons ainsi la définition d’un texte proposée par Y. Jeanneret (2004) : « un texte est une configuration 

sémiotique empirique attestée, produite dans une pratique sociale déterminée et fixée sur un support». 

Schedae, 


Figure 1 : Proposition de parcours de lecture.

ou Linguastream (Bilhaut 2003). Les annotations sont du type « Annonce Thématique », « Conclusion 

», « Soulignement Auteur », etc 6 . On peut voir sur la figure, que le système propose 

au lecteur quatre parcours de lecture différents, suivant que celui-ci s’intéresse plutôt aux 

thèmes de l’article, à son argumentation ou à ses conclusions. Ainsi, dans la continuité de sa 

lecture du texte, le lecteur se voit proposer, par une signalétique spécifique, des parcours 

spécifiques sans rupture de la cohésion textuelle puisqu’il voir à tout instant le texte complet, 

ce qui lui permet entre autre d’assurer la continuité référentielle (Battistelli & Minel 2006). 

Enseignement du français en langue seconde 

L’utilisation de la navigation textuelle a des fins pédagogiques est en cours à travers le 

projet NaviLire, fruit d’une collaboration entre Lita Lundquist et nous-mêmes (Couto et al. 

2005, Lundquist et al. 2006). En conséquence, nous reprenons brièvement ci-dessous les 

principaux concepts et résultats exposés dans les deux articles cités. 

Par ce procédé, par lequel le lecteur apprend à naviguer dans un texte en suivant ses 

différentes pistes de cohérence – basées sur la référence, sur la prédication et sur les connecteurs 

– nous attaquons des problèmes cognitifs cruciaux pour lire, comprendre et interpréter 

correctement un texte, ainsi que pour apprendre par les textes. Le premier problème 

consiste à identifier les référents discursifs d’un texte et d’établir les relations correctes entre 

les SN qui y réfèrent. 

Le second problème cognitif consiste à identifier le « où veut en venir l’émetteur » du 

texte. Cette orientation – expressive, argumentative, et d’autre – a été qualifiée de « programme 

d’interprétation » (Lundquist 1990, 1993), étant donné qu’il s’agit d’une orientation 

marquée dès le début du texte, qui agit tel un « programme » qui fonctionne du général au 

particulier, et qui permet d’identifier des marques suivantes dans le texte, c’est-à-dire du 

spécifique au générique, qui «vont dans le même sens » (voir macrostructure et microstructure, 

Kintsch 1998). Cette identification de l’orientation, apportée entre autres par les prédications, 

est primordiale pour un déchiffrage correct de la cohérence sémantique et pragmatique du 

texte. 

Finalement, les connecteurs soulignent les relations rhétoriques à établir entre des propositions 

ou autres séquences du texte, ce qui contribue, évidemment, de manière essentielle 

à établir les relations nécessaires pour construire la représentation mentale correcte du 

texte, c’est-à-dire, de son contenu et de son acte illocutoire prédominant, tel informer, persuader, 

convaincre, narrer, décrire, etc. 

Dans le cadre du projet NaviLire, pour naviguer dans l’objet texte, nous avons isolé des 

unités textuelles qui permettent de spécifier des opérations de navigation, ce qui équivaut à 

établir des liens de cohérence entre des unités de même nature. Comme les éléments textuels 

appartiennent à des types différents, la navigation permet d’une part de suivre des pistes de 

cohérence différentes dans un même texte, et d’autre part d’en identifier les réalisations 

linguistiques dans une langue donnée (ici et pour le moment, le français). Plutôt que de 

manipuler des structures textuelles hiérarchiques (Couto & Minel 2004), nous distinguons 

ici des pistes parallèles de marques textuelles qui chacune contribue à un type particulier 

de cohérence. 

Ces types de cohérence sont fondés, grosso modo, sur les principes exposés dans les 

nombreux travaux de Lita Lundquist selon lesquels on peut distinguer dans les textes une 

cohérence référentielle, une cohérence prédicative et une cohérence pragmatique, fondée 

respectivement sur les trois actes de langage : la référence, la prédication et l’illocution qui 

entrent dans l’énonciation de chaque phrase (Searle 1969). 

6. Voir (Minel et al. 2001) pour plus de détails. 


113

114 

Jusqu’à présent, NaviLire a été mis en pratique auprès d’étudiants Danois de Quatrième 

année d’études dans le cursus de Language and Communication at the Copenhagen Business 

School. Un « pilote » a permis de réaliser une première expérience auprès de 14 étudiants, 

divisés en deux groupes, les « Papiristes » qui lisent le texte en utilisant les méthodes traditionnellement 

utilisées dans ce cursus, et les « NaviListes » qui lisent le même texte avec NaviLire. 

Les premiers résultats (cf. tableau 5), fondés sur les réponses d’un questionnaire composé 

de 40 questions, dont 35 sur le contenu du texte, (voir Lundquist et al. 2006 pour le détail de 

l’expérience) montrent que les « Navilistes » ont une performance (mesurée par le nombre de 

bonnes réponses aux questions) de compréhension du texte qui est supérieure au «Papiristes » 

pour 14 questions, identique pour 16 autres questions et inférieure pour 5 questions. 

Performances des « Navilistes » supérieures au 

« Papiristes » 

Performances des « Navilistes » identiques au 


Performances des « Navilistes » inférieures au 


Conclusion 

Nous avons montré que la navigation dans un texte, processus cognitif complexe, peut 

être modélisée à l’aide du langage SEXTANT. Les applications créées en utilisant la plateforme 

logicielle NaviTexte, qui implémente un interpréteur du langage SEXTANT, sont assez 

hétérogènes, ce qui est pour nous une preuve de la souplesse de NaviTexte en tant que 

plate-forme d’expérimentation. Les premiers résultats obtenus, notamment dans l’application 

NaviLire illustrent le pouvoir d’expression de ce langage ainsi que sa flexibilité. Néanmoins, 

ces applications nous ont confrontés à de nouveaux besoins. D’une part, nous cherchons à 

modéliser des phénomènes discursifs qui mettent en jeu des relations d’ordre (par exemple, 

l’ordre chronologique). D’autre part, nous travaillons actuellement à des extensions du langage 

et à son implémentation dans NaviTexte afin de pouvoir exprimer des opérations de 

navigation sur ces structures discursives. 

Remerciements 

NaviLire a reçu un soutien financier en 2005 de l’Ambassade de France au Danemark. 

NaviTexte est soutenu par un programme ECOS-Sud (U05H01). 

Bibliographie 

BACCINO T. (2004), La lecture électronique, Grenoble, Presses universitaires de Grenoble. 

BATTISTELLI D., MINEL J.-L. (2006), « Les systèmes de résumé automatique: comment assurer une continuité 

référentielle dans la lecture des textes », in Compréhension des langues et interaction, G. Sabah (éd.), 

Paris, Lavoisier, p. 295-330. 

BERGE C. (1958), Théorie des Graphes, Paris, Dunod, France. 

BILHAUT F. (2003), « The Linguastream Platform », in Proceedings of the 19th Spanish Society for Natural 

Language Processing Conference (SEPLN), Alcalá de Henares, Espagne, p. 339-340. 

COTTE D. (2004), « Leurres, ruses, désorientation dans les écrits de réseau: la métis à l’écran. », Communication 

& langages, 139, avril 2004, p. 63-74. 


Nombre de questions Pourcentage 

14 40 

16 45,7 

5 14,3 

Total 35 100 

Tableau 5 : Comparaison des performances entre « NaviListes » et « Papiristes ».

COUTO J. (2001), ContextO, Los sistemas de exploracion contextual de cara al usuario, Mémoire de 

Master, Université de la République, Uruguay (dactyl.). 

COUTO J., (2006), Modélisation des connaissances pour une navigation textuelle assistée. La plate-forme 

logicielle NaviTexte, Thèse en cours, Université Paris-Sorbonne. 

COUTO J., MINEL J.-L (2004), « Outils dynamiques de fouilles textuelles », in Actes de RIAO 2004, Avignon, 

p. 420-430. 

COUTO J., LUNDQUIST L., MINEL J.-L (2005), « Naviguer pour apprendre », in Actes de EIAH 2005, Montpellier, 

p. 45-56. 

CRESTANI F., DE LA FUENTE P., VEGAS J. (2002), « Experimenting with graphical user interface structured 

document retrieval », in Proceedings of the SIGIR’02, Tampere, Finlande. 

DANIELSON D.R. (2002), « Web navigation and the behavioral effects of constantly visible site maps », 

Interacting with Computers, 14, 5, p. 601-618. 

DIEBERGER A., RUSSELL D.M. (2002), « Exploratory navigation in large multimedia documents using Context 

Lenses », in Proceedings of the 35th Hawaii International Conference on System Sciences, Hawaii. 

EDWARDS D.M., HARDMAN L., (1989), «Lost in hyperspace: cognitive mapping and navigation in a hypertext 

environment », in Hypertext : Theory and Practice, R. McAleese (éd.), Oxford, Intellect Books, Angleterre, 

p. 105-125. 

ENDRES-NIGGEMEYER B., MAIER E., SIGEL A. (1995), « How to implement a naturalistic model of abstracting: 

four core working steps of an expert abstractor», Information Processing & Management, 31, 5, p. 631-674. 

KINTSCH W. (1998), Comprehension. A Paradigm for Cognition, Cambridge, Cambridge University 

Press, 1998/2003. 

JEANNERET Y. (2004), « Le procès de la numérisation de la culture », Protée, 32, 2. 

LAMPING J., RAO R. (1996), « The Hyperbolic Browser : A Focus + Context technique for visualizing large 

hierarchies », in Readings in Information Visualization : Using Vision to Think, Morgan Kaufmann Publishers, 

1999, p. 382-408. 

LUNDQUIST L. (1990), L’analyse textuelle. Méthode, exercices, Copenhague, Nordisk Forlag. 

LUNDQUIST L. (1993), « La Cohérence textuelle argumentative, illocution, intention et engagement de 

consistance », Revue québécoise de linguistique, 22, 2, p. 109-138. 

LUNDQUIST L., MINEL J.L., COUTO J. (2006), « NaviLire, Teaching French by Navigating in Texts », accepté à 

IPMU 2006, Paris, Juin 2006. 

MANI I. (2001), Automatic Summarization, Amsterdam, John Benjamins Publishing Company. 

MATHIEU Y. Y. (2004), « Linguistic Knowledge and Automatic Semantic Representation of Emotions and 

Feelings. », in Proceedings of the International Conference on Information Technology (ITCC 2004), 

IEEE Computer Society, p. 314-318. 

MINEL J.-L., CARTIER E., CRISPINO G., DESCLÉS J.-P., BEN HAZEZ S., JACKIEWICZ A., (2001), «Résumé automatique 

par filtrage sémantique d’informations dans des textes, Présentation de la plate-forme FilText », Technique 

et Science Informatiques, 3, p. 369-396. 

MINEL J.-L. (2003), Filtrage sémantique. Du résumé à la fouille de textes, Paris, Hermès, France. 

NAZARENKO A. (2005), « Sur quelle sémantique reposent les méthodes automatiques d’accès au contenu 

textuel », in Sémantique et Corpus, A. Condamines (éd.), Paris, Hermès, France, p. 211-239. 

PERY-WOODLEY M.-P. (2005), « Discours, corpus, traitements automatiques », in Sémantique et Corpus, 

A. Condamines (éd.), Paris, Hermès, France, p. 177-205. 

PORHIEL S (2003), « Les introducteurs de cadre thématique », Cahiers de Lexicologie, 83, 2, p. 1-36. 

SEARLE J. (1969), Speech Acts, An Essay in the Philosophy of Language, Cambridge, Cambridge University 

Press. 

SOUCHIER E., JEANNERET Y., LE MAREC J. (2003), Lire, écrire, récrire : objets signes et pratiques des médias 

informatisés, Paris, Bibliothèque publique d’information. 

THOMPSON S., MANN W. (1988), « Rhetorical structure theory, a framework for the analysis of texts », IPRA 

Papers in Pragmatics, p. 79-105. 


115

116 


Schedae, 

2006 


Hypertext and Plurilinearity: 

Challenging an Old-fashioned 

Discourse Model 

Birgitta Bexten 

Leiden University Center for Linguistics (LUCL) 

Departement for German Studies – University of Leiden – Leiden, The Netherlands 

b.bexten@let.leidenuniv.nl 

Abstract : 

Hypertexts are special. Particularly their network structure is a challenge for discourse linguists to 

describe. In this paper, I demonstrate how we can accept this challenge using an old-fashioned 

but exceptional text model, namely Roland Harweg's (1974) concept of plurilinearity. This model 

allows describing the main hypertext features: text bifurcations, simultaneously existing text strings, 

and text combinations from a discourse linguistic point of view. 

Keywords: global discourse structure, discourse organising model, hypertext. 

Résumé : 

Les hypertextes sont particuliers. Notamment, leur structure en réseau est un défi pour les linguistes 

étudiant le discours. Dans cet article, je montre comment relever ce défi en utilisant un 

modèle de texte démodé, mais exceptionnel: le concept de plurilinéarité de Roland Harweg (1974). 

Ce modèle permet de décrire les principales propriétés de l'hypertexte: les bifurcations de texte, 

l'existence simultanée de chaînes textuelles, et les combinaisons de textes du point de vue de la 

linguistique du discours. 

Mots-clés: structure globale du discours, modèle d'organisation du discours, hypertexte. 

The starting point 

While traditional texts in principle form a single reading sequence, texts in a hypertext 

environment split up, recombine and provide simultaneously existing reading paths. Even 

if the reader re-linearises (parts of) the hypertext while reading it, the text structurally remains 

a network. Obviously, this does not apply to lexicon-like hypertexts. Lexicons consist of several 

linked, but independent texts. Therefore, they are less interesting here. Only hypertexts 

that present a single text, e.g. hypernovels, entail the challenge of structurally concatenating 

all text parts in a single network. 

Birgitta Bexten 

« Hypertext and Plurilinearity: Challenging an Old-fashioned Discourse Model » 

Schedae, 


117

118 

But how special really are those non-linear texts? Many discourse linguists have already 

argued that no text is a purely linear phenomenon (e.g. Petöfi 1971, Rieser 1980, van Dijk 1978). 

The linear text surface is based on an underlying non-linear semantic structure. In addition, the 

thematic text progression is not linear but rather hierarchic (Harweg 2001). Especially longer 

texts tend to be thematically segmented into hierarchic units like chapters or paragraphs. 

Considering these conditions, it seems worth looking for an existing theory which is able 

to deal with the global, network-like hypertext structure. But – and this ‘but’ is crucial – this 

model should not only account for the underlying semantics, because in terms of their global 

meaning structure, hypertexts hardly differ from any other texts. What really differs is the surface. 

Therefore, the linguistic model should be applicable to a non-linear surface structure. 

Harweg’s model of plurilinearity 

One theory that plays to this requirement is the concept of plurilinearity which Harweg 

(1974) introduces in his article “Bifurcations de textes”, and which has been augmented by 

Tschauder (1989). Harweg points out that the traditional assumption of structurally linear texts 

is incomplete. He argues that not even traditional texts are necessarily unilinear; even though 

this applies to most of them. Oral discourses (e.g. discussions between more than three people) 

as well as written discourses (e.g. texts with footnotes) can bifurcate and thus become 

plurilinear. The only condition is that all resulting text strings are connected with the same 

initial text part by means of usual text-building devices. Two different text strings can even 

be recombined if someone refers to both of them in the same utterance. 

The mere possibility of plurilinearity becomes a presupposition in hypertext: without 

text bifurcations and recombinations, there would be no network. 

In the reminder, I show to what extend the features of plurilinear texts and texts in a hypertext 

environment match and of what use Harweg’s model can be for describing the global 

structure of hypertext. 

Text bifurcations 

Consider the following example: imagine that this text were a lecture I would be presenting. 

Imagine that the moment I start reading “Hypertexts are special” one of the listeners 

would inform his neighbour under his breath: “That’s completely nonsense! I just read the 

other day…” In this case, That would directly refer to my statement. In a normal conversation 

I would most likely react immediately and we would get a normal linear oral text. But in 

the current case, what we get are two different text strings which both refer to one and the 

same preceding unilinear part. Both strings textually continue this unilinear part, and therefore, 

both parts belong to the same text. Only that this text is not unilinear any more, instead 

it has bifurcated and has become plurilinear: due to the bifurcation we get two simultaneously 

continuing text strings. 

The same is true for texts with footnotes. In the following example from Halliday (2004, 

71), the initial text string is connected simultaneously with the pronouns This in the main text 

and It in the footnote. 

“If I say what the duke did was give my aunt that teapot, the nominalization what the 

duke did carries the meaning 'and that's all he did, in the context of what we are talking 

about'.* This is also the explanation of the marked form […]. 

*It further indicates […] something about the role of the duke […]” 


Figure 1: Text bifurcation in print texts.

Now consider the following (translated and slightly shortened) extracts from Berkenheger’s 

(1997) hypernovel “Zeit für die Bombe”. 

“The fourth doctor told about his case. 

One of his most talented students just 

has been taken to the psychiatry. ‘And 

guess, why? He didn’t want to drop his 

suitcase.’ 

The doctor’s hands […].” 

Here, too the initial text continues without a break in the first unit and at the same time is 

proceeded in the link’s target unit. 

Both, texts with footnotes just as well as hypertexts, confront the reader with a dilemma: 

the text splits up at the word which is followed by a footnote marker or functions as a hypertext 

link. The reader has to decide whether to read on in the current hypertext node or whether 

to branch off and pursue the link’s target node. He has to follow one of the two simultaneously 

existing reading paths. Both subsequent text strings are textually connected with the preceding 

text part and, thus, offer just two different versions of the proceeding story. 

Main strings vs. side strings 

Figure 2: Text bifurcation in hypertext. 

“The walls murmured that Iwan shouldn’t 

open somebody else’s suitcase, Veronika’s 

least of all.” 

The explanations above show why hypertexts sometimes are referred to as generalised 

footnotes (e.g. Nielsen 1995, 2). Even though, there is a fundamental difference between 

footnote texts and hypertext units. For footnotes, just as remarks during a lecture, only supplement 

the main text. The text does not become incomprehensible without them. Nielsen 

(ibd.) explains in a footnote “I guess you decided to read the footnote this time. But you could 

just as easily have skipped it.“ In hypertext on the other hand, especially in fictional hypertexts, 

most units are part of the main text. Even if some hypertext units do have footnote 

character, the main text itself would be incomplete without interconnected units. Describing 

hypertext as a generalised footnote means overlooking this fact. 

Therefore, to really get a grip on the global structure of hypertext, it would be useful to 

find plurilinear texts without side strings. And, indeed, plurilinear texts can do without side 

strings, too. 

Consider the following macrotext 1 example (Harweg 1974, 57f): 

(Situation: Mother and two suns sitting in the living room. Father enters.) 

Father: Look, darling, I bought something for you, a vase. 

(All four talk about the vase for a while. … Several weeks later.) 

Peter: I broke the vase. 

Paul: What vase? 

Peter: The vase father 

lately bought for mother. 

Figure 3: Text bifurcation in plurilinear macrotexts. 

Mother: Darling, the vase is gone. 

Father: What vase? 

Mother: The vase you gave to me 

several weeks ago. 

1. Macrotexts, as Harweg (1970) describes them, usually are not recognised as single texts by the intuition of the 

normal language user. They consist of at least two different disconnected microtexts, i.e. texts that could 

roughly be characterised as normal texts. Several microtexts form one macrotext if they are connected by 

normal text building devices as is the case in the example given above. 


119

120 

Both subsequent dialogues are connected to the initial text string by the same anaphoric 

expression the vase, but none of the two dialogues can be regarded as more important than 

the other. 

Text combinations 

Except from text bifurcations, a hypertext network cannot do without text combinations. 

In the following example two different hypertext units are linked with the same target node. 

And in both cases the target text seamlessly follows the preceding text parts. 

“The fourth doctor told about his 

case. One of his most talented students 

just has been taken to the 

psychiatry. ‘And guess, why? He 

didn’t want to drop his suitcase.’ ” 

With Harweg’s model, we can trace the same possibilities in traditional texts. Imagine 

four people sitting in a bar discussing the last Olympic doping scandal. At one point, the 

conversation splits up into two dialogues (e.g. because somebody directly addresses one 

person and asks his opinion while the other two just continue talking). Now imagine that an 

alert listener addresses the whole group by saying: “Hey, what you just said is a brilliant argument 

against what we said in the beginning.” He thereby reintegrates the one discussion 

into the other. His remark not only picks up one of the conversations (what you just said) but 

reconnects it to the initial text part (what we said in the beginning). Most likely, all four will 

rejoin a single discussion again. The only difference with the hypertext example is that here the 

bifurcation as well as the combination are a question of text production. In hypertext, they 

are structural phenomena which are independent of both text production and reception. 

Conclusions 

Many features of hypertexts and plurilinear texts match. Both start with an initial text 

string and bifurcate at one or more places. Both consist of simultaneously existing text strings 

that are connected to an initial string by text building devices. Both might but do not need 

to have side strings. And both can provide text combinations. 

The final question, I want to answer here therefore is: Are hypertexts plurilinear texts? The 

answer is: No, ideally they are not. Even though, many hypertexts rather have a tree- than a 

network-structure, and therefore are plurilinear. But ideal hypertexts structurally are not linear; 

not even plurilinear. They present network-like texts: a single information unit can occur at 

various places in different reading sequences. What, nevertheless, makes the model of plurilinearity 

worth using, is that it provides discourse linguistic devices to describe the decisive features 

of hypertext networks, namely text bifurcations, text combinations and simultaneously 

existing text strings. 

Harweg's concept of plurilinearity is based on a comprehensive analysis of discourse 

relations. It can be used to approach not only the hypertext's global but also its local structure. 

Discussing to what extent this model contributes to a discourse linguistic description 


“The walls murmured that Iwan shouldn’t 

open somebody else’s suitcase, Veronika’s 

least of all.” 

Figure 4: Text combination in hypertext. 

“ ‘I hope Veronika has it cold’, he 

wished with a glance at her piece of 

luggage, which he now started to 

open. Perhaps only because there 

wasn’t anything else to do.”

of network-structured text, therefore, is the first step to constructing a coherent model of 

discourse in hypertext. 

Bibliography 

BERKENHEGER S. (1997), Zeit für die Bombe. http://www.wargla.de/zeit.htm. 

HALLIDAY M. A. K. (2004), An Introduction to Functional Grammar, London, Arnold. 

HARWEG R. (1970), “Zur Textologie des Vornamens: Perspektiven einer Großraumtextologie”, Linguistics, 

61, p. 12-28. 

HARWEG R. (1974), “Bifurcations de textes”, Semiotica, 12, p. 41-59. 

HARWEG R. (2001), “Perspektiven der Textlinguistik”, in Harweg (2001a), p. 19-37. 

HARWEG R. (2001a), Studien zur Textlinguistik, Aachen, Shaker Verlag (Bochumer Beiträge zur Semiotik; 

Neue Folge 7). 

NIELSEN J. (1995), Multimedia and Hypertext: the Internet and Beyond, Boston, Ap Professional. 

PETÖFI J. S. (1971), Transformationsgrammatiken und eine ko-textuelle Texttheorie. Grundfragen und 

Konzeptionen, Frankfurt a.M., Athenaeum Verlag. 

RIESER H. (1980), Aspekte einer partiellen Texttheorie. Untersuchungen zur Textgrammatik mit “nichtlinear“ 

festgelegter Basis unter besonderer Berücksichtigung der Lexikons- und des Fachsprachenproblems, 

Hamburg, Buske (Papiere zur Textlinguistik; 22). 

VAN DIJK T. A. (1978), Tekstwetenschap. Een interdisciplinaire inleiding, Utrecht, Uitgeverij Het Spectrum 

(Het wetenschappelijke boek; 633). 

TSCHAUDER G. (1989), Textverbindungen. Ansätze zu einer Makrotextologie, auch unter Berücksichtigung 

fiktionaler Texte, Bochum, Brockmeyer. 


121

122 


Schedae, 2006 


Modélisation de parcours 

dans des hypertextes pédagogiques : 

typage des ressources et des liens 

Thomas Kreczanik 

ERSICOM – Université Jean Moulin Lyon 3 

thomas.kreczanik@gmail.com 

Résumé : 

Comment aiguiller le parcours hypertextuel d’apprenants replacés en situation d’autonomie face à 

un ensemble de ressources pédagogiques électroniques? Dans le cadre de notre thèse de doctorat, 

nous abordons cette question sous l’angle de la caractérisation des ressources pédagogiques et des 

liens qui les associent. Nous détaillons ici les premiers éléments de la modélisation de parcours de 

formation : le typage des ressources et des articulations pédagogiques. Pour cela, nous prenons 

appui sur une analyse du standard LOM et sur une analyse des pratiques d’enseignants concepteurs 

de ressources dans la plateforme SPIRAL de l’université Lyon 1. 

Mots-clés : E-learning, EIAH, ressource pédagogique, articulation, situation, hypertexte, 

typage, LOM. 

Abstract : 

How could we lead the hypertextual path of students who work alone with electronic pedagogic 

stuff ? In our PHD, we analyse this question with the characterization of the pedagogic resources and 

their links. In this paper, we describe the first elements that concern the modeling of pedagogic 

paths : the classification of the pedagogic links and resources. For that, we base ourselves on a 

study of the LOM standard, and on a study of the practices of teachers that use SPIRAL, the LCMS 

of the university Lyon 1 for producing courses. 

Keywords: E-learning, Pedagogic Stuff, Link, Pedagogic Resource, Hypertext, Classification, 

LOM. 

1. Introduction 

Les établissements du supérieur se dotent progressivement de plateformes e-learning, 

qui fournissent aux enseignants, aux apprenants et aux gestionnaires des moyens pour concevoir, 

stocker et utiliser diverses ressources pédagogiques. Le défi actuel consiste à faciliter 

l’appropriation de ces outils et ressources par les enseignants et par les apprenants. Dans le 

cadre de notre thèse de doctorat en Sciences de l’Information et de la Communication, nous 

Thomas Kreczanik 

« Modélisation de parcours dans des hypertextes pédagogiques : typage des ressources et des liens » 


123

124 

abordons cette problématique sous l’angle de la caractérisation des ressources pédagogiques 

et des liens qui les associent. Nous modélisons un système dans lequel les enseignants 

construiraient des enchaînements entre ressources pédagogiques. En aval, le système redonnerait 

de la liberté et de l’autonomie aux apprenants en les laissant piloter, sur la base d’un 

ensemble de ressources, leur propre cheminement hypertextuel. Notre modèle projette de 

rendre compatible la logique du parcours de l’apprenant avec l’intentionnalité pédagogique 

de l’enseignant. 

Après avoir pris appui sur une analyse du standard LOM (Learning Object Metadata), et 

sur une analyse des pratiques d’enseignants auteurs de cours dans la plateforme SPIRAL de 

l’université Lyon 1, nous détaillerons les premiers éléments de la modélisation de parcours 

de formation : la classification des liens et des ressources pédagogiques. 

2. Typologie des ressources pédagogiques : généralités 

Le passage au numérique, la mise en réseau et la reconfiguration des systèmes d’accès 

à l’information sont autant de facteurs qui brouillent les frontières du concept de document. 

Ces perturbations se repèrent, entre autre, par la perte de stabilité du document en tant 

qu’objet matériel, le document étant de plus en plus recomposé en fonction des besoins 

des utilisateurs. Dans la continuité du RTP-DOC (Pedauque 2003), qui envisage à la fois le 

document comme une forme, comme un contenu et comme un medium, Sylvie Lainé-Cruzel 

(Lainé 2004) distingue le document de la ressource : le document perdrait en plasticité ce que 

la ressource gagnerait en souplesse d’usage. C’est l’acception que nous retiendrons du mot 

ressource, et nous nous focaliserons sur celles utilisées à des fins d’apprentissage – ne perdant 

pas de vue que l’origine documentum du mot document signifie enseignement. 

Avant de modéliser des parcours de formation, il convient d’associer une typologie aux 

ressources pédagogiques qui en constituent la base. Daniel Peraya, cherchant à caractériser 

les paratextes, explique que ces derniers doivent être déduits d’une cohérence théorique ; 

pour cela, il distingue la nature, qui dépend du degré d’iconicité, de la fonction, qui dépend 

du fonctionnement discursif (Peraya 1995). De plus, la principale difficulté de distinction des 

ressources pédagogiques tient au jeu complexe par lequel elles s’imbriquent les unes dans 

les autres. Nous posons les trois critères suivants de catégorisation des ressources : granularité, 

nature, fonction. 

3. Un standard de description des ressources pédagogiques : 

le LOM 

Ces dernières années, de nombreux standards ont été développés pour rationaliser la 

description des ressources pédagogiques au sein des plateformes e-learning. Le plus utilisé, 

mais aussi le plus critiqué de ces standards est celui élaboré par l’IEEE : le Learning Object 

Metadata ou LOM 1 . À la base du LOM-IEEE se trouve un schéma de neuf catégories de métadonnées 

ayant trait à des aspects variés de la ressource : « 1 : General », « 2 : Life Cycle », « 3 : 

Meta-metadata », « 4 : Technical », « 5 : Educational », « 6 : Rights », « 7 : Relation », « 8 : Annotation 

», « 9 : Classification ». Bien qu’il existe dorénavant des interfaces d’aide à l’indexation, 

tels que Metalab, en pratique, aucun établissement n’utilise intégralement le LOM. Celui-ci 

est habituellement exploité à travers des profils d’application, qui peuvent à la fois le restreindre 

et l’enrichir. Le profil LOM-FR, inspiré du profil ManUeL, est depuis 2005 passé au 

rang de norme expérimentale AFNOR. 

1. http://ltsc.ieee.org/wg12/ (consulté le 15/05/2006). 


Dans le schéma du LOM-IEEE, nous identifions les dix sous-catégories suivantes comme 

relatives à la modélisation des parcours de formation : « 1.7 : Structure », « 1.8 : Aggregation 

Level », « 5.1 : Interactivity Type », « 5.2 : Learning Ressource Type », « 5.3 : Interactivity level », 

« 5.4 : Semantic Density », « 5.5 : Intended End User Role », « 7.1 : Kind », « 7.2 : Ressource », 

« 9.1 : Purpose ». En effet, ces dix sous-catégories fournissent des éléments pour définir la 

structure organisationnelle de la ressource, sa granularité, le mode d’enseignement qu’elle 

supporte, sa nature, sa densité sémantique, ses utilisateurs, les liens qu’elle peut établir avec 

d’autres ressources et enfin, l’expression à l’aide de langages documentaires de son contenu, 

de ses prérequis ou de ses objectifs. 

Dans (Kreczanik 2004), nous avons mis en évidence la tendance de l’indexation des ressources 

pédagogiques à s’effectuer suivant des « strates successives », prises en charge tour 

à tour par les informaticiens, les enseignants et les documentalistes. Nous avons d’autre part 

relevé que les enseignants étaient peu enclins à l’indexation, cette tâche leur paraissant trop 

éloignée de leur métier. L’indexation deviendra efficiente lorsqu’elle sera perçue par les enseignants 

comme dégageant du sens pour leur activité. Et elle leur paraîtra d’autant plus légitime 

à exécuter, qu’elle vise à développer l’autonomie des apprenants. Une première piste 

serait de faire de l’indexation une aide à la structuration et à la programmation des cours. Or, 

la limite du LOM est de considérer les dix sous-catégories se rapportant à notre modèle 

comme des objectifs finis de caractérisation : on les renseigne isolément (ce qui n’a guère de 

sens, ni pour l’enseignant, ni pour l’apprenant), et définitivement (ce qui en restreint usage, 

donc l’appropriation). Une deuxième piste serait de remanier ces sous-catégories en des critères, 

dépendant les uns des autres, et participant d’un nouvel objectif global : la conception 

de parcours de formation pour l’apprenant. 

4. Typologie des articulations pédagogiques 

et fonctionnalité des ressources 

Pour modéliser des parcours de formation, nous prévoyons également d’associer une 

typologie aux liens ou articulations qui peuvent s’établir entre les ressources pédagogiques. 

Nous définissons l’articulation pédagogique comme l’action de lier entre elles, dans une 

intentionnalité précise, deux ressources à la typologie définie. C’est du point de vue de la 

fonctionnalité, que nous distinguerons les articulations : les types d’articulations correspondront 

à des fonctions pédagogiques. Car le lien nous semble porteur d’une fonctionnalité 

spécifique, différente de celle portée par la ressource. Et toute tentative de cloisonner la 

fonctionnalité dans la ressource ne peut que restreindre l’usage de cette ressource. L’intérêt 

de notre modèle est qu’une même ressource pourra se voir attribuer des fonctions en partie 

différentes, suivant le parcours par lequel l’apprenant la retrouve. La principale difficulté sera 

de situer précisément la frontière entre la fonctionnalité, proprement spécifique à la ressource, 

de celle spécifique à l’articulation. 

Des dix métadonnées que nous avons repérées dans le LOM-IEEE, la plus en rapport 

avec l’articulation est « 7.1 : Kind », appartenant à la catégorie « 7 : Relation ». Cette métadonnée 

définit la nature de la relation, et est instanciée à l’aide d’un vocabulaire issu du 

standard Dublin Core, regroupant les 6 connecteurs binaires suivants : is part of/has part ; 

requires/is required by ; is based on/is based for ; references/is referenced by ; is format of/ 

has format ; is version of/has version. On remarque que ce vocabulaire s’en tient à des considérations 

de fonctionnement technique, ce qui est insuffisant pour notre modèle. Nous 

proposons donc les quelques connecteurs suivants, suite à une synthèse bibliographique 

portant sur la rhétorique et la didactique : introduire, définir, exposer, décrire, argumenter, 

exemplifier, conclure, illustrer, s’entraîner, se noter, compléter, poursuivre, historiser. 


125

126 

5. Les pratiques enseignantes de structuration de cours : 

les situations 

Peu de travaux ont étudié (à notre connaissance) comment les TICE accompagnent les 

enseignants-chercheurs dans la structuration et la programmation de leurs cours. Nous procédons 

donc à des interviews d’enseignants-chercheurs du domaine des Sciences expérimentales, 

pour la plupart auteurs de cours dans la plateforme SPIRAL de l’université Lyon 1 2 . 

SPIRAL est une plateforme de type LCMS (Learning Content Management System) qui permet 

à la fois de produire et de gérer des ressources pédagogiques, mais également de suivre 

des cours en ligne. Par l’analyse de ces interviews nous mettons en évidence des situations 

pédagogiques, non spécifiques aux disciplines, desquelles dépend fortement la nature des 

parcours et enchaînements produits par l’enseignant. Nous proposons provisoirement les 

quelques situations suivantes, qui pourrait remplacer avantageusement le vocabulaire rattaché 

à la métadonnée « 5.1 : Interactivity Type » du LOM : 

– La situation « expérimentale » : l’enseignement s’organise autour d’une manipulation, 

dont les moments forts sont mode opératoire, observation, interprétation, conclusion ; 

– La situation « rhétorique » : l’enseignement s’organise autour d’un ou de plusieurs messages 

forts, que l’on cherche à faire passer ; 

– La situation « archéologique » : l’enseignement s’organise autour d’un phénomène, dont 

on analyse les apparitions possibles dans le temps ; 

– La situation « modélisante » : l’enseignement s’organise autour d’un modèle théorique 

ou abstrait, que l’on représente et que l’on discute ; 

– La situation « évaluative » : l’enseignement s’organise autour d’un savoir (faire), que l’on 

met en évidence par l’activité. 

Le schéma 1 montre comment l’articulation entre une ressource de départ et une ressource 

d’arrivée se replace toujours dans le plan d’une situation déterminée. La détermination 

par l’enseignant de la situation pédagogique dans laquelle il souhaite produire un enchaînement 

entre ressources, pourrait lui servir d’indication et donc d’aide au repérage du connecteur 

adéquat. 3 

Ressource d’arrivée 

Articulation 

Ressource de départ 

Schéma 1 : Les situations de l’articulation entre ressources pédagogiques. 

2. http://spiral.univ-lyon1.fr (consulté le 15/05/2006). 

3. Sur le schéma, les informations inscrites en italique sont celles que nous envisageons de caractériser. 


- Granularité 

- Nature 

- Fonction 

- Granularité 

- Nature 

- Fonction 

Situation

6. Classification des ressources pédagogiques 

Nous avons précédemment proposé trois critères ou facettes de la caractérisation des 

ressources pédagogiques : la granularité, la nature et la fonction. Nous allons ici lister quelques 

valeurs admissibles par ces facettes. 

– Pour ce qui concerne la facette granularité, nous relevons le vocabulaire associé à la 

métadonnée « 1.8 : Aggregation Level » du LOM-IEEE, qui prévoit quatre niveaux de 

granularité de la ressource : fragment, leçon, cours, parcours. Les parcours contiennent 

les cours, contenant eux-mêmes les leçons, composées à base de fragments ; 

– Pour ce qui concerne la facette nature, la métadonnée « 5.2 : Learning Ressource Type » 

du LOM-IEEE propose le vocabulaire suivant : exercice, simulation, questionnaire, diagramme, 

figure, graphique, index, diapositive, tableau, texte narratif, examen, expérimentation, 

énoncé d’un problème, autoévaluation, exposé. Le LOM-FR ajoute la 

métadonnée « 1.10 : Type documentaire », instanciée à l’aide du vocabulaire suivant : collection, 

ensemble de données, évènement, image, ressource interactive, image en mouvement, 

objet physique, logiciel, son, image fixe, texte. D’autre part, sur une échelle allant 

du plus iconique au plus arbitraire, Daniel Peraya distingue les natures de paratextes 

pédagogiques suivantes : photos, schémas, ILEIS (Icône de Logiciels et d’Environnements 

Informatiques), graphiques, tableaux, listes, langage verbal, langage mathématique ; 

– Pour ce qui concerne la facette fonction, le LOM-FR ajoute au LOM-IEEE la métadonnée 

« 5.12 : Activité induite », instanciée à l’aide du vocabulaire suivant : animer, apprendre, 

collaborer, communiquer, conduire, coopérer, créer, échanger, observer, organiser, produire, 

publier, rechercher, s’autoformer, s’exercer, se documenter, se former, simuler, 

s’évaluer. 

Nous construisons actuellement une classification à facettes des ressources pédagogiques, 

sur la base de ces typologies, et en tenant compte des dépendances entre la granularité, 

la nature et la fonction. 

7. Poursuite et conclusion 

Dans la continuité de ces travaux, et une fois que nous aurons affiné nos classifications 

des ressources, des articulations et des situations, nous utiliserons la plateforme SPIRAL pour 

simuler et tester auprès des enseignants et des apprenants notre modèle de parcours de 

formation. Ceci nous permettra de vérifier la pertinence et la dépendance des valeurs que 

nous aurons attribuées. 

Bibliographie 

ANNOT E., FAVE-BONNET M.-F. (dirs) (2004), Pratiques pédagogiques dans l’enseignement supérieur : 

enseigner, apprendre, évaluer, Paris, l’Harmattan. 

ARNAUD M., (2002), « Normes et standards de l’enseignement à distance : enjeux et perspectives », in 

Technologies de l’Information et de la Communication dans les Enseignements d’ingénieurs et dans 

l’industrie, Villeurbanne, Institut National des Sciences Appliquées de Lyon, p. 57-69. 

DE LA PASSARDIERE B., JARRAUD P. (2004), «ManUeL, un profil d’application de LOM pour C@mpuSciences», 

Sciences et technologies de l’information et de la communication pour l’éducation et la formation, vol. 11, 

p. 11-57. 

KRECZANIK T. (2004), Vers une rationalisation de l’indexation des ressources pédagogiques électroniques, 

Mémoire de DEA, Sciences de l’information et de la communication, Université Lyon 3, disponible sur 

http://memsic.ccsd.cnrs.fr/mem_00000163.html (consulté le 15/05/2006). 


127

128 

LAINE-CRUZEL S. (2004), « Documents, ressources, données : les avatars de l’information numérique », 

Information Interaction Intelligence, vol. 4, n° 1. 

MERMET J.-M., CARRERE C. (2003), « ARPEM : une expérience concrète de mutualisation sur le campus 

grenoblois », Document numérique, vol. 7, p. 141-156. 

MICHEL C., ROUISSI S. (2003), « Caractérisation des documents numériques avec LOM et IMS-QTI pour 

l’acquisition et l’évaluation des connaissances », Document numérique, vol. 7, p. 157-178. 

PEDAUQUE R. T. (2003), Document : forme, signe et médium, les re-formulations du numérique, disponible 

sur http://archivesic.ccsd.cnrs.fr/sic_00000511.html (consulté le 15/05/2006). 

PERAYA D., NYSSEN M.-C. (1995), «Les paratextes dans les manuels scolaires de biologie: une étude comparative 

», Cahier de la Section des Sciences de l’Éducation, n° 078, Pratiques et Théorie. 

PERNIN J.-P., LEJEUNE A. (2004), « Dispositifs d’apprentissage instrumentés par les technologies : vers une 

ingénierie centrée sur les scénarios», in Technologies de l’Information et de la Connaissance dans l’Enseignement 

Supérieur et de l’Industrie, Compiègne, Université de Technologie de Compiègne, p. 407-414. 

PERRIAULT J. (2002), L’accès au savoir en ligne, Paris, Odile Jacob. 


Schedae, 2006 


Des bons mots au bon document. 

Comment éduquer à l’usage des mots-clés 

efficaces pour accéder à la pertinence 

documentaire 

Olivier Le Deuff 

Cersic-Erellif, Université Rennes 2 

oledeuff@gmail.com 

Résumé : 

La diversité des types de discours utilisés sur Internet entraîne une confusion chez l’élève qui ne 

parvient pas toujours à optimiser sa recherche. La formation à la maîtrise et à la production de 

l’information permet l’acquisition d’habiletés essentielles. 

Mots-clés : document, recherche documentaire, mots-clés, information literacy, élève, 

documentaliste, négligences. 

Abstract : 

The diversity of speeches used on Internet involves a confusion for the pupil who always does 

not succeed in optimizing his research. Information literacy increase documentary skills. 

Keywords : document, information literacy, keywords, student, negligences. 


Les stratégies de recherche des élèves sur Internet suscitent parfois interrogations et 

débats. L’apprentissage des mots-clés s’avère difficile car il s’agit pour l’élève de réfléchir et 

de catégoriser afin de convertir des idées en mots-clés. Ce processus n’est pas naturel et 

implique des capacités d’abstraction qui font souvent défaut d’autant plus que sur Internet 

nous sommes confrontés à des types de discours fort variées selon les sites visités et les applications 

utilisées. Les élèves rencontrent des difficultés pour effectuer la distinction entre tous 

ces discours et ne parviennent pas toujours à savoir quel langage employer au bon moment 

à bon escient. Ces confusions expliquent également les négligences et autres erreurs de 

lecture commises fréquemment. 

Ces difficultés sont à rapprocher des représentations erronées de l’Internet qu’ont souvent 

les élèves. Notre propos vise à démontrer que la capacité à utiliser des mots-clés pour 

Olivier Le Deuff 

« Des bons mots au bon document. Comment éduquer à l’usage des mots-clés efficaces pour accéder à la pertinence documentaire » 


129

130 

effectuer une recherche s’acquiert progressivement et que la production de contenus sur 

Internet par l’élève augmente ses capacités notamment grâce aux possibilités offertes par le 

Web 2.0. Nos observations et expériences ont été principalement établies dans un collège du 

sud Manche avec des élèves ayant entre 10 et 16 ans et montrent la nécessité d’une réelle 

formation à la recherche et la production d’informations (information literacy). Nos travaux 

cherchent à étudier les relations entre le document et les usagers et les problèmes communicationnels 

qui demeurent en dépit des avancées des traitements automatisés. 

1. La médiation des moteurs 

La recherche de documents évolue et n’est pas uniquement axée sur les moteurs de 

recherche. En effet de nouvelles stratégies documentaires voient le jour opérant une « redocumentarisation 

» comme le nomme le dernier document du RTP-Doc (RTP-Doc 2006). Ainsi ce 

« nouvel âge de la navigation » inclut les possibilités de s’abonner à des flux d’informations 

notamment. Malgré tout les moteurs de recherche demeurent très nettement le moyen le plus 

fréquemment utilisé par les élèves pour rechercher de l’information. Les bases de données 

sont peu usitées par ces derniers qui demeurent bien souvent aux portes du Web invisible 

mais bon nombre d’enseignants n’échappent pas non plus à la règle. De fait les difficultés 

pour accéder à la pertinence documentaire 1 sont relativement élevées dans ce cadre. La 

recherche documentaire sur Internet recèle quelques complexités et l’usage des élèves tend 

au contraire vers une simplicité proche du guichet unique de l’information. Nous songeons 

évidemment à Google mais certains élèves tapent parfois leur recherche dans la barre d’adresses 

ce qui les renvoie à la page par défaut dans Internet Explorer. 

L’usage des moteurs étant désormais le moyen utilisé par les plus jeunes pour accéder 

à l’information, les documents papiers sont souvent évités voire ignorés (Six Degrés 2006). 

De même la tentation de « foncer » sans réflexion est omniprésente. Les documentalistes 

de collège peuvent en témoigner. Il faut sans cesse rappeler l’importance d’une réflexion 

préalable. La domination du moteur Google se trouve d’autant plus forte que les notions 

abstraites de l’Internet sont peu maîtrisées. Nous avons pu constater cet état de fait dans la 

formation et l’évaluation dans le cadre du B2I (Brevet informatique et internet). La confusion 

des discours commence avant même que l’usager ne soit connecté. Il s’avère que pour beaucoup 

il existe une forte confusion entre les mots « navigateur », « moteur de recherche », 

« logiciel », « fournisseur d’accès ». Mais il est clair qu’un seul mot ressort de ce désordre 

sémantique : « Google ». Après plusieurs séances de travail sur Internet, des élèves de Cm2 

avaient tous retenu le nom « Google », même si d’autres moteurs avaient été présentés, au 

point que certains le voyaient également comme un « navigateur » ! Le moteur américain semble 

être parvenu à incarner Internet. D’ailleurs la supériorité du moteur Google est même 

approuvée par de nombreux professionnels de l’information 2 puisque près de 84 % plébiscitent 

Google. 

Google devient ainsi le port à partir duquel beaucoup d’élèves avancent en pays inconnu. 

Dès lors, il est fort logique que les stratégies de recherche des élèves manquent de cohérence. 

Cette ignorance de l’objet technique Internet, de son histoire et de ses évolutions 

explique beaucoup les erreurs commises par les élèves. Ces derniers ne sont pas des Christophe 

Colomb et la serendipité (Ertzscheid 2003) n’est de fait guère fréquente. Il leur faut 

1. Nous utilisons ici le terme pertinence dans son sens premier et non dans le sens que le moteur Google lui 

a attribué en le faisant devenir synonyme de popularité. 

2. Sondage effectué sur « le guide des égarés ». Résultats à la date du 14 mai 2006 (http://gde.jexiste.fr/ 

joomla/Joomla_1.0.4-Stable-fr/component/option,com_poll/task,results/id,15/). 


apprendre un nouveau langage car le moteur effectue la médiation entre l’usager et le document, 

la traduction entre les intentions de recherche de l’usager et le document potentiellement 

adéquat. L’entremise du moteur entre l’usager et le document implique donc des 

usages performants et notamment l’emploi de mots-clés efficaces. Il y aurait donc un parler 

« moteur » pour ne pas dire un discours moteur combinant mots-clés et opérateurs booléens. 

Or ces pratiques ne sont pas naturelles et guère évidentes pour les jeunes usagers qui ont 

beaucoup de mal à définir ou à catégoriser. Les mots-clés impliquent une réflexion, une tentative 

pour résumer et définir une question en quelques mots. Il s’agit d’un langage différent 

du naturel. Or le langage naturel est présent, sous des formes certes parfois évoluées, dans 

d’autres applications sur Internet, notamment dans la messagerie ou les dialogues en direct. 

2. La confusion des discours et les négligences 

L’Internet n’est pas uniforme, par conséquent les discours rencontrés diffèrent fortement 

suivant les actions effectuées. La communication médiatisée par Ordinateurs génère 

de nouveaux modèles d’interactions. Nous n’évoquerons pas ici les langages informatiques 

de l’internet même s’il nous apparaît important d’en montrer l’existence aux élèves. L’usage 

de l’affichage du code source peut s’avérer en effet riche en informations. Les discours et 

documents sur Internet connaissent de fortes variations suivant qu’il s’agit de « dialogues en 

directs », de blogs de type « journal intime », de sites d’informations, de messageries ou bien 

encore de flux de type Rss. 

Les grilles élaborées par des documentalistes tentent de donner des pistes d’analyse de 

sites web aux élèves. Elles sont de plus en plus affinées et peuvent constituer un exercice 

intéressant. Bien souvent les élèves ne font pas attention à la validité d’une information car 

ils ne lisent pas tout (ce que les enseignants nomment parfois « l’effet zapping ») et surtout 

ils passent outre certaines indications. Ces mauvaises pratiques de lecture et d’identification 

font partie de ce que nous avons appelé les négligences. 

Nous avons observé toutes les actions qui font que la liaison document-élève n’aboutit 

pas toujours au résultat escompté. Pour cela nous avons utilisé le concept de « négligences » 

qui définit tous ces phénomènes de non-lecture ou de mauvaise lecture. Cela nous a permis 

de définir une catégorisation des risques d’échec de la relation élève-document. 

Le mot négligence vient du latin negligentia qui a un sens proche de l’acception actuelle. 

Negligentia vient de negligere qui se décompose en neg-legere qui signifie « ne pas lire » 

Nous avons trouvé cette origine chez Régis Debray (Debray 1993) Les négligences sont donc 

par extension toutes ces actions de non-lecture, refus de lecture ou de « mauvaise » lecture. 

Ces actions négligentes produisent de nombreux effets néfastes que sont par exemple la 

mauvaise interprétation ou identification du document. Le faux ou l’erreur n’est donc pas ici 

intrinsèque au document mais extrinsèque. Le document qu’il soit numérique ou matériel 

voit son existence et sa distinction liées au fait qu’il faut que l’individu soit à même de le déchiffrer 

et de le comprendre. Or c’est bien souvent là que commencent les difficultés pour les 

élèves. L’emploi du mot « document » suscite déjà des difficultés. L’élève ne fait pas toujours 

nettement la différence entre un document et un documentaire. En clair, il ne perçoit pas 

souvent les limites du document qu’elles soient physiques ou sémantiques. Une difficulté 

d’appréhension du document d’autant plus complexe quand il s’agit d’effectuer des recherches 

sur Internet. 

Toutes ces relations de négligences ne sont donc pas neutres et sans effet pour le document 

numérique. Nous avons dénombré six situations qui démontrent que la multiplication 

des sources d’information et les facilités d’accès qui l’accompagnent ne sont pas garants de 

la réussite documentaire : 


131

132 

– Le document est ignoré ; 

– Le document est plagié ; 

– Le document n’est pas pertinent ; 

– Le document est mal compris ou mal interprété ; 

– Le document est incompréhensible ; 

– Le document est inaccessible. 

Nous sommes face à des processus communicationnels qui sont sources d’incompréhension. 

Alors que le principe de base d’Internet repose sur les possibilités offertes par 

l’hypermédia, nous remarquons un manque de lien entre l’usager et le document. Le risque 

d’entropie n’est donc pas seulement lié à la multiplication des sources mais aussi à des barrières 

sémantiques voire techniques. Ces risques d’échec dans l’accès à la pertinence documentaire 

demeurent sont présents avec l’évolution constante des NTIC. Il en résulte des 

mutations documentaires qui compliquent l’identification des discours. 

3. Information literacy et maîtrise de l’information 

Il faut se poser la question du devenir des médiateurs dans cette redocumentarisation. 

Ils vont de moins en moins constituer d’intermédiaires entre l’usager et le document avec les 

difficultés évidentes qui en résultent. Le travail du RTP-Doc souligne bien que cette facilité 

d’accès apparente nécessite des savoirs et de nouveaux savoirs. La question mérite d’être 

posée : qui va se charger de la transmission de ces savoirs ? Cette tâche impliquerait une 

redéfinition des tâches professorales et un développement de la maitrise de l’information au 

sein des systèmes éducatifs. Ou bien doit-on laisser l’usager s’auto-former avec le risque d’une 

formation d’une « caste d’initiés » comme ils le sont qualifiés par Pédauque. L’« information 

literacy » apparaît alors comme une thérapie (Watzlawick 1979) pour résoudre le problème 

des négligences. Un travail important au niveau de l’évaluation de l’information numérique 

mérite d’être approfondi et organisé afin de donner aux usagers les capacités d’analyse et 

de critiques face aux flux rencontrés. Finalement il semble qu’il faille plaider pour un métadiscours, 

un discours de la méthode qui permettrait aux usagers d’acquérir leurs habiletés 

documentaires (« information literacy skills »). Les travaux et les réflexions sur ce sujet se multiplient 

à l’international. D’ailleurs l’IFLA (International Federation of Libraries Associations) 

vient de mettre en place une base de données qui regroupe les sites et travaux sur le sujet 3 . 

Cette volonté de prôner un discours méthodique et rigoureux s’observe dans la sémantique 

appliquée au sujet. Ainsi les anglosaxons n’hésitent pas à employer les termes de « grammar 

of the internet ». 

Les stratégies des schémas heuristiques (mindmapping) constituent des pistes à exploiter 

en ce qui concerne l’éducation à la réflexion et à l’abstraction. Cela peut constituer de 

bons moyens pour que l’élève utilise les mots-clés avec efficacité. D’ailleurs certains moteurs 

comme Exalead offrent la possibilité de relancer la recherche à partir d’autres mots-clés affichés 

à partir d’une requête. Nous songeons aussi au métamoteur Kartoo qui par sa vision 

cartographique sort des habituelles démarches linéaires rejoignant quelque peu le mindmapping. 

L’élève prend ainsi l’habitude de travailler aussi sur les liaisons entre les concepts, 

les idées et les mots-clés. Il doit donc créer du lien avant même d’être connecté. Ces démarches 

« cognitives » vont dans le sens de l’augmentation de l’intellect via l’interaction Homme- 

Machine (Englebart 1963) Pour combattre les négligences et afin que l’élève puisse mieux 

3. International Information Literacy Ressources Directory, http://www.uv.mx/usbi_ver/unesco/. 


appréhender les diverses formes de discours une voie semble devoir être développée : celle 

de la production de contenu par l’élève lui-même. La maîtrise des différents discours ne peut 

pas s’apprendre que par la lecture. Il faut donc inciter les élèves à devenir producteurs d’informations 

et à utiliser les folksonomies avec l’indexation par « tags » afin de mieux comprendre 

l’importance des mots-clés. C’est d’ailleurs tout le sens de l’Internet comme hypermedia et 

média « all-to-all ». Dès lors la réactivité face à l’information est préconisée et engendre échanges, 

commentaires, critiques et débats. 

Conclusion 

Les possibilités offertes par les TAL, les systèmes de résumés automatiques ou bien 

encore de traduction de document ne sont pas suffisants pour garantir une pertinence documentaire. 

La relation usager-document aboutit à des échecs communicationnels du fait de 

négligences ou de discours non maîtrisés. La difficulté ne va faire que s’accroître avec l’hybridation 

des types de discours rencontrés sur une même page web. De ce fait l’accès à la pertinence 

documentaire ne peut se faire sans collaboration. Nous y voyons trois conditions 

pour que l’accès au document soit efficace : 

1 La formation à l’« information literacy » doit se développer et être accessible à 

tous les usagers ; 

2 Les technologies doivent continuer à progresser afin que les robots puissent 

indexer de manière plus performante les différentes données. Les moteurs 

doivent évoluer notamment de manière à distinguer pertinence et popularité ; 

3 L’hybridation des deux premières conditions trouve son prolongement dans le 

développement de la troisième condition : mieux intégrer l’interaction avec 

l’usager ; 

4 Dès lors le cercle vertueux peut se mettre en place mais ce succès ne peut avoir 

lieu sans rapprochement des techniques et des usages. Des métadonnées 

efficaces pourront être émises et le projet de web sémantique pourra peut-être 

dès lors voir le jour. Il faut pour cela que tout le monde travaille dans le même 

sens. Par conséquent le rôle de médiation des professionnels de l’information 

doit s’accroître au niveau de la formation ce qui implique sans doute des 

mutations professionnelles. 

Bibliographie 

DEBRAY R. (1993), Vie et mort de l’image. Une histoire du regard en occident, Paris, Gallimard. 

DUMAS P. (2005), « Google au quotidien : le googling ou les habitudes de recherche de l’internaute 

ordinaire », Communication au workshop Le Monde selon Google, Université de Bucarest, http:// 

archivesic.ccsd.cnrs.fr/sic_00001577.html. 

ENGLEBART D. (1963), A Conceptual Framework for the Augmentation of Man’s Intellect, in The Augmentation 

of Man’s Intellect by Machine, vol. 1, Howerton et Week (éds), Washington DC, Spartan Books, 

p. 1-27. 

ERTZSCHEID O. & GALLEZOT G. (2003), « Chercher faux et trouver juste : sérendipité et recherche d’information», 

in Actes de CIFSIC03 1ère conférence internationale francophone en Sciences de l’Information et de la 

Communication 10e colloque bilatéral Franco-Roumain, Bucarest, Juillet 2003, http://archivesic.ccsd.cnrs.fr/ 

documents/archives0/00/00/06/89/sic_00000689_02/sic_00000689.html 

PROULX S. (2001), «Usages des technologies d’information et de communication: vers une reconsidération 

du champ d’étude », conférence à Inforcom 2001, Congrès de la Société des sciences de l’information et 

de la communication, Paris, http://grm.uqam.ca/textes/proulx_SFSIC2001.pdf. 

RTP CNRS 33 < RTP-DOC > (2005-2006), Documents et contenu : création, indexation, navigation, Plateforme 

d’échange du Réseau thématique pluridisciplinaire sur le document numérique, http://rtpdoc. 

enssib.fr. 


133

134 

SERRES A. (2005), Évaluation de l’information sur Internet: Le défi de la formation, Bulletin des Bibliothèques 

de France (BBF), 6, p. 38-44, http://bbf.enssib.fr. 

SIX DEGRÉS (2006), « Les usages d’internet dans l’enseignement supérieur : “de la documentation au 

plagiat” », enquête menée pour Six degrés, Compilatio.net et Le Shinx, Compilatio.net, http:// 

www.compilatio.net/files/sixdegres-sphinx_enquete-plagiat_3fev06.pdf. 

WATZLAWICK P. (1979), Une logique de la communication, Paris, Le seuil (Points essais). 


session 4 

Systèmes de TAL, démonstrations

Schedae, 2006 


Solutions de traitement 

du document textuel avec prise en charge 

de ressources linguistiques 

Abderrafih Lehmam 

Pertinence Mining SARL 

82, avenue Jean Jaurès – 94 400 Vitry sur Seine, France 

http://www.pertinence-mining.com 

lehmam@pertinence.net 

Résumé : 

Dans cette article nous avons choisi de présenter quelques solutions de traitement du document 

utilisant la technologie du text mining. Nous avons toutefois insisté sur celle du résumé de texte 

automatique. Après avoir défini le text mining nous avons d’abord exposé une architecture construite 

informatiquement autour de ressources et de techniques linguistiques. L’avenir des solutions 

en text mining ne fait que commencer avec l’avènement Internet et la profusion du document 

électronique. 

Mots-clés : résumé automatique de texte, résumé automatique, plate-forme de veille, 

intelligence économique, outil de veille, cartographie de l’information 

Abstract : 

The paper presents some solutions in text mining, with special focus on automatic summarization 

and applications to Arabic. After providing a definition of text mining, we describe a software 

architecture based on linguistic resources and techniques, and give an overview of several summarization 

techniques. This is only a beginning in the future of text mining technologies, with the 

growing prevalence of the Internet. 

Keywords : summarizer, automatic summarization, text summarization, document summarization, 

watch platform, information mapping 


Dans le monde professionnel il est important de mettre à disposition des technologies 

de traitement de l’information permettant d’aller rapidement à l’essentiel dans un document 

textuel. Le but étant d’assister l’utilisateur, par des outils, afin qu’il puisse passer moins de 

temps à chercher l’information et davantage à en exploiter le contenu essentiel. Le traitement 

automatique du langage (TAL), de plus en plus, remplacé par le concept « Text Mining » chez 

Abderrafih Lehmam 

« Solutions de traitement du document textuel avec prise en charge de ressources linguistiques » 


135

136 

les professionnels, offre des possibilités réelles pour répondre aux besoins exprimés au 

niveau du traitement de document électronique. 

En effet, au vu du flot d’information que nous connaissons ; accéder aujourd’hui à l’information 

textuelle utile est devenu un vrai « casse-tête » pour l’utilisateur en quête d’information 

textuelle réutilisable. Le Text Mining répond, en parti, à cette problématique. L’étude 

du text mining repose particulièrement sur des liens très étroits entre des recherches en linguistique 

textuelle et sur les formalisations adéquates en vue d’une réalisation informatique. 

L’enjeu est ici de pouvoir d’un côté valider la pertinence des recherches théoriques entreprises 

en linguistique et de l’autre de pouvoir les rendre utiles pour la réalisation de logiciels 

efficaces en discernant entre ce qui peut être « informatisable » et ce qui ne peut pas l’être. Le 

but est de produire des technologies réellement utilisées dans le monde professionnel telles 

que le résumé de texte automatique, les plates-formes de veille (technologique, sanitaire, 

intelligence économique…), la cartographie de l’information textuelle issue de l’actualité ou 

encore les moteurs et les métamoteurs de recherche sur Internet. Nous nous proposons dans 

cet article, d’abord d’exposer des technologies en ce domaine développées par la société 

Pertinence Mining et ensuite de les illustrer par des exemples illustrant des situations concrètes 

d’utilisation. Nous nous focaliserons, toutefois, par manque de place, que sur la technologie 

du résumé de texte automatique. Dès lors, nous ne présenterons que rapidement les 

autres solutions sachant que ses technologies intègrent, toutes, la fonctionnalité de résumé 

de texte automatique. La méthode utilisée est initiée des travaux introduits par Edmundson 

(1968). Cette même méthode a été améliorée par plusieurs chercheurs, chacun y apportant 

une « valeur ajoutée » dans ses écrits et dans ses réalisations (Paice 1990, Lehmam 1995-2006, 

Radev 2000). 

Avec l’avènement du document textuel électronique suite au développement fulgurant 

de l’informatique, des besoins réels se posent maintenant au niveau de l’extraction de l’information 

utile noyée dans des gigaoctets voire des téraoctets de données textuelles véhiculées 

dans les différents supports et infrastructures numériques. Devant les besoins naissant provoqués 

par cette réalité préoccupante, nous avons tout naturellement choisi d’axer nos 

recherches et développements, dans le cadre de la société Pertinence Mining, dans ce qu’on 

appelle aujourd’hui le text mining. Ce domaine de recherche propose de répondre au besoin 

d’extraction, de filtrage et d’exploitation d’un flot d’informations textuelles toujours plus 

abondant par des solutions liant les deux disciplines la linguistique et l’informatique pour 

apporter des réponses à un besoin qui sera de plus en plus problématique et forcément 

tendant à s’accroître dans l’avenir. Les solutions que nous développons visent la résolution 

des problèmes liés à la surabondance d’information. On peut définir le text mining comme 

ce processus qui permet d’analyser le texte pour extraire les informations efficientes en vue 

d’une réutilisation bénéfique pour des buts précis. Des outils s’appuyant sur des méthodes 

principalement linguistiques, et parfois, faisant appel aux techniques des réseaux neuronaux, 

de la statistique ou du datamining, traduites dans des codes informatiques pour permettre de 

« comprendre » (mining) artificiellement le texte (text) en vue d’extraire une quantité d’information 

limitée mais pertinente afin de répondre au besoin recherché qui est principalement 

le gain de temps pour une meilleure productivité mais aussi l’aide à la prise de décision. 

Dans le cadre du colloque ISDD’06, nous proposons de faire des démonstrations d’applications 

conçues de façon à permettre le traitement intelligent de l’information documentaire, 

en puisant dans des ressources linguistiques multilingues, pour l’analyse, la recherche et l’extraction 

de l’information pertinente pour une meilleure utilisation. Ces solutions œuvrent dans : 

– Le résumé de texte automatique multilingue ; 

– La veille multilingue : collecte, traitement, visualisation, diffusion et exploitation ; 


– La cartographie de l’information textuelle avec mesure de visibilité (baromètre) ; 

– La méta-recherche avec filtrage des résultats des moteurs de recherche classiques. 

Nous nous contentons dans cet écrit à décrire rapidement la solution de résumé automatique. 

La solution Pertinence Summarizer (http://www.pertinence.net/ps) identifie les phrases 

les plus pertinentes d’un texte en vue de leur extraction pour la constitution d’un résumé, 

paramétrable dynamiquement. Cette application tient compte de la spécificité du texte et de 

sa thématique (domaines) en se fondant exclusivement sur des techniques d’analyse linguistique 

du discours. 

Quelques points précisant ce qui est pris en charge lors du traitement : 

– reconnaissance d’éléments phrastiques pour évaluer la pertinence de la phrase en vue 

de sa sélection pour la constitution du résumé ; 

– traitement morpho-syntaxique, dictionnaire morphologique spécifique ; 

– base synonymique spécifique, terminologie du domaine, personnalisation par utilisateur ; 

– structuration de la base des marqueurs selon les domaines ; 

– spécialisation par domaine en vue de produire des résumés tenant compte du thème 

du texte ; 

– Intégrations de thésaurus pour appuyer en pertinence les résumé produits ; 

– prise en compte des termes pour les besoins d’utilisateur, ce dernier est invité à entrer 

des termes/expressions en vue d’aiguiller le résultat du résumé par rapport son besoin ; 

– aide à la lecture rapide par coloration nuancée des phrases au moyen la couleur choisie ; 

– navigation sur les termes d’un domaine donné avec possibilité d’extraction des synonymes, 

d’antonymes ainsi que d’autres relations sémantiques mais aussi des entités 

nommés trouvées dans le texte. 

Dans l’exemple de copie d’écran de Pertinence Summarizer ci-dessous (figure 1), il est 

montré une extraction des termes descripteurs du domaine juridique avec reconnaissance des 

termes non-descripteurs et descripteurs, en couleur jaune. En couleur rouge sont indiqués les 

termes non-descripteur exprimant la relation de synonymie (sanction pénale → condamnation). 

Figure 1 : Extraction des termes d’un domaine avec mise en relief de la relation de synonymie. 


137

138 

Cette fonctionnalité montre le degré d’intelligence artificielle avancée du logiciel dans la 

mesure où l’utilisateur a accès, en plus du résumé automatique, à la connaissance par l’acquisition, 

la compréhension et l’enrichissement de son capital lexique d’un domaine donné grâce 

aux relations sémantiques explicitées automatiquement. 

Cette solution d’accès rapide à l’information textuelle est intégrée d’office dans tous les 

outils 1 de Pertinence Mining. Ces derniers sont tous testables en ligne sur Internet. 

La prise en compte de ressources linguistiques va nous permettre la réalisation de fonctionnalités 

avancées dans Pertinence Summarizer : il est possible, par exemple, de naviguer 

sur les termes d’un domaine donné avec possibilité d’extraction de différentes relations sémantiques, 

à la demande : synonymes, antonymes, homonymes, sigles, entités nommés, etc. 

Une aide à la lecture rapide par coloration nuancée des phrases est aussi possible. L’interface 

de soumission du document textuel à résumer propose diverses possibilités pour non seulement 

pouvoir extraire l’information importante mais aussi pouvoir aider l’utilisateur à exploiter 

cette dernière par la lecture rapide ou la lecture en diagonale du texte source. D’autres 

fonctionnalités purement pragmatico-informatiques vont elles permettre la récupération des 

références anaphoriques orphelines. Pertinence Summarizer va non seulement, permettre de 

résumer des documents issus d’un support matériel (disque dur, disquette, clefs USB, etc.), 

d’une URL Internet ou intranet, d’un copié/collé mais aussi de résumer automatiquement 

l’ensemble des documents d’un dossier ou d’un répertoire et ceci en un seul clic. C’est cette 

dernière fonctionnalité que nous avons choisie de montrer comme seconde illustration pour le 

traitement de la langue arabe. Par exemple, en imaginant que l’utilisateur se trouve confronté 

à la réalisation d’un rapport ou d’un mémoire de thèse de doctorat ou autre, une solution 

pouvant résumer automatiquement un dossier de documents ne peut que lui faire gagner 

du temps quant à leur exploration. Dans ce cas précis, les résumés automatiques pourront 

rapidement lui fournir suffisamment d’informations pertinentes pour l’aiguiller vers le texte 

utile parmi un nombre important de documents présents dans un dossier. Le traitement de 

plusieurs dossiers ne peut que l’assister dans sa productivité. Nous donnons ci-dessous un 

exemple traitant un dossier contenant de nombreux textes en langue arabe (figure 2). 

Figure 2 : Résumé automatique à la volée de nombreux documents contenus dans un répertoire. 

1. Pertinence Information Network : plate-forme de veille (http://www.pertinence.net/pin). PODoo : métamoteur 

de recherche (http://www.podoo.net) – Connivences : cartographie intelligente de l’actualité 

(http://www.connivences.info) 


Cette fonctionnalité permet l’exploration rapide de l’information pertinente qui est ici 

facilitée devant un gros volume de textes. Les résumés automatiques produits par Pertinence 

Summarizer à partir d’un dossier ou d’un répertoire vont donner suffisamment d’informations 

efficientes pour que l’utilisateur puisse décider de porter son choix sur les textes les plus 

intéressants à dépouiller. Ensuite, le bouton « Résumé avancé » va lui permettre d’explorer en 

dynamique le texte source afin de récupérer rapidement l’information quêtée. L’intégration 

de terminologies ou de thesaurus par domaines thématiques va permettre des fonctionnalités 

intelligentes de text mining ou de fouille de texte comme montré plus haut. 

Conclusion 

La technologie du text mining est une discipline qui tendra à ce développer dans l’avenir 

car les documents textuels électroniques sont devenus d’un usage vulgarisé et ce dans une 

proportion toujours croissante. Comme le résumé automatique de texte, nous verrons de 

plus en plus apparaître des solutions innovantes qui proposeront des outils de traitement du 

document textuel pour faciliter l’accès à l’information. Pour notre part, nous continuons à 

réfléchir à d’autres applications qui se fonderont strictement sur des ressources et des techniques 

linguistiques en vue de répondre à un problème crucial : la maîtrise de l’information. 

La difficulté à résoudre reste toutefois l’élaboration de bonnes formalisations qui permettraient 

de faire collaborer en bonne intelligence les deux disciplines à savoir la linguistique 

et l’informatique. 

Bibliographie 

EDMUNDSON H.P. (1968), « New methods in automatic extraction », Journal of the ACM, 16 (2), p. 264-285. 

LEHMAM A. (1999), « Text structuration leading to an automatic summary system», Information Processing 

and Management, 35, p. 181-191, 1999, Elsevier Science, New York, USA. 

LEHMAM A (2002), « Résumé de texte automatique : vers des solutions professionnelles », Journée ATALA 

sur le résumé de texte automatique initiée et organisée par A. Lehmam (Pertinence Mining, Paris) avec 

l’aide du laboratoire du Pr. J.-P. Desclés (LaLICC – FRE 2520 CNRS – Paris IV) ENST Paris, décembre 2002. 

LEHMAM A. (2006a), « Solutions de Text Mining pour l’intelligence économique, vers la veille 

intelligente », Congrès TELMI 06 organisé par l’ARIST Nord-Pas de Calais et l’Université de Lille 3 

(Master GIDE-PRISME – UFR IDIST) « Les Outils de Veille Stratégique », 30 mars 2006, Lille, France. 

LEHMAM A. (2006b), « Technologie textuelle multilingue », AAFD’06 2e Journées Thématiques « Apprentissage 

Artificiel et Fouille de Données », Université Paris 13, Institut Galilée, 27-28 avril, Paris, France. 

LEHMAM A., BOUVET P. (2004a), « Watch application, summarization and syndication in Arabic », in Proceedings 

of the conference nemlar '04 « arabic language resources and tools conference », p. 157-163, 

22-23 Septembre 2004, Le Caire, Égypte. 

LEHMAM A., BOUVET P. (2004b), « Un résumeur automatique de textes multilingues intégré dans une 

plate-forme de veille ; application à la langue arabe », in Actes de la conférence JEP-TALN-RECITAL 

2004, p. 111-122, Fès, Maroc. 

PAICE C.D. (1990), «Constructing literature abstracts by computer techniques and prospects », Information 

Processing and Management, 1, New York, Elsevier Science, p. 171-186. 

RADEV D (2000), « Summarization of multiple documents : clustering, sentence extraction », ANLP-NAACL 

Workshop on Automatic Summarization, April 2000, Seattle, USA. 


139

140 


Schedae, 2006 


Analyse de structures discursives 

avec la plate-forme LinguaStream 

Frédérik Bilhaut & Antoine Widlöcher 


fbilhaut@info.unicaen.fr, awidloch@info.unicaen.fr 

Résumé : 

À travers la présentation de la plate-forme LinguaStream, nous décrivons certains principes méthodologiques 

et différents modèles d’analyse pouvant permettre l’articulation de traitements sur 

corpus et leur inscription dans un processus plus général d’observation, d’élaboration et d’évaluation 

de modèles linguistiques, à des fins de recherche ou d’enseignement. Nous envisageons en 

particulier les besoins nés de perspectives liées à l’analyse du discours. 

Mots-clés : linguistique de corpus, TAL, plate-forme logicielle, analyse du discours. 

Abstract : 

By presenting the LinguaStream platform, we introduce different methodological principles and 

analysis models, which make it possible to build hybrid experimental NLP systems by articulating 

corpus processing tasks. More especially, we show how they can support the elaboration of automatic 

discourse analysis processes. 

Keywords: corpus linguistics, NLP, software platform, automatic discourse analysis. 


LinguaStream 1 a été initialement développée pour faciliter la réalisation d’expériences 

sur corpus en TAL, ainsi que le cycle d’évaluation/ajustement qui en découle. Sans outil 

adapté, le coût de mise en œuvre induit par chaque nouvelle expérience devient en effet 

un frein considérable à l’approche expérimentale, ainsi qu’à toute application pédagogique 

où l’on souhaite se concentrer sur les modèles et règles linguistiques. Pour répondre à cette 

problématique, LinguaStream permet de mettre en œuvre de procédés non triviaux tout en 

requérant des compétences informatiques minimales. Elle facilite la conception et l’évaluation 

de chaînes de traitements complexes, par assemblage visuel de modules d’analyse de 

types et de niveaux variés : morphologique, syntaxique, sémantique, discursif… Chaque palier 

1. http://www.linguastream.org 

Frédérik Bilhaut & Antoine Widlöcher 

« Analyse de structures discursives avec la plate-forme LinguaStream » 


141

142 

de la chaîne de traitement se traduit par la découverte et le marquage de nouvelles informations, 

sur lesquelles pourront s’appuyer les analyseurs subséquents. 

Un environnement de développement intégré (cf. figure 1) permet de construire visuellement 

ces chaînes de traitement, à partir d’une « palette » de composants (une cinquantaine 

est intégrée en standard, cet ensemble étant extensible si besoin). Certains sont spécifiquement 

dédiés à des traitements d’ordre linguistique, et d’autres permettent de résoudre différents 

problèmes liés à la gestion des documents électroniques (traitements XML en particulier). 

D’autres peuvent être utilisés pour effectuer des calculs sur les annotations produites par 

les analyseurs, pour générer des diagrammes, etc. D’autres encore permettent de visualiser 

les documents analysés et leurs annotations. Chacun dispose d’un ou plusieurs points d’entrée 

et/ou de sortie que l’on relie pour obtenir la chaîne voulue, celle-ci étant représentée par 

un graphe où les divers composants apparaissent sous forme de « boîtes » reliées entre elles. 

Chaque composant propose un nombre variable de paramètres permettant d’adapter son 

comportement. Les marquages produits par chacun sont organisés en couches indépendantes, 

supportant enchâssements et chevauchements. La plate-forme se base systématiquement 

sur les standards XML, et peut traiter tout fichier de ce type en préservant sa structure 

originelle. 

Principes fondamentaux 

En premier lieu, la plate-forme recourt systématiquement à des représentations déclaratives 

pour spécifier les différents traitements, ainsi que leur enchaînement. Les différents 

formalismes disponibles permettent ainsi de transcrire directement l’expertise linguistique à 

mettre en œuvre, l’appareil procédural qui en résulte étant pris en charge par la plate-forme. 

Les règles données ont donc une valeur tant descriptive, en tant que représentations formelles 

d’un phénomène linguistique, que prescriptive, en tant qu’instructions de traitement fournies 

à un processus informatique. 

La plate-forme exploite par ailleurs la complémentarité des modèles d’analyse, plutôt 

que de privilégier un hypothétique modèle « omnipotent ». Nous faisons en effet l’hypothèse 

qu’un analyseur complexe doit adopter successivement plusieurs regards sur le même matériau 

linguistique, auxquels répondront des formalismes distincts. On pourra par exemple combiner, 

au sein d’un même traitement, des expressions régulières au niveau morphologique, 

une grammaire locale d’unification au niveau syntagmatique, un transducteur déterministe 

au niveau phrastique et une grammaire de contraintes au niveau discursif. L’interopérabilité 

de ces différents modules est garantie par l’usage d’une représentation unifiée des marquages 

et des annotations. Ces dernières sont uniformément représentées par des structures 

de traits, modèle communément utilisé en TAL et en linguistique, et permettant de représenter 

des annotations riches et structurées. Tout composant d’analyse pourra produire son 

propre marquage en s’appuyant sur les analyses précédentes, les formalismes proposés permettant 

de spécifier des contraintes sur les annotations existantes. La plate-forme favorise 

ainsi l’abstraction progressive des formes de surface : chaque palier d’analyse pouvant accéder 

simultanément aux annotations produites par tous les paliers antérieurs, les analyseurs 

de plus haut niveau peuvent s’abstraire progressivement du matériau textuel pour ne plus 

reposer que sur des représentations symboliques antérieurement calculées. 

Parmi les composants susceptibles de prendre part à une chaîne de traitement, on peut 

distinguer deux familles. La première regroupe les analyseurs « prêts à l’emploi », dédiés à 

une tâche précise. Il s’agira par exemple de l’étiquetage morpho-syntaxique, une interface 

avec TreeTagger (Schmid 1994) étant intégrée par défaut, ou syntaxique en s’appuyant sur les 

résultats de Syntex (Bourigault et Fabre 2000). Ces composants sont paramétrables, mais il 

n’est pas possible de modifier fondamentalement leur fonctionnement. D’autres au contraire 


(EDCG, MRE, CDML, LSL,…) proposent un modèle d’analyse, c’est-à-dire un formalisme de 

représentation de contraintes linguistiques, éventuellement associé à un modèle opératoire, 

par lequel l’utilisateur peut spécifier intégralement le traitement à opérer en écrivant ses 

propres règles. Ils permettent d’exprimer des contraintes tant sur les formes de surface que 

sur les annotations insérées par les analyseurs précédents. 

La modularité des chaînes de traitements favorise quant à elle la réutilisabilité des composants 

dans des contextes différents : un module d’analyse développé au sein d’une première 

chaîne pourra être réutilisé dans d’autres chaînes. De façon similaire, toute chaîne pourra 

être réutilisée en tant que constituant d’une chaîne de plus haut niveau, sous forme de «macrocomposant 

». Pour une chaîne donnée, on pourra également substituer à un composant tout 

autre composant fonctionnellement équivalent. Pour une sous-tâche donnée, un prototype 

rudimentaire pourra être remplacé in fine par un équivalent pleinement opérationnel. Ceci 

rend possible la mise en comparaison des traitements, en soumettant ces derniers à des contextes 

rigoureusement identiques, condition sine qua non d’une confrontation pertinente. 

Exemple d’application : 

analyse des cadres de discours temporels 

Afin de donner une idée plus concrète des principes méthodologiques présentés, envisageons 

à présent une configuration linguistique particulière, assez représentative des problèmes 

posés par l’analyse discursive, en abordant la question de l’encadrement du discours 

(Charolles 1997), et plus particulièrement celle de la détection automatique des cadres temporels. 

Rappelons que l’auteur qualifie ainsi des segments textuels homogènes du point de 

vue d’un critère d’interprétation fixé dans une expression en position détachée en début 

de phrase, dite introducteur de cadre. L’opérationnalisation en TAL de ce modèle psycholinguistique 

impose la résolution de deux problèmes principaux : détection des introducteurs, 

puis évaluation de leur portée, c’est-à-dire détermination de la borne droite du cadre introduit. 

Bien que cette dernière tâche soit très problématique dans la mesure où les critères 

formels de clôture des cadres sont difficiles à établir, un certain nombre d’indices ont toutefois 

pu être dégagés dans le cas précis des cadres temporels (Bilhaut et al. 2003). La figure 2 représente 

la chaîne de traitement complète, ainsi que les principales règles d’analyse décrites 

ci-dessous. 

Le problème de la détection des introducteurs temporels se décline lui-même en deux 

sous-problèmes : l’analyse des expressions temporelles, et celle des introducteurs s’appuyant 

sur elles. Les principes de modularité évoqués trouvent ici leur justification, puisque nous 

souhaiterons généralement traiter ces problèmes indépendamment. L’analyse sémantique des 

expressions temporelles fait l’objet d’une grammaire locale d’unification (EDCG), exprimant 

des contraintes sur les résultats d’une analyse morpho-syntaxique préliminaire, et associant 

aux expressions reconnues une représentation de leur « sens » sous forme de structures de 

traits. 

Sur cette base, la détection des introducteurs peut être mise en place à l’aide de critères 

essentiellement positionnels. Les contraintes exprimées sont fondamentalement séquentielles 

: nous recherchons des zones de texte vérifiant des motifs imposant la présence, dans 

un ordre fixé, d’éléments immédiatement successifs. Ces règles sont donc simplement exprimables 

à l’aide de « macro-expressions régulières » MRE (outre les expressions temporelles, 

nous exploitons ici le marquage des phrases et des connecteurs de discours). Les contraintes 

sur les structures de traits produites en amont, ainsi que sur les formes de surface (la virgule 

en fin de motif) permettent de délimiter l’introducteur. Nous recherchons les éléments précédés 

d’un début de phrase et composés d’un éventuel connecteur de discours et d’une expression 

temporelle. Le reste de l’expression correspond au marquage et à l’annotation produits 


143

144 

en sortie. L’élément reconnu aura le type « introducteur » et sera associé à l’annotation sémantique 

qui lui fait suite. Précisons que la variable $t permet de faire « remonter » l’information 

contenue dans la structure de traits associée à l’expression temporelle, pour un usage ultérieur. 

Pour la détermination de la portée de l’introducteur, la méthode présentée dans (Bilhaut 

et al. 2003) s’appuie sur des critères énonciatifs tels que la cohésion des temps verbaux, sur 

la structuration en paragraphes, et sur des calculs sémantiques de cohérence entre l’introducteur 

et les autres expressions temporelles. La nature de ces contraintes diffère radicalement 

des précédentes. D’une part, nous pouvons désormais nous abstraire de la linéarité 

du texte : contrairement à une approche par expressions régulières, nous pouvons ici ignorer 

un certain nombre d’éléments du flot textuel. D’autre part, s’il existe bien des contraintes 

interprétatives entre l’introducteur et certains éléments de la zone introduite, il n’est pas 

souhaitable de concevoir ces contraintes comme imposant un ordre strict entre ces éléments. 

Pour l’expression de telles contraintes à la fois non linéaires et non séquentielles, nous disposons 

du formalisme CDML (Widlöcher 2006) et pouvons formuler la « grammaire » reproduite 

en figure 2 : nous recherchons une unité textuelle composée de phrases complètes, 

commençant par un élément identifié comme introducteur et ne comportant pas d’autre 

élément de ce type, dont tous le verbes sont au même temps, et au sein de laquelle les 

expressions temporelles portent sur une plage comprise dans l’intervalle fixé par l’introducteur, 

en ne retenant que le plus long des candidats partageant un même introducteur. 

Il est ainsi possible, à l’aide des principes méthodologiques promus par la plate-forme, 

et en nous appuyant sur la complémentarité des modèles d’analyse, de mettre en place un 

analyseur de cadres temporels, certes encore imparfait, mais ne faisant usage que de formalismes 

purement déclaratifs propices à la capitalisation de l’expertise linguistique mise en 

œuvre. 

Conclusion 

Les principes fondamentaux ici présentés rendent l’usage de la plate-forme pertinent 

dans différents contextes, tels que l’expérimentation en TAL, la linguistique de corpus ou 

encore l’enseignement de ces disciplines. La dissimulation de l’appareil procédural, au profit 

des formalismes d’expression de règles, permet en particulier la mise en lumière de l’expertise 

linguistique jugée pertinente. Les principes de modularité permettent pour leur part 

d’isoler un problème singulier, de nature (morphologique, syntaxique…) et de grain (mot, 

phrase, discours…) variable, sans perdre le bénéfice des analyses préalables éventuellement 

nécessaires, en considérant simplement leur apport comme une « donnée » accessible. Les 

différents modes de visualisation proposés permettent enfin de rendre les phénomènes étudiés 

à la fois « observables » et « tangibles ». 

Bibliographie 

BILHAUT F., HO-DAC L.-M., BORILLO A., CHARNOIS T., ENJALBERT P., LE DRAOULEC A., MATHET Y., MIGUET H., 

PÉRY-WOODLEY M.-P. & SARDA L. (2003), « Indexation discursive pour la navigation intradocumentaire : 

cadres temporels et spatiaux dans l’information geographique », in Actes de la 10e Conference 

Traitement Automatique du Langage Naturel (TALN’03), Batz-sur-Mer, France, p. 315-320. 

BILHAUT F. & WIDLÖCHER A. (2006), « LinguaStream : An Integrated Environment for Computational 

Linguistics Experimentation », in Proceedings of the 11th Conference of the European Chapter of the 

Association of Computational Linguistics, Trente, Italie, p. 95-98. 

BOURIGAULT D. & FABRE C. (2000), « Approche linguistique pour l’analyse syntaxique de corpus », Cahiers 

de grammaire, 25, p. 131-151. 

CHAROLLES M. (1997), « L’encadrement du dicours – Univers, champs, domaines et espace », Cahiers de 



FERRARI S., BILHAUT F., WIDLÖCHER A. & LAIGNELET M. (2005), « Une plate-forme logicielle et une 

démarche pour la validation de ressources linguistiques sur corpus : application à l’évaluation de la 

détection automatique de cadres temporels », in Actes des 4es Journées de linguistique de corpus, 

G. WILLIAMS (éd.), à paraître aux Presses universitaires de Rennes. 

SCHMID H. (1994), « Probabilistic Part-of-Speech Tagging Using Decision Trees », in Proceedings of the 

Conference on New Methods in Language Processing, Manchester, UK. 

WIDLÖCHER A. & BILHAUT F. (2005), « La plate-forme LinguaStream : un outil d’exploration linguistique 

sur corpus », in Actes de la 12e Conférence Traitement Automatique du Langage Naturel (TALN), 

Dourdan, p. 517-522. 

WIDLÖCHER A. (2006), « Analyse par contraintes de l’organisation du discours », in Actes de la Conférence 

Traitement Automatique du Langage Naturel (TALN 2006), Leuven, Belgique, p. 367-376. 

Annexes 

Figure 1 : l’environnement d’expérimentation intégré. 

Figure 2 : chaîne de traitement des cadres de discours temporels. 


145

146 


Schedae, 2006 


Discourse and citation analysis 

with concept-matching 

Ágnes Sándor, Aaron Kaplan, Gilbert Rondeau 

Xerox Research Centre Europe 

6, chemin Maupertuis – 38240 Meylan, France 

agnes.sandor@xrce.xerox.com, aaron.kaplan@xrce.xerox.com, gilbert.rondeau@xrce.xerox.com 

Abstract : 

We present here two natural language processing systems for highlighting passages in scientific 

texts in order to help researchers to rapidly access relevant knowledge. The first system detects 

sentences containing expressions fulfilling discourse functions in scientific argumentation like background 

knowledge, summary sentence, contrast with past findings, etc. The second system detects 

sentences containing bibliographical references and characterizes the relationship that the authors 

describe between their work and the work they refer to. The systems are implemented in the Xerox 

Incremental Parser. 

Keywords: discourse functions, citation, concept-matching, robust syntactic parsing. 

Résumé : 

Nous allons présenter deux outils de traitement automatique de langues naturelles qui surlignent 

des passages dans des textes scientifiques pour accélérer l’accès aux connaissances. Le premier 

système détecte des phrases qui contiennent des expressions véhiculant des fonctions discursives 

dans l’argumentation scientifique comme connaissance de base, phrase-résumé, contraste avec 

des résultats précédents, etc. Le deuxième système détecte des phrases qui contiennent des 

références bibliographiques et caractérise la relation décrite par les auteurs entre leur travail et 

l’œuvre auquel ils se référent. Les systèmes sont implémentés avec le Xerox Incremental Parser. 

Mots-clés: fonctions discursives, citation, concept-matching, parsing syntaxique robuste. 

1. Introduction 

The growing number of scientific research publications makes it difficult for researchers 

to keep up with the state of the art even in their own domain. Since most research publications 

are available electronically, natural language processing tools might provide useful support. 

We propose two tools that are intended to help researchers assimilate the contents of scientific 

research papers. The first one highlights and types expressions that fulfill relevant discourse 

functions in scientific argumentation, and the second highlights and types expressions 

that qualify the relationship between the articles and other articles that they refer to. Both 

Ágnes Sándor, Aaron Kaplan, Gilbert Rondeau 

« Discourse and citation analysis with concept-matching » 


147

148 

systems are based on detecting expressions with the concept-matching framework. In sections 

2 and 3 we will describe our motivations and the functionalities of both tools. Section 3 

explains the concept-matching framework and section 4 our development software and the 

architecture of the systems. 

2. Tool for discourse analysis 

Scientific articles are highly structured and follow argumentative patterns that guide the 

reader in the comprehension of the train of thought described (Hyland 2005, Lewin et al. 2001, 

Mizuta & Collier 2004, Ravelli & Ellis 2004, Teufel 1998, Teufel & Moens 2002, Tognini-Bonelli & 

Del Lungo Camiciotti 2005). The overall structure of the argumentation is articulated through 

the formal division of publications into sections, and the finer structure through meta-discourse 

expressions that make the argumentative discourse functions of the smaller units (sentences 

or passages) explicit. Often, especially in the domain of experimental research, the titles of 

the sections are not related to the topics discussed but instead they refer to their discourse 

functions: introduction, background, methods, result, conclusion, etc. In many domains, these 

section titles are becoming templates used by a great number of authors, and sometimes 

even required by the publishers. 

However, this formal structuring is insufficient: On the one hand, within one section that 

is supposed to fulfill the discourse function referred to by its title, the authors very often include 

digressions fulfilling different discourse functions. For example, a section on results often contains 

sentences of background knowledge or methods, which also have sections of their own. 

On the other hand, the diversity of the relevant discourse functions is greater than that of 

section types. For example an important way of convincing the readers is contrasting one's 

results with other results. “Contrast”, however, is not a usual title for a section. 

The tool we present marks particular discourse function types of sentences in order to 

provide the reader with additional support for representing scientific work in a structured 

way. In its present state our system identifies the following expressions fulfilling relevant 

discourse functions in scientific argumentation: background knowledge, logical contradiction, 

an element insufficiently or not known, research trend, summary sentence, contrast 

with past findings and substantially new finding. 

The system has been implemented for processing biomedical literature in the Pubmed 

repository (Lisacek et al. 2005). The user enters a Pubmed query and an additional list of 

important keywords that is used for relevance ranking. The output is the list of the retrieved 

abstracts ranked according to the frequency of the desired keywords, and the sentences 

containing the above-mentioned content types are highlighted. 

2. Tool for citation analysis 

Whereas the first tool we presented guides readers in following the train of thought of 

one article, citation analysis yields help for awareness of “inter-article” relationships. 

Widely used citation analysis tools are Google Scholar and CiteSeer whose main function 

is to link citer and citee. Whereas Google Scholar returns a list of publications with the links 

of the citations, Citeseer also extracts the passage that includes a reference, and thus indicates 

its context. 

Our tool marks the context of citations according to the type of relationship between 

citer and cite (Trigg 1983). At its present state the system extracts sentences where the citation 

is made, and does not consider further sentences that refer to that one, although they 

might obviously contain important elements. We intend to elaborate wider contexts at a 

later stage. The system identifies now four kinds of relationships: background knowledge 


(general knowledge, knowledge that helps the reader to understand the article or the topic 

of the article, but that is not linked to the details of the article), based-on (the citing article 

builds is based in some sense on the article cited, i.e. the cited article has had some effect 

on the citing article), comparison (the cited article is compared to the citing article (differences 

or resemblances), but no direct link between the two articles is mentioned, contrary 

to “based-on”) and assessment (the cited work is assessed, either positively or negatively). 

3. Methodology 

The discovery of the expressions fulfilling the above-mentioned discourse functions is 

carried out by the implementation of the concept-matching framework (Sándor 2005). The 

particular difficulty is the high variability of these expressions both from structural a lexical 

points of view. In contrast to expressions conveying propositional contents, they do not follow 

identifiable structural patterns and do not have a single conceptual centre that could serve as 

an anchor for their identification. The following three sentences illustrate these observations. 

They all include bibliographic references in order to provide background knowledge: 

(1) Semantic Gossiping [3, 4] is a semantic reconciliation method that can be applied to foster 

semantic interoperability in decentralized settings. 

(2) Consequently the necessity of a visual syntax for knowledge representation (KR) languages 

has been argued frequently in the past [7, 14]. 

(3) Many other possible approaches to negotiation exist ([4], [13]). 

The relevant expressions conveying the concept “background knowledge” are the following: 

(1) Semantic Gossiping [3, 4] is a… method that can be applied. 

(2) … has been argued frequently in the past [7, 14]. 

(3) … other … approaches… exist ([4], [13]. 

In order to establish a common underlying representation of the target expressions, we 

break down the target concepts into “constituent concepts”. In the case of the above target 

concept, i.e. “background knowledge”, we have identified three constituent concepts: Previous 

work[OTHER] provides general[GEN] (background) knowledge[IDEA]. To each constituent 

concept we assign a list of keywords or expressions. The concept-matching framework is 

based on the co-occurrence of the expressions of all or a subset of the constituent concepts 

within the sentences under two types of constraints. The first constraint is the presence of a 

direct syntactic dependency relationship between pairs of concepts. The second constraint is 

the application of rules that define the co-occurrence of the subset of the constituent concepts 

in the sentences that are necessary for matching the target concept. The above sentences 

are matched due to the fact that the necessary constituent concepts are present and 

moreover, they are pairwise in syntactic dependency relationships with one another: 

(1) DEPENDENCY(Semantic Gossiping[OTHER],is[GEN]) 

DEPENDENCY(Semantic Gossping[OTHER],[3,4][OTHER]) 

DEPENDENCY(is[GEN],method[IDEA]) 

DEPENDENCY(method[IDEA],can be[GEN]) 

DEPENDENCY(can be[GEN],applied[IDEA]) 

(2) DEPENDENCY(has been[GEN],argued[IDEA]) 

DEPENDENCY(argueed[IDEA],frequently[GEN]) 


149

150 

DEPENDENCY(argued[IDEA],past[GEN]) 

DEPENDENCY([7,14][OTHER]) 

(3) DEPENDENCY(other[OTHER],approaches[IDEA]) 

DEPENDENCY(approaches[IDEA],exist[GEN]) 

DEPENDENCY([4],[13][OTHER]) 

As for the status of our method among content detection methods, we note that it detects 

more precise content than search based on bags of words in that it requires the presence 

of direct syntactic dependencies between classes of keywords. On the other hand, it covers a 

larger variety of patterns than search based on the detection of precise predicate-argument 

structures due to two reasons: our keywords in the same class are highly heterogeneous in 

nature (in the same class we may find verbs, prepositions or adverbs), and matching particular 

dependency types is not required. We can say that our method is between bag-of-words 

approaches and bag-of-phrases approaches; we may call it a bag-of-dependency-pairs 

approach. 

4. Development software and architecture 

Our systems have been developed with the Xerox Incremental Parser (XIP) (Aït-Mokhtar 

et al. 2002). XIP is a natural language analysis tool designed for extracting dependency functions 

between pairs of words within the sentences. The concept-matching grammars are built 

on top of a general rule-based robust dependency grammar that has been developed in Xerox 

Research Centre Europe in the XIP formalism. The following schema illustrates the architecture 

of the system: 

6. Acknowledgement 

The development of the tool for citation analysis is funded by the Vikef European 

project: http://www.vikef.net/. 


Architecture of the concept-matching systems.

Bibliography 

AIT-MOKHTAR S., CHANOD J.-Pierre & ROUX C. (2002), “Robustness beyond shallowness: incremental 

dependency parsing”, Natural Language Engineering, 8, 2/3, p. 121-144. 

HYLAND K. (2005), Metadiscourse, Continuum. 

LEWIN B. A., FINE J. & YOUNG L. G. (2001), Expository Discourse, Continuum. 

LISACEK F., CHICHESTER C., KAPLAN A. & SÁNDOR Á., (2005), “Discovering Paradigm Shift Patterns in Biomedical 

Abstracts: Application to Neurodegenerative Diseases”, in Proceedings of the First International 

Symposium on Semantic Mining in Biomedicine (SMBM), p. 41-50. 

MIZUTA Y. & COLLIER N. (2004), “Zone Identification in Biology Articles as a Basis for Information Extraction”, 

in Proceedings of the Joint Workshop of Natural Language Processing in Biomedicine and Its Applications 

(JNLPBA) at the COLING International Conference, p. 19-35. 

RAVELLI L. J. & ELLIS R. A. (eds.) (2004), Analyzing Academic Writing, Continuum. 

SÁNDOR Á. (2005), “A framework for detecting contextual concepts in texts”, in Proceedings of the Electra 

Workshop at the SIGIR-2005 Conference, p. 15-19. 

TEUFEL S. (1998), “Meta-discourse markers and problem-structuring in scientific articles”, in Proceedings 

of the Workshop on Discourse Relations and Discourse Markers at the 17th International Conference on 

Computational Linguistics, p. 43-49. 

TEUFEL S. & MOENS M. (2002), “Summarizing Scientific Articles: Experiments with Relevance and Rhetorical 

Status”, Computational Linguistics, 28(4), p. 409-445. 

TOGNINI-BONELLI E. & DEL LUNGO CAMICIOTTI G. (eds.) (2005), Strategies in Academic Discourse, John 

Benjamins Publishing Company. 

TRIGG R. (1983), A Network-Based Approach to text Handling for the Online Scientific Community, PhD 

Thesis, University of Maryland, Department of Computer Science (typed). 


151

152 


Liste des auteurs 

AMGOUD Leila (IRIT-CNRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

AOULADOMAR Farida (IRIT-CNRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

BESTGEN Yves (Université catholique de Louvain) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

BEXTEN Birgitta (Leiden University Center for Linguistics) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

BILHAUT Frédérik (GREYC, CNRS – Université de Caen Basse-Normandie) . . . . . . . . . . . . . . . . 41, 141 

BOUFFIER Amanda (Laboratoire d’Informatique de Paris-Nord) . . . . . . . . . . . . . . . . . . . . . . . . . 79 

COUTO Javier (Instituto de Computación, Facultad de Ingeniería, Universidad de la República) . . . 105 

CRÉMILLEUX Bruno (GREYC, CNRS – Université de Caen Basse-Normandie) . . . . . . . . . . . . . . . 69 

DEGAND Liesbeth (Université catholique de Louvain). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

FERRARI Stéphane (GREYC, CNRS – Université de Caen Basse-Normandie) . . . . . . . . . . . . . . . 57 

HEMPEL Susanne (Université catholique de Louvain) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

JACQUES Marie-Paule (ERSS, Université Toulouse 2 – Le Mirail). . . . . . . . . . . . . . . . . . . . . . . . . 1 

KAPLAN Aaron (Xerox Research Centre Europe). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 

KRECZANIK Thomas (ERSICOM – Université Jean Moulin Lyon 3) . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

LAIGNELET Marion (ERSS, Université Toulouse 2 – Le Mirail) . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

LE DEUFF Olivier (Cersic-Erellif, Rennes 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 

LEGALLOIS Dominique (CRISCO, CNRS – Université de Caen Basse-Normandie) . . . . . . . . . . . 57 

LEHMAM Abderrafih (Pertinence Mining SARL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

LUCAS Nadine (GREYC, CNRS – Université de Caen Basse-Normandie) . . . . . . . . . . . . . . . . . . 69 

MANCINI Clara (Centre for Research in Computing, The Open University) . . . . . . . . . . . . . . . . . 91 

MINEL Jean-Luc (MoDyCO, CNRS – Université Paris X Nanterre) . . . . . . . . . . . . . . . . . . . . . . . 105 

PIMM Christophe (ERSS, Université Toulouse 2 – Le Mirail) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 

REBEYROLLE Josette (ERSS, Université Toulouse 2 – Le Mirail) . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

RONDEAU Gilbert (Xerox Research Centre Europe) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 

SAINT-DIZIER Patrick (IRIT-CNRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

SÁNDOR Ágnes (Xerox Research Centre Europe) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 

SCOTT Donia (Centre for Research in Computing, The Open University). . . . . . . . . . . . . . . . . . . 91 

SOPHIE Piérard (Université catholique de Louvain) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

STEIN-ZINTZ Sandrine (Université Paul-Verlaine Metz). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

TEUFEL Simone (Computer Laboratory, University of Cambridge) . . . . . . . . . . . . . . . . . . . . . . . 153 

WIDLÖCHER Antoine (GREYC, CNRS – Université de Caen Basse-Normandie) . . . . . . . . . . . . . 141 

ZERIDA Nadia (GREYC, CNRS – Université de Caen Basse-Normandie). . . . . . . . . . . . . . . . . . . 69

Télécharger l'intégralité du fascicule en PDF - Université de Caen ...

Create successful ePaper yourself

Delete template?

Save as template?