22.06.2013 Views

3-ponctuation-et-syntaxe-dans-la-langue-francaise - Tunisie ...

3-ponctuation-et-syntaxe-dans-la-langue-francaise - Tunisie ...

3-ponctuation-et-syntaxe-dans-la-langue-francaise - Tunisie ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.2 Statistiques <strong>et</strong> validité des analyses<br />

La problématique générale du travail a fixé d’emblée l’analyse des re<strong>la</strong>tions entre<br />

<strong>ponctuation</strong> <strong>et</strong> <strong>syntaxe</strong> comme objectif. La définition de c<strong>et</strong> objectif nous a guidé pas<br />

à pas, si bien que nous avons à présent à notre disposition une collection de données<br />

réparties en deux ensembles très différents: des structures syntaxiques <strong>et</strong> des marques<br />

de <strong>ponctuation</strong>. Toute information que nous livrent ces matériaux est évidemment intéressante,<br />

mais comment déterminer <strong>dans</strong> quelle mesure il est pertinent de lui consacrer<br />

une étude spécifique? L’étape suivante consiste ainsi à s’interroger: quelles questions<br />

voulons-nous poser aux matériaux rassemblés?<br />

Dans l’approche traditionnelle, on tend à vouloir tout expliquer, parfois sans s’assurer<br />

de <strong>la</strong> pertinence par rapport à <strong>la</strong> représentativité (numérique) des données manipulées.<br />

Or, le «bon sens» n’est d’aucun secours pour évaluer c<strong>et</strong>te représentativité.<br />

Appliqués à une partie ou à l’ensemble du corpus pour en dégager les tendances générales,<br />

les tests statistiques s’affranchissent partiellement du jugement intuitif. 15<br />

Choisir d’employer les statistiques implique qu’on réfléchisse au préa<strong>la</strong>ble sur <strong>la</strong><br />

manière dont ces outils s’accommodent de <strong>la</strong> nature des données, en particulier en<br />

ce qui concerne à leur complexité <strong>et</strong> leur homogénéité. Nous rappellerons donc les<br />

particu<strong>la</strong>rités du corpus (→4.2.1), avant de voir comment nous en avons tenu compte<br />

(→4.2.2 à→4.2.5).<br />

4.2.1 Nature des données<br />

Dès l’introduction (→0) nous avons souligné les principales pierres d’achoppement<br />

que le corpus m<strong>et</strong> sur notre chemin:<br />

1. Le corpus est hétérogène, aussi les observations qu’il perm<strong>et</strong> de faire ne peuvent<br />

en aucun cas être généralisées: elles sont spécifiques à l’échantillon dont nous<br />

disposons;<br />

2. les données sont nombreuses;<br />

3. <strong>la</strong> constitution du corpus <strong>et</strong> le travail d’annotation sont en cours.<br />

À ces inconvénients, l’analyse détaillée de <strong>la</strong> morpho<strong>syntaxe</strong> <strong>et</strong> <strong>la</strong> théorisation du<br />

système graphique nous forcent à ajouter que:<br />

3. les structures morphosyntaxiques sont complexes <strong>et</strong> récursives (chapitre→3);<br />

4. les données sont réparties de manière disproportionnée: certaines constructions<br />

sont attestées deux ou trois fois, d’autres le sont un grand nombre de fois;<br />

5. on ne peut échapper au délicat problème de <strong>la</strong> réduction des données.<br />

Tous ces problèmes sont plus ou moins bien gérés par des méthodes faisant appel aux<br />

dénombrements <strong>et</strong> aux statistiques.<br />

L’hétérogénéité des types discursifs, <strong>la</strong> complexité des structures <strong>et</strong> <strong>la</strong> répartition<br />

inégale des données, lorsqu’elles sont conjuguées à une grande quantité de matériaux,<br />

donnent une impression de désordre, si bien qu’il est parfois ma<strong>la</strong>isé de savoir sur quoi<br />

15 Nous verrons en eff<strong>et</strong> que certains phénomènes périphériques, comme <strong>la</strong> <strong>ponctuation</strong> des<br />

chiffres ou des noms de personne, ont été abordés sans que <strong>la</strong> pertinence de <strong>la</strong> question ne<br />

soit évaluée (→5.3.2.1 b).<br />

158

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!