17.06.2013 Views

Hathout, N. (2009) - ERSS - Université Toulouse II-Le Mirail

Hathout, N. (2009) - ERSS - Université Toulouse II-Le Mirail

Hathout, N. (2009) - ERSS - Université Toulouse II-Le Mirail

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

20 Parcours scientifique<br />

1.3 La morphologie extensive<br />

Si, comme on vient de le voir, la linguistique informatique offre une voie de recherche<br />

fructueuse en morphologie, son efficacité dépend de façon cruciale de la bonne connaissance<br />

des objets et des données qu’elle traite. Cette connaissance ne peut être atteinte que<br />

par la description linguistique qui, comme l’a bien montré Marc Plénat (2000) (voir aussi<br />

Plénat et al. (2002)), doit être extensive. La morphologie extensive 7 est une pratique qui<br />

consiste à baser les descriptions sur la plus grande quantité possible d’exemples authentiques.<br />

Nous avons par exemple constitué un corpus de plus de 5 000 adjectifs en -able<br />

pour décrire les relations qui s’établissent entre ces derniers et leurs noms recteurs, soit<br />

plus du triple du nombre d’exemples considérés par les études antérieures de ce suffixe (<strong>Hathout</strong><br />

et al. 2003). L’approche extensive relève d’une conception de la linguistique comme<br />

science d’observation 8 . Elle découle de la constatation que la quantité de données disponibles<br />

détermine la résolution des observations qui peuvent être réalisées. Plus ces données<br />

sont nombreuses, plus le niveau de détail des observations est élevé. Or, les exemples déterminants<br />

pour l’analyse d’une construction particulière sont généralement les plus rares.<br />

Pour espérer découvrir un nombre suffisant de tels spécimens, il faut disposer d’un très<br />

gros corpus d’exemples. <strong>Le</strong> linguiste doit par conséquent consacrer une part importante de<br />

son activité de recherche à la collecte systématique de tous les spécimens qu’il peut trouver.<br />

<strong>Le</strong>ur compilation dans une base de données prend un temps considérable. Si la collecte proprement<br />

dite est rapide 9 , la validation des données collectées exige un travail philologique<br />

long et fastidieux (<strong>Hathout</strong> et al. <strong>2009</strong>a).<br />

1.3.1 Webaffix<br />

La rentabilité de la morphologie extensive est directement liée à la possibilité de collecter<br />

facilement de grandes quantités d’exemples. À l’heure actuelle, la seule ressource qui<br />

permette d’en rassembler en nombre suffisant est le Web. On peut naturellement aussi utiliser<br />

des bases textuelles, des archives de journaux ou des dictionnaires informatisés, mais<br />

ces corpus sont trop petits et leur contenu est trop normalisé pour permettre d’observer les<br />

constructions sporadiques qui nous intéressent. <strong>Le</strong> principal objectif de la collecte est en<br />

effet de trouver des exemples souvent rares voire exceptionnels capables de nous éclairer<br />

sur la manière dont s’organisent les dérivés d’une construction morphologique particulière.<br />

La façon la plus simple de trouver des exemples sur le Web consiste à soumettre manuellement<br />

des requêtes à un moteur de recherche comme Google, Yahoo ou plus récemment<br />

Bing. <strong>Le</strong> linguiste s’appuie alors sur son intuition pour prédire des instances de la construction<br />

à laquelle il s’intéresse. Cet exercice présente cependant deux limites. La première est<br />

le temps qu’il faut pour soumettre les milliers voire les dizaines de milliers de requêtes<br />

correspondant aux différentes formes sous lesquelles la construction peut se réaliser. Quel-<br />

7. Cette approche a été initiée et définie par Marc Plénat à qui l’on doit également son nom.<br />

8. Je remercie Marc Plénat de m’avoir fait découvrir cette formule bien connue de Gustave Guillaume.<br />

9. Cette affirmation doit cependant être nuancée pour un domaine connexe comme la phonologie. Dans<br />

un projet comme PFC par exemple (Durand et al. 2002, 2005), la collecte des données comporte un important<br />

travail d’enregistrement et de transcription.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!