01.05.2015 Views

Introduction à l'utilisation des corpus 1. Qu'est-ce qu'un corpus?

Introduction à l'utilisation des corpus 1. Qu'est-ce qu'un corpus?

Introduction à l'utilisation des corpus 1. Qu'est-ce qu'un corpus?

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Introduction</strong> à l’utilisation<br />

<strong>des</strong> <strong>corpus</strong><br />

<strong>1.</strong> Qu’est-<strong>ce</strong> qu’un <strong>corpus</strong>?<br />

Alexandra VOLANSCHI


Question ouverte<br />

Est-il bien utile d’utiliser les <strong>corpus</strong><br />

comme aide à la traduction étant<br />

donné l’investissement/l’effort<br />

né<strong>ce</strong>ssaire pour les construire ?


Questions abordées<br />

<strong>Qu'est</strong>-<strong>ce</strong> <strong>qu'un</strong> <strong>corpus</strong> ?<br />

Quels types de <strong>corpus</strong> y a-t-il ?<br />

Quelques exemples.<br />

A quoi peut servir un <strong>corpus</strong> ?<br />

Dans quel but doit-on constituer <strong>des</strong> <strong>corpus</strong><br />

dans le cadre du Master ?<br />

Ou trouver du <strong>corpus</strong> ?<br />

Comment stocker le <strong>corpus</strong> ?


Questions abordées<br />

Les prochaines séan<strong>ce</strong>s<br />

Comment trouver du <strong>corpus</strong>? Ou et comment trouver <strong>des</strong><br />

ressour<strong>ce</strong>s (glossaires, dictionnaires, <strong>corpus</strong> parallèles) ?<br />

Comment choisir quel texte inclure ou pas dans le <strong>corpus</strong> ?<br />

Sous quelle forme faut-il le stocker pour qu’il soit facilement<br />

utilisable ? (rappel sur les formats de fichiers)<br />

De quels outils dispose-t-on pour exploiter les <strong>corpus</strong>?<br />

<strong>1.</strong> Outils d’interrogation <strong>des</strong> <strong>corpus</strong><br />

2. Outils d’annotation


Evaluation<br />

• 1/3 DST Novembre<br />

• 1/3 Rapport sur l’utilisation du <strong>corpus</strong><br />

• 1/3 Qualité du <strong>corpus</strong>


Questions abordées<br />

<strong>1.</strong><br />

<strong>Qu'est</strong>-<strong>ce</strong> <strong>qu'un</strong> <strong>corpus</strong>?<br />

Quels types de <strong>corpus</strong> y a-t-il ?<br />

Quelques exemples.<br />

A quoi peut servir un <strong>corpus</strong> ?<br />

A quoi ça va servir dans le cadre du Master ?


Qu’est-<strong>ce</strong> qu’un <strong>corpus</strong>?<br />

Les <strong>corpus</strong> sont <strong>des</strong><br />

collections de textes de taille importante<br />

(BNC=100 Million words !)<br />

constituées de textes authentiques<br />

rassemblées selon <strong>des</strong> critères spécifiques<br />

collectées sous format électronique.


Corpus et concordanciers<br />

Format électronique <br />

• les <strong>corpus</strong> ne sont pas faits pour être<br />

consultés de manière séquentielle (~livre)<br />

• mais interrogés (concordanciers)<br />

La plupart <strong>des</strong> logiciels d’analyse textuelle<br />

sont bases sur le format texte brut (.txt). Pas<br />

de .doc, ou .pdf.<br />

Un concordancier est un logiciel qui construit<br />

<strong>des</strong> concordan<strong>ce</strong>s.<br />

ET A QUOI RESSEMBLE UNE CONCORDANCE?


Concordan<strong>ce</strong>s monolingues<br />

Exemple 1 Exemple 2<br />

• comparer les divers emplois|sens d'un même terme<br />

• observer la fréquen<strong>ce</strong> <strong>des</strong> mots<br />

• identifier <strong>des</strong> collocation, définitions<br />

• observer <strong>des</strong> propriétés distributionnelles de <strong>ce</strong>rtains<br />

mots. (exemple : les Voisins de le Monde, Word Sketch)


Concordan<strong>ce</strong>s bi-lingues<br />

Exemple 1 Exemple 2<br />

la traduction <strong>des</strong> passages correspondant à la requête<br />

résoudre les problèmes de traduction que d'autres<br />

traducteurs ont déjà rencontrés???<br />

métho<strong>des</strong> d'alignement qui établissent automatiquement <strong>des</strong><br />

liens entre les segments correspondants de textes traduits<br />

entrée aux systèmes de traduction automatique basés sur<br />

<strong>des</strong> mémoires de traduction (unités de traduction extraites à<br />

partir d'un <strong>corpus</strong> parallèle).


Quels types de <strong>corpus</strong> existe-t-il?<br />

support : papier, électronique, oral, vidéo<br />

version langagière :<br />

monolingue, bilingue (comparable ou alignés),<br />

multilingue<br />

originaux, traductions<br />

locuteurs natifs ou apprenants de la langue<br />

état de la langue : synchronique ou diachronique<br />

but : <strong>corpus</strong> de référen<strong>ce</strong> ou de spécialité.<br />

ouvert // ferme<br />

présen<strong>ce</strong> d'annotation : textes bruts ou annotés<br />

QUEL TYPE D’ANNOTATION????


Quel type d’annotation ?<br />

les attributs de formatage : paragraphes,<br />

sections, titres, etc.<br />

l'information textuelle : date de publication,<br />

auteur, type de texte, registre, etc. Exemple<br />

l'analyse linguistique du contenu du texte :<br />

étiquetage morpho-syntaxique (tagging) Exemple<br />

lemmatisation Exemple<br />

analyse syntaxique Exemple<br />

marquage prosodique <strong>des</strong> <strong>corpus</strong> oraux transcrits<br />

Exemple<br />

annotation <strong>des</strong> erreurs dans les <strong>corpus</strong> <strong>des</strong><br />

apprenants Exemple<br />

ET A QUOI PEUT SERVIR L’ANNOTATION ???


Dans quels domaines on les utilise?<br />

Lexicographie (aide a la constitution de dictionnaires)<br />

Apprentissage <strong>des</strong> langues<br />

Étu<strong>des</strong> sociolinguistiques<br />

Linguistique : (l'étude de vocabulaire, de la grammaire,<br />

évolution de la langue ou <strong>des</strong> sens <strong>des</strong> mots.<br />

Linguistique informatique (TALN), entraîner ou tester les<br />

outils d'analyse textuelle<br />

Terminologie, traduction, rédaction technique<br />

analyser les caractéristiques <strong>des</strong> textes traduits.<br />

aide à la traduction.


Réflexion<br />

Quels sont les avantages <strong>des</strong> <strong>corpus</strong><br />

par rapport aux<br />

Textes imprimes<br />

Dictionnaire (hint)<br />

Expert<br />

WWW<br />

Intuition


Exemple : mot umbrella dans Oxford English Dictionary :<br />

1/ portable protection against rain, consisting of a circular pie<strong>ce</strong><br />

of fabric mounted on a foldable frame of spikes attached to a<br />

<strong>ce</strong>ntral stick that serves as a handle.<br />

2/ Any kind of general protecting for<strong>ce</strong> or influen<strong>ce</strong>.<br />

Comparer avec l’information dans le BNC

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!