<-Back to home
<-Page à Aurélie
<-Back to Work
<-Travaux

Construction de Corpus

Version Anglaise

Définition: Corpus

TLF -LING. Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire en vue de leur étude linguistique.  

Considération théoriques:

Pertinence: Définir le but de l'étude, et le point de vue adopté.  
Acceptabilité: Définir les conditions à remplir par le corpus pour permettre une représentation réaliste (c'est à dire, à la fois conforme à la réalité de l'objet étudié, et présentant une certaine régularité facilitant l'exploitation).  
Exploitabilité :  afin d'être exploitable, le corpus doit être structuré, sa taille doit être suffisamment importante pour être approcher l'exhaustivité du phénomène à étudier, ou tout au moins être représentative statistiquement. Dans le cas d'une comparaison entre phénomènes, ils doivent être également représentés.  

Construction Pratique:

Toujours se poser la question:
Un corpus adapté existe-t-il déjà? 

Lors de la construction d'un nouveau corpus, prendre en compte les points suivants:  
Régularité des noms de fichiers
Noter la procédure d'élaboration du corpus
Ne pas négliger les "statistiques descriptives" du corpus - globales, et pour chaque texte: nombre de mots et annotations diverses (langue, auteur, mots clés, thèmes, type de textes, etc.)
S'assurer de la reproductibilité de l'étude effectuée

Bibliographie

Définir un Corpus (général): Extrait de la thèse de B. Pincemin (1999)
Construction et gestion des corpus (point de vue terminologique) -  E. Marshman, OLST 2003
Aug. 2005