Définition: Corpus TLF -LING.
Ensemble de textes établi selon un principe de documentation
exhaustive, un critère thématique ou exemplaire en vue de leur étude
linguistique.
Considération théoriques: Pertinence: Définir le but de l'étude, et
le point de vue adopté.
Acceptabilité: Définir les conditions à remplir par le corpus pour
permettre une représentation réaliste (c'est à dire, à la fois
conforme à la réalité de l'objet étudié, et présentant une certaine
régularité facilitant l'exploitation).
Exploitabilité
: afin d'être exploitable, le corpus doit être
structuré, sa taille doit être suffisamment importante pour être
approcher l'exhaustivité du phénomène à étudier, ou tout au moins
être représentative statistiquement. Dans le cas d'une comparaison entre
phénomènes, ils doivent être également représentés. Construction
Pratique:
Toujours se poser la question:
Un corpus
adapté existe-t-il déjà?
Lors de la construction d'un nouveau corpus, prendre en compte les
points suivants:
Régularité des noms de
fichiers
Noter la procédure
d'élaboration du corpus
Ne pas négliger les
"statistiques descriptives" du corpus - globales, et pour chaque
texte: nombre de mots et annotations diverses (langue, auteur, mots clés,
thèmes, type de textes, etc.)
S'assurer de la reproductibilité
de l'étude effectuée
Bibliographie Définir un Corpus (général):
Extrait de la thèse de B. Pincemin (1999)
Construction et
gestion des corpus (point de vue terminologique) - E. Marshman, OLST 2003 |