Corpus GRAFE (Corpus Multilingue Grec, Roumain, Anglais, Français, Espagnol)

Présentation : Le Corpus GRAFE est le résultat du projet « Constitution de Corpus multilingues » financé par le PRES Limousin-Poitou-Charentes 2013-2015 et mené en collaboration par le laboratoire FoReLL (Equipe A) et le laboratoire FRED de l’Université de Limoges. Ce corpus est constitué de deux volets – littéraire et scientifique – et s’associe au corpus bilingue PLECI (journalistique et littéraire) pour offrir une représentativité de trois genres discursifs à l’échelle des corpus comparables et originaux dans cinq langues anglais, français, espagnol, grec et roumain.

La numérisation, l’océrisation et le toilettage ont été réalisés par l’équipe de chercheurs du Projet GRAFE du laboratoire en collaboration avec des chercheurs de l’Université de Tours et de l’Université de Chypre. (Cf. Fiche « Projet PRES » dans la rubriques « Activités scientifiques »).

Type de corpus : Corpus multilingue écrit bidirectionnel – parallèle et comparable (originaux et textes traduits dans chaque langue)

Langues concernées : anglais, français, espagnol, grec, roumain

Taille : environ 2 326 000 mots Corpus littéraire (originaux et traductions, à l’exception des originaux en grec et leurs traductions) ; environ 860 000 mots Corpus linguistique (originaux et traductions)

Provenance des données : Ouvrages littéraires des XXe et XXIe siècles. Ouvrages de référence en linguistique, textes originaux en anglais et en français.

Format : .doc .txt

Alignement : Corpus en cours d’alignement avec Alinéa

Exploitation (logiciels) : Logiciel ParaConc (après alignement).

Utilisation :

Le corpus multilingue GRAFE offre un support qualitativement homogène dans les cinq langues concernées par les corpus comparables, exploitable par des moyens électroniques, et quantitativement pertinent pour mener une analyse linguistique de l’organisation du discours littéraire et scientifique et de phénomènes linguistiques particuliers selon les spécialités des chercheurs du laboratoire, dans des approches syntaxiques, sémantiques, lexicologiques, énonciatives et didactiques. Les corpus parallèles permettent de saisir des phénomènes linguistiques récurrents dans les correspondances originaux-traductions afin de montrer les fonctionnements linguistiques particuliers des langues et des discours mais aussi d’enrichir nos connaissances notamment en matière de discours académique en vue de la didactique des langues

Le corpus a déjà constitué le support de communications en lien avec les caractéristiques des textes académiques (adverbes de positionnement, mise en place de discours rapportés) et des textes littéraires dans les cinq langues (termes d’adresse), notamment lors des Journées d’étude Traces de subjectivité et Corpus multilingues (2015, Université de Poitiers).

Le corpus a également fait l’objet de présentations concernant la méthodologie de constitution et d’exploitation :

Nita, R. et R. Marti-Solano, 2015, « Corpus GRAFE : Constitution et pistes d’exploitation », Communication, Linguistique contrastive et corpus multilingues : quels outils pour quelles analyses ? – Table Ronde organisée par Agnès Celle et Laure Lansari, Université Paris Diderot, 27 mars 2017.

Chuquet,H., R. Martí-Solano, R. Nita, F. Valetopoulos, 2015, « Corpus GRAFE : exploitation multilingue des discours littéraire et scientifique », Communication, Traces de subjectivité et Corpus multilingues, Journées d’étude, Université de Poitiers, 21-22 mai 2015.

Le corpus sert également de support aux étudiants du Master Linguistique dans les recherches liées au travail des séminaires « Analyse sur Corpus » et « Linguistique contrastive » ainsi qu’à l’élaboration de leur TER.

Contact : Raluca Nita raluca.nita@univ-poitiers.fr

À télécharger:

Recherche

Menu principal

Haut de page