Corpus Juridique – Langues de spécialité en parallèle

Présentation : Corpus parallèles et étude contrastive des langues de spécialité du droit, de l’économie et de la finance

Type de corpus : écrit, langue juridique et économique

Langues concernées : anglais, français, espagnol, roumain, arabe

Taille :

300 000 000 mots (Corpus multilingue de l’Acquis européen) ;

20 000 000 mots (Corpus bilingue de la Cour Suprême du Canada) ;

1 000 000 mots (corpus de droit notarial et contractuel, anglais, français, roumain)

1 000 000 mots (corpus de textes économiques 2008-2012 en anglais, français et arabe).

Provenance des données :

Corpus réunissant des données provenant de documents officiels, et de documents confidentiels anonymés.

Les corpus officiels sont des corpus plurilingues traduits (Union Européenne, Cour Suprême du Canada, ONU, Banque Mondiale, Fonds monétaire international).

Le corpus de documents anonymés sont des corpus comparables portant sur un univers notionnel restreint lié aux transactions devant notaire.

Chercheurs post-doctorants concernés : Maali Fouad (arabe – français), Cornelia Şuş (corpus droit contractuel et notarial, anglais, français et roumain), Olivier Chaulet (anglais – français, corpus canadien).

Collaboration avec Manuel Torrellas Castillo, maître de conférences à l’Université François-Rabelais de Tours (espagnol – français) et avec Olivier Kraif, maître de conférences habilité à diriger des recherches à l’Université Stendhal de Grenoble.

Thèses soutenues :

Olivier Chaulet, Étude linguistique contrastive du corpus canadien des arrêts de la Cour suprême et du corpus européen des arrêts de la Cour de justice de l’Union européenne, Poitiers, 2014.

Cornelia Şuş, Tradition and change in legal discourse: a pragmatic description of the contract in English, French and Romanian, based on a corpus of comparable texts, Cluj-Napoca, 2016.

Maali Fouad, L’utilisation de grands corpus bilingues alignés pour la création d’outils d’aide à la traduction français-arabe de textes économiques, Poitiers, 2016.

Format : .txt codé UTF-8, .xml, .tmx

Alignement : Les documents sont alignés à la phrase, voire à un niveau inférieur à la phrase. Outil d’alignement : Alinea (Olivier Kraif).

Logiciels d’exploitation : Outil pour l’interrogation du corpus : concordancier multilingue ParaConc.exe (Michael Barlow) et ConcQuest (Olivier Kraif).

Utilisation du corpus :

L’exploitation de données en contexte vise à mener des analyses inter-langues ou des analyses monolingues. Les phénomènes spécifiques de la langue de spécialité juridique et la langue de spécialité économique et financière sont visés, dans le domaine lexical : terminologie, collocations, idiomes, phraséologie ; dans le domaine morphologique (dérivationnel) et dans le domaine micro-syntaxique (construction de la complémentation)

Tous les chercheurs du FoReLL y ont accès. D’autres chercheurs peuvent demander à consulter les corpus ou échanger des données semblables avec l’équipe du FORELL.

Contact : Jean-Louis Duchet (jean-louis.duchet@univ-poitiers.fr).

Lien :

Les corpus sont ou bien ouverts et déjà accessibles ou bien non communiquables, mais une mise en valeur des résultats de la confrontation des corpus parallèles ou semblables est envisagée.

Un expérimentation déjà faite antérieurement sur un corpus de presse est en ligne : http://cabal.rezo.net

Recherche

Menu principal

Haut de page