Corpus Parole

Présentation :

Le corpus ‘Parole’ est formé de données orales authentiques issues de programmes radiophoniques britanniques, américains et, de façon plus marginale, français. Il s’agit essentiellement de discours politiques, journaux d’information, documentaires et interviews. La très bonne qualité des enregistrements permet de faire des analyses acoustiques fines. Ce corpus de 80 000 mots a vocation à être élargi à d’autres langues et d’autres types d’oral.

Type de corpus : oral

Langues concernées : anglais, français

Taille : 80 000 mots (environ 8h d’audio)

Provenance des données :

Documents authentiques, issus de la radio britannique BBC Radio 4 et de la radio américaine National Public Radio pour l’anglais ; pour le français, les documents sont issus de France Inter et de France 3 Télévision.

Le corpus a vocation de s’élargir à d’autres langues représentées au sein de l’équipe de linguistique du laboratoire FoReLL : l’allemand, le grec moderne et le roumain, par exemple, ainsi que d’envisager des corpus plurilingues (traduits ou comparables).

Le choix qui a été fait de n’intégrer pour l’instant que des documents radiophoniques est lié à la volonté d’avoir accès à un corpus authentique, et non fabriqué, au même titre que certains gros corpus écrits ces dernières années ont réuni des textes originaux (littéraires et/ou journalistiques) pour une exploitation de données en contexte afin de mener des analyses inter-langues (corpus alignés de textes traduits ou comparables) ou des analyses monolingues. Le corpus ‘Parole’ a d’autre part vocation à se diversifier en intégrant par la suite d’autres types de documents oraux, relevant notamment de la sphère privée : enregistrements de conversations familiales, conversations téléphoniques, tandems linguistiques, par exemple, mais cela nécessite la mise en place d’un protocole expérimental précis qui n’a pas été envisagé pour l’instant.

Format : .wav

Alignement : Les documents sont transcrits et alignés (texte-son) sous forme graphique (pas d’alignement prévu pour l’instant au niveau du phonème ou des constituants syllabiques, syllabes, mots, pieds accentuels et unités intonatives). L’alignement a été fait avec le logiciel Praat et nous avons procédé à un alignement en segments liés au temps (segments de 15s environ). La constitution de ce corpus, son alignement et sa compilation ont été l’objet de travaux de stage en licence et Master à l’UFR Lettres et Langues de l’Université de Poitiers.

Logiciels d’exploitation : Outil pour l’interrogation du corpus : logiciel Dolmen, développé par Julien Eychenne (www.julieneychenne.info/dolmen).

Utilisation du corpus : L’équipe de linguistique du FoReLL est constituée de chercheurs s’intéressant à divers domaines de la linguistique : syntaxe, énonciation, morphologie, lexicologie, sémantique cognitive, phonétique/phonologie. Souhaitant que ce corpus puisse servir au plus grand nombre d’entre eux, il a donc été décidé de nous en tenir à une transcription graphique, ce qui permettra à chaque chercheur d’y avoir recours selon ses besoins.

Thèses / HDR directement liées avec le corpus :

Nicolas Videau, « Préfixation et phonologie de l’anglais : analyse lexicographique, phonétique et acoustique » (co-direction avec Jean-Louis Duchet, Université de Poitiers). Thèse de doctorat soutenue le 29 Novembre 2013. Mention Très Honorable avec les félicitations du jury.

Sylvie Hanote, « De l’écrit à l’oral : marqueurs de frontière(s) dans le discours », Habilitation à Diriger des Recherches présentée à l’Université de Poitiers le 11 décembre 2012

Plusieurs communications, articles de revues et chapitres d’ouvrages (Cf. fiches individuelles des EC du laboratoire) sont en lien avec le corpus, soit du fait de l’utilisation du corpus (ou d’une partie du corpus) à des fins scientifiques, soit pour présenter le corpus lui-même à la communauté scientifique, par exemple :

Trapateau, N., Videau, N., Hanote, S. et Duchet, J.L. (2016) « Quelles méthodologies pour constituer et exploiter des corpus diachroniques et corpus oraux contemporains ? », Journées d’étude « Données, métadonnées des corpus et catalogage des objets en sciences humaines et sociales”, MSHS de Poitiers, 6-7 juin 2016.

Hanote, S. et Videau, N. (2013) « Corpus Parole : Étude de quelques phénomènes de saillance », Journée d’étude Corpus oraux et multimodaux : segmentation, transcription, annotation et exploitation, MSHS de Poitiers.

Contact : Sylvie Hanote – sylvie.hanote@univ-poitiers.fr, Nicolas Videau – nicolas.videau@univ-poitiers.fr

Recherche

Menu principal

Haut de page