Parole

Type de corpus : oral
Langues concernées : anglais, français
Taille : 80 000 mots (environ 8h d’audio)
Provenance des données : Documents authentiques, issus de la radio britannique BBC Radio 4 et de la radio américaine National Public Radio pour l’anglais ; pour le français, les documents sont issus de France Inter et de France 3 Télévision.
Volonté d’étendre le corpus à d’autres langues représentées au sein de l’équipe de linguistique du laboratoire FoReLL : l’allemand, le grec moderne et le roumain, par exemple, ainsi que d’envisager des corpus plurilingues (traduits ou comparables).
Le choix qui a été fait de n’intégrer pour l’instant que des documents radiophoniques est lié à la volonté d’avoir accès à un corpus authentique, et non fabriqué, au même titre que certains gros corpus écrits ces dernières années ont réuni des textes originaux (littéraires et/ou journalistiques) pour une exploitation de données en contexte afin de mener des analyses inter-langues (corpus alignés de textes traduits ou comparables) ou des analyses monolingues. Le corpus ‘Parole’ a d’autre part vocation à se diversifier en intégrant par la suite d’autres types de documents oraux, relevant notamment de la sphère privée : enregistrements de conversations familiales, conversations téléphoniques, tandems linguistiques, par exemple, mais cela nécessite la mise en place d’un protocole expérimental précis qui n’a pas été envisagé pour l’instant.
Format : .wav
Alignement : Les documents sont transcrits et alignés (texte-son) sous forme graphique (pas d’alignement prévu pour l’instant au niveau du phonème ou des constituants syllabiques, syllabes, mots, pieds accentuels et unités intonatives). L’alignement a été fait avec le logiciel Praat et nous avons procédé à un alignement en segments liés au temps (segments de 15s environ).
Exploitation (logiciels) : Outil pour l’interrogation du corpus : logiciel Dolmen, développé par Julien Eychenne (www.julieneychenne.info/dolmen).
Utilisation du corpus : L’équipe de linguistique du FoReLL est constituée de chercheurs s’intéressant à divers domaines de la linguistique : syntaxe, énonciation, morphologie, lexicologie, sémantique cognitive, phonétique/phonologie. Souhaitant que ce corpus puisse servir au plus grand nombre d’entre eux, il a donc été décidé de nous en tenir à une transcription graphique, ce qui permettra à chaque chercheur d’y avoir recours selon ses besoins.

Contact : Sylvie Hanote – sylvie.hanote@univ-poitiers.fr

Recherche

Menu principal

Haut de page