ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-S0407
    Glissando-ca
    Glissando-ca comprend plus de 12 heures de parole en catalan, enregistrées sous des conditions acoustiques optimales, transcrites au niveau orthographique, alignées au niveau phonétique et annotées avec des informations prosodiques (emplacement des syllabes accentuées et phrasé prosodique). Le corpus a été enregistré par 8 locuteurs professionnels et 20 non professionnels: 4 locuteurs professionnels “journalistes d’actualités” (2 hommes et 2 femmes), 4 locuteurs professionnels “publicitaires” (2 hommes et 2 femmes), et 20 locuteurs non professionnels (10 hommes et 10 femmes). Glissando-ca a été conçu spécialement pour des études en prosodie mais peut également être utilisé pour d’autres tâches. Sa structure, ainsi que le nombre élevé de locuteurs enregistrés dans le corpus font de Glissando un corpus particulièrement approprié pour les analyses prosodiques inter-locuteurs et inter-styles.

    Glissando-ca possède un équivalent pour l’espagnol, Glissando-sp (see ELRA-T0406), avec une structure et des attributs identiques, qui le rendent également exploitable pour des comparaisons inter-langues.

    Les deux corpus sont le résultat d’un projet de collaboration impliquant l’Université Pompeu Fabra (UPF), l’Université Autonome de Barcelone (UAB) et l’Université de Valladolid (UVA).

    Glissando-ca est constitué de trois sous-corpus:
    1) le sous corpus “Actualités” comprend les enregistrements de textes d’actualités réels lus (fournis par la station de radio “Cadena Ser”), qui ont été modifiés afin de correspondre aux besoins de segmentation et de prosodie définis pour le corpus (un sous-corpus “Prosodique” composé de 36 enregistrements de textes correspondant aux critères de prosodie et un sous-corpus “Phonétique” de 36 enregistrements de textes correspondant aux critères de segmentation). Il a été enregistré par 8 locuteurs professionnels, quatre ayant un profil “journaliste d’actualités” et quatre ayant un profil “publicitaire”. Quatre d’entre eux ont enregistré les deux sous-corpus “Prosodique” et “Phonétique”, et quatre ont enregistré uniquement le sous-corpus “Prosodique”. Chaque texte a été conçu pour être lu une minute environ, même si la durée réelle des enregistrements dépend de chaque locuteur.

    2) Le sous-corpus “Dialogues de tâches” comprend un ensemble d’interactions enregistrées entre deux locuteurs orientés dans un but spécifique dans le cadre de demandes d’informations. Pour chaque conversation, l’un des locuteurs joue le rôle d’instructeur et l’autre le rôle de suiveur d’instruction. Trois types d’interactions ont été enregistrées: a) des conversations de type téléphonique entre un opérateur et un client demandant des informations sur les prix et horaires pour un itinéraire spécifique, b) des demandes d’informations pour une université d’échange entre un fonctionnaire administratif universitaire qui fournit des informations sur les possibilités d’un cours dans une université étrangère et un étudiant qui en fait la demande, et c) l’un des locuteurs joue le rôle d’une personne planifiant un voyage sur l’île grecque de Corfou et qui appelle un collègue qui a vécu 5 ans en Grèce, afin d’obtenir des informations spécifiques pour un itinéraire sur l’île. Il n’y a pas d’itinéraire spécifique à reproduire, mais uniquement un point de départ et d’arrivé du voyage, et quelques lieux à visiter sur le chemin. Ces tâches ont été réalisées par 12 paires de locuteurs différents: 1 paire de locuteurs professionnels “journalistes d’actualités ”, 1 paire de locuteurs professionnels “publicitaires”, et 10 paires de locuteurs non professionnels.

    3) Le sous-corpus “Dialogues libres” comprend les enregistrements de conversations entre des personnes ayant un certain degré de connaissance entre eux. Le dialogue démarre avec la question “Vous souvenez-vous comment vous vous êtes rencontrés?”, mais les locuteurs sont ensuite libre s de changer de sujet pendant la conversation. Ces conversations ont été enregistrées par 6 paires de locuteurs différents: 1 paire de locuteurs professionnels “journalistes d’actualités”, 1 paire de locuteurs professionnels “publicitaires”, et 4 paires de locuteurs non professionnels.

    Les enregistrements ont été produits dans une salle insonorisée du Campus Communication de l’Université Pompeu Fabra, à Barcelone. Le programme Sony Vegas, fonctionnant sur PC avec une carte son RME Hammerfall HDSP 9652, et un mixeur Yamaha 02R96 avec des cartes ADAT MY16AT, ont été utilisés à une fréquence d’échantillonnage de 48 kHz.

    Tous les enregistrements ont été réalisés en utilisant deux microphones pour chaque locuteur: un directionnel fixe (AKG C 414 B-ULS) et un micro-casque sans fil (Senheisser EW100-G2).

    Les enregistrements sont stockés en fichiers wav: des fichiers mono pour le sous-corpus “Actualités” et des fichiers stéréo, contenant des canaux de parole séparés pour les deux participants aux conversations (enregistrés en utilisant différents microphones), pour les dialogues de “Tâches” et “Libres”.

    Le corpus comprend les transcriptions orthographiques des enregistrements dans des fichiers séparés: des fichiers txt contenant uniquement le texte brut pour le corpus “Actualités” (ces fichiers contiennent le texte lu par chaque locuteur) et des fichiers xml contenant la transcription enrichie des conversations, réalisée par des transcripteurs humains, en suivant les conventions TEI, pour les dialogues de “Tâches” et “Libres”.

    Une transcription orthographique mot à mot est également fournie dans un fichier TextGrid Praat, aligné au niveau temporel avec le signal. Ce fichier TextGrid Praat incluse également une transcription phonétique des enregistrements alignés au niveau temporel avec le signal de parole: une transcription automatique à partir des textes d’actualités, alignée automatiquement et révisée par des experts humains dans le cas du sous-corpus “Actualités”, et une transcription automatique à partir des transcriptions orthographiques des conversations et alignées automatiquement dans le cas des sous-corpus de dialogues de “Tâches” et “Libres”.

    La transcription phonétique a été réalisée en utilisant l’alphabet phonétique SAMPA.

    Le fichier TextGrid inclue trois niveaux de segmentation en syllabes, groupes d’intonation majeure et groupes d’intonation mineure: obtenus automatiquement en utilisant des outils d’annotation prosodique puis révisés par des experts humains, dans le cas de sous-corpus “Actualités”, et obtenus automatiquement en utilisant des outils d’annotation prosodique dans le cas des sous-corpus de dialogues de “Tâches” et “Libres”.

    Informations techniques
    Support de distribution : Downloadable
    Format de fichiers : wav
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
     
    Prix Membres
    * Disponible sous licence CC BY-NC-SA uniquement (http://creativecommons.org/licenses/by-nc-sa/4.0)
    Academic - Research Free
    Commercial - Research Free
    Prix Non Membres
    * Disponible sous licence CC BY-NC-SA uniquement (http://creativecommons.org/licenses/by-nc-sa/4.0)
    Academic - Research Free
    Commercial - Research Free

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0