ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-S0410
    Corpus CAREGIVER
    Ce corpus de parole multilingue utilisé pour la modélisation d’acquisition de la langue appelé CAREGIVER a été conçu et enregistré dans le cadre du projet ACORNS (Acquisition of Communication and Recognition Skills – Acquisition de compétences de communication et de reconnaissance) financé par l’Union européenne. La motivation derrière ce corpus et sa conception se base sur la connaissance actuelle dans le domaine de l’acquisition du langage par les enfants. Au lieu d’enregistrer les bébés et les enfants, ce sont les voix de leur soignants ou aidants primaires et secondaires qui ont été capturées dans des modes de locution dirigés à la fois vers l’enfant et vers l’adulte dans quatre langues et en parole lue. Les défis et méthodes appliqués pour obtenir des prompts similaires dans les différentes langues en termes de complexité et de sémantique, ainsi que les procédures d’enregistrement normalisées employées dans différents lieux ont été couverts. Une transcription orthographique est disponible pour chaque occurrence. Des annotations consistant en l’alignement temporel au niveau du mot et des phones existent pour certains des sous-corpus.

    Cependant, le corpus actuel comprend quelques déviations par rapport aux spécifications d’origine. Celui-ci contient environ 66 000 fichiers audio basés sur l’occurrence sur une période de 2 ans pour 16 locuteurs hommes et 14 locuteurs femmes natifs du néerlandais, anglais et finnois. Le suédois n’est pas fourni. Pour le néerlandais, seuls les enregistrements de l’année 2 sont disponibles.

    Détails:

    1) Anglais britannique:
    Année 1:
    - 4 locuteurs (2 hommes, 2 femmes)
    - 1000 enregistrements par locuteur
    - transcriptions orthographiques en.xml et enregistrements en .wav
    Année 2 :
    - 10 locuteurs incluant 4 locuteurs (identiques à l’année 1) avec 2397 enregistrements par locuteur et 6 locuteurs (3 hommes, 3 femmes) utilisés comme locuteurs test avec 600 enregistrements par locuteur
    - transcriptions orthographiques en.xml et enregistrements en .wav
    - annotation: marques temporelles au niveau du mot et du phone réalisées via Forced Alignment et une liste d’erreurs dans les marques temporelles au niveau du mot

    2) Finnois:
    Année 1 :
    - 4 locuteurs (2 hommes, 2 femmes)
    - 2000 enregistrements par locuteur
    - transcriptions orthographiques en.xml et enregistrements en .wav
    Année 2:
    - 10 locuteurs incluant 4 locuteurs (identiques à l’année 1) avec 2397 enregistrements par locuteurs et 6 locuteurs (3 hommes, 3 femmes) utilisés comme locuteurs test avec 600 enregistrements par locuteur
    - transcriptions orthographiques en.xml et enregistrements en .wav

    3) Néerlandais:
    Année 2:
    - 10 locuteurs incluant 4 locuteurs enregistrés 2 fois (2 hommes et 2 femmes) et 6 locuteurs (4 hommes et 2 femmes) utilisés comme locuteurs test avec une session d’enregistrement.
    - transcriptions orthographiques en .cor et enregistrements en .wav
    - annotation: marques temporelles au niveau de la phrase uniquement

    Références à mentionner pour le corpus:
    Altosaar, T., Bosch, L. ten, Aimetti, G., Koniaris, Chr., Demuynck, K., Heuvel, H. van den (2010): A Speech Corpus for Modeling Language Acquisition: CAREGIVER. Proceedings LREC2010, Malta, pp. 1062-1068. http://www.lrec-conf.org/proceedings/lrec2010/pdf/597_Paper.pdf.

    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
     
    Prix Membres
    Academic - Research Free
    Commercial - Research Free
    Prix Non Membres
    Academic - Research Free
    Commercial - Research Free
    145 - Table './catalog_elra/counter' is marked as crashed and should be repaired

    select startdate, counter from counter

    [TEP STOP]