ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Catalogue de Ressources Linguistiques

    ELRA met à disposition des Ressources Linguistiques gratuites.


    Le Catalogue de Ressources Linguistiques d’ELRA présente un répertoire des Ressources Linguistiques (RL) mises à disposition par ELRA.


    (voir l’image pleine page)

    Un nombre croissant de RL couvrant différents domaines des technologies de la langue (voir illustration à gauche) sont distribuées par ELDA, le corps opérationnel d’ELRA, grâce aux contributions de divers acteurs de la communauté des technologies de la langue.

    Notre objectif, à travers ce répertoire, est de mettre des ressources linguistiques à la disposition de la communauté pour éviter aux chercheurs et aux développeurs de perdre du temps à produire des ressources qui existent déjà, mais aussi pour les aider à identifier ces ressources et à y accéder.

    D’autres ressources identifiées, mais non disponibles via ELRA, sont présentées dans le Catalogue Universel.

    Pour toute suggestion ou commentaire, ou pour toute demande d’information sur ELRA et son Catalogue de Ressources Linguistiques, rendez-vous à la section Contactez-nous.

    ELRA est partenaire de OLAC (Open Language Archives Community). Le catalogue ELRA peut être visualisé sous la forme d’une archive OLAC.

    Nouvelles ressources
  • ELRA-S0405 : Corpus Gram Vanni
    Le corpus Gram Vanni comprend 130 heures
    (21000 enregistrements audio
    différents) enregistrées par 4000
    locuteurs uniques Hindi en Inde (20-25%
    femmes, 60% de locuteurs de moins de 30
    ans, principalement d’origine rurale).
    Les données ont été collectées via une
    plateforme vocale de médias
    communautaires qui passe par des
    systèmes téléphoniques RVI (Réponse
    Vocale Interactive). La plateforme est
    utilisée pour des discussions sur les
    politiques et actualités locales, des
    questions-réponses sur l’agriculture, la
    santé et les normes sociales, ainsi que
    la poésie. L’environnement
    d’enregistrement est principalement en
    extérieur, avec un niveau moyen de
    bruits de fond de circulation et de
    lieux publics. Les échantillons de
    parole sont stockés en séquences de 8
    kHz dans des fichiers MP3. Une
    transcription orthographique est fournie
    (translittération en caractères latins),
    avec l’étiquetage d’entités nommées.

  • ELRA-S0403 : Corpus de parole CLE en urdu du Pakistan
    Ce corpus comprend des phrases
    phonétiquement riches en urdu, ainsi que
    des phrases supplémentaires couvrant des
    numéros de téléphones, adresses et noms
    de personnes. Ce corpus de parole a été
    enregistré sous différents types de
    microphones. Le taux d’échantillonnage
    des fichiers audio est de 16 kHz. Chaque
    occurrence est stockée dans un fichier
    séparé accompagné d’un fichier de
    transcription orthographique en Unicode.

  • ELRA-M0051 : EnToSSLNE – lexique d’entités nommées parallèle anglais-langues slaves du sud
    Ce lexique comprend 26,155 entités
    nommées parallèles en anglais et six
    langues slaves: bosniaque, bulgare,
    croate, macédonien, serbe, et slovène.
    Il contient des entrées à mots multiples
    qui ne sont pas à strictement parler des
    entités nommées, mais qui contiennent
    des mots qui le sont. Le slovène, le
    croate et le bosniaque sont écrits en
    caractères latins, le macédonien et le
    bulgare en cyrillique. La langue serbe
    est spécifique puisqu’elle peut être
    représentée dans les deux types de
    caractères (cyrilliques et latins) et
    dans deux dialectes (ekavica et
    ijekavica). Ce lexique est formé sur la
    variante serbe ekavica, représentée en
    caractères cyrilliques. Le lexique est
    fourni dans deux formats: csv et xml.

  • ELRA-W0128 : Corpus ECPC (European Comparable and Parallel Corpora of Parliamentary Speeches Archive) – ensemble 1
    Ce corpus est une collection de corpus
    taggés au niveau métatextuel en XML et
    contenant des discours de trois chambres
    européennes (le Parlement européen, la
    Chambre des communes britannique et le
    Congrès des députés espagnol). C’est un
    corpus écrit bilingue, bidirectionnel en
    anglais et en espagnol. Ce premier
    ensemble (ECPC_EP-05) est composé des
    sessions journalières 2005 du Parlement
    européen avec (1) une version "nettoyée"
    en XML, (2) une version étiquetée en
    partie du discours, et (3) une version
    alignée au niveau des phrases. Dans son
    format brut, ECPC_EP-05 contient
    3,668,476 tokens/mots (en excluant
    l’étiquetage) en anglais répartis sur
    plus de 60 fichiers en utf-8 et
    3,993,867 tokens/words (en excluant
    l’étiquetage) en espagnol répartis sur
    plus de 60 fichiers en utf-8.

  • ELRA-S0402 : l'Atlas sonore des langues régionales de France
    L'Atlas sonore des langues régionales de
    France propose la même fable d'Ésope lue
    en français et en langues de France. Ce
    travail, qui possède une dimension
    scientifique et patrimoniale, consiste à
    mettre en valeur la diversité
    linguistique de la France hexagonale et
    des Outre-mer, à travers des
    enregistrements recueillis sur le
    terrain et présentés via une carte
    interactive, avec leur transcription
    orthographique. En ce qui concerne
    l'occitan, une soixantaine
    d'enregistrements a été collectée en
    Gascogne, Languedoc, Provence, dans le
    nord de l'Occitanie ainsi que dans la
    zone du Croissant. Des variétés de
    basque, breton, alsacien, francique,
    flamand occidental, corse, catalan,
    francoprovençal et langue(s) d'oïl sont
    également fournies, de même qu’une
    cinquantaine de langues dans les
    Outre-mer et des langues
    non-territoriales comme le rromani et la
    langue des signes française.

  • (dernière mise à jour : mai 2019)

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0