Skip to content
ChristopheVilleneuve edited this page Apr 10, 2019 · 16 revisions

Groupe de travail pour Common Voice en français

Table of Contents

Canaux

Processus pour Common Voice fr

C'est un processus en deux grosses étapes :

1. Construction d'un corpus de texte à faire lire, cf. les contraintes ci-dessous. 2. Contribution vocale :

     * Différents genres
     * Différents âges
     * Différentes accents

3. Une fois collecté suffisamment de variétés **et** de quantité (centaines d'heures d'audio), construction des ensembles pour l'apprentissage du modèle français.

Étape en cours : 1

On essaie de construire un premier ensemble de départ, ~10k phrases de sources variées, pour lancer une langue. Soumission des textes via https://voice-sprint.mozilla.community/upload/, soit directement pour des petits volumes, soit indirectement (Pastebin, etc. dépôts git…) pour les grosses quantités. Ensuite, processus **manuel** de validation des envois pour vérifier un minimum de qualité. Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice

Construction du corpus de texte

Contraintes

  • Common Voice redistribue en CC0 "Creative Commons — CC0 1.0 universel"), il faut des corpus de texte « compatibles »
  • Texte représentatif (dialogues de film, débats, théâtre)
  • Différents registres de langue nécessaires
  • Normalisation des nombres (chiffres romains aussi)
  • **Voir `commonvoice-fr` pour du code qui normalise proprement le texte**

Sources de données en CC0

    * Licence ≃ CC0, avec attribution
    * Débats en XML
    * Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
    * ~1.4M phrases, 35M mots, 110k mots uniques
    * ~40k mots importés sur Crowdin (20180511)
    * Licence domaine public
    * HTML, ePUB, Kindle et texte brut (UTF-8)
    * Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
    * Premiers essais, 1 000 livres extraits au hasard sur la langue française
    * ~2.2M phrases, 42M mots, 430k mots uniques
    * Licence domaine public
    * HTML, texte brut (UTF-8)
    * **À PARSER**
    * Licence domaine public
    * HTML, texte brut (UTF-8)
    * Parser en cours : https://github.com/Common-Voice/commonvoice-fr
    * [Licence Art Libre – LAL 1.3](http://artlibre.org/licence/lal)
    * PDF
    * **À PARSER**

Liens à garder pour plus tard

Rajouter des phrases

Annonces et articles intéressants

Clone this wiki locally