Skip to content
ChristopheVilleneuve edited this page Apr 10, 2019 · 16 revisions

Groupe de travail pour Common Voice en français

Table of Contents

Vous trouverez dans ce wiki l'ensemble des instructions, documentations… pour le projet Common Voice

Canaux

Participer à Common Voice (pour tous)

Il est possible de parler et d'écouter des voix pour faire grossir la base de données

Processus pour Common Voice fr

C'est un processus en deux grosses étapes :

1. Construction d'un corpus de texte à faire lire, cf. les contraintes ci-dessous. 2. Contribution vocale :

     * Différents genres
     * Différents âges
     * Différentes accents

3. Une fois collecté suffisamment de variétés **et** de quantité (centaines d'heures d'audio), construction des ensembles pour l'apprentissage du modèle français.

Étape en cours : 1

On essaie de construire un premier ensemble de départ, ~10k phrases de sources variées, pour lancer une langue. Soumission des textes via https://voice-sprint.mozilla.community/upload/, soit directement pour des petits volumes, soit indirectement (Pastebin, etc. dépôts git…) pour les grosses quantités. Ensuite, processus **manuel** de validation des envois pour vérifier un minimum de qualité. Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice

Construction du corpus de texte

Contraintes

  • Common Voice redistribue en CC0 "Creative Commons — CC0 1.0 universel"), il faut des corpus de texte « compatibles »
  • Texte représentatif (dialogues de film, débats, théâtre)
  • Différents registres de langue nécessaires
  • Normalisation des nombres (chiffres romains aussi)
  • **Voir `commonvoice-fr` pour du code qui normalise proprement le texte**

Sources de données en CC0

    * Licence ≃ CC0, avec attribution
    * Débats en XML
    * Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
    * ~1.4M phrases, 35M mots, 110k mots uniques
    * ~40k mots importés sur Crowdin (20180511)
    * Licence domaine public
    * HTML, ePUB, Kindle et texte brut (UTF-8)
    * Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
    * Premiers essais, 1 000 livres extraits au hasard sur la langue française
    * ~2.2M phrases, 42M mots, 430k mots uniques
    * Licence domaine public
    * HTML, texte brut (UTF-8)
    * **À PARSER**
    * Licence domaine public
    * HTML, texte brut (UTF-8)
    * Parser en cours : https://github.com/Common-Voice/commonvoice-fr
    * [Licence Art Libre – LAL 1.3](http://artlibre.org/licence/lal)
    * PDF
    * **À PARSER**

Liens à garder pour plus tard

Rajouter des phrases

Annonces et articles intéressants

Section Presse Mozilla

Article de la communauté Française

Interview

Autres articles

Clone this wiki locally