Skip to content
ChristopheVilleneuve edited this page Apr 10, 2019 · 16 revisions

Groupe de travail pour Common Voice en français

Table of Contents

Vous trouverez dans ce wiki l'ensemble des instructions, documentations… pour le projet Common Voice

Introduction

Le projet Common Voice est une initiative de Mozilla pour aider à apprendre aux machines à parler comme tout un chacun. Il va permettre de collecter les données pour fournir du contenu aux algorithmes comme pour DeepSpeech

Canaux

Participer à Common Voice (pour tous)

La voix

Il est possible de parler et d'écouter des voix pour faire grossir la base de données

Proposer et valider de nouvelles phrases

Plusieurs étapes : 1. Vous devez posséder un compte sur Common Voice

2. Identifiez-vous sur Collecteur de phrases avec les identifiants de Common voice

3. Pour valider les phrases, il faut utiliser la page de validation

4. Si vous souhaitez ajouter de nouvelles phrases, vous devez vous rendre sur Ajouter une nouvelle phrase

Processus pour Common Voice fr

C'est un processus en deux grosses étapes :

1. Construction d'un corpus de texte à faire lire, cf. les contraintes ci-dessous.

2. Contribution vocale :

  • Différents genres
  • Différents âges
  • Différentes accents
3. Une fois collecté suffisamment de variétés **et** de quantité (centaines d'heures d'audio), construction des ensembles pour l'apprentissage du modèle français.

Étape en cours : 1

On essaie de construire un premier ensemble de départ, ~10k phrases de sources variées, pour lancer une langue. Soumission des textes via https://voice-sprint.mozilla.community/upload/, soit directement pour des petits volumes, soit indirectement (Pastebin, etc. dépôts git…) pour les grosses quantités. Ensuite, processus **manuel** de validation des envois pour vérifier un minimum de qualité. Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice

Construction du corpus de texte

Contraintes

  • Common Voice redistribue en CC0 "Creative Commons — CC0 1.0 universel"), il faut des corpus de texte « compatibles »
  • Texte représentatif (dialogues de film, débats, théâtre)
  • Différents registres de langue nécessaires
  • Normalisation des nombres (chiffres romains aussi)
  • **Voir `commonvoice-fr` pour du code qui normalise proprement le texte**

Sources de données en CC0

Liens à garder pour plus tard

Rajouter des phrases

Annonces et articles intéressants

Section Presse annonce Mozilla

Article de la communauté Française

Interview

Autres articles

Clone this wiki locally