Common Voice fr

Groupe de travail pour Common Voice en français

Table of Contents Introduction Canaux Participer à Common Voice (pour tous) La voix Proposer et valider de nouvelles phrases Processus pour Common Voice fr Étape en cours : 1 Construction du corpus de texte Contraintes Sources de données en CC0 Liens à garder pour plus tard Rajouter des phrases Annonces et articles intéressants Section Presse annonce Mozilla Article de la communauté Française Interview Autres articles

Vous trouverez dans ce wiki l'ensemble des instructions, documentations… pour le projet Common Voice

Introduction

Le projet Common Voice est une initiative de Mozilla pour aider à apprendre aux machines à parler comme tout un chacun. Il va permettre de collecter les données pour fournir du contenu aux algorithmes comme pour DeepSpeech

Canaux

Common Voice fr sur Telegram pour la discussion/coordination : s'inscrire au groupe
Discourse Mozilla

Participer à Common Voice (pour tous)

La voix

Il est possible de parler et d'écouter des voix pour faire grossir la base de données

Proposer et valider de nouvelles phrases

Plusieurs étapes : 1. Vous devez posséder un compte sur Common Voice

2. Identifiez-vous sur Collecteur de phrases avec les identifiants de Common voice

3. Pour valider les phrases, il faut utiliser la page de validation

4. Si vous souhaitez ajouter de nouvelles phrases, vous devez vous rendre sur Ajouter une nouvelle phrase

Processus pour Common Voice fr

C'est un processus en deux grosses étapes :

1. Construction d'un corpus de texte à faire lire, cf. les contraintes ci-dessous.

2. Contribution vocale :

Différents genres
Différents âges
Différentes accents

3. Une fois collecté suffisamment de variétés **et** de quantité (centaines d'heures d'audio), construction des ensembles pour l'apprentissage du modèle français.

Étape en cours : 1

On essaie de construire un premier ensemble de départ, ~10k phrases de sources variées, pour lancer une langue. Soumission des textes via https://voice-sprint.mozilla.community/upload/, soit directement pour des petits volumes, soit indirectement (Pastebin, etc. dépôts git…) pour les grosses quantités. Ensuite, processus **manuel** de validation des envois pour vérifier un minimum de qualité. Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice

Construction du corpus de texte

Contraintes

Common Voice redistribue en CC0 "Creative Commons — CC0 1.0 universel"), il faut des corpus de texte « compatibles »
Texte représentatif (dialogues de film, débats, théâtre)
Différents registres de langue nécessaires
Normalisation des nombres (chiffres romains aussi)
**Voir `commonvoice-fr` pour du code qui normalise proprement le texte**

Sources de données en CC0

http://data.assemblee-nationale.fr/
- Licence ≃ CC0, avec attribution
- Débats en XML
- Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
- ~1.4M phrases, 35M mots, 110k mots uniques
- ~40k mots importés sur Crowdin (20180511)
https://www.gutenberg.org/
- Licence domaine public
- HTML, ePUB, Kindle et texte brut (UTF-8)
- Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
- Premiers essais, 1 000 livres extraits au hasard sur la langue française
- ~2.2M phrases, 42M mots, 430k mots uniques
http://www.cuisine-libre.fr/
- Licence domaine public
- HTML, texte brut (UTF-8)
- **À PARSER**
http://libretheatre.fr/
- Licence domaine public
- HTML, texte brut (UTF-8)
- Parser en cours : https://github.com/Common-Voice/commonvoice-fr
http://www.inlibroveritas.net/
- [Licence](http://artlibre.org/licence/lal)
- PDF
- **À PARSER**

Liens à garder pour plus tard

Corpus vocaux scientifiques en français sur Ortolang
http://golem13.fr/5000-films-tombes-dans-le-domaine-public-a-telecharger-gratuitement/
https://www.apar.tv/cinema/700-films-rares-et-gratuits-disponibles-ici-et-maintenant/

Rajouter des phrases

https://common-voice.github.io/sentence-collector/#/add

Annonces et articles intéressants

Section Presse annonce Mozilla

Article de la communauté Française

"Haussons la voix tous ensemble pour le Web – Common Voice - Communauté Mozilla francophone" - Traduction de l'article de Daniel Kessler du 19 juillet 2017 par la communauté Mozilla francophone
Mozilla ouvre la voix - Communauté Mozilla francophone - Article de Kelly Davis du 28 juillet 2017 sur les plans de Mozilla d'ouvrir la reconnaissance vocale traduit par la communauté Mozilla francophone

Interview

Autres articles

La guerre des assistants vocaux commence aujourd'hui en France
Mozilla veut amplifier son virage sur les contenus personnalisés
Projet common voice pour que la voix soit libre Framablog du 19 décembre 2018

Le contenu textuel est disponible sous la licence Creative Commons CC By-SA 4.0+ (en savoir plus…)

<> /images/mozfr_128.jpg

📘 Introduction 📘

📆 Événements 📆

📝 Traduction / Localisation 📝

👷 Assistance 👷

📢 Communication 📢

Techno / Code

📂 Annexes 📂

Common Voice fr

Table of Contents

Introduction

Canaux

Participer à Common Voice (pour tous)

La voix

Proposer et valider de nouvelles phrases

Processus pour Common Voice fr

Étape en cours : 1

Construction du corpus de texte

Contraintes

Sources de données en CC0

Liens à garder pour plus tard

Rajouter des phrases

Annonces et articles intéressants

Section Presse annonce Mozilla

Article de la communauté Française

Interview

Autres articles

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally