-
Notifications
You must be signed in to change notification settings - Fork 4
Common Voice fr
Groupe de travail pour Common Voice en français
Vous trouverez dans ce wiki l'ensemble des instructions, documentations… pour le projet Common Voice
Le projet Common Voice est une initiative de Mozilla pour aider à apprendre aux machines à parler comme tout un chacun. Il va permettre de collecter les données pour fournir du contenu aux algorithmes comme pour DeepSpeech
- Common Voice fr sur Telegram pour la discussion/coordination : s'inscrire au groupe
- Discourse Mozilla
Il est possible de parler et d'écouter des voix pour faire grossir la base de données
Plusieurs étapes : 1. Vous devez posséder un compte sur Common Voice
2. Identifiez-vous sur Collecteur de phrases avec les identifiants de Common voice
3. Pour valider les phrases, il faut utiliser la page de validation
4. Si vous souhaitez ajouter de nouvelles phrases, vous devez vous rendre sur Ajouter une nouvelle phrase
C'est un processus en deux grosses étapes :
1. Construction d'un corpus de texte à faire lire, cf. les contraintes ci-dessous.
2. Contribution vocale :
- Différents genres
- Différents âges
- Différentes accents
On essaie de construire un premier ensemble de départ, ~10k phrases de sources variées, pour lancer une langue. Soumission des textes via https://voice-sprint.mozilla.community/upload/, soit directement pour des petits volumes, soit indirectement (Pastebin, etc. dépôts git…) pour les grosses quantités. Ensuite, processus **manuel** de validation des envois pour vérifier un minimum de qualité. Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice
- Common Voice redistribue en CC0 "Creative Commons — CC0 1.0 universel"), il faut des corpus de texte « compatibles »
- Texte représentatif (dialogues de film, débats, théâtre)
- Différents registres de langue nécessaires
- Normalisation des nombres (chiffres romains aussi)
- **Voir `commonvoice-fr` pour du code qui normalise proprement le texte**
-
http://data.assemblee-nationale.fr/
- Licence ≃ CC0, avec attribution
- Débats en XML
- Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
- ~1.4M phrases, 35M mots, 110k mots uniques
- ~40k mots importés sur Crowdin (20180511)
-
https://www.gutenberg.org/
- Licence domaine public
- HTML, ePUB, Kindle et texte brut (UTF-8)
- Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
- Premiers essais, 1 000 livres extraits au hasard sur la langue française
- ~2.2M phrases, 42M mots, 430k mots uniques
-
http://www.cuisine-libre.fr/
- Licence domaine public
- HTML, texte brut (UTF-8)
- **À PARSER**
-
http://libretheatre.fr/
- Licence domaine public
- HTML, texte brut (UTF-8)
- Parser en cours : https://github.com/Common-Voice/commonvoice-fr
-
http://www.inlibroveritas.net/
- [Licence](http://artlibre.org/licence/lal)
- **À PARSER**
- Corpus vocaux scientifiques en français sur Ortolang
- http://golem13.fr/5000-films-tombes-dans-le-domaine-public-a-telecharger-gratuitement/
- https://www.apar.tv/cinema/700-films-rares-et-gratuits-disponibles-ici-et-maintenant/
- "Common Voice devient multilingue et s’enrichit de nouvelles langues – Section Presse Mozilla" - 7 juin 2018
- Common Voice : Mutualiser nos voix – Mozilla publie le plus grand jeu de données vocales transcrites du domaine public à ce jour - 28 février 2019
- "Haussons la voix tous ensemble pour le Web – Common Voice - Communauté Mozilla francophone" - Traduction de l'article de Daniel Kessler du 19 juillet 2017 par la communauté Mozilla francophone
- Mozilla ouvre la voix - Communauté Mozilla francophone - Article de Kelly Davis du 28 juillet 2017 sur les plans de Mozilla d'ouvrir la reconnaissance vocale traduit par la communauté Mozilla francophone
- Le site Mozilla francophone 📖
- Les tickets

- Le blog 💬 - Bidouilleux 🔧 - Mozilla et la vie publique 📣
- Installez Nightly 🌌
Le contenu textuel est disponible sous la licence Creative Commons CC By-SA 4.0+ (en savoir plus…)
📘 Introduction 📘
- Accueil
- Occasions de contributions idéales pour débuter
- Matrix
- Parrains Mozilla fr
- Qui a les droits ?
- Lexique
📆 Événements 📆
📝 Traduction / Localisation 📝
- Traduction
- Guide stylistique pour la traduction
- Traduction de Sumo
- Étapes d'une traduction d'article
👷 Assistance 👷
📢 Communication 📢
- Communication
- Guide pour bien commencer
- Guide pratique de rédaction
- Comment travaille le groupe communication
Techno / Code ![]()
- Contribuer à MDN
- Common Voice fr
- DeepSpeech fr
- Devops
- GitHub
- Jeux web
- MozEventBox
- MozEventBox Materiel
📂 Annexes 📂