-
Notifications
You must be signed in to change notification settings - Fork 4
Common Voice fr
Groupe de travail pour Common Voice en français
- Common Voice fr sur Telegram pour la discussion/coordination : s'inscrire au groupe
- Discourse Mozilla
- Ce wiki pour les instructions, documentations…
C'est un processus en deux grosses étapes :
1. Construction d'un corpus de texte à faire lire, cf. les contraintes ci-dessous. 2. Contribution vocale :
* Différents genres
* Différents âges
* Différentes accents
3. Une fois collecté suffisamment de variétés **et** de quantité (centaines d'heures d'audio), construction des ensembles pour l'apprentissage du modèle français.
On essaie de construire un premier ensemble de départ, ~10k phrases de sources variées, pour lancer une langue. Soumission des textes via https://voice-sprint.mozilla.community/upload/, soit directement pour des petits volumes, soit indirectement (Pastebin, etc. dépôts git…) pour les grosses quantités. Ensuite, processus **manuel** de validation des envois pour vérifier un minimum de qualité. Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice
- Common Voice redistribue en CC0 "Creative Commons — CC0 1.0 universel"), il faut des corpus de texte « compatibles »
- Texte représentatif (dialogues de film, débats, théâtre)
- Différents registres de langue nécessaires
- Normalisation des nombres (chiffres romains aussi)
- **Voir `commonvoice-fr` pour du code qui normalise proprement le texte**
* Licence ≃ CC0, avec attribution
* Débats en XML
* Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
* ~1.4M phrases, 35M mots, 110k mots uniques
* ~40k mots importés sur Crowdin (20180511)
* Licence domaine public
* HTML, ePUB, Kindle et texte brut (UTF-8)
* Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
* Premiers essais, 1 000 livres extraits au hasard sur la langue française
* ~2.2M phrases, 42M mots, 430k mots uniques
* Licence domaine public
* HTML, texte brut (UTF-8)
* **À PARSER**
* Licence domaine public
* HTML, texte brut (UTF-8)
* Parser en cours : https://github.com/Common-Voice/commonvoice-fr
* [Licence Art Libre – LAL 1.3](http://artlibre.org/licence/lal)
* PDF
* **À PARSER**
- Corpus vocaux scientifiques en français sur Ortolang
- http://golem13.fr/5000-films-tombes-dans-le-domaine-public-a-telecharger-gratuitement/
- https://www.apar.tv/cinema/700-films-rares-et-gratuits-disponibles-ici-et-maintenant/
- "Haussons la voix tous ensemble pour le Web – Common Voice - Communauté Mozilla francophone" - Traduction de l'article de Daniel Kessler du 19 juillet 2017 par la communauté Mozilla francophone
- Mozilla ouvre la voix - Communauté Mozilla francophone - Article de Kelly Davis du 28 juillet 2017 sur les plans de Mozilla d'ouvrir la reconnaissance vocale traduit par la communauté Mozilla francophone
- "Common Voice devient multilingue et s’enrichit de nouvelles langues – Section Presse Mozilla" - Traduction de la Section Presse de l'annonce de Mozilla du 7 juin 2018
- La guerre des assistants vocaux commence aujourd'hui en France
- Mozilla veut amplifier son virage sur les contenus personnalisés
- Projet common voice pour que la voix soit libre Framablog du 19 décembre 2018
- Common Voice arrive en France ! Interview
- Common voice : Mozilla reconnaissance vocale Interview
- Common Voice : Mutualiser nos voix – Mozilla publie le plus grand jeu de données vocales transcrites du domaine public à ce jour Traduction de la Section Presse de l'annonce de Mozilla du 28 février 2019
- Le site Mozilla francophone 📖
- Les tickets

- Le blog 💬 - Bidouilleux 🔧 - Mozilla et la vie publique 📣
- Installez Nightly 🌌
Le contenu textuel est disponible sous la licence Creative Commons CC By-SA 4.0+ (en savoir plus…)
📘 Introduction 📘
- Accueil
- Occasions de contributions idéales pour débuter
- Matrix
- Parrains Mozilla fr
- Qui a les droits ?
- Lexique
📆 Événements 📆
📝 Traduction / Localisation 📝
- Traduction
- Guide stylistique pour la traduction
- Traduction de Sumo
- Étapes d'une traduction d'article
👷 Assistance 👷
📢 Communication 📢
- Communication
- Guide pour bien commencer
- Guide pratique de rédaction
- Comment travaille le groupe communication
Techno / Code ![]()
- Contribuer à MDN
- Common Voice fr
- DeepSpeech fr
- Devops
- GitHub
- Jeux web
- MozEventBox
- MozEventBox Materiel
📂 Annexes 📂