Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Améiloration de documentation #27

Open
wants to merge 11 commits into
base: master
Choose a base branch
from
79 changes: 77 additions & 2 deletions CommonVoice-Data/README.md
Original file line number Diff line number Diff line change
@@ -1,17 +1,82 @@
Ce dossier contient les extracteurs et les données extraites de différentes sources:

## requirements
python>=3.6
Voir aussi le fichier requirements.txt

## Data

Contiens les données extraites des sites web

## Tests

Ce dossier contient des fichiers avec des données tests pour vérifier que les données sont extraites correctement.

## Addresses
## Adresses

Extracteurs d'adresses françaises.
Address data are extracted from [source: BANO](https://www.data.gouv.fr/fr/datasets/base-d-adresses-nationale-ouverte-bano/)

Licence: ODbL

Fichier(s): bano.py

Usage: `$ python bano.py data/addresses`

see `$ python bano.py --help` for more info/options

## Débats Assemblée Nationale

Extracteurs des comptes-rendus de séances de l'Assemblée Nationale Française [source: Assemblée Nationale] (http://data.assemblee-nationale.fr/travaux-parlementaires/debats)

Licence: [Licence Ouverte / Open Licence] (http://data.assemblee-nationale.fr/licence-ouverte-open-licence)

Fichier(s) : debats-assemblee-nationale.sh, syceron.py

Le fichier debats-assemblee-nationale.sh vérifie que vous avez bien télécharger le ficher Syceronbrut.xml.zip, que vous l'avez extrait dans le répertoire où vous exécutez ce fichier et qu'il n'y a plus de fichier .txt dans le répertoire data/debats-assemblee-nationale/, avant de lancer automatiquement l'extraction à l'aide du fichier syceron.py.

Usage: `sh debats-assemblee-nationale.sh`
(Afin de lancer cette commande vous devez disposer d'un shell.)


## Length.py

Pas utilisé, probablement à nettoyer


## Libre Théatre

Extracteurs des pièces de théâtre.
Le site Libre Théâtre met à disposition une bibliothèque numérique d’œuvres théâtrales.
Une collection du domaine public en téléchargement gratuit : les pièces de théâtre les plus célèbres du répertoire français, mais aussi des oeuvres originales moins connues, mais remarquables par leur empreinte dans l’histoire du théâtre, par les thématiques évoquées, leur esthétique ou leur dramaturgie. Vous pouvez rechercher des pièces en parcourant le site Libre Théâtre à partir de l’histoire du théâtre, à partir de la description de l’oeuvre théâtrale d’un auteur ou grâce à des critères de recherche précis (auteur, titre, distribution, genre, époque…) via la base de données data.libreatre.fr. [source: https://libretheatre.fr/](https://libretheatre.fr)

Licence: [domaine public](https://fr.wikipedia.org/wiki/Domaine_public_(propri%C3%A9t%C3%A9_intellectuelle))

Fichier(s) : libretheatre.py

Usage: `$ python libretheatre.py data/libretheatre`

see `$ python libretheatre.py --help` for more info/options


## Projet Gutenberg

Le Projet Gutenberg offre plus de 54.000 livres électroniques en accès libre. Vous trouverez ici la grande littérature mondiale, particulièrement les ouvrages anciens désormais libres de droits. [source: Projet Gutenberg](http://www.gutenberg.org/wiki/FR_Page_d%27Accueil)
L'extracteur télécharge les livres en français qui sont dans le domaine public puis les parses en phrases prêtes pour Common Voice.

Licence: [domaine public](https://fr.wikipedia.org/wiki/Domaine_public_(propri%C3%A9t%C3%A9_intellectuelle))

Fichier(s) : livres-projet-gutenberg.sh, project-gutenberg.py

Le fichier livres-projet-gutenberg.sh vérifie que vous n'avez pas de fichier txt dans le répertoire data/gutenberg. S'il y a des fichiers alors il lancera le script project-gutenberg.py en considérant que le nom du fichier est l'identifiant d'un livre et l'extraira. S'il n'y a pas de fichiers txt dans le répertoire data/gutenberg alors il lancera le fichier project-gutenberg.py et extraira 1000 livres au hasard.

Usage: `sh livres-projet-gutenberg.sh`
(Afin de lancer cette commande vous devez disposer d'un shell.)
Vous pouvez également lancer le script python directement. Pour plus d'infos et voir les options: `$ python project-gutenberg.py --help`


## Names

Names data are extracted from [source: INSEE](https://www.insee.fr)

Licence: NO LICENSE
Expand All @@ -24,5 +89,15 @@ Usage: `$ python names.py data/names.txt`

see `$ python names.py --help` for more info/options


## Utils.py

Ce fichier contient des méthodes utiles qui sont appelées dans les autres scripts d'extraction.


## Testing
`$ PYTHONPATH=. pytest tests`

Pour tester vous pouvez lancer la commande suivante:
`$ PYTHONPATH=. pytest tests`
Cela exécutera les scripts de tests qui sont dans le répertoire tests.

75 changes: 74 additions & 1 deletion README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,78 @@
CommonVoice -- DeepSpeech
=========================

L'objectif de ce repository est de réunir en un endroit les différentes tâches à effectuer afin d'arriver à la production d'un modèle [DeepSpeech] en français.
DeepSpeech est développé par la communauté avec le support de [Mozilla], vos données ne sont pas exploitées par des sociétés commerciales et votre vie privée est préservée.

DeepSpeech est un outil qui va transformer votre voix en texte. Avant d'arriver à ce résultat, il faut collecter des données afin d'entraîner cet outil à comprendre votre voix.

Pour ce faire, différents outils ont été mis en place par [Mozilla]. Le premier est [Common Voice], il est très important, c'est lui qui permet de récolter les voix. Sans ces données, impossible de faire fonctionner [DeepSpeech].
Sur ce site, vous pouvez soit offrir votre voix, soit valider les textes.

Un second outil est un collecteur de phrases [Sentence Collector]. En effet pour que vous puissiez donner votre voix dans [Common Voice], il faut des phrases et ces phrases doivent être libre de droits.

[CorporaCreator] est un outil en ligne de commande qui permet de nettoyer les phrases collectées par [Common Voice] et les préparées pour être utilisé par [DeepSpeech].
Gaet81 marked this conversation as resolved.
Show resolved Hide resolved


## Sentence Collector

Dans ce dépôt, nous loggons les taches spécifiques à la langue française qu'il faut effectuées sur le site [Sentence Collector] afin de simplifié au maximum la validation des phrases proposées.
Les [abréviations] par exemple ne sont pas connues de tous et dans [Common Voice] à la lecture cela peut poser problème.



## Common Voice

Dans ce dépôt, nous extrayons les phrases de différentes sources qui offrent leurs données en domaine public.
Par Exemple les données de l'Assemblée Nationale, du projet Gutenberg, etc.
Mais tout n'est pas encore extrait et un peu d'aide est la bienvenue pour par exemple. Voir le dossier [CommonVoice-Data] pour plus d'information. Les extracteurs sont écrits en [Python] et script Shell.

Si vous connaissez d'autres sources offrant des données dans le domaine public n'hésitez pas à ouvrir une [issue] afin que l'on puisse vérifier que les données peuvent être utilisées par le projet et éventuellement vous aidez dans l'extraction des données.


## CorporaCreator

Durant ces derniers mois, les équipes de Mozilla se sont rendu compte que certaine donnée émanant de [Common Voice] posait des soucis à [DeepSpeech].
Gaet81 marked this conversation as resolved.
Show resolved Hide resolved
Dans ce dépôt nous collectons les problèmes liés à la langue française afin d'améliorer la reconnaissance vocale. Par exemple, les [nombres] qui peuvent être assemblé différemment.


## DeepSpeech

L'objectif final de ce dépôt est évidemment un modèle DeepSpeech français qui puissent être utilisé par exemple dans un [assistant vocal] ou pour aider les personnes avec des déficiences visuelles ou motrices .
Une [image Docker] est actuellement en développement afin de facilité l'entraînement de [DeepSpeech].
Centralisation d'outil de construction et de nettoyage de jeux de données pour
CommonVoice et de production de modèles DeepSpeech en Français.
CommonVoice et de production de modèles DeepSpeech en français.


## Conclusions

N'hésitez pas à participer selon vos capacités:

### Non technique:

- Proposer des phrases dans [Sentence Collector].
- Donner votre voix ou valider des voix sur [Common Voice].
- Partager les liens vers [Sentence Collector] et [Common Voice] sur les réseaux sociaux afin de faire connaître le projet et l'améliorer.


### Technique:

- Améliorer la documentation via une [Pull Request].
- En venant discuter de comment aider sur Telegram en rejoignant le groupe [Common Voice fr].
- En répondant à une issue que vous souhaitez aider.
- En créant une [Pull Request] afin d'améliorer du code.

[DeepSpeech]: <https://github.com/mozilla/DeepSpeech>
[Mozilla]: <https://www.mozilla.org/fr/>
[Common Voice]: <https://voice.mozilla.org/fr>
[Sentence Collector]: <https://common-voice.github.io/sentence-collector/#/>
[CorporaCreator]: <https://github.com/mozilla/CorporaCreator>
[abréviations]: <https://github.com/Common-Voice/commonvoice-fr/issues/21>
[CommonVoice-Data]: <https://github.com/Common-Voice/commonvoice-fr/tree/master/CommonVoice-Data>
[Python]: <https://docs.python.org/fr/3/>
[issue]: <https://github.com/Common-Voice/commonvoice-fr/issues/new>
[nombres]: <https://github.com/mozilla/CorporaCreator/pull/87>
[assistant vocal]: <https://fr.wikipedia.org/wiki/Assistant_personnel_intelligent>
[image Docker]: <https://github.com/Common-Voice/commonvoice-fr/issues/24>
[Pull Request]: <https://help.github.com/en/articles/about-pull-requests>
[Common Voice fr]: <https://t.me/joinchat/A7h94U7VCFrCnXrDMff2Vw>