Releases: wasertech/commonvoice-fr
Modèle Français 0.9
Jeux de données :
- Lingua Libre (~40h)
- Common Voice FR (v9.0) (~850h, en autorisant jusqu'à 32 duplicatas)
- Training Speech (~180h)
- African Accented French (~15h)
- M-AILABS French (~315h)
- Att-HACK (~75h)
- Multilingual LibriSpeech (~1'100h)
Total : ~2'573h (~1925h par défaut )
Paramètres :
EPOCHS=40
LEARNING_RATE=0.0001
DROPOUT=0.3
BATCH_SIZE=64
LM_ALPHA=0.5853937631308501
LM_BETA=1.8116059936952276
Les paramètres qui ne sont pas mentionnés, sont ceux par default pour STT (c.f. paramètres par défaut de Coqui-STT)
Augmentations
Les données ont été augmentées avec les paramètres suivants:
Parsed augmentations: [
Reverb(p=0.1, delay=ValueRange(start=50.0, end=50.0, r=30.0), decay=ValueRange(start=10.0, end=2.0, r=1.0)),
Resample(p=0.1, rate=ValueRange(start=12000, end=8000, r=4000)),
Codec(p=0.1, bitrate=ValueRange(start=48000, end=16000, r=0)),
Volume(p=0.1, dbfs=ValueRange(start=-10.0, end=-40.0, r=0.0)),
Pitch(p=0.1, pitch=ValueRange(start=1.0, end=1.0, r=0.2)),
Tempo(p=0.1, factor=ValueRange(start=1.0, end=1.0, r=0.5), max_time=-1.0),
FrequencyMask(p=0.1, n=ValueRange(start=1, end=3, r=0), size=ValueRange(start=1, end=5, r=0)),
TimeMask(p=0.1, domain='signal', n=ValueRange(start=3, end=10, r=2), size=ValueRange(start=50.0, end=100.0, r=40.0)),
Dropout(p=0.1, domain='spectrogram', rate=ValueRange(start=0.05, end=0.05, r=0.0)),
Add(p=0.1, domain='signal', stddev=ValueRange(start=0.0, end=0.0, r=0.5)),
Multiply(p=0.1, domain='features', stddev=ValueRange(start=0.0, end=0.0, r=0.5))
]
Invalidation régulière du feature_cache
(toutes les 10 epoch).
Modèle de language :
- dump wikipedia
- dump débats assemblée nationale
- dump exclues African Accented French*
- dump exclues M-AILABS*
- dump exclues MLS*
- dump exclues Att-HACK*
* Phrases exclues des set de données d'entraînement, de validation et d'évaluation du modèle acoustique car trop longes.
Best params: lm_alpha=0.5853937631308501 and lm_beta=1.8116059936952276 with WER=0.1921812008479461
Licence :
Mozilla Public License (MPL) 2.0
Résultats sur les sets de test:
Test on /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_test.csv - WER: 0.109517, CER: 0.041046, loss: 16.648710
Test on /mnt/extracted/data/African_Accented_French/African_Accented_French/African_Accented_French_test.csv - WER: 0.476964, CER: 0.266480, loss: 42.864929
Test on /mnt/extracted/data/Att-HACK/Att-HACK_test.csv - WER: 0.128990, CER: 0.071407, loss: 7.359530
Test on /mnt/extracted/data/M-AILABS/fr_FR/fr_FR_test.csv - WER: 0.099164, CER: 0.033407, loss: 17.330360
Test on /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_test.csv - WER: 0.676133, CER: 0.216262, loss: 8.465725
Test on /mnt/extracted/data/cv-fr/clips/test.csv - WER: 0.315567, CER: 0.152625, loss: inf
Test on /mnt/extracted/data/MLS/MLS_test.csv - WER: 0.226772, CER: 0.097849, loss: 78.408150
Notes de l'entraîneur
La version 0.8 du modèle acoustique apportait suffisament de données de qualité, par rapport à la distribution précédente, qu'elles suffisaient à produire un taux d'erreur par mot (WER) plus faible.
(c.f. Release 0.6 et Release 0.8)
Cette distribution 0.9 voit une augmentation des données validés pour le modèle acoustique de 22 heures (données supplémentaire de la version 9.0 du 27/04/22 de CommonVoice en français).
Afin d'obtenir de meilleurs résultats que la distribution 0.8, les données ont été augmentées avec les paramètres mentionnés. Cela permet d'améliorer la capacité du modèle acoustique à généraliser dans un environnement bruyant (c.f. Bruit de fond).
La prochaine étape consiterait à augmenter davantage les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc).
Pour améliorer les performence du modèle acoustique sur vos données il est toujours préconisé de créer votre propre modèle le language.
Fonctionne avec DeepSpeech (v0.7, v0.8, v0.9) et 🐸-STT (Coqui-STT) (v1.0.0, v1.1.0, v1.2.0, v1.3.0, v1.4.0).
Modèle Français 0.8
Jeux de données :
Lingua Libre (~40h)
Common Voice FR (v8.0) (~826h, en autorisant jusqu'à 32 duplicatas)
Training Speech (~180h)
African Accented French (~15h)
M-AILABS French (~315h)
Att-HACK (~75h)
Multilingual LibriSpeech (~1'100h)
Total : ~2'551h (~1903h par défaut )
Paramètres :
EPOCHS=35
LEARNING_RATE=0.0001
DROPOUT=0.3
BATCH_SIZE=64
LM_ALPHA=1.053391235065787
LM_BETA=1.7465962238635773
Les paramètres qui ne sont pas mentionnés, sont ceux par default pour STT (c.f. paramètres par défaut de Coqui-STT)
Best params: lm_alpha=1.053391235065787 and lm_beta=1.7465962238635773 with WER=0.21547403738202855
Modèle de language :
- dump wikipedia
- dump débats assemblée nationale
- dump exclues African Accented French*
- dump exclues M-AILABS*
- dump exclues MLS*
- dump exclues Att-HACK*
* Phrases exclues des set de données d'entraînement, de validation et d'évaluation du modèle acoustique car trop longes.
Licence : MPL 2.0 https://github.com/common-voice/commonvoice-fr/blob/5699e59244d14bb14d5b7603b91c934b761c9194/DeepSpeech/LICENSE.txt
Fonctionne avec DeepSpeech v0.7, v0.8, v0.9 et Coqui-STT v1.0.0, v1.1.0, v1.2.0.
Résultats sur les sets de test:
Test on /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_test.csv - WER: 0.121251, CER: 0.040592, loss: 37.279240
Test on /mnt/extracted/data/African_Accented_French/African_Accented_French/African_Accented_French_test.csv - WER: 0.436634, CER: 0.248156, loss: 39.656155
Test on /mnt/extracted/data/Att-HACK/Att-HACK_test.csv - WER: 0.128722, CER: 0.060672, loss: 9.594825
Test on /mnt/extracted/data/M-AILABS/fr_FR/fr_FR_test.csv - WER: 0.122603, CER: 0.037138, loss: 48.013554
Test on /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_test.csv - WER: 0.593633, CER: 0.213140, loss: 9.540560
Test on /mnt/extracted/data/cv-fr/clips/test.csv - WER: 0.370288, CER: 0.194339, loss: inf
Test on /mnt/extracted/data/MLS/MLS_test.csv - WER: 0.268429, CER: 0.122745, loss: 123.213051
Notes de l'entraîneur:
Cette distribution ajoute plus de 1'200 heures d'audio pour l'entrainement du modèle acoustique mal-grès le fait qu'elle abandonne le set de données CCPMF due à de trop nombreuses erreurs présentes dans ce dernier. Cela suffit à améliorer les performances générales des modèles avec un taux d'erreur par mot (WER) moyen de 21.54 % contre 29.11 % (c.f. Release 0.6).
Le modèle de language voit quant à lui une petite augmentation du nombre de phrases en incluant celles exclues des sets de données acoustique car trop longues. Ceci permets d'ajouter le context des sets de test sans pour autant utiliser les sets de données acoustique.
Pour améliorer les performances du modèle acoustique sur un domaine particulier de la langue, il est vivement recommandé de créer son propre modèle de langage. (c.f. Modèle de Language KenLM)