Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Améiloration de documentation #27

Open
wants to merge 11 commits into
base: master
Choose a base branch
from

Conversation

Gaet81
Copy link

@Gaet81 Gaet81 commented Apr 3, 2019

Bonjour,

J'ai amélioré la documentation. Dites-moi ce que vous en pensez et si c'est bien correct.

J'ai également des questions:

  • Length.py: ne semble pas être utilisé, ne faut il pas supprimer ce fichier ou est-il en cours de développement?
  • Y a-t-il une vérification de doublon sur le sentence collector pour être certains que quelqu'un qui ferait tourner ces scripts sur des textes déjà parsés et les soumettraient dans le sentence collector serait d'office écarté?

Ne faut-il pas ouvrir des issues pour :

Il faudrait également un wiki pour

  • Expliquer quelles sont les règles pour le parseur. (nombre de mots min/max par phrase, les abréviations à changer, etc)
  • Expliquer que faire des résultats, comment les soumettre.

Sur le projet Gutenberg il y a un lien vers librivox (https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results). Est il possible de parser ces audio books qui sont dans le domaine public pour les incorporés à la validation common voice? Existe t'il déjà un tavail en ce sens pour d'autres langues?

Gaet81 added 6 commits March 29, 2019 20:24
Description de ce dépôt et de comment aider
Ajout de détails sur Adresses et Débats assemblée nationale
@lissyx
Copy link
Collaborator

lissyx commented Apr 4, 2019

Bonjour,

J'ai amélioré la documentation. Dites-moi ce que vous en pensez et si c'est bien correct.

Merci !

J'ai également des questions:

* Length.py: ne semble pas être utilisé, ne faut il pas supprimer ce fichier ou est-il en cours de développement?

En fait c'est utile pour vérifier la répartition des tailles et des mots par rapport à une référence (wikipedia)

* Y a-t-il une vérification de doublon sur le sentence collector pour être certains que quelqu'un qui ferait tourner ces scripts sur des textes déjà parsés et les soumettraient dans le sentence collector serait d'office écarté?

Bonne question, le dépôt date d'avant l'existence de Sentence Collector, et visait justement à centraliser l'origine du texte pour éviter des doublons.

Au pire, c'est une bonne contribution à faire à Sentence Collector s'il ne vérifie pas déjà ça

Ne faut-il pas ouvrir des issues pour :

* demander de créer un parseur pour le site http://www.cuisine-libre.fr/

Probablement

* demander de créer un parseur pour le site http://www.inlibroveritas.net/  (même si je m'interroge sur comment parser un PDF...)

Parser un PDF, j'ai déjà fait, c'est tellement pénible qu'à mon avis mieux vaut éviter

* Expliquer ce qu'il reste à faire pour le parseur http://libretheatre.fr/

Il reste normalement pas grand chose, à part vérifier la qualité du texte de ce qui sort, et produire d'autres textes

Il faudrait également un wiki pour

* Expliquer quelles sont les règles pour le parseur. (nombre de mots min/max par phrase, les abréviations à changer, etc)

C'est déjà fait / en cours sur Common Voice

* Expliquer que faire des résultats, comment les soumettre.

Peut-être plutôt dans README.md du coup ?

Sur le projet Gutenberg il y a un lien vers librivox (https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results). Est il possible de parser ces audio books qui sont dans le domaine public pour les incorporés à la validation common voice? Existe t'il déjà un tavail en ce sens pour d'autres langues?

Il y a déjà @nicolaspanel qui fait ça: https://gitlab.com/nicolaspanel/TrainingSpeech

Copy link
Collaborator

@lissyx lissyx left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

C'est pas mal mais du coup deux-trois petits changements. Faudrait éviter aussi le mélange anglais / français. Le code peut servir à d'autres communautés, donc à mon avis c'est pas mal de rester sur de l'anglais pour ça.

README.md Outdated Show resolved Hide resolved
README.md Outdated Show resolved Hide resolved
@lissyx
Copy link
Collaborator

lissyx commented Apr 4, 2019

Dernier point que tu peux vouloir améliorer @Gaet81, avec le temps je me suis rendu compte que l'extracteur de livres du projet Gutenberg nettoie assez mal les données. Il y aurait beaucoup de travail à faire pour l'améliorer (Projet Gutenberg est très lâche sur les contraintes de formattage, c'est un peu chacun fait comme il veut, du coup c'est assez pénible à parser).

@Gaet81
Copy link
Author

Gaet81 commented Apr 8, 2019

C'est pas mal mais du coup deux-trois petits changements. Faudrait éviter aussi le mélange anglais / français. Le code peut servir à d'autres communautés, donc à mon avis c'est pas mal de rester sur de l'anglais pour ça.

J'y ai réfléchis avant d'écrire la doc. Mais ce dépot est spécifique à la langue fançaise donc pour moi devrait rester en français. Vos issues sont en français également.
Je comprends que les outils doivent être compréhensible pour d'autres mais pour l'utilisateur lambda la première page est la plus accessible.
Si on veut une documentation plus techniques alors je suis d'accord que l'anglais devrait être la langue de la doc mais pour de la doc technique on peut faire le faire dans le wiki et mettre un lien dans le readme.

@Gaet81
Copy link
Author

Gaet81 commented Apr 8, 2019

Dernier point que tu peux vouloir améliorer @Gaet81, avec le temps je me suis rendu compte que l'extracteur de livres du projet Gutenberg nettoie assez mal les données. Il y aurait beaucoup de travail à faire pour l'améliorer (Projet Gutenberg est très lâche sur les contraintes de formattage, c'est un peu chacun fait comme il veut, du coup c'est assez pénible à parser).

j'ai vu que Nicolas Panel dans son projet utilisait le format epub plutot que le texte brut. Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte. Même si je reconnais qu'il n'y a pas de standardisation et que ça restera difficile.

@lissyx
Copy link
Collaborator

lissyx commented Apr 8, 2019

Si on veut une documentation plus techniques alors je suis d'accord que l'anglais devrait être la langue de la doc mais pour de la doc technique on peut faire le faire dans le wiki et mettre un lien dans le readme.

À l'utilisation c'est pénible, le README c'est un fichier à part. On peut utiliser un autre fichier, CONTRIBUTING.md pour le côté code, si ça t'arranges de séparer les deux

@lissyx
Copy link
Collaborator

lissyx commented Apr 8, 2019

Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte.

Possible mais quand j'avais regardé les bouquins par rapport à la licence, sur gutenberg en ePub y'avait pas grand chose de mémoire :/

@lissyx
Copy link
Collaborator

lissyx commented Apr 8, 2019

@Gaet81 du coup tu bouges la partie code dans un CONTRIBUTING.md et après je re-review ?

@Gaet81
Copy link
Author

Gaet81 commented Apr 11, 2019

@Gaet81 du coup tu bouges la partie code dans un CONTRIBUTING.md et après je re-review ?

Tu veux dire renommer readme du répertoire CommonVoice-Data vers contributing.md?

@Gaet81
Copy link
Author

Gaet81 commented Apr 11, 2019

Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte.

Possible mais quand j'avais regardé les bouquins par rapport à la licence, sur gutenberg en ePub y'avait pas grand chose de mémoire :/

Je ne comprends pas ce que tu dis ici...tous les livres me semblent en epub et si le livre est dans le domaine publique il y reste quelque soit le format ou je me trompe?

@lissyx
Copy link
Collaborator

lissyx commented Apr 11, 2019

Tu veux dire renommer readme du répertoire CommonVoice-Data vers contributing.md?

Par ex

Je ne comprends pas ce que tu dis ici...tous les livres me semblent en epub et si le livre est dans le domaine publique il y reste quelque soit le format ou je me trompe?

J'ai appris que pour Gutenberg, chacun fait un peu comme il veut et du coup les bouquins sont pas forcément dans tous les formats.

Je suis pas contre l'idée de parser de l'ePub, mais faut juste voir le ratio travail / bénéfice :)

@Gaet81
Copy link
Author

Gaet81 commented Apr 11, 2019

Ok, j'ai renommé le fichier readme

@lissyx
Copy link
Collaborator

lissyx commented Apr 12, 2019

Ok, j'ai renommé le fichier readme

Heu t'as renommé et tout mis en français ?

@lissyx
Copy link
Collaborator

lissyx commented Apr 12, 2019

@Gaet81 Faut que tu rebases, désolé :/

@lissyx
Copy link
Collaborator

lissyx commented Apr 18, 2019

@Gaet81 Dès que tu peux rebase sur master et corriger la partie qui doit rester en anglais, c'est bon pour moi :)

@Gaet81
Copy link
Author

Gaet81 commented Apr 18, 2019

Salut,

J'ai retiré les phrases en anglais.
Pour le rebase je ne sais ni le faire depuis mon browser ni depuis github desktop...
Il semble que ce soit à toi de le faire lorsque tu merges: https://github.blog/2016-09-26-rebase-and-merge-pull-requests/

@lissyx
Copy link
Collaborator

lissyx commented Apr 18, 2019

Cette option ne fonctionne pas dans le cas de conflits comme actuellement 😕, je connais pas github desktop

@lissyx
Copy link
Collaborator

lissyx commented Apr 18, 2019

Mais il faut tout mettre en anglais et pas en français 😕

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants