Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

我们发布了更完整、不是机器翻译的中文数据 #3

Open
Guanaco-Model opened this issue Mar 20, 2023 · 9 comments
Open

Comments

@Guanaco-Model
Copy link

https://guanaco-model.github.io/
https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

@acadaiaca
Copy link

期待你们的工作!希望能早日开源权重,体验到模型的惊艳效果!

@carbonz0
Copy link
Owner

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

不错👍,看是不是能合作一下,做个合并,我也在生成这样的数据

@Guanaco-Model
Copy link
Author

机器翻译的数据,对小模型可能是一种数据污染。
在数据生成上面,GuanacoDataset迄今已花费$5K在OpenAI。
对中文数据方面,我们公开发布了Alpaca175任务中文版本的185,702条项目,重复度0.7以内;含有中文的对话任务48,967条。
所有中文包含了简体中文、香港繁体和台湾正体,均是本地化的 seed tasks 独立生成,并且未使用蒸馏过的turbo模型。
如果您有新的生成结构,欢迎向社区分享。

@cxj01
Copy link

cxj01 commented Mar 21, 2023

@Guanaco-Model
很感谢您发布的数据和模型。

我在使用https://huggingface.co/nyanko7/alpaca-multilang/tree/main时,生成的句子会重复,
image

我使用的config如下:
generation_config = GenerationConfig(
temperature=0.1,
top_p=0.75,
num_beams=4,
**kwargs,
)
generation_output = model.generate(
input_ids=input_ids,
generation_config=generation_config,
return_dict_in_generate=True,
output_scores=True,
max_new_tokens=256,
)

@wac81
Copy link

wac81 commented Mar 21, 2023

机器翻译的数据,对小模型可能是一种数据污染。 在数据生成上面,GuanacoDataset迄今已花费$5K在OpenAI。 对中文数据方面,我们公开发布了Alpaca175任务中文版本的185,702条项目,重复度0.7以内;含有中文的对话任务48,967条。 所有中文包含了简体中文、香港繁体和台湾正体,均是本地化的 seed tasks 独立生成,并且未使用蒸馏过的turbo模型。 如果您有新的生成结构,欢迎向社区分享。

==================
这份数据我看过了,问题在于没有去除包含图片和文件相关的内容,这部分会扰乱模型

@Syno8
Copy link

Syno8 commented Mar 21, 2023

@Guanaco-Model @wac81 请问你们有对中文数据上的效果进行评测吗?方便展示一下结果吗?

@Guanaco-Model
Copy link
Author

您可以参考协作者的一份实现:https://colab.research.google.com/drive/1nn6TCAKyFrgDEgA6X3o3YbxfbMm8Skp4?usp=sharing
特别地,针对Chat模式,如果效果不佳,请适当增大temperature,出现重复增加repetition_penalty。
最终的作品仍在筹划中,目前正在对超长输入(比如pdf文档)的非文段匹配方式的阅读总结和QA进行研究。

@Guanaco-Model
Copy link
Author

您似乎没有设定repetition_penalty

@Nipi64310
Copy link

Hi @Guanaco-Model
请问

含有中文的对话任务48,967条

这个对话任务是什么样子的,数据是怎么构造的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

7 participants