我们发布了更完整、不是机器翻译的中文数据 #3

Guanaco-Model · 2023-03-20T10:25:26Z

https://guanaco-model.github.io/
https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

acadaiaca · 2023-03-20T10:56:54Z

期待你们的工作！希望能早日开源权重，体验到模型的惊艳效果！

carbonz0 · 2023-03-20T12:27:13Z

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

不错👍，看是不是能合作一下，做个合并，我也在生成这样的数据

Guanaco-Model · 2023-03-20T13:39:41Z

机器翻译的数据，对小模型可能是一种数据污染。
在数据生成上面，GuanacoDataset迄今已花费$5K在OpenAI。
对中文数据方面，我们公开发布了Alpaca175任务中文版本的185,702条项目，重复度0.7以内；含有中文的对话任务48,967条。
所有中文包含了简体中文、香港繁体和台湾正体，均是本地化的 seed tasks 独立生成，并且未使用蒸馏过的turbo模型。
如果您有新的生成结构，欢迎向社区分享。

cxj01 · 2023-03-21T06:55:18Z

@Guanaco-Model
很感谢您发布的数据和模型。

我在使用https://huggingface.co/nyanko7/alpaca-multilang/tree/main时，生成的句子会重复，

我使用的config如下：
generation_config = GenerationConfig(
temperature=0.1,
top_p=0.75,
num_beams=4,
**kwargs,
)
generation_output = model.generate(
input_ids=input_ids,
generation_config=generation_config,
return_dict_in_generate=True,
output_scores=True,
max_new_tokens=256,
)

wac81 · 2023-03-21T07:26:35Z

机器翻译的数据，对小模型可能是一种数据污染。在数据生成上面，GuanacoDataset迄今已花费$5K在OpenAI。对中文数据方面，我们公开发布了Alpaca175任务中文版本的185,702条项目，重复度0.7以内；含有中文的对话任务48,967条。所有中文包含了简体中文、香港繁体和台湾正体，均是本地化的 seed tasks 独立生成，并且未使用蒸馏过的turbo模型。如果您有新的生成结构，欢迎向社区分享。

==================
这份数据我看过了，问题在于没有去除包含图片和文件相关的内容，这部分会扰乱模型

Syno8 · 2023-03-21T11:46:33Z

@Guanaco-Model @wac81 请问你们有对中文数据上的效果进行评测吗？方便展示一下结果吗？

Guanaco-Model · 2023-03-22T03:26:00Z

您可以参考协作者的一份实现：https://colab.research.google.com/drive/1nn6TCAKyFrgDEgA6X3o3YbxfbMm8Skp4?usp=sharing
特别地，针对Chat模式，如果效果不佳，请适当增大temperature，出现重复增加repetition_penalty。
最终的作品仍在筹划中，目前正在对超长输入（比如pdf文档）的非文段匹配方式的阅读总结和QA进行研究。

Guanaco-Model · 2023-03-22T03:26:38Z

您似乎没有设定repetition_penalty

Nipi64310 · 2023-03-23T08:51:33Z

Hi @Guanaco-Model ，
请问

含有中文的对话任务48,967条

这个对话任务是什么样子的，数据是怎么构造的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

我们发布了更完整、不是机器翻译的中文数据 #3

我们发布了更完整、不是机器翻译的中文数据 #3

Guanaco-Model commented Mar 20, 2023

acadaiaca commented Mar 20, 2023

carbonz0 commented Mar 20, 2023

Guanaco-Model commented Mar 20, 2023

cxj01 commented Mar 21, 2023

wac81 commented Mar 21, 2023

Syno8 commented Mar 21, 2023

Guanaco-Model commented Mar 22, 2023

Guanaco-Model commented Mar 22, 2023

Nipi64310 commented Mar 23, 2023

我们发布了更完整、不是机器翻译的中文数据 #3

我们发布了更完整、不是机器翻译的中文数据 #3

Comments

Guanaco-Model commented Mar 20, 2023

acadaiaca commented Mar 20, 2023

carbonz0 commented Mar 20, 2023

Guanaco-Model commented Mar 20, 2023

cxj01 commented Mar 21, 2023

wac81 commented Mar 21, 2023

Syno8 commented Mar 21, 2023

Guanaco-Model commented Mar 22, 2023

Guanaco-Model commented Mar 22, 2023

Nipi64310 commented Mar 23, 2023