Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BUG]分词错误对大模型结果影响的发现 #263

Open
zhaoyukoon opened this issue Jan 13, 2025 · 4 comments
Open

[BUG]分词错误对大模型结果影响的发现 #263

zhaoyukoon opened this issue Jan 13, 2025 · 4 comments

Comments

@zhaoyukoon
Copy link

zhaoyukoon commented Jan 13, 2025

Describe the bug
我通过对deepseek-v3模型的词表以及分词结果分析,构造出一些可能由于分词导致大模型给出错误结果的提示词。

To Reproduce
直接通过https://chat.deepseek.com/ 或者api调用测试如下提示词:

提示词:李鹏飞和李鹏飞到南京了。请严格根据上文回答:李鹏在哪里?怎么到的?

提示词:最高人民法院党史学习教育需要注意的是马克思恩格斯习近平新时代中国特色社会主义思想。请严格根据上文回答下面问题(不要使用任何模型自身知识,如果无答案请回答不知道):中级人民法院学习注意什么?

Expected behavior

第一个提示词期望回复是: 李鹏在南京,坐飞机到的。

第二个提示词是:不知道

Screenshots
image
image
image

Additional context

更多分析参考 https://github.com/zhaoyukoon/damoxing_fenci_gongji。

@zhaoyukoon
Copy link
Author

下午发现 openai/tiktoken#297 gpt-4o也提交过类似问题。

@zhaoyukoon
Copy link
Author

zhaoyukoon commented Jan 14, 2025

补充:我试图去分析vocabulary file ,其中最长的中文词是 '习近平新时代中国特色社会主义思想'有16个汉字。

另外,我对比了一下Deepseek-v3 和 Qwen2.5, 前者最长词16个字而后者才4个。

image

我在https://github.com/zhaoyukoon/damoxing_fenci_gongji 中上传了 tsv新词表, 其中包含了(原始unicode词, utf-8词, utf-8词长度, utf-8词分词结果, 是否是中文)。统计了一下,其中一共有35184个中文词。

我尝试用对词表中的所有中文词做分词,下面是一些例子:
习近平新时代中国特色社会主义思想 习近平 新 时代 中国 特色 社会 主义 思想
人力资源和社会保障 人力资源 和 社会保障

对原始词表中的所有中文分词并去重之后得到的词表只有25058个词,保存在 vocab_extend_segged.tsv

@zhaoyukoon
Copy link
Author

vocab_extend_segged.tsv 增加了按照分词出现次数统计,头部如下:

的	2893
了	705
是	453
在	447
和	340
不	242
我	223

image

原始词表有2957个词包含,通常来说绝大多数情况下都可以作为一个独立的词的。

image

同样对也是,原始词表有358个词出现,但是 我能组的词也就是 我的我们自我这几个。

@via007
Copy link

via007 commented Jan 15, 2025

你可以按照你的分词微调一下,看下能不能回答出那两个问题

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants