-
Notifications
You must be signed in to change notification settings - Fork 1.6k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[BUG]分词错误对大模型结果影响的发现 #263
Comments
下午发现 openai/tiktoken#297 gpt-4o也提交过类似问题。 |
补充:我试图去分析vocabulary file ,其中最长的中文词是 '习近平新时代中国特色社会主义思想'有16个汉字。 另外,我对比了一下Deepseek-v3 和 Qwen2.5, 前者最长词16个字而后者才4个。 我在https://github.com/zhaoyukoon/damoxing_fenci_gongji 中上传了 tsv新词表, 其中包含了 我尝试用对词表中的所有中文词做分词,下面是一些例子: 对原始词表中的所有中文分词并去重之后得到的词表只有 |
vocab_extend_segged.tsv 增加了按照分词出现次数统计,头部如下:
原始词表有2957个词包含 同样对 |
你可以按照你的分词微调一下,看下能不能回答出那两个问题 |
Describe the bug
我通过对deepseek-v3模型的词表以及分词结果分析,构造出一些可能由于分词导致大模型给出错误结果的提示词。
To Reproduce
直接通过https://chat.deepseek.com/ 或者api调用测试如下提示词:
提示词:李鹏飞和李鹏飞到南京了。请严格根据上文回答:李鹏在哪里?怎么到的?
提示词:最高人民法院党史学习教育需要注意的是马克思恩格斯习近平新时代中国特色社会主义思想。请严格根据上文回答下面问题(不要使用任何模型自身知识,如果无答案请回答不知道):中级人民法院学习注意什么?
Expected behavior
第一个提示词期望回复是: 李鹏在南京,坐飞机到的。
第二个提示词是:不知道
Screenshots
Additional context
更多分析参考 https://github.com/zhaoyukoon/damoxing_fenci_gongji。
The text was updated successfully, but these errors were encountered: