[BUG]分词错误对大模型结果影响的发现 #263

zhaoyukoon · 2025-01-13T06:16:39Z

Describe the bug
我通过对deepseek-v3模型的词表以及分词结果分析，构造出一些可能由于分词导致大模型给出错误结果的提示词。

To Reproduce
直接通过https://chat.deepseek.com/ 或者api调用测试如下提示词：

提示词：李鹏飞和李鹏飞到南京了。请严格根据上文回答：李鹏在哪里？怎么到的？

提示词：最高人民法院党史学习教育需要注意的是马克思恩格斯习近平新时代中国特色社会主义思想。请严格根据上文回答下面问题（不要使用任何模型自身知识，如果无答案请回答不知道）：中级人民法院学习注意什么？

Expected behavior

第一个提示词期望回复是：李鹏在南京，坐飞机到的。

第二个提示词是：不知道

Screenshots

Additional context

zhaoyukoon · 2025-01-13T10:18:58Z

下午发现 openai/tiktoken#297 gpt-4o也提交过类似问题。

zhaoyukoon · 2025-01-14T05:16:41Z

补充：我试图去分析vocabulary file ，其中最长的中文词是 '习近平新时代中国特色社会主义思想'有16个汉字。

另外，我对比了一下Deepseek-v3 和 Qwen2.5，前者最长词16个字而后者才4个。

我在https://github.com/zhaoyukoon/damoxing_fenci_gongji 中上传了 tsv新词表，其中包含了(原始unicode词, utf-8词, utf-8词长度, utf-8词分词结果, 是否是中文)。统计了一下，其中一共有35184个中文词。

我尝试用对词表中的所有中文词做分词，下面是一些例子：
习近平新时代中国特色社会主义思想习近平新时代中国特色社会主义思想
人力资源和社会保障人力资源和社会保障

对原始词表中的所有中文分词并去重之后得到的词表只有25058个词，保存在 vocab_extend_segged.tsv

zhaoyukoon · 2025-01-14T07:02:30Z

vocab_extend_segged.tsv 增加了按照分词出现次数统计，头部如下：

原始词表有2957个词包含的，通常来说绝大多数情况下的都可以作为一个独立的词的。

同样对我也是，原始词表有358个词出现，但是我能组的词也就是 我、我的、我们、自我这几个。

via007 · 2025-01-15T03:46:41Z

你可以按照你的分词微调一下，看下能不能回答出那两个问题

zhaoyukoon mentioned this issue Jan 14, 2025

[BUG] 英文分词问题以及文本来源发现。 #273

Open

Provide feedback