模型词表语言分布分析报告

总体规模对比

词表最大的是 gpt-4o (200,000个词)，其次是 qwen2.5-72b (151,643个词)
MiniCPM3-4B 词表最小，仅73,440个词，约为gpt-4o的37%
deepseek_v3 和 internlm3-8b-instruct 词表规模相近，都在128,000左右

英文词汇分析

纯英文词汇(pure_english)

gpt-4o 领先，有37,839个纯英文词
其他模型的纯英文词数在15,000-28,000之间
MiniCPM3-4B 纯英文词汇最少，仅15,832个

扩展英文词汇(english)

gpt-4o 优势明显，有95,471个词
qwen2.5-72b 次之，有65,279个词
MiniCPM3-4B 最少，仅21,836个词

中文词汇分析

Minimax-Text01和deepseek_v3 中文词汇最多，分别有 38420和 35184，包含大量形如新时代中国特色社会主义长词汇。
MiniCPM3-4B 和 qwen2.5-72b 分别有28,322和24,966个中文词
gpt-4o 和 internlm3-8b-instruct 中文词汇相对较少，分别为7,449和10,364个
internlm3-8b-instruct是因为最长2个字的细粒度分词，词表质量高
gpt-4o中文数据少，垃圾词汇多，词表质量最差

其他语言支持

多语言支持最均衡的模型：

gpt-4o：在阿拉伯语、希伯来语、韩语等都有较好覆盖
internlm3-8b-instruct：在阿拉伯语、韩语、俄语支持较好

语言支持相对薄弱的模型：

MiniCPM3-4B：除中英文外，其他语言支持都很有限
qwen2.5-72b：虽然总词表大，但非中英文语言的支持相对较弱

数字情况

MiniMax-Text-01、Deepseek-v3 和 GPT-4o 的数字词表是相同的，都是1110。
其他家词表都是10，只包含0-9。

词表质量分析

低质量词汇占比：

NULL类词汇：
internlm3-8b-instruct 最少(4%)
MiniCPM3-4B 较高(9.3%)
gpt-4o 比例适中(12%)

控制字符(control)占比：

internlm3-8b-instruct 表现最好，无控制字符
其他模型都有一定比例的控制字符，但占比都较低

总体评价

gpt-4o：

优势：词表最大，英文覆盖最全面，多语言支持均衡
劣势：中文词汇相对较少

qwen2.5-72b：

优势：总体词表大，英文和中文支持都不错
劣势：其他语言支持相对较弱

deepseek_v3：

优势：中文支持最好，英文也不错
特点：各语言支持较为平均

internlm3-8b-instruct：

优势：低质量词汇最少，某些非英语言(如阿拉伯语、韩语)支持较好
劣势：日语、希腊语支持较弱

MiniCPM3-4B：

优势：中文支持相对不错
劣势：词表最小，除中英文外其他语言支持都很有限

Qwen2.5-72b次之(151643个)
deepseek_v3和internlm3-8b-instruct接近(分别为128000和128569个)
MiniCPM3-4B最少(73440个)

结论

GPT-4O在总体和英文样本量上具有明显优势
中国开发的模型(MiniCPM3-4B、deepseek_v3、Qwen2.5-72b)在中文数据上投入较多
internlm3-8b-instruct在阿拉伯语、俄语和泰语等语言上有独特优势
各模型在小语种覆盖上存在较大差异,反映了不同的国际化策略

这些差异反映了不同机构在模型训练时的侧重点和目标市场定位。