- 词表最大的是 gpt-4o (200,000个词),其次是 qwen2.5-72b (151,643个词)
- MiniCPM3-4B 词表最小,仅73,440个词,约为gpt-4o的37%
- deepseek_v3 和 internlm3-8b-instruct 词表规模相近,都在128,000左右
- 纯英文词汇(pure_english)
- gpt-4o 领先,有37,839个纯英文词
- 其他模型的纯英文词数在15,000-28,000之间
- MiniCPM3-4B 纯英文词汇最少,仅15,832个
- 扩展英文词汇(english)
- gpt-4o 优势明显,有95,471个词
- qwen2.5-72b 次之,有65,279个词
- MiniCPM3-4B 最少,仅21,836个词
- Minimax-Text01和deepseek_v3 中文词汇最多,分别有 38420和 35184,包含大量形如
新时代中国特色社会主义
长词汇。 - MiniCPM3-4B 和 qwen2.5-72b 分别有28,322和24,966个中文词
- gpt-4o 和 internlm3-8b-instruct 中文词汇相对较少,分别为7,449和10,364个
- internlm3-8b-instruct是因为最长2个字的细粒度分词,词表质量高
- gpt-4o中文数据少,垃圾词汇多,词表质量最差
- 多语言支持最均衡的模型:
- gpt-4o:在阿拉伯语、希伯来语、韩语等都有较好覆盖
- internlm3-8b-instruct:在阿拉伯语、韩语、俄语支持较好
- 语言支持相对薄弱的模型:
- MiniCPM3-4B:除中英文外,其他语言支持都很有限
- qwen2.5-72b:虽然总词表大,但非中英文语言的支持相对较弱
- MiniMax-Text-01、Deepseek-v3 和 GPT-4o 的数字词表是相同的,都是1110。
- 其他家词表都是10,只包含0-9。
- 低质量词汇占比:
- NULL类词汇:
- internlm3-8b-instruct 最少(4%)
- MiniCPM3-4B 较高(9.3%)
- gpt-4o 比例适中(12%)
- 控制字符(control)占比:
- internlm3-8b-instruct 表现最好,无控制字符
- 其他模型都有一定比例的控制字符,但占比都较低
- gpt-4o:
- 优势:词表最大,英文覆盖最全面,多语言支持均衡
- 劣势:中文词汇相对较少
- qwen2.5-72b:
- 优势:总体词表大,英文和中文支持都不错
- 劣势:其他语言支持相对较弱
- deepseek_v3:
- 优势:中文支持最好,英文也不错
- 特点:各语言支持较为平均
- internlm3-8b-instruct:
- 优势:低质量词汇最少,某些非英语言(如阿拉伯语、韩语)支持较好
- 劣势:日语、希腊语支持较弱
- MiniCPM3-4B:
- 优势:中文支持相对不错
- 劣势:词表最小,除中英文外其他语言支持都很有限
- Qwen2.5-72b次之(151643个)
- deepseek_v3和internlm3-8b-instruct接近(分别为128000和128569个)
- MiniCPM3-4B最少(73440个)
- GPT-4O在总体和英文样本量上具有明显优势
- 中国开发的模型(MiniCPM3-4B、deepseek_v3、Qwen2.5-72b)在中文数据上投入较多
- internlm3-8b-instruct在阿拉伯语、俄语和泰语等语言上有独特优势
- 各模型在小语种覆盖上存在较大差异,反映了不同的国际化策略
这些差异反映了不同机构在模型训练时的侧重点和目标市场定位。