Skip to content

Latest commit

 

History

History
87 lines (64 loc) · 3.15 KB

大模型词表分析报告.md

File metadata and controls

87 lines (64 loc) · 3.15 KB

模型词表语言分布分析报告

总体规模对比

  • 词表最大的是 gpt-4o (200,000个词),其次是 qwen2.5-72b (151,643个词)
  • MiniCPM3-4B 词表最小,仅73,440个词,约为gpt-4o的37%
  • deepseek_v3 和 internlm3-8b-instruct 词表规模相近,都在128,000左右

英文词汇分析

  1. 纯英文词汇(pure_english)
  • gpt-4o 领先,有37,839个纯英文词
  • 其他模型的纯英文词数在15,000-28,000之间
  • MiniCPM3-4B 纯英文词汇最少,仅15,832个
  1. 扩展英文词汇(english)
  • gpt-4o 优势明显,有95,471个词
  • qwen2.5-72b 次之,有65,279个词
  • MiniCPM3-4B 最少,仅21,836个词

中文词汇分析

  • Minimax-Text01和deepseek_v3 中文词汇最多,分别有 38420和 35184,包含大量形如新时代中国特色社会主义长词汇。
  • MiniCPM3-4B 和 qwen2.5-72b 分别有28,322和24,966个中文词
  • gpt-4o 和 internlm3-8b-instruct 中文词汇相对较少,分别为7,449和10,364个
  • internlm3-8b-instruct是因为最长2个字的细粒度分词,词表质量高
  • gpt-4o中文数据少,垃圾词汇多,词表质量最差

其他语言支持

  1. 多语言支持最均衡的模型:
  • gpt-4o:在阿拉伯语、希伯来语、韩语等都有较好覆盖
  • internlm3-8b-instruct:在阿拉伯语、韩语、俄语支持较好
  1. 语言支持相对薄弱的模型:
  • MiniCPM3-4B:除中英文外,其他语言支持都很有限
  • qwen2.5-72b:虽然总词表大,但非中英文语言的支持相对较弱

数字情况

  1. MiniMax-Text-01、Deepseek-v3 和 GPT-4o 的数字词表是相同的,都是1110。
  2. 其他家词表都是10,只包含0-9

词表质量分析

  1. 低质量词汇占比:
  • NULL类词汇:
  • internlm3-8b-instruct 最少(4%)
  • MiniCPM3-4B 较高(9.3%)
  • gpt-4o 比例适中(12%)
  1. 控制字符(control)占比:
  • internlm3-8b-instruct 表现最好,无控制字符
  • 其他模型都有一定比例的控制字符,但占比都较低

总体评价

  1. gpt-4o:
  • 优势:词表最大,英文覆盖最全面,多语言支持均衡
  • 劣势:中文词汇相对较少
  1. qwen2.5-72b:
  • 优势:总体词表大,英文和中文支持都不错
  • 劣势:其他语言支持相对较弱
  1. deepseek_v3:
  • 优势:中文支持最好,英文也不错
  • 特点:各语言支持较为平均
  1. internlm3-8b-instruct:
  • 优势:低质量词汇最少,某些非英语言(如阿拉伯语、韩语)支持较好
  • 劣势:日语、希腊语支持较弱
  1. MiniCPM3-4B:
  • 优势:中文支持相对不错
  • 劣势:词表最小,除中英文外其他语言支持都很有限
  1. Qwen2.5-72b次之(151643个)
  2. deepseek_v3和internlm3-8b-instruct接近(分别为128000和128569个)
  3. MiniCPM3-4B最少(73440个)

结论

  1. GPT-4O在总体和英文样本量上具有明显优势
  2. 中国开发的模型(MiniCPM3-4B、deepseek_v3、Qwen2.5-72b)在中文数据上投入较多
  3. internlm3-8b-instruct在阿拉伯语、俄语和泰语等语言上有独特优势
  4. 各模型在小语种覆盖上存在较大差异,反映了不同的国际化策略

这些差异反映了不同机构在模型训练时的侧重点和目标市场定位。