Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feature Request]: 关于MiniCPM词表粒度对模型性能影响评估的想法 #276

Open
zhaoyukoon opened this issue Jan 14, 2025 · 1 comment
Labels
feature New features

Comments

@zhaoyukoon
Copy link

Feature request / 功能建议

我最近关注分词对大模型效果的影响,具体分析了Qwen2.5、Deepseek和Gpt-4o词表以及可能存在的问题。 相关文档和代码在 https://github.com/zhaoyukoon/damoxing_fenci_gongji/tree/main。

我对MiniCPM3-4B做了一样的分析,MiniCPM3-4B也是基于BPE构建,发现词表其实也类似的情况,核心的店有很多长词。

加倍支付迟延履行期间的债务利息
可在接到判决书的第二日起十日内
离婚诉讼或者涉及未成年子女抚养
之日起五日内向本院申请复议一次
适用简易程序公开开庭进行了审理
这是一道关于多学科知识的选择题
融券筹码不断累加深天马重组案再遭
第一百五十四条裁定适用于下列范围
南京还有多少小区的水景明明废弃了
不同类型的客房附带不同的取消预订

初步统计了一下,其中有27617个中文词汇,其中有大量的长词汇,对应分布如下。

  12241 2
   8217 1
   4189 3
   1657 4
    449 5
    351 6
    157 7
    113 8
     66 9
     56 10
     41 11
     25 13
     25 12
     20 14
      6 15
      4 16

我的想法很简单,上面的词汇都可以分成更细粒度的词汇。我简单尝试了一下,分词去重后词表是20937个。

长度分布如下:

   8217 1
  10835 2
   1246 3
    583 4
     34 5
     11 6
      8 7
      2 8
      1 9

绝大多数都是1个或者两个字的词。

我不知道你们是否有试过将中文词切成更细粒度,甚至是字级别,对模型性能的影响。特别是对MiniCPM这样的小模型来说可能影响会比72B或者deepseek-v3这样的大。

@zhaoyukoon zhaoyukoon added the feature New features label Jan 14, 2025
@zhaoyukoon
Copy link
Author

之前对 qwen和deepseek的分析以及 对分词的建议 可 参考 注意分词!分词影响大模型的初步发现

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
feature New features
Projects
None yet
Development

No branches or pull requests

1 participant