We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我最近关注分词对大模型效果的影响,具体分析了Qwen2.5、Deepseek和Gpt-4o词表以及可能存在的问题。 相关文档和代码在 https://github.com/zhaoyukoon/damoxing_fenci_gongji/tree/main。
我对MiniCPM3-4B做了一样的分析,MiniCPM3-4B也是基于BPE构建,发现词表其实也类似的情况,核心的店有很多长词。
加倍支付迟延履行期间的债务利息 可在接到判决书的第二日起十日内 离婚诉讼或者涉及未成年子女抚养 之日起五日内向本院申请复议一次 适用简易程序公开开庭进行了审理 这是一道关于多学科知识的选择题 融券筹码不断累加深天马重组案再遭 第一百五十四条裁定适用于下列范围 南京还有多少小区的水景明明废弃了 不同类型的客房附带不同的取消预订
初步统计了一下,其中有27617个中文词汇,其中有大量的长词汇,对应分布如下。
12241 2 8217 1 4189 3 1657 4 449 5 351 6 157 7 113 8 66 9 56 10 41 11 25 13 25 12 20 14 6 15 4 16
我的想法很简单,上面的词汇都可以分成更细粒度的词汇。我简单尝试了一下,分词去重后词表是20937个。
长度分布如下:
8217 1 10835 2 1246 3 583 4 34 5 11 6 8 7 2 8 1 9
绝大多数都是1个或者两个字的词。
我不知道你们是否有试过将中文词切成更细粒度,甚至是字级别,对模型性能的影响。特别是对MiniCPM这样的小模型来说可能影响会比72B或者deepseek-v3这样的大。
The text was updated successfully, but these errors were encountered:
之前对 qwen和deepseek的分析以及 对分词的建议 可 参考 注意分词!分词影响大模型的初步发现
Sorry, something went wrong.
No branches or pull requests
Feature request / 功能建议
我最近关注分词对大模型效果的影响,具体分析了Qwen2.5、Deepseek和Gpt-4o词表以及可能存在的问题。 相关文档和代码在 https://github.com/zhaoyukoon/damoxing_fenci_gongji/tree/main。
我对MiniCPM3-4B做了一样的分析,MiniCPM3-4B也是基于BPE构建,发现词表其实也类似的情况,核心的店有很多长词。
初步统计了一下,其中有27617个中文词汇,其中有大量的长词汇,对应分布如下。
我的想法很简单,上面的词汇都可以分成更细粒度的词汇。我简单尝试了一下,分词去重后词表是20937个。
长度分布如下:
绝大多数都是1个或者两个字的词。
我不知道你们是否有试过将中文词切成更细粒度,甚至是字级别,对模型性能的影响。特别是对MiniCPM这样的小模型来说可能影响会比72B或者deepseek-v3这样的大。
The text was updated successfully, but these errors were encountered: