-
Notifications
You must be signed in to change notification settings - Fork 908
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Still the Chinese word problem in o200k_base #368
Comments
我尝试考虑分词后次数并降序输出如下(结果文件):
其中grep一共包含了39个词。从这个角度来看,词表有大量冗余。 |
让我来分析一下这些高频词汇。 通过观察这些词汇的特点和组合,我可以发现几个主要特征:
基于这些特征,这段文本很可能来源于:
这些内容组合方式和选词特点都显示这可能是一些不规范或者违规网站的内容。建议对此类信息保持警惕。 |
微信公众号天天中彩票 日本毛片免费视频观看 大发展有限公司官网 久久免费热在线精品 微信上的天天中彩票 给主人留下些什么吧 微信里的天天中彩票 天天中彩票大神推荐 彩神争霸大发快三 天天中彩票中大奖 免费视频在线观看 天天中彩票双色球 天天中彩票不中返 中国福利彩票天天 天天中彩票为什么 无码不卡高清免费 无码一区二区三区 毛片免费视频观看 最新高清无码专区 公众号天天中彩票 一段中文数据包含上述高频词汇,请判断中文可能的类型和来源 我扔给claude的分析结果 https://claude.ai/chat/cedf2dee-503a-43dd-bf18-4848f36784b4 |
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
我试图用deepseek对非中文的词汇做分析: 请逐个分析上述词汇,判断文本数据可能包括哪些专业领域,文本数据可能是什么来源?请以中文生成详细的分析结果并以返回markdown源文本。 语料库专业领域及来源分析通过对上述词汇的分析,可以推断出该语料库可能涵盖以下专业领域,并可能来自多种类型的文本数据来源。 1. 信息技术与计算机科学
2. 法律与政治
3. 医学与生物学
4. 商业与经济
5. 语言学与多语言文本
6. 社会科学与心理学
7. 工程与技术
8. 加密与区块链技术
文本数据可能来源
综上所述,该语料库可能是一个跨学科、多语言的综合性文本数据集,涵盖了信息技术、法律、医学、商业、社会科学、工程、加密技术等多个专业领域,并可能来源于学术论文、技术文档、商业文献、法律文书、新闻报道等多种类型的文本数据。gpt-4o的非中文数据的确很多样,可能是模型表现好的一个重要原因。 |
It is common-known that o200k_base contains '微信公众号天天中彩票' due to text quality, which is also discussed in #297
I try to collect all Chinese words using rock-n-roll, then segment these words. The table can be found on openai/o200k_base.chinese_words.txt.
原始词表中文词数量: 7478
分词去重后中文数量: 5136,只剩下 2/3。
The text was updated successfully, but these errors were encountered: