Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Still the Chinese word problem in o200k_base #368

Open
zhaoyukoon opened this issue Jan 14, 2025 · 6 comments
Open

Still the Chinese word problem in o200k_base #368

zhaoyukoon opened this issue Jan 14, 2025 · 6 comments

Comments

@zhaoyukoon
Copy link

It is common-known that o200k_base contains '微信公众号天天中彩票' due to text quality, which is also discussed in #297

I try to collect all Chinese words using rock-n-roll, then segment these words. The table can be found on openai/o200k_base.chinese_words.txt.

微信公众号天天中彩票	微信 公众 号 天天 中 彩票
日本毛片免费视频观看	日本 毛片 免费视频 观看
大发展有限公司官网	大 发展 有限公司 官网
久久免费热在线精品	久久 免费 热 在线 精品
微信上的天天中彩票	微信 上 的 天天 中 彩票
给主人留下些什么吧	给 主人 留下 些 什么 吧
微信里的天天中彩票	微信里 的 天天 中 彩票
天天中彩票大神推荐	天天 中 彩票 大神 推荐
彩神争霸大发快三	彩神 争霸 大发 快 三
天天中彩票中大奖	天天 中 彩票 中大奖
免费视频在线观看	免费视频 在线 观看
天天中彩票双色球	天天 中 彩票 双色球

原始词表中文词数量: 7478
分词去重后中文数量: 5136,只剩下 2/3。

@zhaoyukoon
Copy link
Author

我尝试考虑分词后次数并降序输出如下(结果文件):
···
彩票 178
天天 152
中 102
的 92
大发 57
彩 46
争霸 39
娱乐 39
快 38
在线 37
彩神 36
吗 36
免费 34
三 34
久久 33
平台 33
是 31
官网 30
视频 28
北京 27
观看 25
时时 25
赛车 25
精品 24
在 24
···

(base) ➜  openai git:(main) grep -a -E "(中|的|吗|是|彩票|天天|争霸|在线|彩神|久久|官网|视频|北京|时时|精品|娱乐|赛车|视频|免费|微信|平
台|手机|开奖|提现|棋牌|中奖|福利|成人|偷拍|六合|澳门|经典|三级|小姐|乐透|美女|人妻|女人|黄金)" o200k_base.chinese_words.txt| wc -l
846

其中grep一共包含了39个词。从这个角度来看,词表有大量冗余。

@zhaoyukoon
Copy link
Author

让我来分析一下这些高频词汇。

通过观察这些词汇的特点和组合,我可以发现几个主要特征:

  1. 彩票相关词汇密集出现:
  • "天天中彩票"多次重复
  • "中国福利彩票"
  • "彩神争霸"
  • "双色球"
    这类词汇与博彩、彩票活动高度相关
  1. 视频/媒体相关词汇:
  • "毛片免费视频观看"
  • "免费视频在线观看"
  • "无码不卡高清免费"
  • "最新高清无码专区"
    这些词汇通常与在线视频或流媒体内容相关
  1. 平台/渠道词汇:
  • "微信公众号"
  • "微信上的"
  • "公众号"
  • "大发展有限公司官网"

基于这些特征,这段文本很可能来源于:

  1. 垃圾信息或诈骗信息的关键词库
  2. 非法博彩或赌博网站的推广文本
  3. 某些低质量网站的SEO优化关键词

这些内容组合方式和选词特点都显示这可能是一些不规范或者违规网站的内容。建议对此类信息保持警惕。

@zhaoyukoon
Copy link
Author

微信公众号天天中彩票 日本毛片免费视频观看 大发展有限公司官网 久久免费热在线精品 微信上的天天中彩票 给主人留下些什么吧 微信里的天天中彩票 天天中彩票大神推荐 彩神争霸大发快三 天天中彩票中大奖 免费视频在线观看 天天中彩票双色球 天天中彩票不中返 中国福利彩票天天 天天中彩票为什么 无码不卡高清免费 无码一区二区三区 毛片免费视频观看 最新高清无码专区 公众号天天中彩票

一段中文数据包含上述高频词汇,请判断中文可能的类型和来源

我扔给claude的分析结果 https://claude.ai/chat/cedf2dee-503a-43dd-bf18-4848f36784b4

@zhaoyukoon

This comment has been minimized.

@zhaoyukoon

This comment has been minimized.

@zhaoyukoon
Copy link
Author

我试图用deepseek对非中文的词汇做分析:
一个用来训练大模型的语料库包括海量的文本数据,其中经过BPE算法分析发现词表中包含如下长词:
abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
verantwoordelijkheid
telecommunications
onreadystatechange
significativamente
Telecommunications
Wahrscheinlichkeit
disproportionately
unterschiedlichen
interdisciplinary
githubusercontent
responsabilidades
selbstverstndlich
Herausforderungen
multidisciplinary
STDMETHODCALLTYPE
commercialization
responsibilities
cryptocurrencies
responsabilidade
verantwoordelijk
htmlspecialchars
characterization
entrepreneurship
unterschiedliche
Responsibilities
gastrointestinal
Dienstleistungen
correspondientes
readystatechange
professionnelles
misunderstanding
persoonsgegevens
maatschappelijke
unconstitutional
Entrepreneurship
establecimientos
ABCDEFGHIJKLMNOP
Responsibilities

请逐个分析上述词汇,判断文本数据可能包括哪些专业领域,文本数据可能是什么来源?请以中文生成详细的分析结果并以返回markdown源文本。


语料库专业领域及来源分析

通过对上述词汇的分析,可以推断出该语料库可能涵盖以下专业领域,并可能来自多种类型的文本数据来源。

1. 信息技术与计算机科学

  • 词汇示例:
    • telecommunications, Telecommunications, onreadystatechange, githubusercontent, htmlspecialchars, readystatechange, STDMETHODCALLTYPE
  • 分析:
    • 这些词汇涉及电信、网络编程、Web开发、软件开发等领域。特别是onreadystatechangereadystatechange与JavaScript中的XMLHttpRequest对象相关,表明语料库中可能包含前端开发或网络通信相关的文本。
    • githubusercontent表明语料库可能包含来自GitHub的代码或文档。

2. 法律与政治

  • 词汇示例:
    • unconstitutional, responsibilities, Responsibilities
  • 分析:
    • 这些词汇涉及法律和政治领域,特别是宪法和法律责任相关的内容。可能来源于法律文书、政治评论或政府文件。

3. 医学与生物学

  • 词汇示例:
    • gastrointestinal, multidisciplinary, interdisciplinary
  • 分析:
    • 这些词汇涉及医学和生物学领域,特别是消化系统和跨学科研究。可能来源于医学文献、研究报告或健康相关的文本。

4. 商业与经济

  • 词汇示例:
    • commercialization, entrepreneurship, Entrepreneurship
  • 分析:
    • 这些词汇涉及商业和经济学领域,特别是商业化和创业相关内容。可能来源于商业计划书、经济学论文或创业相关的书籍。

5. 语言学与多语言文本

  • 词汇示例:
    • verantwoordelijkheid, significativamente, Wahrscheinlichkeit, responsabilidades, selbstverstndlich, Herausforderungen, responsabilidade, Dienstleistungen, correspondientes, professionnelles, persoonsgegevens, maatschappelijke, establecimientos
  • 分析:
    • 这些词汇来自多种语言,包括荷兰语、西班牙语、德语、葡萄牙语和法语等。表明语料库可能包含多语言文本,涉及跨文化交流、翻译研究或多语言文档。

6. 社会科学与心理学

  • 词汇示例:
    • misunderstanding, characterization
  • 分析:
    • 这些词汇涉及社会科学和心理学领域,特别是人际沟通和个体特征描述。可能来源于心理学研究、社会科学论文或相关书籍。

7. 工程与技术

  • 词汇示例:
    • disproportionately, unterschiedlichen, unterschiedliche
  • 分析:
    • 这些词汇涉及工程和技术领域,特别是技术文档或工程报告中的描述性词汇。可能来源于技术手册、工程论文或相关文献。

8. 加密与区块链技术

  • 词汇示例:
    • cryptocurrencies
  • 分析:
    • 该词汇涉及加密和区块链技术领域,表明语料库中可能包含与加密货币相关的文本,如技术白皮书、市场分析或相关新闻报道。

文本数据可能来源

  • 学术论文与研究报告: 包含医学、法律、社会科学等领域的专业术语。
  • 技术文档与代码库: 包含信息技术、计算机科学、工程等领域的术语。
  • 商业与经济学文献: 包含商业计划书、经济学论文、创业相关书籍等。
  • 多语言文档与翻译文本: 包含多种语言的词汇,涉及跨文化交流和翻译研究。
  • 法律文书与政府文件: 包含法律和政治领域的术语。
  • 新闻与媒体报道: 包含加密货币、创业、政治等领域的新闻报道。

综上所述,该语料库可能是一个跨学科、多语言的综合性文本数据集,涵盖了信息技术、法律、医学、商业、社会科学、工程、加密技术等多个专业领域,并可能来源于学术论文、技术文档、商业文献、法律文书、新闻报道等多种类型的文本数据。

gpt-4o的非中文数据的确很多样,可能是模型表现好的一个重要原因。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant