开源的可用于LLM Pretrain数据集

数据集	语言	大小	备注	地址
WuDaoCorpora	中文	200G	北京智源研究院从100TB原始网页数据中清洗得出最终数据集，包含教育、科技等50+个行业数据标签，总共5TB，开源200G	https://data.baai.ac.cn/details/WuDaoCorporaText
WanJuan1.0	中英文	约1T，中文约500G	上海AI实验室从来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料组成，数据总量超过5亿个文档，数据大小超过1TB。	https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0
蜜巢·花粉1.0	中文	约240G	蜜度公司从公开可访问的中文互联网数据，领域包括新闻、政务等。通过关键词过滤、图片抽取、规则过滤、格式转换等一系列数据处理流程，最终清洗后的数据达7000余万条，同时包括100余万个图片链接。	https://opendatalab.org.cn/OpenDataLab/MiChao
MNBVC	中文	目前20T	中文数据开源之光！ MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据，数据均来源于互联网收集。	https://github.com/esbatmop/MNBVC
TigerBot	中英文	中文约50G，英文约50G	Tiger基于 GPT3 的 pretrain 的数据分布，采集中文书籍，互联网，和百科类数据，并通过数据源质量分过滤和 tf-idf soft deduping，从 20TB 数据过滤到 2TB，保持语言和类目的比例，并在此基础上随机抽样 100G 数据开源。	https://github.com/TigerResearch/TigerBot#开源数据集
CLUECorpus2020	中文	约100G	通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料	https://github.com/CLUEbenchmark/CLUECorpus2020/
FinCorpus	中文	约60G	度小满开源的中文金融资讯数据集	https://huggingface.co/datasets/Duxiaoman-DI/FinCorpus
Chinese_book_dataset	中文	13.3万本	一个广泛搜集爬取的中文图书分类数据集。数据采集自各大电子书网站。	https://github.com/JiangYanting/Chinese_book_dataset
CulturaX	多语言，主要英文	共27T，约1T中文	用于167种语言的大型语言模型的多语言数据集，数据集经过比较彻底的清理阶段	https://huggingface.co/datasets/uonlp/CulturaX
Bloom	多语言，主要英文	共1.6T，约10G中文	BLOOM是在ROOTS的语料上训练的，其是一个由498个Hugging Face数据集组成的语料。共计1.61TB的文本，包含46种自然语言和13种编程语言。	https://huggingface.co/bigscience-data
Common Crawl	多语言，主要英文	每月更新	Common Crawl 每个月都会发布一个快照，包含了随机搜索和采样的 URL 所获得的原始网页。	https://commoncrawl.org/
Colossal Clean Crawled Corpus (C4)	多语言，主要英文	最新版约17T	基于Common Crawl数据清洗得到的，最初被Google用来训练 T5 模型，最新版是2023年4月的3.1.0版本。	https://www.tensorflow.org/datasets/catalog/c4
The Pile	主要英文	825G	由22个高质量数据集集合并进一步处理的预训练数据集	https://pile.eleuther.ai/
RedPajama	主要英文	约5T	复刻llama的预训练数据集	https://github.com/togethercomputer/RedPajama-Data
Wikipedia	主要英文	更新中	维基百科的数据	https://huggingface.co/datasets/wikipedia
WebText2	主要英文	约65G	从Reddit提交的URL中抓取的文档构成	https://github.com/EleutherAI/openwebtext2
BookCorpus	英文	约3G	英文图书	https://github.com/soskek/bookcorpus
ArXiv	英文	约170万篇	英文学术论文	https://huggingface.co/datasets/arxiv_dataset
几个数据集平台
CLUEDatasetSearch	中文	多NLP任务数据集合	中英文NLP相关任务数据集的集合	https://github.com/CLUEbenchmark/CLUEDatasetSearch
OpenDataLab	中英文	多NLP任务数据集合	数据集平台	https://opendatalab.org.cn/home
Huggingface datasets	多语言	多数据集	数据集平台	https://huggingface.co/datasets
千言数据集	中文	多NLP任务数据集合	数据集平台	https://www.luge.ai/#/
天池数据集	中文	多NLP任务数据集合	数据集平台	https://tianchi.aliyun.com/dataset/
kaggle	主要英文	多NLP任务数据集合	数据集平台	https://www.kaggle.com/
hyper	中文	各种数据集	数据集平台	https://hyper.ai/datasets

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LLM_Pretrain_Datasets.md

LLM_Pretrain_Datasets.md

Files

LLM_Pretrain_Datasets.md

Latest commit

History

LLM_Pretrain_Datasets.md

File metadata and controls