Skip to content

Latest commit

 

History

History
31 lines (29 loc) · 12 KB

LLM_Pretrain_Datasets.md

File metadata and controls

31 lines (29 loc) · 12 KB

开源的可用于LLM Pretrain数据集

数据集 语言 大小 备注 地址
WuDaoCorpora 中文 200G 北京智源研究院从100TB原始网页数据中清洗得出最终数据集,包含教育、科技等50+个行业数据标签,总共5TB,开源200G https://data.baai.ac.cn/details/WuDaoCorporaText
WanJuan1.0 中英文 约1T,中文约500G 上海AI实验室从来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料组成,数据总量超过5亿个文档,数据大小超过1TB。 https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0
蜜巢·花粉1.0 中文 约240G 蜜度公司从公开可访问的中文互联网数据,领域包括新闻、政务等。通过关键词过滤、图片抽取、规则过滤、格式转换等一系列数据处理流程,最终清洗后的数据达7000余万条,同时包括100余万个图片链接。 https://opendatalab.org.cn/OpenDataLab/MiChao
MNBVC 中文 目前20T 中文数据开源之光! MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据,数据均来源于互联网收集。 https://github.com/esbatmop/MNBVC
TigerBot 中英文 中文约50G,英文约50G Tiger基于 GPT3 的 pretrain 的数据分布,采集中文书籍,互联网,和百科类数据,并通过数据源质量分过滤和 tf-idf soft deduping,从 20TB 数据过滤到 2TB,保持语言和类目的比例,并在此基础上随机抽样 100G 数据开源。 https://github.com/TigerResearch/TigerBot#开源数据集
CLUECorpus2020 中文 约100G 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料 https://github.com/CLUEbenchmark/CLUECorpus2020/
FinCorpus 中文 约60G 度小满开源的中文金融资讯数据集 https://huggingface.co/datasets/Duxiaoman-DI/FinCorpus
Chinese_book_dataset 中文 13.3万本 一个广泛搜集爬取的中文图书分类数据集。数据采集自各大电子书网站。 https://github.com/JiangYanting/Chinese_book_dataset
CulturaX 多语言,主要英文 共27T,约1T中文 用于167种语言的大型语言模型的多语言数据集,数据集经过比较彻底的清理阶段 https://huggingface.co/datasets/uonlp/CulturaX
Bloom 多语言,主要英文 共1.6T,约10G中文 BLOOM是在ROOTS的语料上训练的,其是一个由498个Hugging Face数据集组成的语料。共计1.61TB的文本,包含46种自然语言和13种编程语言。 https://huggingface.co/bigscience-data
Common Crawl 多语言,主要英文 每月更新 Common Crawl 每个月都会发布一个快照,包含了随机搜索和采样的 URL 所获得的原始网页。 https://commoncrawl.org/
Colossal Clean Crawled Corpus (C4) 多语言,主要英文 最新版约17T 基于Common Crawl数据清洗得到的,最初被Google用来训练 T5 模型,最新版是2023年4月的3.1.0版本。 https://www.tensorflow.org/datasets/catalog/c4
The Pile 主要英文 825G 由22个高质量数据集集合并进一步处理的预训练数据集 https://pile.eleuther.ai/
RedPajama 主要英文 约5T 复刻llama的预训练数据集 https://github.com/togethercomputer/RedPajama-Data
Wikipedia 主要英文 更新中 维基百科的数据 https://huggingface.co/datasets/wikipedia
WebText2 主要英文 约65G 从Reddit提交的URL中抓取的文档构成 https://github.com/EleutherAI/openwebtext2
BookCorpus 英文 约3G 英文图书 https://github.com/soskek/bookcorpus
ArXiv 英文 约170万篇 英文学术论文 https://huggingface.co/datasets/arxiv_dataset
几个数据集平台
CLUEDatasetSearch 中文 多NLP任务数据集合 中英文NLP相关任务数据集的集合 https://github.com/CLUEbenchmark/CLUEDatasetSearch
OpenDataLab 中英文 多NLP任务数据集合 数据集平台 https://opendatalab.org.cn/home
Huggingface datasets 多语言 多数据集 数据集平台 https://huggingface.co/datasets
千言数据集 中文 多NLP任务数据集合 数据集平台 https://www.luge.ai/#/
天池数据集 中文 多NLP任务数据集合 数据集平台 https://tianchi.aliyun.com/dataset/
kaggle 主要英文 多NLP任务数据集合 数据集平台 https://www.kaggle.com/
hyper 中文 各种数据集 数据集平台 https://hyper.ai/datasets