Chat with Wiki - 23个常见的中文数据集

Answer

以下是 23 个常见的中文数据集：

Alpaca-CoT：
- 地址：https://github.com/PhoebusSi/Alpaca-CoT
- 数据集说明：统一了丰富的 IFT 数据（如 CoT 数据，目前仍不断扩充）、多种训练效率方法（如 lora，p-tuning）以及多种 LLM，三个层面上的接口，打造方便研究人员上手的 LLM-IFT 研究平台。
pCLUE：
- 地址：https://github.com/CLUEbenchmark/pCLUE
- 数据集说明：基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括 120 万训练数据，73 个 Prompt，9 个任务。
firefly-train-1.1M：
- 地址：https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
- 数据集说明：23 个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为 115 万。
BELLE-data-1.5M：
- 地址：https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M
- 数据集说明：通过 self-instruct 生成，使用了中文种子任务，以及 openai 的 text-davinci-003 接口，涉及 175 个种子任务。
Chinese Scientific Literature Dataset

此外，还有用于优化 Llama2 中文能力的数据集，包括：

网络数据：互联网上公开的网络数据，挑选出去重后的高质量中文数据，涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。
Wikipedia：中文 Wikipedia 的数据。
悟道：中文悟道开源的 200G 数据。
Clue：Clue 开放的中文预训练数据，进行清洗后的高质量中文长文本数据。
竞赛数据集：近年来中文自然语言处理多任务竞赛数据集，约 150 个。
MNBVC：MNBVC 中清洗出来的部分数据集。

COIG-CQIA 数据集的数据源包括：

社交媒体和论坛：包括知乎、SegmentFault、豆瓣、小红书、弱智吧。
世界知识：百科全书、四个特定领域的数据（医学、经济管理、电子学和农业）。
NLP 数据集：COIG-PC、COIG Human Value 等。
考试试题：中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。

Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

Alpaca-CoT：地址：[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明：统一了丰富的IFT数据（如CoT数据，目前仍不断扩充）、多种训练效率方法（如lora，p-tuning）以及多种LLMs，三个层面上的接口，打造方便研究人员上手的LLM-IFT研究平台。pCLUE：地址：[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明：基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括120万训练数据，73个Prompt，9个任务。firefly-train-1.1M：地址：[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明：23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万BELLE-data-1.5M：地址：[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明：通过self-instruct生成，使用了中文种子任务，以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset：

模型预训练

弱智吧：大模型变聪明，有我一份贡献

论文标题：COIG-CQIA:Quality is All You Need for Chinese Instruction Fine-tuningCOIG-CQIA数据集介绍为了保证数据质量以及多样性，本文从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、、内容创作平台、考试试题等。此外，该数据集还纳入了高质量的中文NLP数据集，以丰富任务的多样性。具体来说，本文将数据源分为四种类型：社交媒体和论坛、世界知识、NLP任务和考试试题。社交媒体和论坛：包括知乎、SegmentFault、豆瓣、小红书、弱智吧。世界知识：百科全书、四个特定领域的数据（医学、经济管理、电子学和农业）。NLP数据集：COIG-PC、COIG Human Value等。考试试题：中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。表1为数据集来源统计。研究者从中国互联网和社区的22个来源总共收集了48,375个实例，涵盖从常识、STEM到人文等领域。图2说明了各种任务类型，包括信息提取、问答、代码生成等。图3演示了指令和响应的长度分布。为了分析COIG-CQIA数据集的多样性，本文遵循先前的工作，使用Hanlp工具来解析指令。实验结果