Chat with Wiki - 数据集

Answer

数据集是用于让大模型重新学习新知识的重要元素。以下为您介绍一些相关的数据集及获取方式：

在 Llama3 部署和微调教程中，微调 Llama3 时需要使用数据集。数据集的获取及简单原理可参考文档：self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora 微调。md at master · datawhalechina/self-llm，其 json 下载地址为：https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json
LLM 开源中文大语言模型及数据集集合中的一些数据集包括：
- Alpaca-CoT：地址为https://github.com/PhoebusSi/Alpaca-CoT，统一了丰富的 IFT 数据、多种训练效率方法以及多种 LLM 层面上的接口，方便研究人员上手。
- pCLUE：地址为https://github.com/CLUEbenchmark/pCLUE，是基于提示的大规模预训练数据集，用于多任务学习和零样本学习，包括 120 万训练数据，73 个 Prompt，9 个任务。
- firefly-train-1.1M：地址为https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M，包含 23 个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为 115 万。
- BELLE-data-1.5M：地址为https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M，通过 self-instruct 生成，使用了中文种子任务，以及 openai 的 text-davinci-003 接口，涉及 175 个种子任务。
在 OpenAI 发表的新论文《让我们一步一步验证》中，PRM800K 训练集包含 800,000 个步骤级标签，可用于 12,000 个问题的 75,000 个答案。据报道，PRM 不仅在数学方面取得了更好的成绩，而且在化学和物理方面也表现出色。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型微调的意义在于学习新的知识，因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档：[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master · datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集：json下载地址：[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)

LLM开源中文大语言模型及数据集集合

Alpaca-CoT：地址：[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明：统一了丰富的IFT数据（如CoT数据，目前仍不断扩充）、多种训练效率方法（如lora，p-tuning）以及多种LLMs，三个层面上的接口，打造方便研究人员上手的LLM-IFT研究平台。pCLUE：地址：[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明：基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括120万训练数据，73个Prompt，9个任务。firefly-train-1.1M：地址：[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明：23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万BELLE-data-1.5M：地址：[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明：通过self-instruct生成，使用了中文种子任务，以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset：

数学：OpenAI 发表论文大幅提高 ChatGPT 的数学准确性 | 让我们一步步验证

使用该数据集，我们表明过程监控(PRM)是高度准确的。比较的方法是结果监督奖励模型（ORM）：“结果监控”和过程监督奖励模型（PRM）：“过程监控”。PRM800K训练集包含800,000个步骤级标签，可用于12,000个问题的75,000个答案。点击此处查看PRM和ORM实际数学精度的比较在这两个结果中，可以看出使用PRM的模型给出了更好的结果。据报道，PRM不仅在数学方面取得了更好的成绩，而且在化学和物理方面也取得了更好的成绩。