数据集是用于让大模型重新学习新知识的重要元素。以下为您介绍一些相关的数据集及获取方式:
大模型微调的意义在于学习新的知识,因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档:[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master · datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集:json下载地址:[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)
Alpaca-CoT:地址:[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。pCLUE:地址:[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。firefly-train-1.1M:地址:[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万BELLE-data-1.5M:地址:[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明:通过self-instruct生成,使用了中文种子任务,以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset:
使用该数据集,我们表明过程监控(PRM)是高度准确的。比较的方法是结果监督奖励模型(ORM):“结果监控”和过程监督奖励模型(PRM):“过程监控”。PRM800K训练集包含800,000个步骤级标签,可用于12,000个问题的75,000个答案。点击此处查看PRM和ORM实际数学精度的比较在这两个结果中,可以看出使用PRM的模型给出了更好的结果。据报道,PRM不仅在数学方面取得了更好的成绩,而且在化学和物理方面也取得了更好的成绩。