数据集是用于让大模型重新学习新知识的重要元素。以下为您介绍一些相关的数据集及获取方式:
在 Llama3 部署和微调教程中,微调 Llama3 时需要使用数据集。数据集的获取及简单原理可参考文档:
LLM 开源中文大语言模型及数据集集合中的一些数据集包括:
AlpacaCoT:地址为,统一了丰富的 IFT 数据、多种训练效率方法以及多种 LLM 层面上的接口,方便研究人员上手。
pCLUE:地址为,是基于提示的大规模预训练数据集,用于多任务学习和零样本学习,包括 120 万训练数据,73 个 Prompt,9 个任务。
fireflytrain1.1M:地址为,包含 23 个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为 115 万。
BELLEdata1.5M:地址为,通过 selfinstruct 生成,使用了中文种子任务,以及 openai 的 textdavinci003 接口,涉及 175 个种子任务。
在 OpenAI 发表的新论文《让我们一步一步验证》中,PRM800K 训练集包含 800,000 个步骤级标签,可用于 12,000 个问题的 75,000 个答案。据报道,PRM 不仅在数学方面取得了更好的成绩,而且在化学和物理方面也表现出色。
2024-08-12