以下是关于数据集的相关信息:
厚德云创建数据集及 Lora 训练:
创建数据集:
进入厚德云模型训练数据集,在数据集一栏中点击右上角创建数据集。
输入数据集名称。
可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片没有打标文件(之后可在 C 站使用自动打标功能),建议提前把图片和标签打包成 zip 上传,Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。
上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后就会上传成功,可以点击详情检查,可预览到数据集的图片以及对应的标签。
Lora 训练:
点击 Flux,基础模型会默认是 FLUX 1.0D 版本。
选择数据集,点击右侧箭头,会跳出所有上传过的数据集。
触发词可有可无,取决于数据集是否有触发词,模型效果预览提示词则随机抽取一个数据集中的标签填入即可。
训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数,如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。
可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条,训练完成的会显示出每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面,点击下方的下载按钮则会自动下载到本地。
中文数据集:
|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注|
|||||||||||
|1||42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据,共计 800 条(单个病人单次就诊记录),经脱敏处理|电子病历|命名实体识别|\\|中文|
|2||2018 年|医渡云(北京)技术有限公司||CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\\|中文|
|3||\\|MSRA||数据来源于 MSRA,标注形式为 BIO,共有 46365 条语料|Msra|命名实体识别|\\|中文|
|4||35796|人民日报||数据来源为 98 年人民日报,标注形式为 BIO,共有 23061 条语料|98 人民日报|命名实体识别|\\|中文|
|5||\\|玻森数据||数据来源为 Boson,标注形式为 BMEO,共有 2000 条语料|Boson|命名实体识别|\\|中文|
Llama3 数据集:
大模型微调需要数据集,其意义在于让大模型学习新的知识。数据集的获取以及简单的原理可以参考文档: 。有了数据集,就可以使用代码进行微调,首先把数据集上传到服务器,然后编写微调代码、执行微调代码,大概 15 分钟左右微调完成。
2025-03-19