Chat with Wiki - WayToAGI

以下是关于数据集的相关信息：厚德云创建数据集及 Lora 训练：创建数据集：进入厚德云模型训练数据集，在数据集一栏中点击右上角创建数据集。输入数据集名称。可以上传包含图片+标签 txt 的 zip 文件，也可以只有图片没有打标文件（之后可在 C 站使用自动打标功能），建议提前把图片和标签打包成 zip 上传，Zip 文件里图片名称与标签文件应当匹配，例如：图片名“1.png”，对应的达标文件就叫“1.txt”。上传 zip 以后等待一段时间，确认创建数据集，返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查，可预览到数据集的图片以及对应的标签。 Lora 训练：点击 Flux，基础模型会默认是 FLUX 1.0D 版本。选择数据集，点击右侧箭头，会跳出所有上传过的数据集。触发词可有可无，取决于数据集是否有触发词，模型效果预览提示词则随机抽取一个数据集中的标签填入即可。训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数，如果不知道如何设置，可以默认 20 重复次数和 10 轮训练轮数。可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力，然后等待训练，会显示预览时间和进度条，训练完成的会显示出每一轮的预览图，鼠标悬浮到想要的轮次模型，中间会有个生图，点击会自动跳转到使用此 lora 生图的界面，点击下方的下载按钮则会自动下载到本地。中文数据集： |ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注| ||||||||||| |1||42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据，共计 800 条（单个病人单次就诊记录），经脱敏处理|电子病历|命名实体识别|\\|中文| |2||2018 年|医渡云（北京）技术有限公司||CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\\|中文| |3||\\|MSRA||数据来源于 MSRA，标注形式为 BIO，共有 46365 条语料|Msra|命名实体识别|\\|中文| |4||35796|人民日报||数据来源为 98 年人民日报，标注形式为 BIO，共有 23061 条语料|98 人民日报|命名实体识别|\\|中文| |5||\\|玻森数据||数据来源为 Boson，标注形式为 BMEO,共有 2000 条语料|Boson|命名实体识别|\\|中文| Llama3 数据集：大模型微调需要数据集，其意义在于让大模型学习新的知识。数据集的获取以及简单的原理可以参考文档：。有了数据集，就可以使用代码进行微调，首先把数据集上传到服务器，然后编写微调代码、执行微调代码，大概 15 分钟左右微调完成。