Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

svc调参

Answer

SVC 调参指的是调整 SVC(Super Vector Compiler)模型的参数,以实现更好的性能和效果。以下是基于 Sovits 的声音训练及推理的实战教程,其中包括了一些 SVC 调参的技巧和注意事项:

上传音频:上传你想推理的对象,这里需要上传一个 WAV 格式的音频文件,尽量使用干声,即去掉伴奏、和声和杂音,以避免推理出奇怪的声音。

参数调整:

  • 变调:如果你想使用男声模型翻唱女生歌曲,需要降低上传音频的调子,一般为-5 到-8,酌情调整;如果你想使用女生模型翻唱男声歌曲,需要先升调。
  • 自动 f0 预测和预测器选择:如果是说话,勾选自动 f0 预测;如果是唱歌,不勾选自动 f0 预测。在预测器选择方面,crepe 效果还不错。

注意事项:

  • 输入源音频的要求:优秀的输入源音频应该是纯人声,无伴奏、底噪、和声、混响等,并且是 WAV 格式,44100 hz,16 bit。
  • 变调的调整:男声模型翻唱女生歌曲需要降调,女生模型翻唱男声歌曲需要先升调。具体的调整数值需要根据实际情况酌情调整。
  • 自动 f0 预测和预测器选择:如果是说话,勾选自动 f0 预测;如果是唱歌,不勾选自动 f0 预测。在预测器选择方面,crepe 效果还不错。

希望这些内容能够帮助你更好地理解和使用 SVC 调参。

Content generated by AI large model, please carefully verify (powered by aily)

References

实战教程:基于 Sovits 的声音训练及推理

也就是想推理的对象,我想用sunjie1的声音去唱孙燕姿的歌,那么这里我就应该传一个孙燕姿的歌声wav文件这里待转变的音频文件,尽量使用干声,即去掉伴奏,和声和杂音,否则会推理出奇奇怪怪的声音。优秀的输入源音频的要求是:●纯人声,无伴奏、底噪、和声、混响等●WAV格式,44100 hz,16 bit这里可以更改的参数:变调:男声模型去翻唱女生歌曲,需要降调(这里的降调是降低你上传的音频的调子),-5到-8,酌情调整,女生模型翻唱男声,先升调。自动f0预测和预测器选择,如果是说话就勾选自动f0预测,唱歌就不勾f0预测器我个人经验crepe效果还不错

Others are asking
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04