Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

人声提取

Answer

以下是关于人声提取的详细教程:

基于 Sovits 的声音训练及推理

  1. 准备数据集:主程序安装完成后,替换补丁,直接复制粘贴,无需双击运行。安装完成后的界面,可将左下角控件移到最左边以调整视图。
  2. 去混响:按照图中箭头所示点击顺序,通过调整增加减少和伪影平滑的数值来优化效果,以耳朵感受为准,预听合适后点击渲染应用到整首歌。
  3. 去杂音:非主人公的声音,如一次性出现的,选中对应音轨右键渲染静音;重复出现且有相似性的,选中查找类似后右键静音。若杂音和主音难以智能提取,可直接去掉这段主音,或用 ripx 软件精修。
  4. 相关资源:
    • 软件及模型下载链接:
      • 百度网盘:https://pan.baidu.com/s/1ClBvqlnA1cONVs8YU-ldcw?pwd=5mrs 提取码:5mrs
      • Github 链接:https://github.com/Anjok07/ultimatevocalremovergui/
      • 百度网盘:https://pan.baidu.com/s/14iK32JKIPvjmf1Kfq21mzg?pwd=hjhj 提取码:hjhj
    • 处理声音的软件:
      • iZotope RX 用于去掉混响和杂音,安装时记得勾选 vst3 和 aax。链接:https://pan.baidu.com/s/1NX-h67SViKm39zT08U7-zg?pwd=kmhd 提取码:kmhd

ACE Studio 入门教程及工作流分享: 使用干声转换时,在软件中分别导入人声干声和伴奏[文件-导入-导入音频],放在两个轨道上。注意男歌女唱或女歌男唱时,导入前先进行变调。常用的前期音频素材准备工具:

  1. TME Studio:腾讯音乐开发的 AI 音频工具箱,常用音频分离功能,可用于将人声和伴奏从歌曲中提取出来。地址:https://y.qq.com/tme_studio/index.html#/editor
  2. Vocalremover:包含音频分离、变调、BPM 查询等功能,常用变调和 BPM 查询。建议在准备素材阶段,就将音频调整到所需调,并获取到 BPM。地址:https://vocalremover.org/zh/key-bpm-finder
Content generated by AI large model, please carefully verify (powered by aily)

References

实战教程:基于 Sovits 的声音训练及推理

主程序安装完成后,替换补丁,是直接复制粘贴,不需要双击运行安装完成后,界面如下,打开你提取的人声,左下角的控件移动到最左边,让图形更加清爽(这一步对声音没有任何处理,仅是调整视图)去混响:点击顺序如图中箭头所示,通过增加减少和伪影平滑的数值来调整效果,我这里没有标准数值,以耳朵为准,点击预听感受效果,如果效果合适,点击渲染,应用到整首歌。去杂音:这里的杂音是指非主人公的声音,比如经常出现的掌声,笑声,欢呼声,如果这种杂音只出现一次,那么选中对应的音轨,右键-渲染-静音即可,如果是重复出现,并且有一定的相似性,那么可以选中这一段音轨,然后查找类似,然后右键-静音如果杂音和主音柔和在一起,无法智能提取,一般有2个思路,一个是,直接去掉这段主音,因为我们需要收集的声音量很多,去掉一两句影响不大,如果精益求精,可以用下面这个软件精修ripx,对声音进行精修(也可以用来提取音轨,伴奏等等,需要动手能力强)链接:https://pan.baidu.com/s/1ClBvqlnA1cONVs8YU-ldcw?pwd=5mrs提取码:5mrs

实战教程:基于 Sovits 的声音训练及推理

b站教程:https://www.bilibili.com/video/BV1ga411S7gP/?spm_id_from=333.788.video.desc.click&vd_source=35e62d366d8173e12669705f7aedd122Github链接:https://github.com/Anjok07/ultimatevocalremovergui/百度网盘:https://pan.baidu.com/s/14iK32JKIPvjmf1Kfq21mzg?pwd=hjhj提取码:hjhj这里的模型一定要下载,软件本体只预装了部分模型,模型的安装比较简单,拷贝就行,详情请看网盘里的说明。界面是这个样子,选择好输入输出路径,选择模型,提取人声的最佳模型是mdx-net,然后选择uvr-mdx-netmain提取伴奏用VR,但是训练不需要伴奏,可以忽略这一步,只是顺便提一下,后期合成mv的话,是需要推理后的声音和伴奏剪辑到一起的。提取出来的声音一般来说还需要精细的处理,去掉杂音、和声和混响,达到俗称“干声”的效果这里介绍2个软件来处理声音iZotope RX,用来去掉混响和杂音链接:https://pan.baidu.com/s/1NX-h67SViKm39zT08U7-zg?pwd=kmhd提取码:kmhd安装的时候,记得把vst3和aax勾上,否则后面找不到对应的文件夹

张吃吃:AI歌手| ACE Studio入门教程及工作流分享

使用干声转换,我们需要在软件中分别导入人声干声和伴奏[文件-导入-导入音频],放在两个轨道上。干声是用来转成MIDI做AI演唱的。如下图所示:注意,如果是男歌女唱或者女歌男唱,请在导入前先进行变调后再导入(不会变调的看下方工具推荐)。通常女声比男声高5个key左右,不绝对,大家根据听感测试调整即可。有两个工具我在进行前期音频素材准备时较常用:TME Studio腾讯音乐开发的AI音频工具箱,其中我最常用的是音频分离,可用于将人声和伴奏从歌曲中提取出来。地址:https://y.qq.com/tme_studio/index.html#/editorVocalremover包含音频分离、变调、BPM查询等功能,我使用较多的是变调和BPM查询。建议在准备素材阶段,就将音频调整到所需调,并获取到BPM。地址:https://vocalremover.org/zh/key-bpm-finder

Others are asking
音频去人声
以下是一些关于音频去人声的相关信息: :可以从歌曲中移除人声并分离鼓点、贝斯和其他乐器。 :使用 AI 工具移除音轨,转换为 MIDI,并创建高质量的混音和混搭。 在游戏 PV《追光者》的制作中,利用了一款分离人声的 AI 软件,能够将人声从背景音乐中分离出来,并对一些游戏宣传的音乐进行了人声去除和剪辑处理。 在基于 Sovits 的声音训练及推理中,去混响可通过增加减少和伪影平滑的数值来调整效果,以耳朵为准,预听感受效果合适后渲染应用到整首歌。去杂音方面,对于非主人公的声音,如一次性出现的掌声、笑声、欢呼声,选中对应音轨右键渲染静音即可;重复出现且有一定相似性的,可选中查找类似后右键静音。若杂音和主音柔和在一起无法智能提取,一种思路是直接去掉这段主音,若精益求精,可使用 ripx 软件精修,该软件交互体验优秀,基本不需要教程,左右键点一点音轨图形就知道怎么做,把杂音的音轨删除,主音的音轨可剪切然后导出,所有声音导出成 wav 格式。
2025-04-11
你可以将人声录入到歌曲中吗
可以将人声录入到歌曲中。以下为您介绍几种相关的方法和注意事项: 在剪映中,您可以选择人声歌曲或纯音乐。如果选择人声歌曲,需要填入歌词,您可以自己写或者让 AI 帮忙写。比如通过智能歌词按钮,输入简单的词语给 AI 提示来写作歌词。 即梦 AI 发布的“数字人口型大师模式”能自动识别歌曲里的人声,但目前最长支持 15 秒的音乐匹配,需要手工把音乐截断成 15 秒以内的片段,然后再做剪辑。同时要注意即梦 AI 存在一些成功率和效果方面的问题,比如表情随机、手个别情况下会崩坏、多人同时唱时对图片质量有要求、不能上传名人肖像等。 Udio 不会使用艺术家的声音生成歌曲,在幕后风格参考会被一组相关标签替换。在文本输入下方,有两种类型的建议标签可点击添加到提示中,您还可以移动插入符号到提示的任何部分来更改完成。
2025-04-08
好用的人声合成AI
以下是一些好用的人声合成 AI 相关内容: 1. 关于 AI 孙燕姿的生成: 推荐归臧写的通俗易懂的教程: 《》 《》 项目主要使用 SoVITSSVC 4.0,可在。 模型使用分为原始声音处理、推理过程和音轨合并三个部分。使用 UVR_v5.5.0 软件处理声音,保留人物的干声。运行整合包的 Web UI 进行声音推理,需将模型文件和配置文件放置正确文件夹下。分割后的素材尽量不要超过显存大小,使用【slicergui】软件进行分割。最终得到的处理好的人声素材可用于训练模型。 2. 深度伪造技术: 深度伪造技术(deepfakes)是利用 AI 程序和深度学习算法实现音视频模拟和伪造的技术,投入深度学习的内容库越大,合成的视音频真实性越高,甚至能以假乱真。 粉丝们会通过 Stems 音轨分离工具将人声与原始歌曲分离,再使用人声转换模型将人声转换成另一位明星的风格,然后将新的人声轨道与原始作品重新拼接在一起。DiffSVC 是一种流行的用于此目的的语音传输模型。 3. 制作 AI 古人骂人视频: 声音克隆: 工具:Fish Audio 操作:准备一段需要克隆的音频(可以是类似屈原的古风声音,或自行录制一段),打开网站 https://fish.audio/zhCN/train/newmodel/ ,上传音频,按照指引完成声音克隆,进入声音库选择需要使用的声音,将生成的文案输入,使用克隆好的声音生成对应的音频文件并下载备用。 视频合成: 工具:Viggle.ai 操作:在网上下载“回答我”的原视频,打开 Viggle.ai 网站(https://viggle.ai/createmix ),登录后上传“回答我”原视频和人物形象图生成新版本视频,预览效果并下载。 视频剪辑: 工具:剪映 操作:打开剪映软件(手机或电脑版均可),导入合成好的新视频和生成的音频文件,将音频与视频时间轴对齐,添加字幕等,如需叠加特殊背景,可导入自己的背景图(如楚国风景),预览整个视频,检查效果并微调后导出最终视频。 请注意版权问题,请勿侵犯他人音乐版权。
2025-03-24
AI克隆人声软件
以下为一些常见的 AI 克隆人声软件及相关操作步骤: Fish Audio: 1. 准备一段需要克隆的音频(可以是类似屈原的古风声音,或自行录制一段)。 2. 打开网站:https://fish.audio/zhCN/train/newmodel/ 。 3. 上传准备好的音频,按照指引完成声音克隆。 4. 进入声音库选择需要使用的声音,将第一步生成的文案输入,使用克隆好的声音生成对应的音频文件。 5. 下载生成的音频文件备用。 此外,还有以下相关信息: Elevenlabs.io 、speechify.com 等也可用于声音克隆。 可以在 Heygen 等网站自助购买服务,低成本制作自己的数字人分身。 在视频合成方面,可使用 Viggle.ai 网站,操作如下: 1. 在网上下载“回答我”的原视频。 2. 打开 Viggle.ai 网站,登录后进入视频合成功能(https://viggle.ai/createmix )。 3. 上传“回答我”原视频和第二步生成的人物形象图,生成新版本的“回答我”视频。 4. 预览效果,满意后下载合成好的新视频。 视频剪辑可使用剪映软件,步骤为: 1. 打开剪映软件(手机或电脑版均可)。 2. 导入合成好的新视频和生成的音频文件。 3. 将音频与视频时间轴对齐,确保声音和画面同步,添加字幕等。 4. 如需叠加特殊背景,可以导入自己的背景图(如楚国风景)。 5. 预览整个视频,检查效果,微调后导出最终视频(建议 MP4 格式)。
2025-03-20
模拟人声方面哪个工具比较好用
以下是一些在模拟人声方面比较好用的工具: 1. Eleven Labs:https://elevenlabs.io/ 这是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ 这是一款人工智能驱动的文本转语音工具,可作为多种平台的应用使用,能将文本转换为音频文件。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal 提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ 可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用。 此外,在制作 AI 短片时,不同工具对画面的处理能力不同,可组合使用。比如,Pixverse 擅长物体滑行运动,Runway 在真实影像方面质感较好,有手部特殊运动的画面可用 Runway 辅助完成,需要人物表情自然的画面可用 Pika 生成。 在创建 AI 伴侣方面,语音方面像 ElevenLabs 这样的产品可以赋予其声音,让您控制年龄、性别和口音。
2025-03-20
将人声转化为各种乐器的AI工具有什么
以下是一些能够将人声转化为各种乐器的 AI 工具: :为所有人提供开放的语音技术。 :基于 AI 的语音引擎能够模仿人类语音的情感和韵律。 :基于 NLP 的最先进文本和音频编辑平台,内置数百种 AI 声音。 :使用突触技术和脑机接口将想象的声音转化为合成 MIDI 乐器的脑控仪器。 :为出版商和创作者开发最具吸引力的 AI 语音软件。 :Wondercraft 使用户能够使用文本转语音技术生成播客。 :基于生成机器学习模型构建内容创作的未来。 :从网页仪表板或 VST 插件生成录音室质量的 AI 声音并训练 AI 语音模型。 :演员优先、数字双重声音由最新的 AI 技术驱动,确保高效、真实和符合伦理。 在前期音频素材准备时,较常用的工具包括: TME Studio:腾讯音乐开发的 AI 音频工具箱,其中常用的是音频分离,可用于将人声和伴奏从歌曲中提取出来。地址:https://y.qq.com/tme_studio/index.html/editor Vocalremover:包含音频分离、变调、BPM 查询等功能,使用较多的是变调和 BPM 查询。建议在准备素材阶段,就将音频调整到所需调,并获取到 BPM。地址:https://vocalremover.org/zh/keybpmfinder 此外,还有一些人工智能音频初创公司在音乐源分离方面表现出色,例如: :从歌曲中移除人声并分离鼓点、贝斯和其他乐器。 :使用 AI 工具移除音轨,转换为 MIDI,并创建高质量的混音和混搭!
2025-03-16
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
图片提取文字
以下是关于图片提取文字的相关信息: 大模型招投标文件关键数据提取方案:输入模块设计用于处理各种格式的文档输入,包括 PDF、Word、Excel、网页等,转换成可解析的结构化文本。多种文件格式支持,对于图片,可以借助 OCR 工具进行文本提取,如开放平台工具:。网页可以使用网页爬虫工具抓取网页中的文本和表格数据。 谷歌 Gemini 多模态提示词培训课:多模态技术可以从图像中提取文本,使从表情包或文档扫描中提取文本成为可能。还能理解图像或视频中发生的事情,识别物体、场景,甚至情绪。 0 基础手搓 AI 拍立得:实现工作流包括上传输入图片、理解图片信息并提取图片中的文本内容信息、场景提示词优化/图像风格化处理、返回文本/图像结果。零代码版本选择 Coze 平台,主要步骤包括上传图片将本地图片转换为在线 OSS 存储的 URL 以便调用,以及插件封装将图片理解大模型和图片 OCR 封装为工作流插件。
2025-04-15
文章风格提取
以下是关于文章风格提取的相关内容: 该提示词用于抽取不同风格文章的核心要素,抽取到的字段可作为 prompt,结合指定主题进行风格迁移。整体创作思路见文末 PDF。 具体使用方法为:拷贝文章风格提取提示词,输入给任意大模型,随后提供要抽取的文本。 已抽取的一些风格参考包括万维钢风格、史铁生《我与地坛》文风、李娟《我的阿勒泰》文风、许倬云《说中国》文风、鲁迅《狂人日记》文风、王小波《万寿寺》文风、飞书多维表格工作流自动化抽取等。 使用 DeepSeek V3 进行实验时,智能体地址为 https://www.coze.cn/s/VM9pUn9HdmA/ 。初级使用方法是输入公众号文章标题或内容,智能体会自动提取相关信息,默认风格是“炫彩”。高级使用方法需按照要求输入几个要素,如标题、副标题、分享封面、标签、风格等。
2025-04-11
有没有提取小红书内容的AI
以下是为您找到的关于提取小红书内容的 AI 相关信息: 有一款名为“小红书文案专家”的 AI 工具,其功能价值在于:见过多个爆款文案,只需输入一个网页链接或视频链接,就能生成对应的小红书文案,可以辅助创作者生成可一键复制发布的初稿,提供创意和内容,10 倍节约文字内容创作时间。 应用链接:https://www.coze.cn/s/ij5C6LWd/ 一期产品功能: 1. 可以提取任何链接中的标题和内容。 2. 按照小红书平台文案风格,重新整理内容。 3. 加入 emoji 表情包,使文案更有活力。 4. 为文案配图片。 二期计划功能:持续优化升级中,增加全网搜索热点功能,提炼热点新闻或事件关键信息,结合用户想要生成的内容方向,输出文案和配图。
2025-04-09
如何用rpa来实现读取本地excel表格里的内容进行筛选,提取某些数据值后,再自动化填写到飞书的多维表格去。怎么来实现这个功能
要使用 RPA 实现读取本地 Excel 表格内容进行筛选,并将提取的数据值自动化填写到飞书的多维表格,可参考以下步骤: 1. 关于扣子:“”(Coze)是字节跳动在 2024 年上线的新一代一站式 AI Bot 开发平台,也被称为“字节版 GPTs”。它是一个低门槛的 AI 应用开发平台,其核心目标是让没有编程基础的用户也能够轻松参与到 AI 生态的建设中。 2. 登录后,在左侧功能列表的工作空间中,点击右上角“+字段”创建工作流,自行输入名称和描述。 3. 已做好工作流后,逐步拆解每个节点的配置: 开始节点:此节点不需要做任何配置,没有输入以及输出。 读取飞书表格内容节点:点击开始节点后面的“+”,搜索“飞书多维表格”,选择“search_record”功能。添加后,点击该节点的配置,在界面右侧的参数框中,需要填写 app_token、field_names。filter 是对数据的筛选条件,没有筛选需求可直接忽略。其中,app_token 是多维表格的唯一标识符,即表格 URL 中的一段;field_names 则是要读取的具体字段,比如“标题”、“内容”,以作为后续操作的输入。该节点运行后,就能将多维表格中的内容提取出来。
2025-04-09
文章提取器
以下是关于文章提取器的相关内容: Yeadon 提出了利用 Cursor+Coze 工作流打造网页内容提取插件的方法。Cursor 是具有 AI 功能的革新性代码编辑器,Coze 工作流是可视化的组合工具。该插件的功能需求包括对当前网页链接的提取、LLM 对网页内容的总结、LLM 输出三个变量(主角、文章概括、金句提取)、通过图片搜索工具搜主角图片以及进行排版得到图文总结卡片。 小七姐介绍了 MetaPrompt 用于文章风格提取,可抽取不同风格文章的核心要素作为 prompt 进行风格迁移。已抽取的风格包括万维钢、史铁生、李娟、许倬云、鲁迅、王小波等,还提到了飞书多维表格工作流自动化抽取的使用方法,以及相关的测评和彩蛋等内容。
2025-04-07