Chat with Wiki - 提取视频里面的声音

Answer

以下是关于提取视频里面声音的相关信息：

Sovits 声音训练及推理：

准备数据集：可通过 b 站教程（https://www.bilibili.com/video/BV1ga411S7gP/?spm_id_from=333.788.video.desc.click&vd_source=35e62d366d8173e12669705f7aedd122 ）、Github 链接（https://github.com/Anjok07/ultimatevocalremovergui/ ）、百度网盘（https://pan.baidu.com/s/14iK32JKIPvjmf1Kfq21mzg?pwd=hjhj ，提取码：hjhj ）获取相关资源。模型一定要下载，软件本体只预装了部分模型，模型安装较简单，拷贝即可，详情看网盘说明。
操作界面：选择好输入输出路径和模型，提取人声的最佳模型是 mdx-net ，提取伴奏用 VR ，但训练不需要伴奏。
后续处理：提取出来的声音通常需要精细处理，如去掉杂音、和声和混响达到“干声”效果。可使用 iZotope RX 软件处理，链接（https://pan.baidu.com/s/1NX-h67SViKm39zT08U7-zg?pwd=kmhd ），提取码：kmhd ，安装时记得把 vst3 和 aax 勾上。

PixelPlayer：MIT 研究团队的创新工具，可自动识别并分离视频中的声音源，匹配画面位置。为音视频编辑提供强大功能，如独立调整音量、去除或增强特定声音源。其核心功能包括声音源分离、声音定位、多声音源处理。相关链接：http://sound-of-pixels.csail.mit.edu 、https://arxiv.org/abs/1804.03160 、https://x.com/xiaohuggg/status/1759916778229268874?s=20

Content generated by AI large model, please carefully verify (powered by aily)

References

实战教程：基于 Sovits 的声音训练及推理

b站教程：https://www.bilibili.com/video/BV1ga411S7gP/?spm_id_from=333.788.video.desc.click&vd_source=35e62d366d8173e12669705f7aedd122Github链接：https://github.com/Anjok07/ultimatevocalremovergui/百度网盘：https://pan.baidu.com/s/14iK32JKIPvjmf1Kfq21mzg?pwd=hjhj提取码：hjhj这里的模型一定要下载，软件本体只预装了部分模型，模型的安装比较简单，拷贝就行，详情请看网盘里的说明。界面是这个样子，选择好输入输出路径，选择模型，提取人声的最佳模型是mdx-net，然后选择uvr-mdx-netmain提取伴奏用VR，但是训练不需要伴奏，可以忽略这一步，只是顺便提一下，后期合成mv的话，是需要推理后的声音和伴奏剪辑到一起的。提取出来的声音一般来说还需要精细的处理，去掉杂音、和声和混响，达到俗称“干声”的效果这里介绍2个软件来处理声音iZotope RX，用来去掉混响和杂音链接：https://pan.baidu.com/s/1NX-h67SViKm39zT08U7-zg?pwd=kmhd提取码：kmhd安装的时候，记得把vst3和aax勾上，否则后面找不到对应的文件夹

XiaoHu.AI日报

?Xiaohu.AI日报「2月20日」 ✨✨✨✨✨✨✨✨1⃣️? PixelPlayer：MIT研究团队的创新自动识别并分离视频中的声音源，匹配画面位置。为音视频编辑提供强大工具：独立调整音量、去除或增强特定声音源。核心功能：声音源分离、声音定位、多声音源处理。? http://sound-of-pixels.csail.mit.edu? https://arxiv.org/abs/1804.03160? https://x.com/xiaohuggg/status/1759916778229268874?s=202⃣️? OOTDiffusion：高度可控的虚拟服装试穿工具高质量服装图像生成与融合，支持半身和全身模型。可控试穿参数，自然融合与逼真效果。开源项目，支持在线测试。? https://github.com/levihsu/OOTDiffusion? https://ootd.ibot.cn? https://x.com/xiaohuggg/status/1759876272505942462?s=203⃣️? AnyGPT：跨模态大语言模型从任意模态到任意多模态的理解与生成。支持文本、图像、视频、音频等模态输入和输出。

XiaoHu.AI日报