Chat with Wiki - 数字人唱歌

Answer

数字人唱歌相关内容如下：

创作数字人脸的方式：
- 使用一系列逼真的照片或插图人脸来创造，所有人脸都经过优化，在添加语音和动作时能实现最佳效果。
- 上传自己的照片，如自己、朋友或家人的面部照片。
- 利用 D-ID 自带的 Stable Diffusion 的能力生成想象中的人脸，通过描述想要的脸的样子来生成，如“一个外星女神”“一个微笑的十九世纪维多利亚绅士”等。数字人像添加到人脸库后可重复使用，输入新脚本让其说话。
让数字人说话的方式：
- 用 GPT 直接生成脚本让数字人说话，如利用 GPT-3 文本生成技术撰写脚本。
- 先选好脸，再输入脚本。
- 输入准备好的脚本，D-ID 里有数百种语言和口音，选择想要使用的声音，并调整角色说话风格。
- 上传自己的音频记录，或从电影、电视剧中剪辑最喜欢的台词、吟唱自编的歌曲。
相关算法开源代码仓库：
- ASR 语音识别：openai 的 whisper（https://github.com/openai/whisper）、wenet（https://github.com/wenet-e2e/wenet）、speech_recognition（https://github.com/Uberi/speech_recognition）。
- 大模型：ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。
- Agent 部分：可使用 LangChain 的模块去做自定义（https://www.langchain.com/）。
- TTS：微软的 edge-tts（https://github.com/rany2/edge-tts），只能使用里面预设的人物声音，目前接口免费；VITS（https://github.com/jaywalnut310/vits），还有很多分支版本；so-vits-svc（https://github.com/svc-develop-team/so-vits-svc），专注到唱歌上面，前段时间很火的 AI 孙燕姿。

此外，剪映做数字人有优势，其作为字节跳动旗下产品，在抖音平台广泛应用，海外版 CapCut 也成绩斐然。其已有的 AI 功能能解决用数字人做视频的痛点，制作流程包括打开剪映添加文本、点击朗读并进行声音克隆、选择数字人形象并更换克隆音色、一键智能生成字幕并调整校准。剪映下载地址：https://www.capcut.cn/，capcut 下载地址：https://www.capcut.com

Content generated by AI large model, please carefully verify (powered by aily)

References

电商：带货本地生活

第一种，可以使用一系列逼真的照片或插图人脸来创造。所有人脸都经过优化，可以在添加语音和动作时实现最佳效果。第二种，上传自己的照片，可以是自己的面部、朋友或家人的面部照片就可以创作了第三种，利用D-ID自带的Stable Diffusion的能力生成您想象中的任何人脸。简单讲，你可以描述下你想要的这张脸长啥样，比如“一个外星女神”，“一个微笑的十九世纪维多利亚绅士”等等，它马上可以生成你长你想要的脸。不管用哪种方式，一旦这个数字人像被添加到人脸库里，你就可以随意重复使用它。只需输入新的脚本，就可以让这个数字人像说任何你想让他说的话。瞧，这就是用一些历史名人的肖像画生成的对话，剪辑成有剧情的短视频就非常有趣，里面就有我喜欢的李白吟诗，目前该博主在B站点赞已经超过1000万，只有你想不到，没有你做不到。[heading1]六、三种方式让数字人说话[content]可以用GPT直接生成脚本让数字人说话第一种，利用GPT-3文本生成技术来撰写脚本。这一全新的脚本撰写功能，保证我们再也不会因为无话可说而感到尴尬；也可以先选好脸，再输入脚本第二种，输入准备好的脚本，D-ID里面有数百种语言和口音，选择你想要使用的声音，并调整角色说话的风格，就可以了。第三种，也是最基本的，上传自己的音频记录。或者从电影或电视剧中剪辑出您最喜欢的台词，或是吟唱自编的歌曲也是可以的。

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。除了算法，人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？

方案：剪映数字人“个性化“—无限免费私模数字人

大家好！我是卡尔，今天分享的是剪映口播数字人的私有化。PS:视频版本已经在路上，大家敬请期待Heygen的访问限制太强，正好剪映已经有了声音克隆和公模数字人两项能力，搭配facefusion的换脸技术，我们能轻松实现零成本的口播数字人[heading1]剪映做数字人的优势[content]剪映作为字节跳动旗下的产品，在抖音平台上，被广泛应用于短视频的创作和编辑中。剪映海外版CapCut登顶过美国App Store，在全球各国App Store和Google Play平台上的安装总量已超过2.5亿次，在美国市场内的安装总量接近950万次。剪映的“魔力”是什么？我们不妨来盘点一下剪映已有的AI功能这六大AI功能基本上解决了我们用数字人做视频的痛点，不需要反复跳出剪映，在编辑器里就能过完成脚本生成→语音克隆→数字人口播的环节。那下面就让我带大家手把手做一个数字人口播视频剪映下载地址：[https://www.capcut.cn/](https://www.capcut.cn/)capcut下载地址：[https://www.capcut.com](https://www.capcut.com)[heading1]制作流程[content]首先我们打开剪映，然后添加一个文本到文字轨道，并修改好需要朗读的文字；然后点击朗读，并进行声音克隆，剪映的声音克隆现在只用念一句话就可以完成克隆；克隆完成后，选择喜欢的数字人形象，并把自己的克隆音色换上去；最后，一键智能生成字幕，再自行调整文字样式并校准叫完成了。[heading1]成果视频