Chat with Wiki - 如何搭建数字人

Answer

以下是搭建数字人的一般步骤：

生成数字人：
- 在剪映右侧窗口顶部，打开“数字人”选项，选取免费且适合的数字人形象，如“婉婉-青春”。选择后软件会播放其声音，确认需要后点击右下角“添加数字人”，剪映会生成对应音视频并添加到当前视频文件轨道中，左下角会提示渲染完成时间，可点击预览查看效果。
增加背景图片：
- 删除先前导入的文本内容，为视频增加美观的背景图片。点击左上角“媒体”菜单并“导入”，选择本地图片上传，点击图片右下角加号添加到视频轨道（会覆盖数字人）。将图片轨道最右侧竖线向右拖拽，使其与视频对齐。
增加字幕：
- 点击文本-智能字幕-识别字幕，点击开始识别，软件会自动将文字智能分段并形成字幕。
构建数字人灵魂：
- 借助开源社区的力量，如使用像 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中，可使用 dify 的框架，利用其编排和可视化交互任意修改流程，构造不同的 AI Agent，赋予数字人灵魂。具体部署过程参考 B 站视频：https://www.bilibili.com/video/BV1kZWvesE25 。如有更加高度定制的模型，也可在 Dify 中接入 XInference 等模型管理平台，然后部署自己的模型。此外，数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块，能保持更好的扩展。

至此，数字人视频就完成了。点击右上角的“导出”按钮，导出视频以作备用。如果希望数字人换成自己希望的面孔，需要用另一个工具来进行换脸。

Content generated by AI large model, please carefully verify (powered by aily)

References

在显示区域，拖动背景图的一个角，将图片放大到适合的尺寸，比如覆盖视频窗口。并将数字人拖动到合适的位置:3.3增加字幕点击文本-智能字幕-识别字幕，点击开始识别：软件会自动将文字智能分段并形成字幕：至此，数字人视频就完成了。点击右上角的“导出”按钮，导出视频以作备用。如果你希望数字换成自己希望的面孔，比如这个：就需要用另一个工具来进行换脸了。

实战：每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法！

3.1生成数字人在剪映右侧窗口顶部，我们打开“数字人”选项，选取一位免费的、适合的数字人形象，这里我选择“婉婉-青春”。当你选择一个数字人形象时，软件会马上播放出该数字人的声音。你可以判断是否是你需要的，点击右下角的“添加数字人”，就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容，来生成对应音视频，并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮，查看生成的数字人效果。3.2增加背景图片接下来，可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道，或者点击软件中间文字内容，按删除键删去文字：为了让视频更美观，我们为视频增加背景图片。当然你可以增加多个背景图片，为简化演示，这里增加1张图片。点击左上角的“媒体”菜单，并点击“导入”按钮，来选择本地的一张图片上传：我选择一张书架图片上传，然后像添加文字内容一样，点击图片右下角的加号，将这个图片添加到视频的轨道上（会覆盖数字人）：此时，书架图片就会在视频轨道的下面，添加一条新轨道：为了让图片在整个视频播放的时候都显示，可以点击这个轨道最右侧的竖线，向右拖拽，直到视频的最后，也就是和视频对齐：此时，背景图片所在的轨道是选中状态。如果没选中，鼠标点击一下这个规定即可。

AI 数字人-定义数字世界中的你

上述种种，如果都要自建代码实现各模块，开发工作量巨大，迭代难度也很高，对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量，现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架，它们有大量的开源工作者维护，集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent，赋予数字人灵魂。在笔者的开源项目中，使用了dify的框架，利用其编排和可视化交互任意修改流程，构造不同的AI Agent，并且实现相对复杂的功能，比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口，基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制，从而低门槛做出来自己高度定制化的数字人（如下图），具体的部署过程参考B站视频：https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型，也可以在Dify中接入XInference等模型管理平台，然后部署自己的模型。此外，数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块，能够保持更好的扩展，比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。Dify x数字人架构示意audio-to-text接口text-to-audio接口