要将 AI 作为自己的教练 Agent 实现,需要考虑以下几个方面:
然而,在实际操作中也存在一些问题,如沉淀领域知识喂给 AI 并不断调教并非能保持愉悦,可能会从兴奋转为嫌弃,且国产大模型存在一些桎梏,调优反复,多数人尝试后又回到舒适模式。但仍可通过不断探索和尝试来实现将 AI 作为教练 Agent 的目标。
有了数字人躯壳,我们就需要构建数字人的灵魂,让数字人具备各种智能,比如记得你的个人信息,充当你的个人助手;在某个领域具备更专业的知识;能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点:1.AI Agent:我们要想数字人像人一样思考就需要写一个像人一样的Agent,工程实现所需的记忆模块,工作流模块、各种工具调用模块的构建都是挑战;2.驱动躯壳的实现:灵魂部分怎样去驱动躯壳部分,我们可以将灵魂部分的所有接口定义出来,然后躯壳部分通过API调用,调用方式可以是HTTP、webSocket等等,视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对来说成熟一些,但都是闭源的,效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+Face AR Sample(UE);3.实时性:由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。4.多元跨模态:仅仅是语音交互的数字人是远远不够的,人有五感(听觉、视觉、嗅觉、触觉、味觉),听觉只是其中一种,其他的感官可以根据实际需求来做,比如视觉我们可以通过添加摄像头数据来获取数据,再通过系列CV算法做图像解析等;5.拟人化场景:我们正常和人交流的时候不是线性对话,会有插话、转移话题等情况,这些情景如何通过工程丝滑处理。
上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型,也可以在Dify中接入XInference等模型管理平台,然后部署自己的模型。此外,数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。
仍然很幸运的结识到一些有自己私域的教练们,他们个性鲜明,能力突出,面向他们客户交付服务就是他们自己呈现出的状态。与他们交流下来,之前的服务方式是他们个人+若干个小助理。他们把握核心环节,小助理维护好周边,这些小助理的稳定性和水平时常会有波动。他们也期待在他们的服务SOP里,使用AI工具或尝试捏Bot来逐渐代替部分小助理的事项。需求看似有了且广泛,但这个需求的优先级并没有那么痛。沉淀自己的领域知识喂给AI然后不断调教并不是一个能保持愉悦的过程,可能很快就从兴奋中跌落到嫌弃的状态中。加上国产大模型本身的一些桎梏,调优的反复,大多数人经过一些时间的尝试基本又回到自己比较舒适的模式中。这个陪伴中我小范围的做了几场直播分享和教学,这是对我最宝贵的体验和经验。从那开始我就没那么排斥直播形式的分享。其实很多事情都是冥冥之中自有安排。我在捏虚拟女友李思思的时候结识了皮皮,皮皮向Myshell推荐了我,但我对拟人的细腻情绪处理是缺乏经验的,也不擅长。所以就搁置了同Myshell的合作(当时他们的主推方向还是虚拟陪伴)。后来在WaytoAGI社区的ComfyUI共学中入了图流流的门,正处于跃跃欲试的亢奋中,看到啥流都会仔细分析一番。这时候,Myshell的Hans跟我聊起他们新的战略项目,ShellAgent,这里需要两个关键技能,外层Agent的构建和内层ComfyUI的搭建。就这么巧。我刚好,也是刚刚凑齐。