Chat with Wiki - ai基本运行逻辑

Answer

AI 的基本运行逻辑包括以下方面：

大模型与语音技能 NLU 的差异：语音技能 NLU 是通过一系列规则、分词策略等训练而成，运作逻辑规律可观测，具有 if-else 式逻辑性；大模型凭借海量数据在向量空间中学习知识的关联性形成，运作逻辑难以观测，脱离了 if-else 的层面。
工作流中的应用：
- 代码相关：让大模型写代码，可将其输出的代码片段再输入回去让其检查准确性和结构规范性，若有两个 Agent 分别负责 Coding 和 Code Review，效果更佳。
- 工具利用：如 Kimi Chat 会在互联网上检索相关内容，基于检索结果总结分析并给出结论，其他工具为大模型在获取、处理、呈现信息上做额外补充。
- 任务规划：Agent 通过自行规划任务执行的工作流路径，面向简单或线性流程运行，例如先识别姿势，再利用相关模型合成新图像，最后进行语音合成输出等。

Content generated by AI large model, please carefully verify (powered by aily)

References

在深入了解了AI的运作原理，并盘了众多当前市面上AI的落地产品之后，我们不妨重新回到最开始的问题。此次AI大模型究竟引发了怎样的变革？在思考这个问题之前，我想先分享下去年刚接触大模型时，困扰我的一个问题。即大模型与当下的智能语音技能的NLU存在什么差异？此前，我也曾涉足过一些语音产品的设计逻辑，知道语音技能链路其实就是把声音转为ASR，再对文本进行NLU理解，然后映射到对应的语音技能表中，最后让程序依据相应的语音技能指令完成逻辑。乍看起来，大模型能实现的，通过语音技能似乎也能达成，那我们引入大模型的意义在哪里呢？抱着这样的疑问，我尝试去理解了大模型的原理。当我在初步理解大模型的原理之后，我发现二者还是存在本质性的差别的。差别在于，后者的语音技能NLU仅是通过一系列规则、分词策略等训练而成的产物。而且NLU的运作逻辑规律都是可观测的，具有if-else式的逻辑性。而大模型，则是凭借海量的数据，在向量空间中学习知识的关联性从而形成的，其运作逻辑难以观测，已然脱离了if-else的层面。

Inhai: Agentic Workflow：AI 重塑了我的工作流

反思在根本上其实是一个博弈的过程：如果你让大模型写一段代码，它会立刻给你反馈。这时你可以将它输出的代码片段再输入回去，让大模型仔细检查代码的准确性和结构规范性，并给出评论。然后，你可以将这些反馈结果再次输入给大模型，它可能会输出一个比第一版更好的代码，如果有两个Agent：一个负责Coding，另一个负责Code Review，效果会更佳。Tool Use如果大家使用Kimi Chat来查询某个问题，你会发现它会在互联网上检索相关内容，并基于检索结果进行总结分析，最后给出结论。这其实是大模型利用「网页搜索」工具的一个典型例子，同时你也会看到PPT中介绍了非常多的不同领域类型的工具，它其实是为大模型在获取、处理、呈现信息上做额外的补充。PlanningAgent通过自行规划任务执行的工作流路径，面向于简单的或者一些线性流程的运行。比如下图中：Agent会先识别男孩的姿势，并可能找到一个姿势提取模型来识别姿势，在接下来要找到一个姿势图像模型来合成一个新的女孩图像，然后再使用图像理解文本的模型，并在最后使用语音合成输出，完成这个流程任务。Multiagent Collaboration