以下为您提供几个 Agent 落地的具体案例:
我是个ComfyUI新人。在此之前更多的是使用Coze来做Agent,涉及到绘图的功能也是调用Coze的图像流来完成。但当时的图像流还挺弱的,我曾为了优化这个问题在Glif上做了若干个Bot,以插件调用API的方式来完成绘图功能的调用。Glif提供了一个有限节点集合的云端ComfyUI,带来了更多图像的玩法。这个过程让我也有些新的体会Coze的工作流和ComfyUI的图像流代表了在Agent内部这两个子领域最领先水平。但大多数同学是专注在其中一个领域中持续的精进。好处是在扎的够深才能做出真正落地的Agent。短期的短板另一块非常依赖平台或社区来建设弥补。举两个相对的例子:1.从熟悉Coze的同学视角,在Coze上有非常丰富的工作流节点和配套能力,开发助理类Bot非常便捷,但在流程中如果想出图自由度是不高的,几乎依赖平台的封装,或一些三方的插件。2.从熟悉ComfyUI的同学视角,ComfyUI有非常繁荣开源的节点和图像模型来完成高水平的图像,视频流。但流程本身的Agent含量不高,可能在反推图像信息会使用到Ollama等一些本地大模型。那其实我们只要从自己擅长的阵地向另一块阵地多迈出一步,就能揉合更整体的把控住在一个Agent中如何设计和运用各种节点来实现最终想要的,多掌握一些,限制就少一些。题外话:现在Coze将图像流的概念弱化拆解掉,可能也是认为优秀的Agent开发者,在一个Agent中使用工程节点和图像节点应该是灵活相通的,不需要过多设限。
为啥仍旧没有KillerApp出现?也没见啥Agent产品落地。一个是因为Agent不靠谱,二是Agent开发者不靠谱。很多人迷信GPT-5,反正我个人觉得Sam就是个大忽悠。上面那些东西,还能咋变?物理攻击变成魔法攻击?上面给了这麽多例子,来证明Agent能力的上限,很多部分受Tools能力影响,就是说,旧时代的业务能力。比如,携程订机票,我得有个携程的API接入能力吧?没有API,上哪去订,自己造个携程不成?除此之外,就是让模型去更准确地选择Tools以及更完美地生成api args!拿之前的keynote来说一下,应用的本质其实并没有太大变化。只不过以前是前端写页面来调API~现在是Agent自己来调API~再然后呢?workflow,把一些非通识的业务知识,设计好,让Agent来直接用。这是当前时间切片下最接近“人工”智能的方式,且最高性价比。毕竟,很多专业的业务know how,你都不一定知道,不要期待模型会知道。慢慢来吧~加油!
经过几天的深度测试,AutoGLM给我留下了深刻的印象。它让我看到了AI Agent真正落地的希望。还记得一年前,当我第一次尝试开发类似功能时,遇到的种种困境:API对接难、多模态识别差、操作不精准...这些问题让人觉得AI Agent离真正可用还很遥远。但AutoGLM用一种巧妙的方式解决了这些难题。它没有执着于传统的API集成路线,而是借助RPA的思路,通过模拟人类操作来实现跨应用的控制。这种方案虽然不完美,但确实让AI Agent从实验室走向了现实。在测试过程中,最让我惊喜的是它的场景理解能力。当我说"帮我买一杯咖啡"和"帮我买一包咖啡豆"时,它能准确地分别打开美团和淘宝。这不是简单的规则匹配能力可以实现的。它展现出了真正的智能理解能力,能够根据用户意图选择最合适的应用场景。当然,AutoGLM现在离好用还差很长的路。语音识别有时会出现偏差,复杂界面下的操作稳定性还需提升,只支持安卓也限制了不少用户。但这些都是可以通过技术迭代来解决的问题。重要的是,它已经证明了AI Agent落地是可行的。我特别欣赏智谱团队的产品思路。他们没有一上来就追求全能,而是选择了几个高频场景深耕细作。点外卖、写点评、看公众号,这些看似简单的日常操作,背后其实涉及复杂的技术难题。能把这些场景做好,已经足够证明产品的价值。展望未来,我觉得AutoGLM的发展空间还很大。随着多模态理解能力的提升,支持场景会越来越丰富;随着操作精准度的提高,用户体验会越来越自然。它的出现,或许会改变我们与手机交互的方式,就像当年第一款智能手机改变了我们的生活一样。