目前,在 AI Agent 领域,没有绝对意义上的“最好”的一款。以下为您介绍一些受到关注的 AI Agent:
需要注意的是,AI Agent 领域在不断发展,不同的 Agent 在不同的应用场景和任务中可能表现出不同的优势。
顺着推理引擎的思路,我们可以让LLM自己做自动化的多步骤推理,其间能自己使用搜索引擎,调用工具以及与其它LLM协作,Andrej的LLM OS中就包含了这些模块。最早实现这个想法原型的是AutoGPT还有BabyAGI两个开源的智能代理(AI Agent),就在去年GPT-4刚发布的时候,一时风靡全球科技圈,虽然产品非常原型和早期,但是它们给出了很好的解题思路。人类给出目标,LLM自己分解子目标,就像编程函数的递归调用那样,调用外部工具,自我评估任务是否完成,一步步实现整体目标。现在,随着LLM的推理能力和速度的提高,Agent的思路已经被很多创业公司还有科技巨头用到了自己的产品之中。例如,前段时间最受关注并且饱受非议的Devin,来自纽约的华人创业团队Cognition AI,可以像人类程序员一样自动写代码的Agent,你只需要告诉它你的需求就行,由于演示视频过于科幻,导致被人揭露造假。。行业的另一端,Google在今年的Next与I/O大会上,连续地发布了自己的Agent战略,并且把这个概念放在公司的AI Stack之上,Agent就是接下来Google App的衍生。配图2.05:Google Gemini Agent战略从客服Agent到员工Agent再到代码Agent,以及最新的Google Plan Search,可以自动化多步骤执行搜索任务的Agent。例如,你要找一下附近有折扣的理发店并帮你完成预约,那么新的Plan Search能理解你的需求,自动分解任务,然后调用Google Map还有其它工具,自动的完成你的请求。当然Google现在有底气这样做,还得仰仗Gemini 1.5 Pro的推理能力已经达到GPT-4的水平了。
Agentic Workflows是强大的工具,能够帮助自动化完成需要决策和推理的复杂任务。在本文中,我们回顾了AI Agents的核心组成部分,包括记忆、工具和推理能力,以及它们如何为Agentic Workflows做出贡献。我们还讨论了常见的工作流模式,如规划、工具使用和反思,这些模式可以单独或组合使用,以创建动态的工作流。此外,我们概述了两个特别有效的用例,Agentic RAG和Agentic Research Agents,并描述了市场上已有的两个AI Agents——Clay的Claygent和ServiceNow的AI Agents的工作流。最后,我们探讨了Agentic Workflows的优势,以及它们的局限性和挑战。AI Agents背后的技术以及我们对它们的理解都在不断发展。
虽然现在已经有全系大模型之力了,但免费版的Cursor只有chat功能,相当于你在侧边栏加了个大模型对话界面,生成出来的代码还要自己复制黏贴,相当不智能。要说Cursor有啥核心功能,我相信Yolo模式、Agent、Tab代码自动补全绝对能排上号。Agent和提示词的差别在于你只要给Agent一个模糊的指令,不需要把上下文交代清楚,它会自动帮你去规划、去解决问题。再聊聊Yolo模式和Agent,它们的共同点是允许用户通过自动化的方式一次性完成一系列操作,而它们之间核心区别是Agent的执行过程中需要用户确认,Yolo是一路绿灯,直接告诉你执行结果。上一步安装的cline可不只是为了给openrouter腾位置,Cline的定位是一个AI助手,而且Cline的能力是有保障的。从它长期霸榜OpenRouter token消耗榜就能看出大家对它的喜爱了。新版本的Cline还推出了检查点功能,将Agent执行前后的状态保存起来。也就是说你还可以收获一个平替的Yolo模式,让模型大胆去做,我随时可以恢复上一步。从官方教程上看,它的效果一定程度依赖于Claude Sonnet 3.5的能力。但实际体验下来DeepSeek-V3和Gemini 2.0 Flash Thinking能够作为相当不错的候选。这时候支持全系模型的优点也来了,根本不愁缺模型用。