以下是关于 OpenAI Operator 和 Anthropic Claude Coder 的相关信息:
2025 年 Agent 领域的发展预测:
其他相关信息:
主要的大语言模型:
计算机操作能力突破。传统的大模型更多充当聊天助手,回答问题或提供建议,而2025年的突破在于让Agent直接“动手”操作电脑和网络环境。Anthropic在2024年底发布的Claude 3.5 Sonnet首次引入“Computer Use”能力,即让AI像人一样通过视觉感知屏幕并操作鼠标键盘,从而在公开测试中实现了AI自主使用电脑的雏形。OpenAI在同期也推出了代号“Operator”的Agent及其核心模型“计算机使用智能体”(CUA),使GPT-4获得直接与图形界面交互的能力。CUA通过强化学习将GPT-4的视觉能力与高级推理相结合,训练AI可像人一样点击按钮、填表、滚动页面等。在OpenAI的测试中,CUA在浏览器任务基准WebArena和WebVoyager上分别达到38.1%和87%的成功率,后者已接近人类水平。这表明AI从“会对话”进化到“会操作”,迈出了关键一步。OpenAI的Operator现已作为研究预览提供给高端专业用户使用,每月订阅费用$200。尽管目前使用门槛较高,但官方计划逐步将此功能推广至普通Plus用户并集成进ChatGPT主界面。在Operator的演示中,用户只需提出诸如“帮我在网站上预订最高评价的罗马一日游”的任务,Agent就能自主打开浏览器、搜索并浏览旅游网站,下单预订相应产品。这种“行动型AI”**预示着未来数字助理将不仅能给出建议,而且可以直接“去做”,大幅拓宽了AI的应用边界。
?宝玉日报「1月25日」1⃣️?Deepseek提示词框架:包含四大模块:任务目的(Purpose)、计划规则(Planning Rules)、格式规则(Format Rules)、输出说明(Output)。该框架侧重清晰的任务分解与规则定义,但作者建议不要过度依赖框架,更重视上下文与任务简化。示例模板清晰描述了开发者背景、任务目标与规则细节。?[https://x.com/dotey/status/1883041528408318382](https://x.com/dotey/status/1883041528408318382)2⃣️?️Anthropic的“计算机使用”能力模型:Claude可通过屏幕截图获取计算机视觉信息,计算光标移动的像素坐标,并执行点击、滚动等操作。该模型结合了图像识别、推理和动作能力,可将用户指令转化为逻辑步骤并执行任务。经过少量软件训练后,Claude展现了快速适应和问题自我纠正的能力。?[https://x.com/richards_19999/status/1883006846656790898](https://x.com/richards_19999/status/1883006846656790898)?[https://x.com/dotey/status/1883009692852519062](https://x.com/dotey/status/1883009692852519062)3⃣️?OpenAI Operator的工作机制:Operator利用虚拟主机和Chrome浏览器,通过CUA实现网页实时操作,支持复杂任务导航。CUA的能力来源于GPT-4o的视觉处理和强化学习,能够处理屏幕截图、推理操作并生成屏幕控制指令。使用链式思考(CoT)迭代感知、推理、动作循环,完成操作或请求用户确认敏感任务。
前四个(包括Bing)都是OpenAI系统。今天有两大主要的OpenAI AI:3.5和4。3.5模型在11月启动了当前的AI热潮,4.0模型在春季首次发布,功能更强大。一个新的变种使用插件连接到互联网和其他应用程序。有很多插件,其中大部分不是很有用,但你应该随需要自由探索它们。Code Interpreter是一个非常强大的ChatGPT版本,可以运行Python程序。如果您从未为OpenAI付费,那么您只能使用3.5。除了插件变种和一个暂时停用的带有浏览功能的GPT-4版本之外,这些模型都没有连接到互联网。微软的Bing使用4和3.5的混合,通常是GPT-4家族中首个推出新功能的模型。例如,它既可以创建也可以查看图像,而且它可以在网页浏览器中阅读文档。它连接到互联网。[Bing使用有点奇怪,但功能强大。](https://oneusefulthing.substack.com/p/power-and-weirdness-how-to-use-bing)谷歌一直在测试自己的人工智能供消费者使用,他们称之为Bard,但是由各种基础模型驱动,最近是一个名叫PaLM 2的模型。对于开发出LLM技术的公司来说,他们非常令人失望,尽管昨天宣布的改进表明他们仍在研究基础技术,所以有希望。它已经获得了运行有限代码和解释图像的能力,但我目前通常会避免它。最后一家公司Anthropic发布了Claude 2。Claude最值得注意的是有一个非常大的上下文窗口-本质上是LLM的记忆。Claude几乎可以保存一整本书或许多PDF。与其他大型语言模型相比,它不太可能恶意行事,这意味着,在实际上,它倾向于对你做一些事情进行责骂。现在,来看看一些用途: