Chat with Wiki - OpenAI Operator, Anthropic Claude Coder

Answer

以下是关于 OpenAI Operator 和 Anthropic Claude Coder 的相关信息：

2025 年 Agent 领域的发展预测：

从对话助手到行动型智能体是 2025 年 Agent 技术的主流发展方向之一。计算机操作能力取得突破，传统大模型更多充当聊天助手，而 2025 年的突破在于让 Agent 直接“动手”操作电脑和网络环境。
- Anthropic 在 2024 年底发布的 Claude 3.5 Sonnet 首次引入“Computer Use”能力，让 AI 像人一样通过视觉感知屏幕并操作鼠标键盘，实现了 AI 自主使用电脑的雏形。
- OpenAI 在同期推出了代号“Operator”的 Agent 及其核心模型“计算机使用智能体”（CUA），使 GPT-4 获得直接与图形界面交互的能力。CUA 通过强化学习将 GPT-4 的视觉能力与高级推理相结合，训练 AI 可像人一样点击按钮、填表、滚动页面等。在 OpenAI 的测试中，CUA 在浏览器任务基准 WebArena 和 WebVoyager 上分别达到 38.1%和 87%的成功率，后者已接近人类水平。

其他相关信息：

宝玉日报 1 月 25 日：
- Deepseek 提示词框架包含四大模块：任务目的（Purpose）、计划规则（Planning Rules）、格式规则（Format Rules）、输出说明（Output）。
- Anthropic 的 Claude 可通过屏幕截图获取计算机视觉信息，计算光标移动的像素坐标，并执行点击、滚动等操作。
- OpenAI Operator 利用虚拟主机和 Chrome 浏览器，通过 CUA 实现网页实时操作，支持复杂任务导航。

主要的大语言模型：

OpenAI 系统包括 3.5 和 4 等，3.5 模型在 11 月启动了当前的 AI 热潮，4.0 模型在春季首次发布，功能更强大。新的变种使用插件连接到互联网和其他应用程序。Code Interpreter 是一个非常强大的 ChatGPT 版本，可以运行 Python 程序。未为 OpenAI 付费只能使用 3.5。微软的 Bing 使用 4 和 3.5 的混合，通常是 GPT-4 家族中首个推出新功能的模型，连接到互联网。
谷歌一直在测试自己的人工智能 Bard，由各种基础模型驱动，最近是 PaLM 2 模型。
Anthropic 发布了 Claude 2，其最值得注意的是有一个非常大的上下文窗口。

Content generated by AI large model, please carefully verify (powered by aily)

References

[趋势研究] 对比DR/AutoGLM - 2025年Agent领域的发展预测

计算机操作能力突破。传统的大模型更多充当聊天助手，回答问题或提供建议，而2025年的突破在于让Agent直接“动手”操作电脑和网络环境。Anthropic在2024年底发布的Claude 3.5 Sonnet首次引入“Computer Use”能力，即让AI像人一样通过视觉感知屏幕并操作鼠标键盘，从而在公开测试中实现了AI自主使用电脑的雏形。OpenAI在同期也推出了代号“Operator”的Agent及其核心模型“计算机使用智能体”（CUA），使GPT-4获得直接与图形界面交互的能力。CUA通过强化学习将GPT-4的视觉能力与高级推理相结合，训练AI可像人一样点击按钮、填表、滚动页面等。在OpenAI的测试中，CUA在浏览器任务基准WebArena和WebVoyager上分别达到38.1%和87%的成功率，后者已接近人类水平。这表明AI从“会对话”进化到“会操作”，迈出了关键一步。OpenAI的Operator现已作为研究预览提供给高端专业用户使用，每月订阅费用$200。尽管目前使用门槛较高，但官方计划逐步将此功能推广至普通Plus用户并集成进ChatGPT主界面。在Operator的演示中，用户只需提出诸如“帮我在网站上预订最高评价的罗马一日游”的任务，Agent就能自主打开浏览器、搜索并浏览旅游网站，下单预订相应产品。这种“行动型AI”**预示着未来数字助理将不仅能给出建议，而且可以直接“去做”，大幅拓宽了AI的应用边界。

宝玉日报

?宝玉日报「1月25日」1⃣️?Deepseek提示词框架：包含四大模块：任务目的（Purpose）、计划规则（Planning Rules）、格式规则（Format Rules）、输出说明（Output）。该框架侧重清晰的任务分解与规则定义，但作者建议不要过度依赖框架，更重视上下文与任务简化。示例模板清晰描述了开发者背景、任务目标与规则细节。?[https://x.com/dotey/status/1883041528408318382](https://x.com/dotey/status/1883041528408318382)2⃣️?️Anthropic的“计算机使用”能力模型：Claude可通过屏幕截图获取计算机视觉信息，计算光标移动的像素坐标，并执行点击、滚动等操作。该模型结合了图像识别、推理和动作能力，可将用户指令转化为逻辑步骤并执行任务。经过少量软件训练后，Claude展现了快速适应和问题自我纠正的能力。?[https://x.com/richards_19999/status/1883006846656790898](https://x.com/richards_19999/status/1883006846656790898)?[https://x.com/dotey/status/1883009692852519062](https://x.com/dotey/status/1883009692852519062)3⃣️?OpenAI Operator的工作机制：Operator利用虚拟主机和Chrome浏览器，通过CUA实现网页实时操作，支持复杂任务导航。CUA的能力来源于GPT-4o的视觉处理和强化学习，能够处理屏幕截图、推理操作并生成屏幕控制指令。使用链式思考（CoT）迭代感知、推理、动作循环，完成操作或请求用户确认敏感任务。

如何使用 AI 来做事：一份带有观点的指南

前四个（包括Bing）都是OpenAI系统。今天有两大主要的OpenAI AI：3.5和4。3.5模型在11月启动了当前的AI热潮，4.0模型在春季首次发布，功能更强大。一个新的变种使用插件连接到互联网和其他应用程序。有很多插件，其中大部分不是很有用，但你应该随需要自由探索它们。Code Interpreter是一个非常强大的ChatGPT版本，可以运行Python程序。如果您从未为OpenAI付费，那么您只能使用3.5。除了插件变种和一个暂时停用的带有浏览功能的GPT-4版本之外，这些模型都没有连接到互联网。微软的Bing使用4和3.5的混合，通常是GPT-4家族中首个推出新功能的模型。例如，它既可以创建也可以查看图像，而且它可以在网页浏览器中阅读文档。它连接到互联网。[Bing使用有点奇怪，但功能强大。](https://oneusefulthing.substack.com/p/power-and-weirdness-how-to-use-bing)谷歌一直在测试自己的人工智能供消费者使用，他们称之为Bard，但是由各种基础模型驱动，最近是一个名叫PaLM 2的模型。对于开发出LLM技术的公司来说，他们非常令人失望，尽管昨天宣布的改进表明他们仍在研究基础技术，所以有希望。它已经获得了运行有限代码和解释图像的能力，但我目前通常会避免它。最后一家公司Anthropic发布了Claude 2。Claude最值得注意的是有一个非常大的上下文窗口-本质上是LLM的记忆。Claude几乎可以保存一整本书或许多PDF。与其他大型语言模型相比，它不太可能恶意行事，这意味着，在实际上，它倾向于对你做一些事情进行责骂。现在，来看看一些用途：