Chat with Wiki - claude 3.7和deepseek r1比，能力怎么样

Answer

Claude 3.7 在多个方面表现出色。相较于 DeepSeek R1，除了数学方面，带有扩展思考模式的 Claude 3.7 在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色，拿下最高分。在多项基准测试中，“扩展思考”模式加持下的 Claude 3.7 在数学、物理、指令执行、编程等方面刷新了 SOTA，编码能力暴涨 10%以上，几乎完全碾压 o3-mini 和 DeepSeek R1，与 Grok 3 不相上下。宾夕法尼亚大学沃顿商学院的教授 Ethan Mollick 对 Claude 3.7 进行了测试，对其能力既惊叹不已又感到一丝不安。例如，Claude 3.7 能通过自然对话或文档获得可运行的程序，还能对需求进行预判和采用新方法思考，生成超出要求的成果。参考资料：https://www.anthropic.com/news/claude-3-7-sonnet https://x.com/alexalbert__/status/1894093648121532546 https://x.com/AnthropicAI/status/1894092430560965029 https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37

Content generated by AI large model, please carefully verify (powered by aily)

References

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

相较于最新Grok 3 Beta模型，Claude 3.7 Sonnet（64k extended thinking）在推理方面几乎打成平手。而在数学、视觉推理方面，又略逊色于Grok 3 Beta。与o3-mini、DeepSeek R1相比，除了数学，带有扩展思考模式的Claude 3.7 Sonnet拿下最高分。Claude 3.7 Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色，扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外，它甚至在宝可梦游戏测试中超越了所有先前模型AI编码智能体，一次完成45分钟任务

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

憋了大半年，Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场！这是Claude系列中，迄今为止最智能的模型，几乎能够及时响应，并进行可扩展的、逐步的思考。简言之，一个模型，两种思考方式。假设你想破解一个博弈论数学问题——蒙提霍尔问题，扔给Claude 3.7 Sonnet，然后同时选择「Extended」模式。它便会展示详细CoT过程，用时52秒就完成了。最关键的是，Claude 3.7 Sonnet目前所有人免费可用，目前「扩展思考」模式还没有上线。在多项基准测试中，「扩展思考」模式加持下的Claude 3.7 Sonnet，在数学、物理、指令执行、编程等刷新SOTA。相较于上一代Claude 3.5 Sonnet，数学、编码能力更是暴涨10%以上。除了数学，Claude 3.7 Sonnet（64k extended thinking）几乎完全碾压o3-mini，DeepSeek R1，与Grok 3不相上下。API用户可以精确控制模型的思考时间可以说，Claude 3.7 Sonnet完全是一个最强「软件工程AI」。在SWE-bench上，创下了70.3%的高分。与此同时，首款「智能体编程」工具Claude Code（预览版）也在今天问世了。如今，它已经成为Anthropic内部，不可或缺的工具。在早期测试中，Claude一次性就完成人类需要45分钟的任务。也就是说，你做产品经理，AI给你打工写代码。

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

宾夕法尼亚大学沃顿商学院的教授Ethan Mollick已经在过去几天对Claude 3.7进行了测试，Claude 3.7经常给他带来与第一次使用ChatGPT-4时相同的感觉：既惊叹不已，又对它们的能力感到一丝不安。以Claude的原生编码能力为例，我们现在可以通过自然对话或文档获得可运行的程序，而无需任何编程技能。例如，他向Claude提供了一份关于新型AI教育工具的提案，并在对话中要求它「以3D形式展示所提议的系统架构，并使其具有交互性」。结果，它生成了我们论文中核心设计的交互式可视化效果，没有任何错误。这些图形虽然很简洁，但并不是最令人印象深刻的部分。真正让人惊叹的是，Claude自主决定将其制作成一个逐步演示来解释相关概念，而这并不是我们要求它做的。这种对需求的预判和对新方法的思考是AI领域中的一项新突破。再举一个更有趣的例子，Ethan Mollick告诉Claude：「给我做一个交互式的时间机器装置，让我可以穿越回过去，并发生一些有趣的事情。挑选一些不寻常的时间点让我回去...」以及「添加更多图像。」仅仅这两条提示之后，就出现了一个功能齐全的交互式体验，甚至还配有粗糙但迷人的像素图像（这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像，而无法看到它正在创建的内容，就像一个被蒙住眼睛的艺术家。参考资料：https://www.anthropic.com/news/claude-3-7-sonnethttps://x.com/alexalbert__/status/1894093648121532546https://x.com/AnthropicAI/status/1894092430560965029https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37