Chat with Wiki - 如何做一个具身智能实体？

Answer

要实现具身智能实体，以下是一些关键方面：

空间智能：像人类看到桌上水杯能自动计算其位置和与周围事物的关系并预测后续情况一样，具身智能实体也应具备这种能力，将感知与行动联系起来，例如特斯拉的 FSD 以及英伟达的 GR00T 项目。
通用智能体特征：能在开放世界中探索，拥有海量世界知识，并能执行无数任务。
与环境的互动：无论是在物理世界还是数字世界，具身智能实体都需要感知、交互、主动获取数据、主动犯错、主动迭代、收集和反馈。
对工具的理解和使用：有效使用工具的前提是全面了解工具的应用场景和调用方法，通过学习如从示范中学习和从奖励中学习等方法，利用环境和人类的反馈做出调整。
感知物理世界：在物理世界中感知环境的难度较大，需要重点关注更底层的传感，包括视觉传感和触觉传感，充分感知和理解更多信息以进行决策。

需要注意的是，目前具身智能的实现仍面临诸多挑战，数字世界可能会先于物理世界取得突破。

Content generated by AI large model, please carefully verify (powered by aily)

References

[title]智变时代/全面理解机器智能与生成式AI加速的新工业革命[heading1]03智变- AI加速的行业变革[heading3]3.5 Agent走进物理世界当我们人类看到一个桌上的水杯，大脑就会自动计算它在三维空间中的位置，以及它与桌子和周围一切事物的关系，还会预测接下来会发生什么。行动的冲动是所有空间智能生命形式所固有的，它将感知与行动联系起来。一个具有空间智能的AI，它也能自动做类似的预测与行动冲动。空间智能将推动AI系统获得具身智能（Embodied Intelligence），能够像生物一样与环境互动，FSD就是典型的例子，现在Tesla正通过其改进版本来驱动Optimus机器人，Elon Musk在Tesla最近一次财报电话会上说今年底就计划让Optimus能够在Gigafactroy代替人类干点活。不过Nvidia有一个更宏大的计划，这是今年GTC上的One More Thing，他们计划推出GR00T项目，一个通用智能体（Foundation Agent）。其目标是为通用的人形机器人构建基础模型，使其能在不同实体之间迁移，训练过程类似OpenAI训练GPT-4，通过在海量环境中训练来获得通用性，这里就要用到我们在上一小节中提及的Isaac Sim来创造GPU加速的虚拟世界。Nvidia将通过它来以1000倍速运行物理模拟，生成无限复杂精细的虚拟世界，正所谓AI不用一天，人间就得一年。。这个项目的负责人Jim Fang在一次TED演讲上概括了通用智能体的三大特征：能在开放世界中探索；拥有海量世界知识；能执行无数任务；

质朴发言：大模型时代下的具身智能｜Z 沙龙第 5 期

[title]质朴发言：大模型时代下的具身智能｜Z沙龙第5期[heading1]#二、如何定义具身智能[heading2]2.1具身智能的具体定义是什么？大模型要解决的智能问题与具身智能要解决的核心问题的差异点是什么？我并不同意具身智能一定要是物理实体，它也可能是数字实体。比如在West World等场景中，我们完全可以有一个Agent纯数字载体。数字世界的载体同样需要去感知、交互、主动获取数据、主动犯错、主动迭代、收集和反馈。我认为，具身智能的实现与物理世界和数字世界没有特别大的关系。虽然大模型可能让这个问题看到了一些曙光，但并没有完全解决。也许更有可能的是，数字世界会先有所突破。比如，以前的非玩家角色（NPC）都是按照剧本来编写的，现在可能会更加自主、更加真实。所以，很有可能在未来10年内，机器人还在原地，而数字世界已经发展得很快。当然，作为做机器人创业者的我们，肯定希望借这一波机会推动机器人的小脑发展。另一位创业者分享了他对于数字智能、具身智能和传统智能机器人差异的看法：核心差异在于，具身智能在物理世界中感知环境的难度远大于数字智能在虚拟世界的难度。我出身于清华机械专业，从研究生一年级开始，我一直专注于智能机器人的研究。今年人工智能的火热让我发现，这两个领域实际上有着许多相似之处。我们当时做智能机器人的研究，也分为四个部分：感知、规划、决策、行动。第一步是先有传感。作为机械学院的一员，我在研究具身智能时，不仅关注感知，还会深入研究更底层的传感，包括视觉传感和触觉传感。我认为，如果你想与物理世界进行交互，那么最重要的就是你能够感知这个物理世界。这是物理具身智能与虚拟世界的一个最大区别和难点。例如，你在虚拟世界或游戏中，可以获得所谓的“完美观测”，但在真实世界中，你需要感知和理解更多的信息，这对你的决策可能会更重要。

AI-Agent系列(一)：智能体起源探究

[title]AI-Agent系列(一)：智能体起源探究[heading2]十、基于LLM的AI Agent[heading3]10.3行动模块（Action）理解工具：AI Agent有效使用工具的前提是全面了解工具的应用场景和调用方法。没有这种理解，Agent使用工具的过程将变得不可信，也无法真正提高AI Agent的能力。利用LLM强大的zero-shot learning和few-shot learning能力，AI Agent可以通过描述工具功能和参数的zero-shot demonstartion或提供特定工具使用场景和相应方法演示的少量提示来获取工具知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。在面对复杂任务时，单一工具往往是不够的。因此，AI Agent应首先以适当的方式将复杂任务分解为子任务，然后有效地组织和协调这些子任务，这有赖于LLM的推理和规划能力，当然也包括对工具的理解。使用工具：AI Agent学习使用工具的方法主要包括从demonstartion中学习和从reward中学习（清华有一篇从训练数据中学习的文章）。这包括模仿人类专家的行为，以及了解其行为的后果，并根据从环境和人类获得的反馈做出调整。环境反馈包括行动是否成功完成任务的结果反馈和捕捉行动引起的环境状态变化的中间反馈；人类反馈包括显性评价和隐性行为，如点击链接。具身智能在追求人工通用智能（AGI）的征途中，具身Agent（Embodied Agent）正成为核心的研究范式，它强调将智能系统与物理世界的紧密结合。具身Agent的设计灵感源自人类智能的发展，认为智能不仅仅是对预设数据的处理，更多地来自于与周遭环境的持续互动和反馈。与传统的深度学习模型相比，LLM-based Agent不再局限于处理纯文本信息或调用特定工具执行任务，而是能够主动地感知和理解其所在的物理环境，进而与其互动。这些Agent利用其内部丰富的知识库，进行决策并产生具体行动，以此改变环境，这一系列的行为被称为“具身行动”。