Chat with Wiki - 李飞飞智能体

Answer

李飞飞在 AI 领域尤其是具身智能方面有诸多研究和观点：

早在 2021 年 10 月，其团队发表在 Nature Communications 上的 Embodied Intelligence 论文研究了智能体的智能化程度与身体结构的关系。后续接受采访时，提到从识别图像的机器学习能力到解决复杂类人任务，具身智能可能迎来重大转变。
2024 年 11 月 26 日，李飞飞认为人工智能的下一步应从大型语言模型转向大型模型，强调视觉智能在理解和与世界互动中的重要性，计算机需要具备空间智能，能够建模、推理并在三维空间中互动。
李飞飞的 Voxposer 是具身智能产品之一，在不同任务和场景中展示了强大的能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

原文链接：https://mp.weixin.qq.com/s/EHtk5IsA7bNVrW_1J5q0-A来源：质朴发言发文时间：2024.01.12早在2021年10月，斯坦福的李飞飞团队发表在Nature Communications上的Embodied Intelligence论文Embodied intelligence via learning and evolution研究了智能体的智能化程度与身体结构的关系。在后续接受采访时，李飞飞提到过这样一个观点：从识别图像这样简单的机器学习能力，到学习如何解决复杂类人任务，具身智能可能会迎来一次重大转变。而LLM席卷全球后，将LLM接入机器人本体，是目前许多团队在做的尝试。LLM+VLM+机器人方案更被认为是通用知识、视觉智能和硬件操作的结合，让人看到具身智能的曙光。机器人和AI从业者们开始更加广泛探讨“大模型能给具身智能带来什么？”。由此，我们在1月6日举办了Z沙龙的第五期：大模型时代下的具身智能，这也是首期co-host形式。我们有幸与光速光合的朋友们一起邀请了许多产业界和学术界的朋友来到质朴发言，碰撞思想，交流观点。清华大学的研究人员在圆桌中分享了让人激动的学术进展，如“基于强化学习实现更强场景泛化能力的四足机器人”“精细操作上的触觉仿真，仿真环境渲染视觉效果迁移到真实世界”方向的最新成果。也有投资人们对谈Stanford最新的炒虾机器人Mobile ALOHA主创的收获。Google DeepMind的RT X、Figure.AI的场景化研究，也都在圆桌中有所讨论。还有一些具身智能从业者，和研究人员关心的点，在此罗列一些，方便大家结合目录使用：

2024 年历史更新（归档）

《[李飞飞：理解世界运作方式是AI的下一步，我们需要从大语言模型转向大世界模型](https://mp.weixin.qq.com/s/mYUau7QMt82rS_iE7TPFJg)》李飞飞认为，人工智能的下一步应从大型语言模型转向大型模型，强调视觉智能在理解和与世界互动中的重要性。计算机需要具备空间智能，能够建模、推理并在三维空间中互动。通过最新的AI技术，机器可以根据文本提示完成任务，并在虚拟环境中导航。未来，这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。《[吴恩达最新演讲——AI四大趋势](https://mp.weixin.qq.com/s/aZaOVVut-t1OenbidpFAjQ)》在吴恩达的主题演讲中，他探讨了智能体（AI Agents）和智能体推理（Agentic Reasoning）的崛起，强调非结构化数据的重要性。演讲指出，生成式AI使得应用开发速度大幅提升，快速实验成为创新的新路径，但同时带来了评估的挑战。吴恩达还提出了智能体AI的四大设计模式，并强调图像处理革命的潜力。他总结了四大趋势：加速的生成式工作流、工具优化的大模型、非结构化数据的重要性以及图像处理技术的发展。《[OpenAI主推的AI PDF工具，一年50万用户，团队只有5个人](https://mp.weixin.qq.com/s/ep4neZsa-q1a0awaQJthKA)》AI PDF是一款专注于处理PDF文件的工具，创始人Vicente Silveira认为小团队可以通过精细化功能在竞争中生存。尽管ChatGPT已允许用户上传PDF，AI PDF仍凭借支持多文件夹管理和用户特定需求，吸引了大量专业用户，如律师和研究员。团队通过聚焦特定用户群体和高效文档处理，取得了50万注册用户和3000名付费用户的成绩。

一篇具身智能的最新全面综述！（上）

最近，具身智能的概念很火。不论是这几天[稚晖君开源人形机器人全套图纸+代码](http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247686482&idx=1&sn=e38d9d5eedcb1355fb65f617812016ed&chksm=e87dc81fdf0a410991d12d60cf0354c1a35fe2e35593bd09c93649551627444d6b78e32a0bd9&scene=21#wechat_redirect)，引发圈内热议。还是各类具身智能产品，如李飞飞的Voxposer、谷歌的RT1和RT2、谷歌的RTX、字节跳动的Robot Flamingo、斯坦福的ACT和卡耐基梅隆的3D_diffuser_act，均在不同任务和场景中展示了强大的能力，并有潜力带来革命性的变革。那什么是具身智能呢？它又有什么用？一文带你了解。本文拆分为上下两篇，明天会更新下篇，聚焦人机交互、发展讨论。本文部分参考中国信息通信研究院和北京人形机器人创新有限公司的《具身智能发展报告》具身智能基本概念

李飞飞 智能体

Answer

References

李飞飞智能体