Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

李飞飞 智能体

Answer

李飞飞在 AI 领域尤其是具身智能方面有诸多研究和观点:

  • 早在 2021 年 10 月,其团队发表在 Nature Communications 上的 Embodied Intelligence 论文研究了智能体的智能化程度与身体结构的关系。后续接受采访时,提到从识别图像的机器学习能力到解决复杂类人任务,具身智能可能迎来重大转变。
  • 2024 年 11 月 26 日,李飞飞认为人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性,计算机需要具备空间智能,能够建模、推理并在三维空间中互动。
  • 李飞飞的 Voxposer 是具身智能产品之一,在不同任务和场景中展示了强大的能力。
Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言:大模型时代下的具身智能|Z 沙龙第 5 期

原文链接:https://mp.weixin.qq.com/s/EHtk5IsA7bNVrW_1J5q0-A来源:质朴发言发文时间:2024.01.12早在2021年10月,斯坦福的李飞飞团队发表在Nature Communications上的Embodied Intelligence论文Embodied intelligence via learning and evolution研究了智能体的智能化程度与身体结构的关系。在后续接受采访时,李飞飞提到过这样一个观点:从识别图像这样简单的机器学习能力,到学习如何解决复杂类人任务,具身智能可能会迎来一次重大转变。而LLM席卷全球后,将LLM接入机器人本体,是目前许多团队在做的尝试。LLM+VLM+机器人方案更被认为是通用知识、视觉智能和硬件操作的结合,让人看到具身智能的曙光。机器人和AI从业者们开始更加广泛探讨“大模型能给具身智能带来什么?”。由此,我们在1月6日举办了Z沙龙的第五期:大模型时代下的具身智能,这也是首期co-host形式。我们有幸与光速光合的朋友们一起邀请了许多产业界和学术界的朋友来到质朴发言,碰撞思想,交流观点。清华大学的研究人员在圆桌中分享了让人激动的学术进展,如“基于强化学习实现更强场景泛化能力的四足机器人”“精细操作上的触觉仿真,仿真环境渲染视觉效果迁移到真实世界”方向的最新成果。也有投资人们对谈Stanford最新的炒虾机器人Mobile ALOHA主创的收获。Google DeepMind的RT X、Figure.AI的场景化研究,也都在圆桌中有所讨论。还有一些具身智能从业者,和研究人员关心的点,在此罗列一些,方便大家结合目录使用:

2024 年历史更新(归档)

《[李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型](https://mp.weixin.qq.com/s/mYUau7QMt82rS_iE7TPFJg)》李飞飞认为,人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性。计算机需要具备空间智能,能够建模、推理并在三维空间中互动。通过最新的AI技术,机器可以根据文本提示完成任务,并在虚拟环境中导航。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。《[吴恩达最新演讲——AI四大趋势](https://mp.weixin.qq.com/s/aZaOVVut-t1OenbidpFAjQ)》在吴恩达的主题演讲中,他探讨了智能体(AI Agents)和智能体推理(Agentic Reasoning)的崛起,强调非结构化数据的重要性。演讲指出,生成式AI使得应用开发速度大幅提升,快速实验成为创新的新路径,但同时带来了评估的挑战。吴恩达还提出了智能体AI的四大设计模式,并强调图像处理革命的潜力。他总结了四大趋势:加速的生成式工作流、工具优化的大模型、非结构化数据的重要性以及图像处理技术的发展。《[OpenAI主推的AI PDF工具,一年50万用户,团队只有5个人](https://mp.weixin.qq.com/s/ep4neZsa-q1a0awaQJthKA)》AI PDF是一款专注于处理PDF文件的工具,创始人Vicente Silveira认为小团队可以通过精细化功能在竞争中生存。尽管ChatGPT已允许用户上传PDF,AI PDF仍凭借支持多文件夹管理和用户特定需求,吸引了大量专业用户,如律师和研究员。团队通过聚焦特定用户群体和高效文档处理,取得了50万注册用户和3000名付费用户的成绩。

一篇具身智能的最新全面综述!(上)

最近,具身智能的概念很火。不论是这几天[稚晖君开源人形机器人全套图纸+代码](http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247686482&idx=1&sn=e38d9d5eedcb1355fb65f617812016ed&chksm=e87dc81fdf0a410991d12d60cf0354c1a35fe2e35593bd09c93649551627444d6b78e32a0bd9&scene=21#wechat_redirect),引发圈内热议。还是各类具身智能产品,如李飞飞的Voxposer、谷歌的RT1和RT2、谷歌的RTX、字节跳动的Robot Flamingo、斯坦福的ACT和卡耐基梅隆的3D_diffuser_act,均在不同任务和场景中展示了强大的能力,并有潜力带来革命性的变革。那什么是具身智能呢?它又有什么用?一文带你了解。本文拆分为上下两篇,明天会更新下篇,聚焦人机交互、发展讨论。本文部分参考中国信息通信研究院和北京人形机器人创新有限公司的《具身智能发展报告》具身智能基本概念

Others are asking
李飞飞关于aigent的文章
以下是李飞飞关于 AIgent 的相关文章: 《对话"AI 教母"李飞飞:我们究竟需要什么样的 AI Agent?如何正确把握这个风口》:李飞飞在访谈中探讨了 AI Agent 的发展及其未来。她强调 AI Agent 应作为工具和赋能者,而非主导者,确保人们的自主性。李飞飞回顾了 ImageNet 的创立背景,并提到正在推动的“空间智能”概念,旨在理解和融合物理与数字三维世界。她认为,未来这两者的界限将逐渐模糊,从而带来更大变革。 《[李飞飞:理解世界运作方式是 AI 的下一步,我们需要从大语言模型转向大世界模型》:李飞飞认为,人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性。计算机需要具备空间智能,能够建模、推理并在三维空间中互动。通过最新的 AI 技术,机器可以根据文本提示完成任务,并在虚拟环境中导航。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。
2025-01-20
李飞飞 智能体综述
以下是关于李飞飞在智能体方面的相关综述: 李飞飞在具身智能领域有诸多研究和观点。其团队发表在 Nature Communications 上的 Embodied Intelligence 论文研究了智能体的智能化程度与身体结构的关系。李飞飞曾提到,从简单的机器学习能力到解决复杂类人任务,具身智能可能会迎来重大转变。 此外,2024 年 11 月 26 日有报道称,李飞飞认为人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性,计算机需要具备空间智能,能够建模、推理并在三维空间中互动。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。
2025-01-18
李飞飞最近出的agent综述文章哪里可以看到
以下是李飞飞相关文章的获取渠道: 《》 《》
2025-01-17
李飞飞提出的Agent AI的核心观点是什么
李飞飞提出的核心观点包括: 人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性,计算机需要具备空间智能,能够建模、推理并在三维空间中互动。 通过空间智能,AI 将理解真实世界,能够处理视觉数据,做出预测并根据这些预测采取行动。空间智能使机器不仅能够相互交互,还能与人类以及真实或虚拟的三维世界进行交互。
2025-01-13
李飞飞提出的空间智能是什么
李飞飞在其 TED 演讲中介绍了空间智能,认为空间智能能够赋予 AI 了解真实世界的能力。她将生物的视觉能力与寒武纪大爆发进行类比,指出数字寒武纪大爆发需要通过空间智能来实现。您可以通过以下链接获取更多详细信息: 原版视频:https://ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world 文字版翻译:https://xiaohu.ai/p/8105
2024-12-12
coze搭建智能体,用上传的文件和知识库的文件做对比,分析差异点。
以下是关于在 Coze 中搭建智能体的相关信息: 1. 证件照相关操作: 展示原图上传结果,基本脸型已换,生成效果与上传照片特征有关。 改背景可利用改图功能,一键改图效果更好,输出数据类型为图片。 豆包节点生成的是 URL 地址,与前者不同,在工作流使用有差异,可参考简单提示词。 介绍证件照工作流相关操作,包括通过提示词改背景颜色,设置输出方式为返回变量;讲解消耗 token 及保存结果相关问题;对按钮、表单添加事件并设置参数,限制上传文件数量;还涉及给表单和图片绑定数据,以及每次操作后刷新界面确保设置生效。 围绕操作讲解与优化展开,介绍 for meet 的设置,如表单事件操作、图片上传数量修改等,提及编程基础知识。还讲述成果图连接、绑定数据方法及注意事项。展示基本功能实现情况,分析换性别等问题成因,指出需在工作流优化提示词,也可尝试用视频模型解决,最后进入问答环节。 2. 多维表格的高速数据分析: 创建智能体,使用单 Agent 对话流模式。 编排对话流,创建新的对话流并关联智能体。 使用代码节点对两个插件获取的结果进行数据处理,注意代码节点输出的配置格式。 测试,找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。 发布,选择多维表格,配置输出类型为文本,输入类型选择字段选择器,完善上架信息,可选择仅自己可用以加快审核。 3. 智能体与微信和微信群的连接: 创建知识库,可选择手动清洗数据提高准确性,包括在线知识库和本地文档。 在线知识库创建时,飞书在线文档中每个问题和答案以分割,可编辑修改和删除。 本地文档中注意拆分内容提高训练数据准确度,如将课程章节按固定方式人工标注和处理。 发布应用,确保在 Bot 商店中能够搜到。
2025-04-18
想要做一节讲如何用智能体做企业数字化转型的课程,如何设计
以下是关于如何设计用智能体做企业数字化转型课程的建议: 一、参考案例 1. 李国宝的相关经验 具有丰富的从业经验,包括通信工程、数据通信网络培训、创业、网络安全解决方案及培训、AI 课程开发与培训等。 开发过面向不同群体的 AI 课程,如《数字化转型实践》面向传统企业数字化、AI 赋能转型。 2. 90 分钟从 0 开始打造你的第一个 Coze 应用课程 从零开始教学做应用界面,先基础教学,再涉及特定应用。 介绍当前承接业务,包括辅导、培训、定制及企业 AI 落地等。 挖掘用户对 AI 应用的功能需求,如对交互界面的需求。 二、课程设计要点 1. 对于企业管理者 AI 辅助决策:在小规模决策中使用 AI 分析工具,以其分析结果作为决策参考。 员工培训计划:制定 AI 工具使用的培训计划,帮助团队成员了解日常工作中如何有效利用 AI。 流程优化:识别公司中可能受益于 AI 自动化的重复性任务,从小流程开始测试 AI 解决方案的效果。 AI 伦理和政策:制定公司的 AI 使用政策,确保 AI 应用符合伦理标准和法律要求。 2. 对于教育工作者 AI 辅助教案设计:尝试使用 AI 帮助设计课程大纲或生成教学材料 ideas,为课程带来新视角。 个性化学习路径:探索使用 AI 分析学生学习数据,为不同学生制定个性化学习计划。 创新教学方法:考虑将 AI 工具整合到课堂活动中,如使用 AI 生成的案例研究或模拟场景。 AI 素养教育:开发简单的课程模块,教导学生了解 AI 基础知识、应用领域及其对社会的影响。 三、注意事项 无论面向哪个群体,都应记住:与 AI 协作是一个学习过程。从小处着手,保持好奇心和开放态度,会发现 AI 不仅能提高工作效率,还能激发创造力,开拓新的可能性。最重要的是,始终保持批判性思维,将 AI 视为强大的工具,而不是完全依赖的解决方案。
2025-04-18
你是福州市政府工作人员,中国移动拟邀请福州市委书记参加中国移动人工智能生态大会并致辞,该大会是第八届数字峰会的组成部分,需要撰写市委书记的致辞稿,需要中国移动准备哪些素材,请告诉我提示词
以下是为您整理的相关内容: 《促进创新的人工智能监管方法》:包含了关于通用人工智能价值链、相关案例研究以及对人工智能监管框架的探讨等内容。 陶力文律师关于律师写好提示词用好 AI 的方法:包括初始化的欢迎语、遵循的规则、获取案例洞察报告和目标群体、输出纲要和写作方案、根据用户反馈调整等流程。 开幕式主持稿:涉及基地代表发言的时间、主题、物料配合和人员配合等信息。 但这些素材似乎与为中国移动准备市委书记致辞稿所需的素材关联不大。一般来说,为撰写市委书记在中国移动人工智能生态大会上的致辞稿,中国移动可能需要准备以下素材: 1. 本次大会的详细介绍,包括主题、目标、议程安排等。 2. 中国移动在人工智能领域的发展成果、战略规划和未来愿景。 3. 中国移动人工智能生态的构建情况,如合作伙伴、合作项目等。 4. 本次大会在第八届数字峰会中的地位和作用。 5. 相关行业的人工智能发展现状和趋势。 6. 福州市在人工智能领域的发展情况和与中国移动合作的展望。
2025-04-18
AI Agents(智能体)
AI 智能体(Agents)是人工智能领域中一个重要的概念: 1. 从 AGI 的发展等级来看,智能体不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 2. 作为大模型的主要发展方向之一,智能体中间的“智能体”其实就是大模型(LLM)。通过为 LLM 增加工具、记忆、行动、规划这四个能力来实现。目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 3. 从智能体的起源探究来看,心灵社会理论认为智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,每个层次由多个 Agent 负责,每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务。同时存在专家 Agent、管理 Agent、学习 Agent 等不同类型的 Agent 及其相应功能。从达特茅斯会议开始讨论人工智能,到马文·明斯基引入“Agent”概念,“AI”和“Agent”就彻底聚齐,往后被称之为 AI Agent。
2025-04-15
人工智能软件现在有哪些
以下是一些常见的人工智能软件: 1. 在自然语言处理和神经科学应用方面,大型语言模型取得了进展,拥有更先进的工具用于解码大脑状态和分析复杂脑部活动。 2. 在艺术创作领域,有涉及知识产权保护的相关软件,如软件工程师在设计时应确保生成内容合法合规、注重用户知识产权保护等。创作者使用此类软件时,应了解自身权利并做好保护。 3. 在线 TTS 工具方面,如 Eleven Labs(https://elevenlabs.io/)、Speechify(https://speechify.com/)、Azure AI Speech Studio(https://speech.microsoft.com/portal)、Voicemaker(https://voicemaker.in/)等。这些工具可将文本转换为语音,具有不同的特点和适用场景。但请注意,相关内容由 AI 大模型生成,请仔细甄别。
2025-04-15
什么是通用人工智能
通用人工智能(AGI)是指具有人类水平的智能和理解能力的 AI 系统。它有能力完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。 目前 AGI 还只是一个理论概念,没有任何 AI 系统能达到这种通用智能水平。 OpenAI 在其内部会议上分享了 AGI 的五个发展等级: 1. 聊天机器人(Chatbots):具备基本对话能力的 AI,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者(Reasoners):具备人类推理水平的 AI,能够解决复杂问题,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 3. 智能体(Agents):不仅具备推理能力,还能执行全自动化业务的 AI。目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者(Innovators):能够协助人类完成新发明的 AI,如谷歌 DeepMind 的 AlphaFold 模型,可以预测蛋白质结构,加速科学研究和新药发现。 5. 组织(Organizations):最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 常见名词解释: AGI:通用人工智能(Artificial General Intelligence)能够像人类一样思考、学习和执行多种任务的人工智能系统。 NLP:自然语言处理(Natural Language Processing),就是说人话。 LLM:大型语言模型(Large Language Model),数据规模很大,没钱搞不出来,大烧钱模型。
2025-04-15