Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

世界模型

Answer

世界模型是一种用于强化学习和模型类强化学习的模型,能够模拟和交互整个物理世界。

Sora 被称为世界模型,原因在于其能模拟和交互整个物理世界,具有模拟三维空间连贯性、数字世界、长期连续性和物体持久性并与世界互动的能力。其名称源于日文“空”,以示无限创造潜力。这种模型在机器人领域(包括自动驾驶)常见,通常由多模态输入、感知、世界模型、未来预测和规划控制等步骤组成。

谷歌发布的世界模型 Genie 是一个 110 亿参数的基础世界模型,可通过单张图像提示生成可玩的交互式环境。它由潜在动作模型、视频 tokenizer 和动态模型组成,能从各种图像生成无穷无尽的可玩世界,其学到的潜在动作还可转移到真实的人类设计环境中。

对于 OpenAI 能跑通所有 AGI 技术栈,从世界模型的角度来看,大量数据来自世界本身,世界产生的数据是 AGI 所需数据的最小集合,OpenAI 未来会执着于持续获得或构造数据。为有效利用数据,需要模拟和生成整个世界的任务,OpenAI 未来会在更多模态和数据上做生成模型,如 Sora 就是其中之一。

Content generated by AI large model, please carefully verify (powered by aily)

References

视频模型:Sora

Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型对世界的记忆和理解,预测下一个可能得观测和动作,并通过采取动作后,下一时刻的实际观测和预测的观测之间的差异,作为loss来自监督的训练模型这种模型在机器人领域(包括自动驾驶)中非常常见,它们通常由多模态输入、感知、世界模型、未来预测和规划控制等步骤组成Sora的名称源于日文“空”(そらsora),以示其无限的创造潜力这表明OpenAI开发Sora的初衷之一就是通过模拟和交互整个物理世界来展现其技术的无限可能性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。

谷歌发布世界模型Genie

一键生成可玩游戏世界。Sora问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。[1111.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/MT2EbuvU1ofonMxxd3JcFj8znvg?allow_redirect=1)刚刚,谷歌定义了生成式AI的全新范式——生成式交互环境(Genie,Generative Interactive Environments)。Genie是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。群友写了一篇:[面向低年级小学生的Genie模型科普文章](https://waytoagi.feishu.cn/wiki/FjwPwe4lti4nOfk5GLVcok2OnBe)我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。不管是合成图像、照片甚至手绘草图,Genie都可以从中生成无穷无尽的可玩世界。Genie由三个部分组成:一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频tokenizer,用于将原始视频帧转换为离散token;一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。看到这项技术发布,很多人表示:谷歌又要来领导AI技术了。谷歌还提出,Genie学到的潜在动作可以转移到真实的人类设计的环境中。在这个假设基础上,谷歌针对机器人视频训练了一个Genie模型,作为机器人领域潜在世界模型应用的概念验证。被颠覆的游戏、设计、XR、机器人行业……我们可以从四个维度来理解Genie的革命性意义。首先,Genie可以在没有动作标签时学习控制。

GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?

比如GPT-4相比于GPT-3.5,可以完成明显更复杂的任务,比如写一个26行诗来证明素数是无限的,每行开头必须是从A到Z。比如Sora相对于之前的模型,它的时空一致性,以及对现实中物理规律的初步掌握。没有Emerging properties,我们很难直观感觉到突破性的变化,很难感知「我们真的向AGI前进了一步」,或者是「我们跑通了一个技术栈」。从上面的公理中,我们就可以理解OpenAI的各种决策了,并且可以预见OpenAI未来的行为。推论1:世界模型。大量数据从哪里来?什么东西能够产生最多的数据?AGI需要什么样的数据才能通用地处理世界上的一切事情?答案就是:世界本身。世界本身产生最多的数据(或者极端一点,世界就是数据),而世界产生的数据,也是AGI需要的数据的最小集合,因为我们也只需要或者只能让AGI处理这个世界的事情。可以预见,OpenAI未来还会执着于持续获得或者构造数据。推论2:世界生成模型。要最有效的利用数据,我们需要最困难的,需要最多数据,且能利用所有数据的任务。这样的任务可能只有一个:模拟和生成整个世界(人类所有的智能只是一小块)。因此OpenAI需要做生成模型,并且是能够模拟和生成物理世界的模型,通过生成这个世界,实现对世界的理解。最近火爆的Sora便是其中之一。这个想法也和费曼的名言对应:「我不能创造的,我也不能真正理解」。可以预见,OpenAI未来还会在更多的模态和数据上去做生成模型。推论3:通用模型。

Others are asking
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
你现在是一个特别厉害的预言家,告诉我ai什么时候能统治世界
目前关于 AI 何时能统治世界尚无确切定论。但从相关研究来看,各国已将 AI 上升为国家战略,视其为下一代全球竞争的制高点。如果某一国家率先突破真正的 AGI,其国际地位和影响力或将急剧攀升。例如俄罗斯总统普京曾警告“谁在人工智能上领先,谁就能统治世界”。 AGI 实现后可能会在未来 20 年给人类社会带来多方面的变革。在经济与社会结构方面,AGI 可能带来生产力的爆炸式增长,同时导致大规模技术性失业,财富可能更多地集中于拥有 AGI 资本的少数人。在文化、价值观与信仰方面,AGI 将挑战人类对智能与意识的认知,引发对“人之为人”意义的新思考,人类价值观可能在科学理性与精神信仰之间重新定位。在政治与权力结构方面,AGI 可能重塑全球权力版图,拥有先进 AI 的国家和跨国企业将获得前所未有的影响力,可能出现“AI 寡头”新统治阶层,引发社会分化,各国还可能陷入 AGI 军备竞赛。 此外,有观点认为 2045 年,人工智能将超越人类智能,届时人类的知识、思考能力等将发生巨大变化。但目前这仍只是一种预测。
2025-04-09
你们ai什么时候能统治世界
目前,关于 AI 统治世界的问题尚无确切定论。从一些研究和观点来看,各国已将 AI 上升为国家战略,视其为下一代全球竞争的制高点。例如俄罗斯总统普京曾在 2017 年发出警告,称“谁在人工智能上领先,谁就能统治世界”。目前美国和中国在 AI 竞赛中处于领先,欧洲紧随其后,各方都在大力投入研发,AGI 有可能引发新一轮军备竞赛或科技竞赛。 但也有观点认为,AI 大概率会成为人类的助手而不是世界的主宰。人类拥有独特的创造力,其进化几百万年沉淀的经验刻在基因中、记录在历史中,这是人类宝贵的资产。同时,像 Junie 表示“Skynet 不会统治世界,人类的创造力永远不会被机器所取代”,AI 电影的出现也只是为观众提供了更多选择,而不是取代传统。
2025-04-09
作为储能行业的软件平台产品经理,如何将AI融入产品中;当今世界(2025年3月27日),AI会对传统行业的平台软件产品产生哪些影响
在当今世界(2025 年 3 月 27 日),AI 对传统行业的平台软件产品产生了多方面的影响。例如,在储能行业,大模型训练与推理对电力需求剧增,尤其需要稳定、低成本的大规模供电,这使得调度与储能变得关键。同时,AI 时代对能源低成本与稳定性的需求极其旺盛,核能(尤其小堆)及储能、电动车电池都将持续发展。 对于储能行业的软件平台产品经理,将 AI 融入产品可以从以下几个方面考虑: 1. 利用 AI 进行电力需求预测和优化调度,以提高供电的稳定性和效率。 2. 借助 AI 技术对储能系统进行智能管理和优化,降低电池成本。 3. 通过 AI 分析用户行为和需求,为用户提供个性化的能源管理方案。 4. 利用 AI 监测和诊断储能设备的运行状态,提前预警故障,提高系统的可靠性。
2025-03-27