世界模型是一种用于强化学习和模型类强化学习的模型,能够模拟和交互整个物理世界。
Sora 被称为世界模型,原因在于其能模拟和交互整个物理世界,具有模拟三维空间连贯性、数字世界、长期连续性和物体持久性并与世界互动的能力。其名称源于日文“空”,以示无限创造潜力。这种模型在机器人领域(包括自动驾驶)常见,通常由多模态输入、感知、世界模型、未来预测和规划控制等步骤组成。
谷歌发布的世界模型 Genie 是一个 110 亿参数的基础世界模型,可通过单张图像提示生成可玩的交互式环境。它由潜在动作模型、视频 tokenizer 和动态模型组成,能从各种图像生成无穷无尽的可玩世界,其学到的潜在动作还可转移到真实的人类设计环境中。
对于 OpenAI 能跑通所有 AGI 技术栈,从世界模型的角度来看,大量数据来自世界本身,世界产生的数据是 AGI 所需数据的最小集合,OpenAI 未来会执着于持续获得或构造数据。为有效利用数据,需要模拟和生成整个世界的任务,OpenAI 未来会在更多模态和数据上做生成模型,如 Sora 就是其中之一。
Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型对世界的记忆和理解,预测下一个可能得观测和动作,并通过采取动作后,下一时刻的实际观测和预测的观测之间的差异,作为loss来自监督的训练模型这种模型在机器人领域(包括自动驾驶)中非常常见,它们通常由多模态输入、感知、世界模型、未来预测和规划控制等步骤组成Sora的名称源于日文“空”(そらsora),以示其无限的创造潜力这表明OpenAI开发Sora的初衷之一就是通过模拟和交互整个物理世界来展现其技术的无限可能性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。
一键生成可玩游戏世界。Sora问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。[1111.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/MT2EbuvU1ofonMxxd3JcFj8znvg?allow_redirect=1)刚刚,谷歌定义了生成式AI的全新范式——生成式交互环境(Genie,Generative Interactive Environments)。Genie是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。群友写了一篇:[面向低年级小学生的Genie模型科普文章](https://waytoagi.feishu.cn/wiki/FjwPwe4lti4nOfk5GLVcok2OnBe)我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。不管是合成图像、照片甚至手绘草图,Genie都可以从中生成无穷无尽的可玩世界。Genie由三个部分组成:一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频tokenizer,用于将原始视频帧转换为离散token;一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。看到这项技术发布,很多人表示:谷歌又要来领导AI技术了。谷歌还提出,Genie学到的潜在动作可以转移到真实的人类设计的环境中。在这个假设基础上,谷歌针对机器人视频训练了一个Genie模型,作为机器人领域潜在世界模型应用的概念验证。被颠覆的游戏、设计、XR、机器人行业……我们可以从四个维度来理解Genie的革命性意义。首先,Genie可以在没有动作标签时学习控制。
比如GPT-4相比于GPT-3.5,可以完成明显更复杂的任务,比如写一个26行诗来证明素数是无限的,每行开头必须是从A到Z。比如Sora相对于之前的模型,它的时空一致性,以及对现实中物理规律的初步掌握。没有Emerging properties,我们很难直观感觉到突破性的变化,很难感知「我们真的向AGI前进了一步」,或者是「我们跑通了一个技术栈」。从上面的公理中,我们就可以理解OpenAI的各种决策了,并且可以预见OpenAI未来的行为。推论1:世界模型。大量数据从哪里来?什么东西能够产生最多的数据?AGI需要什么样的数据才能通用地处理世界上的一切事情?答案就是:世界本身。世界本身产生最多的数据(或者极端一点,世界就是数据),而世界产生的数据,也是AGI需要的数据的最小集合,因为我们也只需要或者只能让AGI处理这个世界的事情。可以预见,OpenAI未来还会执着于持续获得或者构造数据。推论2:世界生成模型。要最有效的利用数据,我们需要最困难的,需要最多数据,且能利用所有数据的任务。这样的任务可能只有一个:模拟和生成整个世界(人类所有的智能只是一小块)。因此OpenAI需要做生成模型,并且是能够模拟和生成物理世界的模型,通过生成这个世界,实现对世界的理解。最近火爆的Sora便是其中之一。这个想法也和费曼的名言对应:「我不能创造的,我也不能真正理解」。可以预见,OpenAI未来还会在更多的模态和数据上去做生成模型。推论3:通用模型。