Sora 是 OpenAI 在 2024 年 2 月发布的文本到视频生成的 AI 模型。
其具有以下特点和相关情况:
不仅在AI领域,硬科技走到深水区后也是如此,绝大部分院士级的硬科技项目,哪个教授每天只睡3小时,然后把剩余时间100%投入创业的?我看到的都是,教授既不从高校离职,也没全情投入,所谓研发就是包给研究生干苦力,自己占大股。做得出来是自己的,做不出来继续享受学术圈的座上宾,一个不拉。真搞不出来,普通投资人敢动院士一根毫毛?这就是咱们该反思的,这种基础科学的学术环境下,怎么可能在源头保持竞争力?所以真正好人才,一半都去国外了。接下来进入正题,Sora足够惊艳毫无疑问,但关键问题仍需探讨。首先,Sora团队并没有明确的说,已经能实现基于成熟的世界因果关系模型,而是巧妙地用了世界模拟器这种描述,但共生关系和复杂世界运行背后的连续因果关系是两个层次。顶尖学术圈是很严谨的,即便奥特曼是资本运作和营销大师,也不会随便乱说。就在Sora发布后的2-3天,Lecun在世界政府峰会上就差指名道姓点出自己对Sora的不看好,指出这并不是真正的世界模型,并且仍会面临GPT4的巨大瓶颈。同样的,这样的学术大神也是爱惜自己名声的,如果真牛逼,人家不会吝啬,更不会如此坚定的不看好。涌现这个词也被用烂了。去年GPT刚出现涌现能力时,说实话哪怕大神也得掂量几分,坐等后续,结果呢?伴随而来的是海量、持续、难以解决的幻觉、精度问题,到今天依然无法解决。文生文、文生图片到底在全世界颠覆了什么产业?好像放眼全球也没看到哪个能解决过去长期人类痛点的全球规模化的商业应用,有么?2C的没有,2B的更没有。GPT4用周鸿祎的说法,影响力已经从原子弹变成茶叶蛋。
自从2022年11月ChatGPT发布以来,人工智能技术的出现标志着一个重大的转变,重塑了交互方式,并深入融入日常生活和行业的各个方面[1,2]。基于这一势头,OpenAI在2024年2月发布了Sora,一个文本到视频的生成式AI模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora的特点是能够在遵循用户文本指令的同时,生成长达1分钟的高质量视频[3]。Sora的进步体现了长期以来人工智能研究任务的实质,即赋予AI系统(或AI代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令,而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的AI模型。图2:Sora在文本到视频生成中的示例。文本指令被给予OpenAI Sora模型,它根据指令生成三个视频。Sora展示了准确解释和执行复杂人类指令的显著能力,如图2所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外,Sora的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力,克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI驱动创意工具向前的一大步,允许用户将文本叙述转换为丰富的视觉故事。总的来说,这些进步展示了Sora作为世界模拟器的潜力,为描绘场景的物理和上下文动态提供了细腻的见解。[3]。
Sora是一款由OpenAI在2024年2月发布的文本到视频生成的AI模型。该模型被训练用于根据文本指令生成现实或想象场景的视频,并展现出模拟物理世界的潜力。基于公开的技术报告和逆向工程,本文对该模型的背景、相关技术、应用、现存挑战和文本到视频AI模型的未来方向进行了全面的综述。我们首先追溯Sora的发展,并探究用于构建这一“世界模拟器”的底层技术。然后,我们详细描述了Sora在从电影制作和教育到市场营销等多个行业中的应用和潜在影响。我们讨论了需要解决的主要挑战和局限性,以便广泛部署Sora,例如确保安全且无偏见的视频生成。最后,我们讨论了Sora和一般视频生成模型的未来发展,以及该领域的进步如何能够实现新的人工智能交互方式,提高视频生成的生产力和创造力。图1:Sora:AI驱动视觉生成的突破。*平等贡献。顺序是通过掷骰子确定的。Chujie,Ruoxi,Yuan,Yue,和Zhengqing是在利哈伊大学LAIR实验室的访问学生。GitHub链接为https://github.com/lichao-sun/SoraReview†Lichao Sun是共同通讯作者:lis221@lehigh.edu