Chat with Wiki - 目前全世界最厉害的视频视觉理解大模型是哪个

Answer

目前全世界较为厉害的视频视觉理解大模型有以下几个：

昆仑万维的 SkyReels-V1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。
腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。
Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 - 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

更重要的是，SkyReels-V1不仅支持文生视频、还能支持图生视频，是开源视频生成模型中参数最大的支持图生视频的模型，在同等分辨率下各项指标实现开源SOTA。图1.SkyReels-V1文生视频指标对比（来源：昆仑万维SkyReels）能够实现这样的SOTA级别，不仅依赖于昆仑万维SkyReels团队基于自研的高质量数据清洗和人工标注管线，构建了千万级的高质量电影&电视剧&纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型，大幅提升视频中人物相关的理解能力，尤其是自研人物智能解析系统。综上所述，得益于扎实的数据工作和先进的人物智能解析系统，SkyReels-V1可以实现：影视化表情识别体系：11种针对影视戏剧中的人物表情理解，如不屑、不耐烦、无助、厌恶等表情的理解；人物空间位置感知：基于人体三维重建技术，实现对视频中多人的空间相对关系理解，助力模型生成影视级人物站位；行为意图理解：构建超过400种行为语义单元，实现对人物行为的精准理解；表演场景理解：实现人物-服装-场景-剧情的关联分析。SkyReels-V1不仅是全球极少数开源的视频生成模型，还是围绕人物表演、开源视频生成模型中性能最强的。

混元：腾讯视频模型

混元的语义理解，是我觉得在所有的AI视频大模型里，都能排到前列的。看这个Prompt：一只银渐层在游乐园里奔跑，跳到一个小女孩的怀里。看着简单，但是其实蛮多坑。银渐层、游乐园、奔跑、跳、小女孩、怀里。这些个关键词，其实都不好理解，更别提跑着跑着跳到小女孩怀里这种操作了。首先要准确识别出银渐层这个特定品种的猫，还得理解它在游乐园这个复杂场景中的运动轨迹。更难的是，模型需要精准捕捉从奔跑到跳跃的动作转换，还要准确把握跳入怀中这个互动场景的空间关系。这个能完美还原，就挺牛逼的。还有这个case：45度俯拍，一位紫衣女修在竹林中抚琴，琴音化作七彩音符在空中飘荡。翠竹摇曳，月光如水。虽然这个七彩音符加的吧，总会让我想起一些非常古早的渐变PPT，但是咱们忽略审美的事，你会发现，混元都给你还原出来了，45度俯拍、紫衣、抚琴。还有那句最重要的：琴音化作七彩音符在空中飘荡。你如果用其他AI视频都把这个Prompt跑一遍，你就知道，能精准的出现七彩音符这事，有多难了。还有一个我超级喜欢的case：星系边缘，宇宙战舰引爆反物质引擎。能量涟漪以光速扩散，撕裂周围星体。这个镜头，是我幻想过，在科幻片里看到的一幕。而现在，是由AI，给我精准的还原出来了。就是我心中的，奇点爆炸。

XiaoHu.AI日报

?Xiaohu.AI日报「12月31日」✨✨✨✨✨✨✨✨1⃣️?Pixverse V3.5模型发布全球最快的AI视频生成模型，Turbo模式下可在10秒内生成视频，最快仅需5-6秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能。具备顶尖动漫生成能力，仅需提示词即可快速生成动画画面。?[https://x.com/imxiaohu/status/1874093362032398471](https://x.com/imxiaohu/status/1874093362032398471)2⃣️?通义千问视觉理解模型降价最高降幅达85%。Qwen-vl-max输入价格降至0.003，输出价格降至0.009。对比Doubao vision Pro，输入价格也同为0.003。?[https://x.com/imxiaohu/status/1874084227568066608](https://x.com/imxiaohu/status/1874084227568066608)