目前全世界较为厉害的视频视觉理解大模型有以下几个:
更重要的是,SkyReels-V1不仅支持文生视频、还能支持图生视频,是开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标实现开源SOTA。图1.SkyReels-V1文生视频指标对比(来源:昆仑万维SkyReels)能够实现这样的SOTA级别,不仅依赖于昆仑万维SkyReels团队基于自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影&电视剧&纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型,大幅提升视频中人物相关的理解能力,尤其是自研人物智能解析系统。综上所述,得益于扎实的数据工作和先进的人物智能解析系统,SkyReels-V1可以实现:影视化表情识别体系:11种针对影视戏剧中的人物表情理解,如不屑、不耐烦、无助、厌恶等表情的理解;人物空间位置感知:基于人体三维重建技术,实现对视频中多人的空间相对关系理解,助力模型生成影视级人物站位;行为意图理解:构建超过400种行为语义单元,实现对人物行为的精准理解;表演场景理解:实现人物-服装-场景-剧情的关联分析。SkyReels-V1不仅是全球极少数开源的视频生成模型,还是围绕人物表演、开源视频生成模型中性能最强的。
混元的语义理解,是我觉得在所有的AI视频大模型里,都能排到前列的。看这个Prompt:一只银渐层在游乐园里奔跑,跳到一个小女孩的怀里。看着简单,但是其实蛮多坑。银渐层、游乐园、奔跑、跳、小女孩、怀里。这些个关键词,其实都不好理解,更别提跑着跑着跳到小女孩怀里这种操作了。首先要准确识别出银渐层这个特定品种的猫,还得理解它在游乐园这个复杂场景中的运动轨迹。更难的是,模型需要精准捕捉从奔跑到跳跃的动作转换,还要准确把握跳入怀中这个互动场景的空间关系。这个能完美还原,就挺牛逼的。还有这个case:45度俯拍,一位紫衣女修在竹林中抚琴,琴音化作七彩音符在空中飘荡。翠竹摇曳,月光如水。虽然这个七彩音符加的吧,总会让我想起一些非常古早的渐变PPT,但是咱们忽略审美的事,你会发现,混元都给你还原出来了,45度俯拍、紫衣、抚琴。还有那句最重要的:琴音化作七彩音符在空中飘荡。你如果用其他AI视频都把这个Prompt跑一遍,你就知道,能精准的出现七彩音符这事,有多难了。还有一个我超级喜欢的case:星系边缘,宇宙战舰引爆反物质引擎。能量涟漪以光速扩散,撕裂周围星体。这个镜头,是我幻想过,在科幻片里看到的一幕。而现在,是由AI,给我精准的还原出来了。就是我心中的,奇点爆炸。
?Xiaohu.AI日报「12月31日」✨✨✨✨✨✨✨✨1⃣️?Pixverse V3.5模型发布全球最快的AI视频生成模型,Turbo模式下可在10秒内生成视频,最快仅需5-6秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能。具备顶尖动漫生成能力,仅需提示词即可快速生成动画画面。?[https://x.com/imxiaohu/status/1874093362032398471](https://x.com/imxiaohu/status/1874093362032398471)2⃣️?通义千问视觉理解模型降价最高降幅达85%。Qwen-vl-max输入价格降至0.003,输出价格降至0.009。对比Doubao vision Pro,输入价格也同为0.003。?[https://x.com/imxiaohu/status/1874084227568066608](https://x.com/imxiaohu/status/1874084227568066608)