Chat with Wiki - 目前全世界最厉害的对视频视觉理解能力大模型是哪个

Answer

目前在视频视觉理解能力方面表现出色的大模型有：

昆仑万维的 SkyReels-V1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。
通义千问的 Qwen2.5-VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT-4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

Content generated by AI large model, please carefully verify (powered by aily)

References

更重要的是，SkyReels-V1不仅支持文生视频、还能支持图生视频，是开源视频生成模型中参数最大的支持图生视频的模型，在同等分辨率下各项指标实现开源SOTA。图1.SkyReels-V1文生视频指标对比（来源：昆仑万维SkyReels）能够实现这样的SOTA级别，不仅依赖于昆仑万维SkyReels团队基于自研的高质量数据清洗和人工标注管线，构建了千万级的高质量电影&电视剧&纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型，大幅提升视频中人物相关的理解能力，尤其是自研人物智能解析系统。综上所述，得益于扎实的数据工作和先进的人物智能解析系统，SkyReels-V1可以实现：影视化表情识别体系：11种针对影视戏剧中的人物表情理解，如不屑、不耐烦、无助、厌恶等表情的理解；人物空间位置感知：基于人体三维重建技术，实现对视频中多人的空间相对关系理解，助力模型生成影视级人物站位；行为意图理解：构建超过400种行为语义单元，实现对人物行为的精准理解；表演场景理解：实现人物-服装-场景-剧情的关联分析。SkyReels-V1不仅是全球极少数开源的视频生成模型，还是围绕人物表演、开源视频生成模型中性能最强的。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

[heading4]Qwen2.5-VL模型-AI视觉智能体能力大幅增强[content]版本：3B、7B和72B三个尺寸版本主要优势：视觉理解能力：在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。视频理解能力：支持超1小时的视频理解，无需微调即可变身为AI视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的JSON格式输出。全面的文字识别和理解：提升OCR识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。Qwen特色文档解析：设计了更全面的文档解析格式，称为QwenVL HTML格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台：Huggingface：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5Modelscope：https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47Qwen Chat：https://chat.qwenlm.ai

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

本次开源的Qwen2.5-VL模型，推出3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。新的Qwen2.5-VL能够更准确地解析图像内容，突破性地支持超1小时的视频理解，无需微调就可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。[heading2]万物识别[content]Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。Prompt：What are these attractions?Please give their names in Chinese and English.Qwen2.5-VL：These attractions are:1.Top left:The Great Pyramids of Giza(埃及的吉萨大金字塔)2.Top right:The Great Wall of China(中国的长城)3.Bottom left:The Statue of Liberty(美国的自由女神像)4.Bottom right:The Terracotta Army(中国的秦始皇兵马俑)分析图像中的文本、图表、图标、图形和布局。