Chat with Wiki - 通义千问最新模型

Answer

通义千问最新模型情况如下：

发布了一个模型并开源了两个模型。
- Qwen2.5-Max：全新升级发布，比肩 Claude-3.5-Sonnet，几乎全面超越 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。是阿里云通义团队对 MoE 模型的最新探索成果，预训练数据超过 20 万亿 tokens。在多项公开主流模型评测基准上录得高分，开发者可在 Qwen Chat（https://chat.qwenlm.ai/）平台免费体验模型，企业和机构也可通过阿里云百炼平台直接调用新模型 API 服务。
- Qwen2.5-VL：全新视觉模型实现重大突破，增强物体识别与场景理解，支持文本、图表、布局分析，可处理长达 1 小时视频内容，具备设备操作的 Agent 能力。
- Qwen2.5-1M：推出 7B、14B 两个尺寸，在处理长文本任务中稳定超越 GPT-4o-mini，同时开源推理框架，在处理百万级别长文本输入时可实现近 7 倍的提速，首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中，7B 模型出现少量错误。在更复杂的长上下文理解任务中，Qwen2.5-1M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本，Qwen2.5-14B-Instruct-1M 模型不仅击败了 Qwen2.5-Turbo，还在多个数据集上稳定超越 GPT-4o-mini。

Content generated by AI large model, please carefully verify (powered by aily)

References

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

通义千问旗舰版模型全新升级发布1️⃣Qwen2.5-MaxQwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。通义千问深夜连续两个重大版本开源2️⃣Qwen2.5-VL全新视觉模型实现重大突破：增强物体识别与场景理解支持文本、图表、布局分析可处理长达1小时视频内容具备设备操作的Agent能力3️⃣Qwen2.5-1M超长文本处理能力显著提升：处理速度提升近7倍上下文长度扩展至100万tokens可处理约150万汉字（相当于2部《红楼梦》）[heading1]详解

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

通义千问旗舰版模型Qwen2.5-Max全新升级发布。Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果，预训练数据超过20万亿tokens。新模型展现出极强劲的综合性能，在多项公开主流模型评测基准上录得高分，全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。目前，开发者可在Qwen Chat（https://chat.qwenlm.ai/）平台免费体验模型，企业和机构也可通过阿里云百炼平台直接调用新模型API服务。模型性能全球领先Qwen2.5-Max在知识（测试大学水平知识的MMLU-Pro）、编程（LiveCodeBench）、全面评估综合能力的（LiveBench）以及人类偏好对齐（Arena-Hard）等主流权威基准测试上，展现出全球领先的模型性能。通义团队分别对Qwen2.5-Max的指令（Instruct）模型版本和基座（base）模型版本性能进行了评估测试。指令模型是所有人可直接对话体验到的模型版本，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

本次开源的Qwen2.5-1M大模型，我们推出7B、14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini；同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。这也是我们首次将开源Qwen模型的上下文扩展到1M长度。1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》[heading2]长文本处理能力[content]在上下文长度为100万Tokens的大海捞针（Passkey Retrieval）任务中，Qwen2.5-1M能够准确地从1M长度的文档中检索出隐藏信息，仅有7B模型出现了少量错误。对于更复杂的长上下文理解任务，通义官方选择了[RULER](https://github.com/hsiehjackson/RULER)、[LV-Eval](https://github.com/infinigence/LVEval)和[LongbenchChat](https://github.com/THUDM/LongAlign)，这些测试集也在[此博客](https://qwenlm.github.io/zh/blog/qwen2.5-turbo/#more-complex-long-text-tasks)中进行了介绍。从这些结果中，我们可以得出以下几点关键结论：1.显著超越128K版本：Qwen2.5-1M系列模型在大多数长上下文任务中显著优于之前的128K版本，特别是在处理超过64K长度的任务时表现出色。2.性能优势明显：Qwen2.5-14B-Instruct-1M模型不仅击败了Qwen2.5-Turbo，还在多个数据集上稳定超越GPT-4o-mini，因此可以作为现有长上下文模型的优秀开源替代。