Chat with Wiki - deepseek的论文里面讲的混合专家模型怎么理解

Answer

混合专家（MoE）模型是一种在深度学习中提升计算效率的架构。以 DeepSeek 为例，其最新模型 V3 与 R1 采用了这种架构。

在 DeepSeek 的 V3 模型中，引入了多头潜注意力（MLA），将 KV 缓存压缩至新低，从而提升了计算性能。R1 模型则通过强化学习激活推理能力，首次验证无需监督微调即可实现推理。

DeepSeek 的 2360 亿参数的 DeepSeek-V2 是 60 位专家混合开源模型，在数学、编码和推理方面表现出色，具有 236B 参数，21B 在生成过程中被激活，在 MT-Bench 上表现优异，中文能力强且性价比高。

您可以通过以下链接获取更详细的介绍：https://xiaohu.ai/p/7468 、https://zhuanlan.zhihu.com/p/21208287743 。

Content generated by AI large model, please carefully verify (powered by aily)

References

-提供4K分辨率的人类自由视角视频。-利用该技术将虚拟角色放入场景，实现沉浸式互动。?项目地址：http://vcai.mpi-inf.mpg.de/projects/holochar/?详细介绍：https://xiaohu.ai/p/74845️⃣?DeepSeek发布2360亿参数的DeepSeek-V2：-60位专家混合开源模型，数学、编码和推理表现出色。-236B参数，21B在生成过程中被激活。-在MT-Bench上表现优异，中文能力强且性价比高。?详细介绍：https://xiaohu.ai/p/74686️⃣?Google Gemini网络安全产品：-检测并防御网络钓鱼攻击。-结合广泛的用户和网络监控发现威胁。-利用AI分析功能生成情报报告。?详细：https://xiaohu.ai/p/74607️⃣?Wayve获超10亿美元C轮融资：-开发“驾驶GPT”基础模型，实现具身体智能自动驾驶。-使车辆在各种环境中操作，几乎无需人为干预。-使车辆与人类互动、学习并理解人类行为。?详细内容：https://xiaohu.ai/p/74538️⃣?CURE模型预测治疗结果：-利用300万患者数据进行预训练并针对特定健康状况微调。

XiaoHu.AI日报

2月7日社区动态速览

《[陈巍：DeepSeek是否有国运级的创新？从V3到R1的架构创新与误传的万字长文分析（上）](https://zhuanlan.zhihu.com/p/21208287743)》DeepSeek最新模型V3与R1采用混合专家（MoE）架构，显著提升计算效率，挑战OpenAI的闭源模型。V3引入多头潜注意力（MLA），将KV缓存压缩至新低，提升计算性能。R1则通过强化学习激活推理能力，首次验证无需监督微调即可实现推理。DeepSeek正以“国运级的创新”打破算力壁垒，开启大模型新时代。《[AI「视觉图灵」时代来了！字节OmniHuman，一张图配上音频，就能直接生成视频](https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w)》字节跳动推出的新技术OmniHuman，利用单张图片和音频生成生动的视频，突破了传统技术的局限。它通过多模态混合训练，解决了高质量数据稀缺的问题，实现了对任意尺寸图像的支持，生成自然的人物运动。《[甲子光年：2025 DeepSeek开启AI算法变革元年](https://waytoagi.feishu.cn/record/S5Jtrlw9neyXMccQ6CAcZsxHnXu)》DeepSeek的出现标志着算力效率拐点显现，其通过优化算法架构，显著提升了算力利用效率，打破了算力至上的传统认知。同时，AI基础大模型的参数量迎来拐点，2025年发布的大模型呈现低参数量特征，为本地化部署到AI终端运行提供了可能。此外，报告强调2025年是算法变革的元年，DeepSeek的推理模型开启了算法变革，其训练过程聚焦于强化学习，提升了模型的推理能力。