DeepSeek 是一家总部位于中国杭州的科技公司,成立于 2023 年 9 月,专注于人工智能基础技术研究,致力于探索 AGI(通用人工智能)的实现路径,聚焦大模型研发与应用,提供高效、安全、可控的 AI 技术解决方案。2024 年 12 月发布的大语言模型 DeepSeek-V3 在人工智能界引发了震撼。
中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可能:550万美元和2000块英伟达H800 GPU(针对中国市场的低配版GPU)训练出的开源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等顶级开源模型,亦与GPT-4o和Claude 3.5-Sonnet这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达H100。可以想象它在人工智能界引发的震撼——尤其是在AI领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷AI领域的重要人士都不吝惜对DeepSeek的称赞,比如OpenAI联合创始人Andrej Kaparthy和Scale.ai的创始人Alexandr Wang。尽管OpenAI CEO Sam Altman发了一条疑似影射DeepSeek抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google发明的Transformer架构拿过来用么?),但DeepSeek收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。
?宝玉日报「1月31日」✨✨✨✨✨✨✨✨1⃣️?DeepSeek训练成本:训练成本远高于传闻的600万美元,总计约13亿美元。定价低于实际成本,导致高额亏损。Mixture-of-Expert方法降低计算需求,但大规模内存使用可能反而增加总成本。?总结:DeepSeek展示了AI领域的持续创新,但并未如传言般“颠覆”。?[https://x.com/dotey/status/1885368473364103402](https://x.com/dotey/status/1885368473364103402)?来源:[https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/](https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/)2⃣️??Mistral AI面临挑战:以低成本开发顶级AI模型,但被中国DeepSeek迅速赶超。曾获法国政府、英伟达、a16z等支持,估值达20亿美元。DeepSeek的“极简算力”模式可能削弱Mistral的竞争优势。?未来:或被科技巨头收购,或需要重新定位。?[https://x.com/dotey/status/1885226709152092573](https://x.com/dotey/status/1885226709152092573)3⃣️⚡扎克伯格:AI变革在即!
DeepSeek(深度求索)是一家专注于人工智能基础技术研究的科技公司,致力于探索AGI(通用人工智能)的实现路径。公司背景成立时间:2023年9月总部:中国杭州定位:聚焦大模型研发与应用,提供高效、安全、可控的AI技术解决方案。