Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek v3

Answer

DeepSeek V3 相关信息如下:

  • 如果 V-3 是 DeepSeek 的 GPT-3 时刻,接下来的发展充满未知,但有趣的事还在后头,DeepSeek 应会为全人类的人工智能事业做更大贡献,其秘方是硅谷味儿的。
  • 作为中国杭州的人工智能创业公司,DeepSeek 在 2024 年 12 月发布的大语言模型 DeepSeek-V3 实现了诸多不可能,以 550 万美元和 2000 块英伟达 H800 GPU 训练出的开源模型,多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等顶级开源模型,与 GPT-4o 和 Claude 3.5-Sonnet 等世界顶级闭源模型不相上下。尽管 OpenAI CEO Sam Altman 发疑似影射其抄袭的推文,但 DeepSeek 收获广泛真诚赞誉,尤其在开源社区。
  • 12 月 27 日发布预览版,参数量 685B,磁盘占用 687.9GB,架构为混合专家模型(MoE),256 个专家,每个 token 使用 8 个专家,竞争对手为 Meta AI 的 Llama 3.1(405B 参数)。亮点包括准确理解复杂和细微查询、知识更新至 2023 年、多语言支持和个性化服务增强、数据安全和隐私保护加强,在 BigCodeBench-Hard 排名第一。Aider Polyglot 排行榜预览得分 48.4%,排名第二。相关链接包括详细信息:https://x.com/imxiaohu/status/1872182632584561056 ,模型下载:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main ,在线体验:https://chat.deepseek.com/sign_in 。
  • Google 外包人员通过多项指标对 Gemini 和 Claude 进行输出对比,Claude 安全策略最严格,拒绝不安全提示,Gemini 部分回答被标记为“严重安全违规”。
Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

如果V-3真的是DeepSeek的GPT-3时刻,那接下来将发生什么?是DeepSeek的GPT-3.5——也就是ChatGPT时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek应该不会永远是一个“计算机系Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。无论如何,DeepSeek已经是中国最全球化的AI公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。

DeepSeek 的秘方是硅谷味儿的

中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可能:550万美元和2000块英伟达H800 GPU(针对中国市场的低配版GPU)训练出的开源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等顶级开源模型,亦与GPT-4o和Claude 3.5-Sonnet这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达H100。可以想象它在人工智能界引发的震撼——尤其是在AI领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷AI领域的重要人士都不吝惜对DeepSeek的称赞,比如OpenAI联合创始人Andrej Kaparthy和Scale.ai的创始人Alexandr Wang。尽管OpenAI CEO Sam Altman发了一条疑似影射DeepSeek抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google发明的Transformer架构拿过来用么?),但DeepSeek收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。

XiaoHu.AI日报

?Xiaohu.AI日报「12月27」✨✨✨✨✨✨✨✨1⃣️?Deepseek v3预览版发布参数量:685B,磁盘占用:687.9 GB架构:混合专家模型(MoE),256个专家,每个token使用8个专家竞争对手:Meta AI的Llama 3.1(405B参数)✨亮点:理解能力提升:准确理解复杂和nuanced查询知识更新至2023年,提供更及时、更相关的信息多语言支持和个性化服务增强数据安全和隐私保护加强在BigCodeBench-Hard排名第一?评分情况:Aider Polyglot排行榜预览得分48.4%,排名第二,仅次于o1-2024-12-17(high)。领先于Claude 3.5 Sonnet-20241022和Gemini Exp-1206。?详细信息:[https://x.com/imxiaohu/status/1872182632584561056](https://x.com/imxiaohu/status/1872182632584561056)?模型下载:[https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main)?在线体验:[https://chat.deepseek.com/sign_in](https://chat.deepseek.com/sign_in)2⃣️?Google使用Claude对比测试GeminiGoogle外包人员通过多项指标对Gemini和Claude进行输出对比Claude安全策略最严格:拒绝不安全提示,例如角色扮演或特定不合规请求Gemini的部分回答被标记为“严重安全违规”

Others are asking
deepseek官方教程
以下是关于 DeepSeek 的官方教程相关信息: 火山方舟 DeepSeek 申请免费额度教程,包含多种 API 使用方式,如飞书多维表格调用、Coze 智能体调用、浏览器插件调用。可以使用邀请码 D3H5G9QA,通过邀请链接 https://www.volcengine.com/activity/deepseek?utm_term=202502dsinvite&ac=DSASUQY5&rc=D3H5G9QA 邀请可拿 3000 万 tokens,畅享 671B DeepSeek R1,活动截止至北京时间 20250218 23:59:59。同时,火山方舟大模型服务平台的模型服务计费文档有更新,DeepSeekR1、V3 模型分别提供了 50 万免费额度和 API 半价活动。 有关于一线教师的 AI 需求与高效工具推荐,如让模型创作诗歌、生成宣传标语、提示库(https://apidocs.deepseek.com/zhcn/promptlibrary)、代码解释、内容分类、角色扮演(自定义人设)、散文写作、文案大纲生成、模型提示词生成等。 2 月 14 日的社区动态中,有《突破 DeepSeek R1 能力天花板,火山引擎扣子+飞书一站式企业解决方案》《羊毛快薅|字节火山上线了 DeepSeek 系列模型并悄悄更改了模型服务价格...》等内容,还附上了飞书多维表格、Coze 的接入使用方法等。此外,还有关于 DeepSeek 关键 9 篇论文及创新点的讲解,以及 DeepSeek 官方发布的 R1 模型推荐设置。
2025-04-15
我想让DEEPSEEK帮我写一篇论文,题目已经定好了,怎么给他输入指令
以下是给 DeepSeek 输入指令以帮助您写论文的一些建议: 1. 采用结构化提示词: 优先保留专业领域术语和技术词汇,这些术语通常具有高信息价值。 对不同类型的信息设置权重,按优先级排序:任务定义>关键约束>专业术语>定量信息>方法论>背景。 以完整语义单元为基本保留单位,而非单个词语,确保压缩后的内容仍保持语义完整性。 避免详细指导思考过程,让模型自主生成思维链。 2. 高阶能力调用: 文风转换矩阵:例如“用鲁迅杂文风格写职场 PUA 现象”“将产品说明书改写成《史记》列传格式”“把这篇论文摘要翻译成菜市场大妈能听懂的话”。 领域穿透技术:如行业黑话破解“解释 Web3 领域的'胖协议瘦应用'理论”。 3. 场景化实战策略: 创意内容生成。 技术方案论证。 4. 效能增强技巧: 对话记忆管理:包括上下文锚定(如“记住当前讨论的芯片型号是麒麟 9010”)、信息回溯(如“请复述之前确认的三个设计原则”)、焦点重置(如“回到最初讨论的供应链问题”)。 输出质量控制:针对过度抽象、信息过载、风格偏移等问题,使用相应的修正指令。 5. 特殊场景解决方案: 长文本创作:可采用分段接力法,如“先完成故事大纲→逐章扩展→最后进行伏笔校验”“确保新章节与前文的三处细节呼应”。 敏感内容处理:使用概念脱敏法(如“用经济学原理类比说明网络审查机制”)或场景移植法(如“假设在火星殖民地讨论该议题”)。 在输入指令时,您需要清晰明确地描述论文的题目、研究目的、主要论点、关键论据、期望的结构和风格等重要信息,以便 DeepSeek 能够为您生成符合要求的内容。
2025-04-14
coze搭建工作流调用deepseek如何把模型的输出存入到多维表中
以下是将模型的输出存入到多维表中的步骤: 1. 逐步搭建 AI 智能体: 搭建整理入库工作流。 设置大模型节点提取稍后读元数据,使用 MiniMax 6.5s 245k,设置最大回复长度至 50000,以确保能完整解析长内容网页。 进行日期转时间戳,后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳,需要使用「日期转时间戳time_stamp_13」插件进行格式转化。 把稍后读元数据转换为飞书多维表格插件可用的格式,飞书多维表格插件目前(2024 年 08 月)只支持带有转义符的 string,以 Array<Object>格式输入,所以必须将之前得到的元数据数组进行格式转换。 添加「飞书多维表格add_records」插件,只需要设置{{app_token}}与{{records}}参数,将元数据写入飞书表格。 2. 搭建 Coze 工作流: 打开 Coze 的主页,登录后,在【工作空间】创建一个智能体。 在编排页面,给智能体编辑好人设,可先写一个简单的,然后点右上角自动优化,系统会自动补全更精细的描述。点击工作流的+,创建一个工作流。 大模型节点把 input 给到 DeepSeek,让 DeepSeek 按照提前规定的输出框架生成对应文案。 生图节点将输出给到图像生成组件画图。 结束输出时,两个输出给到最终的 end 作为最终的输出。注意在编写系统提示词时,如果需要 input 可被 DeepSeek 调用,需要用{{input}}作为参数引入,不然大模型不知道自己需要生成和这个 input 相关的结果。编排完,点击【试运行】,调试至满意后点击发布。
2025-04-14
Deepseek自动生成网站前端页面
以下是关于 DeepSeek 自动生成网站前端页面的相关内容: DeepSeek v3 能力更新后虽能生成炫目的前端页面,但多为静态且实用性有限。可结合飞书多维表格将生成的漂亮前端变为真实的系统,如【智能作业分发系统】。 该系统整体包括用户登陆(可加飞书调查表二维码实现注册)、作业类型、作业详情(含连连看游戏、AI 智能问答、考试系统)。其实现逻辑为用户登陆系统后进入页面看到老师分配的作业分类,选择分类进入作业详情页面,详情页有学习单词发音及三个模块。 对于小白,可用飞书作数据源,通过飞书 API 接口获取内容,用 DeepSeek v3 制作前端+后端(用 Trae 更方便)。获取请求参数时,测试成功后的示例代码中有完整的请求参数和请求体可直接复制使用。创建前后端时,若用 DeepSeek 官网搭建需按代码目录结构创建对应文件(用 Trae 可省略),首次运行可能遇到飞书 API 未正确配置 CORS 导致浏览器拦截请求的问题,V3 会给出修改意见。 此外,Same dev 能像素级复制任意 UI 界面并生成前端代码,支持多种文件格式和技术栈代码,但免费额度消耗快,网站被谷歌标记。360 智脑复现了 DeepSeek 强化学习效果并发布开源模型 LightR114BDS。 AI 时代生存法则:会提需求比会写代码更重要,会开脑洞比会复制粘贴更值钱,真正的大佬都是让 AI 当乙方!
2025-04-13
deepseek写论文
以下是关于 DeepSeek 在不同方面应用的相关信息: 应用场景:包括脑爆活动方案、会议纪要、批量处理客户评论、分析总结复盘内容、生成专业软件使用过程、写小说框架、写论文、写文案、写小红书笔记、写周报、做设计头脑风暴、做网站、分析感情问题等。 优势与不足:在写文方面全面领先,但长文可能太发散、文风用力过猛导致审美疲劳,且模型多样性不够,相同 prompt 提问多次答案雷同。 应对策略:写理性文章时,可先与 DeepSeek 讨论思路,再用 Cloud 3.5 批量生成;用 O1 模型对创作的字数控制有一定效果,也可通过多轮对话让 AI 增删改查来调整字数。 创作相关:模仿特定小说家的文学方式创作小说,需在提示词中描述文风特征;邀请大家在腾讯频道发布用 AI 写的小说并鉴赏。 发展历程:DeepSeek 历时 647 天在大语言模型(LLM)领域取得突破,发布 13 篇论文。谷歌 CEO 坦言 Deep Seek 的突破标志着 AI 的全球化进程。
2025-04-13
使用Deepseek写论文有哪些固定指令模板
以下是使用 DeepSeek 写论文的一些指令模板: 1. 进阶控制技巧: 思维链引导: 分步标记法:请逐步思考:1.问题分析→2.方案设计→3.风险评估 苏格拉底式追问:在得出最终结论前,请先列举三个可能存在的认知偏差 知识库调用: 领域限定指令:基于 2023 版中国药典,说明头孢类药物的配伍禁忌 文献引用模式:以 Nature 2022 年发表的论文为参考,解释 CRISPRCas9 最新突破 多模态输出 2. 高级调试策略: 模糊指令优化: 问题类型:宽泛需求 修正方案:添加维度约束 示例对比:原句:“写小说”→修正:“创作以 AI 觉醒为背景的悬疑短篇,采用多视角叙事结构” 问题类型:主观表述 修正方案:量化标准 示例对比:原句:“写得专业些”→修正:“符合 IEEE 论文格式,包含 5 项以上行业数据引用” 迭代优化法: 首轮生成:获取基础内容 特征强化:请加强第三段的技术细节描述 风格调整:改用学术会议报告语气,添加结论部分 最终校验:检查时间逻辑一致性,列出可能的事实性错误 3. 核心原理认知: AI 特性定位: 多模态理解:支持文本/代码/数学公式混合输入 动态上下文:对话式连续记忆(约 8K tokens 上下文窗口,换算成汉字是 4000 字左右) 任务适应性:可切换创意生成/逻辑推理/数据分析模式 系统响应机制: 采用意图识别+内容生成双通道 自动检测 prompt 中的:任务类型/输出格式/知识范围 反馈敏感度:对位置权重(开头/结尾)、符号强调敏感 4. 基础指令框架: 四要素模板 格式控制语法: 强制结构:使用```包裹格式要求 占位符标记:用{{}}标注需填充内容 优先级符号:>表示关键要求,!表示禁止项 5. 高阶能力调用: 文风转换矩阵: 作家风格移植:“用鲁迅杂文风格写职场 PUA 现象” 文体杂交:“将产品说明书改写成《史记》列传格式” 学术口语化:“把这篇论文摘要翻译成菜市场大妈能听懂的话” 领域穿透技术:行业黑话破解→“解释 Web3 领域的‘胖协议瘦应用’理论” 商业决策支持 6. 场景化实战策略: 创意内容生成 技术方案论证 7. 效能增强技巧: 对话记忆管理: 上下文锚定:“记住当前讨论的芯片型号是麒麟 9010” 信息回溯:“请复述之前确认的三个设计原则” 焦点重置:“回到最初讨论的供应链问题” 输出质量控制: 问题类型:过度抽象 修正指令:“请具体说明第三步操作中的温度控制参数” 问题类型:信息过载 修正指令:“用电梯演讲格式重新组织结论” 问题类型:风格偏移 修正指令:“回归商务报告语气,删除比喻修辞” 8. 特殊场景解决方案: 长文本创作: 分段接力法:“先完成故事大纲→逐章扩展→最后进行伏笔校验”“确保新章节与前文的三处细节呼应” 敏感内容处理: 概念脱敏法:“用经济学原理类比说明网络审查机制” 场景移植法:“假设在火星殖民地讨论该议题”
2025-04-13
deepseek v3微调
以下是关于 Deepseek V3 微调的相关信息: 云舒文章总结卡 2.0 提示词全面支持 Deepseek V3,效果媲美 Claude3.7。V3 需要为 0324 更新的版本,DS 官网及 API 已更新,如调用其它平台 API 需要查看 DS 版本号。提示词复制链接:。横版为 1080 x 800 卡片提示词,竖版为 750 x 不限高卡片提示词。 各平台均需下载 html 文件,打开后才能查看真实效果,平台自带预览因兼容性问题无法正常展示效果。Claude 使用平台包括 Claude3.7 官网、API、Cursor,使用时需要下载为 HTML 文件打开查看效果。Deepseek 使用平台包括 Deepseek 官网、API(V3 需要为 0324 更新的版本),Deepseek 需要复制代码到 html 文件里,然后保存进行查看。 关于智能纪要,会带着大家复现模型的蒸馏和微调,并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面。 北京时间 00:30 至 08:30 期间,DeepSeek API 价格大幅下调,DeepSeekV3 降至原价的 50%。
2025-04-12
配置“DeepSeek-R1”模型的 API key:基础 URL:https://ark.cn-beijing.volces.com/api/v3 ,填好之后,点击保存,关掉提醒弹窗。添加“DeepSeek-R1”模型。这个行为在Macbook中怎么操作,请进行指导,通过图片、文字、数据、网址等形式
在 Macbook 中配置“DeepSeekR1”模型的 API key 及添加模型的操作步骤如下: 1. 获取 DeepSeekR1 满血版密钥: 注册并登录火山引擎,点击立即体验进入控制台:https://zjsms.com/iP5QRuGW/ 。 创建一个接入点,点击在线推理创建推理接入点。 为接入点命名为 DeepSeekR1。若提示“该模型未开通,开通后可创建推理接入点”,点击“立即开通”,勾选全部模型和协议一路开通(免费)。 确认无误后,点击“确认接入”按钮。 自动返回创建页面,复制多出的接入点名称“DeepSeekR1”。 点击【API 调用】按钮,进入后点击【选择 API Key 并复制】,若没有则点击【创建 API key】,复制并保存。 2. 配置“DeepSeekR1”模型的 API key: 安装插件:使用 Chrome 或 Microsoft Edge 浏览器,点击此链接,安装浏览器插件,添加到拓展程序:https://chromewebstore.google.com/detail/pageassist%E6%9C%AC%E5%9C%B0ai%E6%A8%A1%E5%9E%8B%E7%9A%84web/jfgfiigpkhlkbnfnbobbkinehhfdhndo 。 打开聊天页面:点击右上角的插件列表,找到 Page Assist 插件,点击打开。 配置 API key:基础 URL:https://ark.cnbeijing.volces.com/api/v3 ,填好之后,点击保存,关掉提醒弹窗。 添加“DeepSeekR1”模型。 3. 环境配置指南: 首先到 deepseek 的官网(https://www.deepseek.com/),进入右上角的 API 开放平台。若没有赠送余额,可选择充值,支持美元和人民币两种结算方式及各种个性化充值方式,并创建一个 API key(注意及时保存,只会出现一次)。 以 cursor 作为代码编辑器为例,下载安装后,在插件页面搜索并安装 Roocline 。安装完后,打开三角箭头,选中 RooCline 并点击齿轮,进入设置,依次设置: API Provider:选择 DeepSeek 。 API Key:填入已创建的 key 。 模型:选择 DeepSeekreasoner 。 语言偏好设置。 记得把 HighRisk 选项都打开,最后点击 Done 保存修改。 在聊天框输入产品需求,输入需求后点击星星优化提示词,最终得到想要的结果。
2025-02-26
DeepSeek的V3版本适合那些配置的电脑使用
DeepSeek 的 V3 版本在以下云计算厂商中的使用情况如下: 腾讯云(调用 API):API 调用 DeepSeek 系列模型限时免费,包括 DeepSeekV3。即日至北京时间 2025 年 2 月 25 日 23:59:59,所有腾讯云用户均可享受 DeepSeekV3 模型限时免费服务,单账号限制接口并发上限为 5。在此之后,模型价格将恢复至原价。 京东云:未提及 DeepSeekV3 版本的相关配置和使用情况。 Gitee AI:未提及 DeepSeekV3 版本的相关配置和使用情况。 需要注意的是,不同云计算厂商的配置和价格可能会有所变化,建议您在实际使用时进一步了解和确认。
2025-02-22
配置“DeepSeek-R1”模型的 API key:基础 URL 为 https://ark.cn-beijing.volces.com/api/v3,填好之后点击保存,关掉提醒弹窗。请对于这一步进行细节说明
以下是配置“DeepSeekR1”模型的 API key 的详细步骤: 1. 注册并登录火山引擎,点击立即体验进入控制台:https://zjsms.com/iP5QRuGW/ (火山引擎是字节跳动旗下的云服务平台)。 2. 创建一个接入点:点击在线推理创建推理接入点。 3. 为接入点命名为“DeepSeekR1”。如果出现“该模型未开通,开通后可创建推理接入点”的提示,点击“立即开通”,勾选全部模型和协议,一路点击开通(免费)。如果无提示则直接到第 5 步,点击确认接入。 4. 确认以下无误后,点击“确认接入”按钮。 5. 自动返回创建页面。发现多出一行接入点名是“DeepSeekR1”,复制这个推理点的 ID 放到微信里保存。 6. 保存后再点击【API 调用】按钮,进入后点击【选择 API Key 并复制】。如果已经有 API key 了,就直接查看并复制。如果没有,则点击【创建 API key】,复制好之后,放到微信里保存。 7. 也可以使用其他插件,下面为举例示意使用 Chrome 或 Microsoft Edge 浏览器,点击此链接,安装浏览器插件,添加到拓展程序:https://chromewebstore.google.com/detail/pageassist%E6%9C%AC%E5%9C%B0ai%E6%A8%A1%E5%9E%8B%E7%9A%84web/jfgfiigpkhlkbnfnbobbkinehhfdhndo 。 8. 打开聊天页面,点击右上角的插件列表,找到 Page Assist 插件,点击打开。 9. 基础 URL 填写:https://ark.cnbeijing.volces.com/api/v3 ,填好之后,点击保存,关掉提醒弹窗。 10. 配置完成。
2025-02-15
deepseek V3
DeepSeek 是基于 AI 模型的产品,DeepSeek V3 是其品牌下的具体模型之一(类 GPT4o)。DeepSeek 不是“中国式创新”的产物,它是中国杭州的人工智能创业公司,其在 2024 年 12 月发布的大语言模型 DeepSeekV3 引发了震撼,多项评测成绩优秀,以相对较低的成本和硬件实现了出色的成果,收获了广泛的赞誉,尤其是在开源社区。同时,DeepSeek 应该为全人类的人工智能事业做出更大贡献,且已成为中国最全球化的 AI 公司之一,其成功的秘方具有硅谷风格。
2025-02-06
查看deepseek v3 技术报告
以下是关于 DeepSeek V3 的相关信息: Andrej Kaparthy 赞扬 Deepseek 的技术报告值得一读。 很多中国人将 DeepSeekV3 视作“国货之光”,它对高性能算力的依赖小,将训练和推理当作一个系统,给出诸多新的技术思路,注重用工程思维高效解决算法和技术问题。 DeepSeek 的创始人梁文锋出生于 1980 年代,来自广东省的一个五线城市,毕业于浙江大学,主修软件工程,本硕,人工智能方向,非常低调。 阅读 DeepSeek V3 的技术报告列出的研发人员名单近 200 人,均为本土 CS,很多核心是清北及大学应届的 CS 硕博,即便核心人员也是毕业 3 5 年 CS 博士,研发人员充分信任不断自我选择,这是中国最像 OpenAI 研发组织分工和氛围的 AI 研究机构。 您可以通过以下链接获取相关技术报告:
2025-01-31