要让纳米 AI 的 DeepSeek 接口回答更加精确,可以从以下几个方面入手:
而DeepSeek R1则引入了纯强化学习(RL),不依赖大量的人类标注数据,而是让AI通过自我探索和试错来学习:DeepSeek R1在“冷启动”阶段,仅通过少量(数千条)人工精选的思维链数据进行初步引导,建立起符合人类阅读习惯的推理表达范式。随后,便主要依靠强化学习,在奖励系统的反馈下(只对结果准确率与回答格式进行奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。准确率奖励:用于评估AI提供的最终答案是否正确,以此为AI提供答案准确度的反馈。格式奖励:强制结构化输出,让模型把思考过程置于<think></think>标签之间,以便人类观察模型的推理过程。正如Alpha Zero只训练了三天,就以100比0的战绩完胜Alpha Go Lee(战胜李世石的版本)。Alpha Go(老):监督学习+强化学习。学习人类棋谱,也更接近人类职业棋手的风格,继承了人类的局限。Alpha Zero(新):完全摒弃人类数据的纯强化学习。从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。大模型AI在纯强化学习(RL)下同样也展现出了超出人类研究员想象的成长潜力:“我们只需要简单的为其提供正确的激励措施,它就会自主开发高级的问题解决策略,RL有可能解锁新的人工智能水平。”*只不过Alpha Zero的强化学习更加专精棋类。而DeepSeek R1在训练中,更注重学习推理的底层策略,培养通用推理能力,使其能够实现跨领域的知识迁移运用和推理解答。
很显然,它的回答是极其优秀的,深入研究,会发现它牛逼在下面几个方面——第一,它首先在语气上还原了一个帝王的语气。而上面其他模型输出尽管表达了意思,但语气完全不对。李世民作为千古一君,绝不可能用上面四家输出结果那样傻的语气说话,而DeepSeek也并没有用力过猛,用相对古典的文字但并没有直接用文言文,体贴地兼顾了可读性。第二,它对历史细节异常熟悉。我猜测这大概率和它支持“深度探索”和“联网搜索”同时开f启有关。“太极宫”、“甘露殿”、“掖庭局”、“观音婢”、“宫门鱼符完全还原了唐初的历史称谓。我特意查了一下,“观音婢”是李世民的长孙皇后的乳名,“掖庭局”是内廷用于史官和其他人员的一个专属机构。"魏徵"我以为是想写“魏征”写错了,后来发现“征”是“徵”的简体字,可以说这个AI非常讲究了。第三,和其他AI泛泛而谈的各种大词不同,Deepseek的输出极其具体而充满惊人的细节。“狼毫蘸墨时发现指尖残留着未洗净的血痂”,“史官们此刻定在掖庭局争吵。该用"诛"还是"戮","迫"还是"承"。“只是这次,他不敢触碰我甲胄上元吉的掌印”这些让画面跃然纸上的句子,每一句都没有写“愧疚与野心,挣扎与抱负”,但每一句都写的是“愧疚与野心,挣扎与抱负”,其中行文的隐喻拿捏非常到位,很高级。
很显然,它的回答是极其优秀的,深入研究,会发现它牛逼在下面几个方面——第一,它首先在语气上还原了一个帝王的语气。而上面其他模型输出尽管表达了意思,但语气完全不对。李世民作为千古一君,绝不可能用上面四家输出结果那样傻的语气说话,而DeepSeek也并没有用力过猛,用相对古典的文字但并没有直接用文言文,体贴地兼顾了可读性。第二,它对历史细节异常熟悉。我猜测这大概率和它支持“深度探索”和“联网搜索”同时开启有关。“太极宫”、“甘露殿”、“掖庭局”、“观音婢”、“宫门鱼符完全还原了唐初的历史称谓。我特意查了一下,“观音婢”是李世民的长孙皇后的乳名,“掖庭局”是内廷用于史官和其他人员的一个专属机构。"魏徵"我以为是想写“魏征”写错了,后来发现“征”是“徵”的简体字,可以说这个AI非常讲究了。第三,和其他AI泛泛而谈的各种大词不同,Deepseek的输出极其具体而充满惊人的细节。“狼毫蘸墨时发现指尖残留着未洗净的血痂”,“史官们此刻定在掖庭局争吵。该用"诛"还是"戮","迫"还是"承"。“只是这次,他不敢触碰我甲胄上元吉的掌印”这些让画面跃然纸上的句子,每一句都没有写“愧疚与野心,挣扎与抱负”,但每一句都写的是“愧疚与野心,挣扎与抱负”,其中行文的隐喻拿捏非常到位,很高级。