Chat with Wiki - 如何进行知识蒸馏

Answer

知识蒸馏（Knowledge Distillation）是一种将复杂模型的知识转移到简单模型中的方法。其核心思想是利用预训练好的复杂模型（教师模型）指导较小模型（学生模型）的训练，使学生模型能模仿教师模型的行为，同时保持较小规模和较高效率。

蒸馏的核心在于让学生模型学习教师模型的输出分布，而非仅仅是硬标签（ground truth）。具体而言，教师模型为输入文本生成软标签（soft labels），即概率分布，学生模型通过模仿教师模型的软标签来学习。

目前以 Ollama 上下载的模型为例，最小的有 DeepSeek-R1-Distill-Qwen-1.5B，最大的有 DeepSeek-R1-Distill-Llama-70B，都是来自于 Deepseek R1 671B 的蒸馏，而非官方的 Deepseek 版本。仔细观察模型名称可以看到，Distill 代表“蒸馏”，Qwen 或者 Llama 代表使用的基础模型，一般是千问或者 Llama 。

Content generated by AI large model, please carefully verify (powered by aily)

References

知识图谱

知识图谱（Knowledge Graph，KG）是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。知识图谱于2012年5月17日被Google正式提出，其初衷是为了提高搜索引擎的能力，增强用户的搜索质量以及搜索体验。知识图谱可以将Web从网页链接转向概念链接，支持用户按照主题来检索，实现语义检索。[heading2]关键技术[content]1.知识抽取：通过自动化的技术抽取出可用的知识单元实体抽取：命名实体识别（Named Entity Recognition，NER）从数据源中自动识别命名实体；关系抽取（Relation Extraction）：从数据源中提取实体之间的关联关系，形成网状的知识结构；属性抽取：从数据源中采集特定实体的属性信息。2.知识表示属性图三元组3.知识融合：在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等，达到数据、信息、方法、经验等知识的融合，形成高质量知识库实体对齐（Entity Alignment）：消除异构数据中的实体冲突、指向不明等不一致性问题；知识加工：对知识统一管理，形成大规模的知识体系本体构建：以形式化方式明确定义概念之间的联系；质量评估：计算知识的置信度，提高知识的质量。知识更新：不断迭代更新，扩展现有知识，增加新的知识4.知识推理：在已有的知识库基础上挖掘隐含的知识

AI术语库-人工标注版

|术语ID|原文|译文|领域|易混淆|缩写|不需要提醒||-|-|-|-|-|-|-||ROW()-1|Kernel Machine|核机器|AI|1||||ROW()-1|Kernel Matrix|核矩阵|AI|1||||ROW()-1|Kernel Method|核方法|AI|1||||ROW()-1|Kernel Regression|核回归|AI|1||||ROW()-1|Kernel Trick|核技巧|AI|1||||ROW()-1|Kernelized|核化|AI|1||||ROW()-1|Kernelized Linear Discriminant Analysis|核线性判别分析|AI|||||ROW()-1|Kernelized PCA|核主成分分析|AI|||||ROW()-1|Key-Value Store|键-值数据库|AI|||||ROW()-1|KL Divergence|KL散度|AI|1||||ROW()-1|Knowledge|知识|AI|1||||ROW()-1|Knowledge Base|知识库|AI|1||||ROW()-1|Knowledge Distillation|知识蒸馏|AI|1|||

详解：DeepSeek深度推理+联网搜索目前断档第一

蒸馏模型（Distillation Model）是一种通过知识蒸馏（Knowledge Distillation）技术将复杂模型的知识转移到简单模型中的方法。其核心思想是利用一个预训练好的复杂模型（教师模型）来指导一个较小的模型（学生模型）的训练，使学生模型能够模仿教师模型的行为，同时保持较小的规模和较高的效率。蒸馏的核心是让学生模型学习教师模型的输出分布，而不仅仅是硬标签（ground truth）。具体来说：教师模型为输入文本生成软标签（soft labels），即概率分布。学生模型通过模仿教师模型的软标签来学习，而不是直接学习硬标签。目前以Ollama上下载的模型为例：最小的有DeepSeek-R1-Distill-Qwen-1.5B，最大的有DeepSeek-R1-Distill-Llama-70B都是来自于Deepseek R1 671B的蒸馏，而非官方的Deepseek版本，仔细观察模型名称可以看到，Distill代表“蒸馏”，Qwen或者Llama代表使用的基础模型，一般是千问或者Llama[heading1]系统提示词[content]来自宝玉：https://mp.weixin.qq.com/s/vAp2w-I5ozTw-7R6jreLMw[heading2]获取系统提示词的提示词[content][heading4]获取后系统提示词如下[heading4]获取后系统提示词（2)如下[heading4]英文系统提示词