Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么事大模型的蒸馏

Answer

模型蒸馏可以比作教学过程。在大模型中,一个大型专家模型(老师)将其知识传递给一个更小、更紧凑的模型(学生)。其目标是让学生模型学习最重要的技能,而不需要与老师模型相同的庞大资源。

例如,在谷歌 Gemini 模型中,Gemini Nano 是通过模型蒸馏的过程从更大的 Gemini 模型中提炼知识创建而成,能够在智能手机等设备上运行。

在 FLUX.1 模型中,FLUX.1[dev]是从 FLUX.1[pro]蒸馏而来,具备相似的图像质量和提示词遵循能力,但更高效。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

谷歌Gemini多模态提示词培训课——Part1

Gemini不仅是单一模型,而是一个模型系列,旨在满足不同需求。可以将其比作为不同工作选择合适工具。这个系列包含不同大小的模型,每种大小都针对特定的计算限制和应用需求而定制。首先是Gemini Ultra,这是系列中最大和最强大的模型。它在广泛的高度复杂任务中提供最先进的性能,包括推理和多模态任务。然而,使用最大的模型并不总是最佳策略。这可以比作用卡车去快速购物,有些过度了。在大型语言模型的世界里也存在类似的权衡。最大的模型虽然非常强大,但有时响应速度可能稍慢。Gemini Pro被设计为多功能的主力模型。它是一个经过性能优化的模型,平衡了模型性能和速度。这个模型具有很强的泛化能力。这些特点使它非常适合需要模型既能力强、提供高质量响应,又能非常高效地提供响应的广泛应用。还有Gemini Flash,这是一个专门为高容量任务设计的最快、最具成本效益的模型,提供更低的延迟和成本。它非常适合需要模型快速提供响应的用例。例如,如果有人正在构建一个需要即时回答常见问题的客户服务聊天机器人,或者开发一个需要跟上快节奏对话的实时语言翻译工具,Gemini Flash对速度和效率的强调使其非常适合这些类型的高要求用例。最后是Gemini Nano。它是Gemini家族中的轻量级成员,专门设计用于直接在用户设备上运行,例如Pixel手机。关于Nano,它是通过一个叫做模型蒸馏的过程来实现的。模型蒸馏可以比作教学过程。一个大型专家模型(老师)将其知识传递给一个更小、更紧凑的模型(学生)。目标是让学生模型学习最重要的技能,而不需要与老师相同的庞大资源。在Nano的情况下,开发者从更大的Gemini模型中提炼知识,创建一个可以舒适地在智能手机和其他设备上运行的模型。

大模型的快思慢想:适配自己的LLM使用场景II--在Mac/Edge设备及微信上运行Flux

FLUX.1[dev]是开源模型,不可商用,直接从FLUX.1[pro]蒸馏而来,具备相似的图像质量和提示词遵循能力,但更高效。它在HuggingFace上提供,可以在Replicate或fal.ai等平台上试用。FLUX.1[schnell]是开源模型,可商用,专门为本地开发和个人使用量身定制,生成速度最快,内存占用也最小。它在Apache 2.0许可下公开提供,适合快速原型制作和个人项目。FLUX.1的训练参数高达120亿,远超SD3 Medium的20亿。它在图像质量、提示词跟随、尺寸适应、排版和输出多样性等方面超越了Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等流行模型,定义了新的图像合成的最先进水平。FLUX.1 AI的工作原理基于混合架构,结合了变换器和扩散技术,能够根据文本提示生成准确的图像。它采用尖端技术,如流匹配和优化,以生成高质量图像。FLUX.1 AI的关键特性包括尖端性能、文本处理能力、复杂构图能力和改进的人手生成。它支持在Replicate、fal.ai和Comfy UI等平台上使用,并且有明确的定价详情和使用限制。此外,FLUX.1 AI支持用户根据自己的数据集进行微调,以生成特定风格或主题的图像。本文我们尝试分别在没有N卡,不使用类似Comfy UI这样复杂的工作流搭建工具上使用Mac Mini M1上运行FLUX.1[schnell]。然后我们尝试在边缘设备Raspberry PI5B上看看是否可行,最后我们使用dify+CoW项目在微信上搭建一个通过微信发送提示词来画图的应用实例。[heading3]

Others are asking
热点的大模型微调蒸馏工具有哪些
以下是一些热点的大模型微调蒸馏工具: FLUX.1:包括 FLUX.1(可商用,为本地开发和个人使用定制,生成速度快,内存占用小,在 Apache 2.0 许可下公开提供,支持在 Replicate、fal.ai 和 Comfy UI 等平台使用,且支持用户根据自己数据集微调)。其训练参数高达 120 亿,在图像质量、提示词跟随等多方面超越流行模型,工作原理基于混合架构,结合变换器和扩散技术。 基于阿里云 PAI 平台:可复现 R1 蒸馏及蒸馏训练模型过程。部署 32b 的蒸馏模型展示效果,包括模型部署(如选中模型卡片后的操作、选择 vLLM 部署、涉及竞价系统等)、蒸馏数据获取(在本地 python 环境或 notebook gallery 建立实例执行代码获取蒸馏数据集)等。 DeepSeek:PaaS 平台支持多机分布式部署,满足推理性能要求,能一站式完成模型蒸馏。可登录 Pad 控制台通过 model gallery 进行部署,如 Deepseek R1 模型,可选择 SG 浪或 Vim 推理框架,根据资源出价部署,部署后可在模型在线服务 EAS 查看状态。还介绍了模型 API 调用、服务关停、蒸馏概念、应用场景及部署实操等。
2025-04-13
模型蒸馏
模型蒸馏是指教师模型将知识蒸馏给学生模型,有多种蒸馏方式。其应用场景广泛,例如在车机等算力有限的场景中,能让小模型在特定领域取得良好效果,还能实现低成本高速推理和修复模型幻觉。 在实际操作中,PaaS 平台支持多机分布式部署,满足推理性能要求,能一站式完成模型蒸馏。例如在阿里云 PAI 平台上进行模型蒸馏微调时,由于上一步中蒸馏的数据集很小,不足以改变模型权重,因此可以使用别人做好的数据集。在使用前可以打开查看里面的结构,和蒸馏出来的数据结构是否一致。然后下载并解压数据集,在 PAI 平台的数据集中找到 OSS 存储,建立数据集并上传。接着选择模型进行部署训练,如选择 7binstruct 的原生模型,选择训练,注意超参配置。训练完成后可以测试模型效果,在 model gallery 里面找到训练好的模型进行部署和调试。 此外,ComfyUI 原生支持 FLUX.1,FLUX.1 有三个变体:FLUX.1是一个蒸馏的 4 步模型,拥有 Apache 2.0 商用许可,适用于在本地进行部署或者个人使用。相关模型的链接、模型与工作流地址以及说明文档均可获取。 在云端部署操作方面,登录 Pad 控制台,通过 model gallery 进行部署,如 Deepseek R1 模型,可选择 SG 浪或 Vim 推理框架,根据资源出价,部署后可在模型在线服务 EAS 查看状态。模型试用可以使用 postman,通过修改接口和复制文档中的内容进行在线调试,发送请求查看状态码,根据模型名称和相关要求输入内容进行试用。同时要注意模型 API 的调用方法,包括查找位置、获取 token 等,使用后要及时停止或删除服务以避免持续付费。
2025-02-28
蒸馏和微调分别是什么意思,他们有关联吗
蒸馏和微调是在人工智能领域中常见的概念,它们有一定的区别和联系。 蒸馏是一种模型压缩技术,通过将复杂的大模型的知识和能力“提炼”到较小的模型中,以减少模型的参数和计算量,同时保持一定的性能。 微调则是在已有的预训练模型基础上,使用特定任务的数据对模型进行进一步的训练,以使其在特定任务上表现得更好。 它们的关联在于:都是为了优化模型在特定场景下的性能。不同之处在于,蒸馏侧重于模型压缩,而微调侧重于针对特定任务的适应性训练。 提示词和微调都是提高模型表现的方法,但方式不同。提示词是在使用模型时直接提供特定的指令或上下文,引导模型生成合适的回答,灵活方便,无需重新训练模型。微调则需要对模型进行额外训练,使用特定任务的数据调整模型参数,使其在该任务上表现更佳,但需要时间和计算资源。 微调具有一些优点,如能提高特定任务的性能和效率,适用于强调现有知识、自定义结构或语气、教授复杂指令等,但不适用于添加新知识和快速迭代。成功案例如 Canva 通过微调显著提高了性能。最佳实践包括从提示工程和小样本学习开始、建立基线、从小处着手并注重质量,还可以将微调和 RAG 相结合以获得最佳性能。
2025-02-26
如何进行知识蒸馏
知识蒸馏(Knowledge Distillation)是一种将复杂模型的知识转移到简单模型中的方法。其核心思想是利用预训练好的复杂模型(教师模型)指导较小模型(学生模型)的训练,使学生模型能模仿教师模型的行为,同时保持较小规模和较高效率。 蒸馏的核心在于让学生模型学习教师模型的输出分布,而非仅仅是硬标签(ground truth)。具体而言,教师模型为输入文本生成软标签(soft labels),即概率分布,学生模型通过模仿教师模型的软标签来学习。 目前以 Ollama 上下载的模型为例,最小的有 DeepSeekR1DistillQwen1.5B,最大的有 DeepSeekR1DistillLlama70B,都是来自于 Deepseek R1 671B 的蒸馏,而非官方的 Deepseek 版本。仔细观察模型名称可以看到,Distill 代表“蒸馏”,Qwen 或者 Llama 代表使用的基础模型,一般是千问或者 Llama 。
2025-02-14
知识蒸馏是什么
知识蒸馏是一种模型压缩方法。在训练过程中,大模型作为教师模型,轻量级模型作为学生模型,学生模型不仅学习任务的真实标签,还学习教师模型生成的软标签,从而能够“站在巨人的肩膀上”学习,提高自身性能。例如,NVIDIA 技术博客介绍了通过剪枝和知识蒸馏将 Llama3.1 8B 模型缩减为 Llama3.1Minitron 4B 模型的方法。剪枝通过移除模型中的一些参数来减少计算需求和内存占用,而知识蒸馏让小模型学习大模型的输出。此外,在一些情况下,可能存在无意导致的信息蒸馏现象。
2025-02-07
知识蒸馏
知识蒸馏是一种模型压缩和训练的方法。在训练中,大模型作为教师模型,轻量级模型作为学生模型,学生模型不仅学习任务的真实标签,还学习教师模型生成的软标签,从而能够“站在巨人的肩膀上”学习。例如,NVIDIA 技术博客介绍了通过剪枝和知识蒸馏将 Llama3.1 8B 模型缩减为 Llama3.1Minitron 4B 模型的方法。剪枝通过移除模型中的一些参数来减少计算需求和内存占用,而知识蒸馏让小模型学习大模型的输出以提高性能。轻量级模型基础能力的增强,对未来的 AI 应用生态具有重要意义。同时,使用强化微调技术,轻量级模型能够通过精选数据的训练超越同代大模型的表现,这对垂直领域的模型应用也将产生很大影响。
2025-02-07
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14