Chat with Wiki - 什么事大模型的蒸馏

Answer

模型蒸馏可以比作教学过程。在大模型中，一个大型专家模型（老师）将其知识传递给一个更小、更紧凑的模型（学生）。其目标是让学生模型学习最重要的技能，而不需要与老师模型相同的庞大资源。

例如，在谷歌 Gemini 模型中，Gemini Nano 是通过模型蒸馏的过程从更大的 Gemini 模型中提炼知识创建而成，能够在智能手机等设备上运行。

在 FLUX.1 模型中，FLUX.1[dev]是从 FLUX.1[pro]蒸馏而来，具备相似的图像质量和提示词遵循能力，但更高效。

Content generated by AI large model, please carefully verify (powered by aily)

References

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

谷歌Gemini多模态提示词培训课——Part1

Gemini不仅是单一模型，而是一个模型系列，旨在满足不同需求。可以将其比作为不同工作选择合适工具。这个系列包含不同大小的模型，每种大小都针对特定的计算限制和应用需求而定制。首先是Gemini Ultra，这是系列中最大和最强大的模型。它在广泛的高度复杂任务中提供最先进的性能，包括推理和多模态任务。然而，使用最大的模型并不总是最佳策略。这可以比作用卡车去快速购物，有些过度了。在大型语言模型的世界里也存在类似的权衡。最大的模型虽然非常强大，但有时响应速度可能稍慢。Gemini Pro被设计为多功能的主力模型。它是一个经过性能优化的模型，平衡了模型性能和速度。这个模型具有很强的泛化能力。这些特点使它非常适合需要模型既能力强、提供高质量响应，又能非常高效地提供响应的广泛应用。还有Gemini Flash，这是一个专门为高容量任务设计的最快、最具成本效益的模型，提供更低的延迟和成本。它非常适合需要模型快速提供响应的用例。例如，如果有人正在构建一个需要即时回答常见问题的客户服务聊天机器人，或者开发一个需要跟上快节奏对话的实时语言翻译工具，Gemini Flash对速度和效率的强调使其非常适合这些类型的高要求用例。最后是Gemini Nano。它是Gemini家族中的轻量级成员，专门设计用于直接在用户设备上运行，例如Pixel手机。关于Nano，它是通过一个叫做模型蒸馏的过程来实现的。模型蒸馏可以比作教学过程。一个大型专家模型（老师）将其知识传递给一个更小、更紧凑的模型（学生）。目标是让学生模型学习最重要的技能，而不需要与老师相同的庞大资源。在Nano的情况下，开发者从更大的Gemini模型中提炼知识，创建一个可以舒适地在智能手机和其他设备上运行的模型。

大模型的快思慢想：适配自己的LLM使用场景II--在Mac/Edge设备及微信上运行Flux

FLUX.1[dev]是开源模型，不可商用，直接从FLUX.1[pro]蒸馏而来，具备相似的图像质量和提示词遵循能力，但更高效。它在HuggingFace上提供，可以在Replicate或fal.ai等平台上试用。FLUX.1[schnell]是开源模型，可商用，专门为本地开发和个人使用量身定制，生成速度最快，内存占用也最小。它在Apache 2.0许可下公开提供，适合快速原型制作和个人项目。FLUX.1的训练参数高达120亿，远超SD3 Medium的20亿。它在图像质量、提示词跟随、尺寸适应、排版和输出多样性等方面超越了Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等流行模型，定义了新的图像合成的最先进水平。FLUX.1 AI的工作原理基于混合架构，结合了变换器和扩散技术，能够根据文本提示生成准确的图像。它采用尖端技术，如流匹配和优化，以生成高质量图像。FLUX.1 AI的关键特性包括尖端性能、文本处理能力、复杂构图能力和改进的人手生成。它支持在Replicate、fal.ai和Comfy UI等平台上使用，并且有明确的定价详情和使用限制。此外，FLUX.1 AI支持用户根据自己的数据集进行微调，以生成特定风格或主题的图像。本文我们尝试分别在没有N卡，不使用类似Comfy UI这样复杂的工作流搭建工具上使用Mac Mini M1上运行FLUX.1[schnell]。然后我们尝试在边缘设备Raspberry PI5B上看看是否可行，最后我们使用dify+CoW项目在微信上搭建一个通过微信发送提示词来画图的应用实例。[heading3]