Chat with Wiki - fp8 混合模型

Answer

以下是关于 fp8 混合模型的相关信息：

在 ComfyUI FLUX 模型的安装部署方面：

模型：FLUX.1 有多种版本可选，如 dev 版。显卡较好可用 fp16，显卡不足可选 fp8。下载后的模型文件应放在 ComfyUI/models/unet/文件夹中。若爆显存，可在“UNET 加载器”节点中将 weight_dtype 设置为 fp8，能降低显存使用量但可能稍降质量，默认的 weight_type 显存使用较大。
CLIP：t5xxl_fp16.safetensors 和 clip_l.safetensors 应放在 ComfyUI/models/clip/文件夹中，也可使用 t5xxl_fp8_e4m3fn.safetensors 降低内存使用率，若内存超过 32GB 建议使用 fp16。
Vae：下载后放入 ComfyUI/models/vae 文件夹。

关于 T5（/t5xxl_fp16.safetensors）的 clip，原本有输入输出，可能会导致提示词被吞，短提示效果差，训练 flux 或 sd3 时应尽量用长提示词或自然语言。

在 LLM 模型量化世界观中：

FP8 量化：在做 all-reduce 之前，会得到各个卡的梯度和对应的系数，选择最小系数进行重新归一化，最后做 FP8 的 all-reduce，最终系数为 N·s_g。
FP8 优化器：在 BF16 混合精度训练中，优化器一般选用 Adam，包含 master weight 和一阶、二阶统计量。在 FP8 训练场景中，master weight 需高精度，gradient 可用 FP8 分布式通信方式存储，Adam 中的一阶统计量用 FP8，二阶统计量用 FP16。
FP8 分布式策略：分布式策略包括常见的 4D 并行，即 DP/TP/PP 和 SP，其中 DP 和 PP 在 FP8 下与原来的混合精度方案无差别，TP 和 SP 有所不同。

此外，在宝玉日报 1 月 27 日的内容中，也有关于 DeepSeek 的研究和思考涉及到 FP8 混合精度训练的相关讨论。

Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI FLUX

FLUX.1[dev]FLUX.1[dev fp8]FLUX.1[schnell],选一个.建议选择dev版本的,显卡可以的用fp16,显卡不够用的选fp8.模型下载后,放入，这个文件应该放在你的：ComfyUI/models/unet/文件夹中。如果爆显存了,“UNET加载器”节点中的weight_dtype可以控制模型中权重使用的数据类型,设置为fp8，这将使显存使用量降低一半，但可能会稍微降低质量.默认下的weight_type,显存使用比较大.[heading4]clip[content]t5xxl_fp16.safetensors和clip_l.safetensors,放在ComfyUI/models/clip/文件夹里面.https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main可以使用t5xxl_fp8_e4m3fn.safetensors来降低内存使用率，但是如果你有超过32GB内存，建议使用fp16[heading4]Vae[content]下载后,放入ComfyUI/models/vae文件夹https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main[heading3][heading3]T5（/t5xxl_fp16.safetensors）的这个clip，[content]原本是有一个输入输出的。就是有一半是应该空着的。会导致提示词被吞的情况，就是可能会有一半的提示词被吞掉了。所以短提示的效果会比较差。我们在训练flux或者sd3时候，应该尽量的去用长提示词或者自然语言。不要用短提示词。因为T5自带了50%的删标。

（9）LLM模型量化世界观(下)

因此在做all-reduce之前，会得到各个卡的梯度和对应的系数，即一系列(g_i',s_i)值。此时可以选择最小的一个系数\begin{aligned}s_g=\text{min}(s_1,s_2,\cdots,s_N)\end{aligned}然后把各自的梯度做重新归一化g_i''=\text{FP8}(s_g\cdot(g_i'/s_i))最后再做FP8的all-reduceg=g_1''+g_2''+\cdots+g_N''这里最终的系数s=N\cdot s_gFP8优化器在BF16混合精度训练中，优化器一般选用Adam，里面包含了master weight和一阶和二阶统计量，他们都是FP32的格式gradient是BF16，但是通信前转成了FP32，grad_buffer使用FP32表示因此每个权重在优化器中的显存占用为16bytes在FP8训练场景中master weight依旧需要高精度，因为有时候gradient更新量非常小，master weight需要高精度捕捉这些微小的变动gradient用上述的FP8分布式通信方式，可以用FP8存储Adam中的一阶统计量用FP8，二阶统计量用FP16因此每个权重在优化器中的显存占用为FP8分布式策略分布式策略包括常见的4D并行，即DP/TP/PP和SP(Sequence Parallel)。其中DP和PP在FP8下跟原来的混合精度方案没有差别，但是在TP和SP会有不同，如下所示

宝玉日报

?宝玉日报「1月27日」✨✨✨✨✨✨✨✨1⃣️?拾象：DeepSeek r1闭门学习讨论|Best Ideas Vol 3讨论了DeepSeek在全球AI社区的意义，包括技术突破与资源分配策略。突出了DeepSeek长上下文能力、量化商业模式、以及其对AI生态系统的深远影响。重点分析了DeepSeek的创新路径及中国在AI追赶中的潜力与挑战。?[https://x.com/dotey/status/1883889358383571440](https://x.com/dotey/status/1883889358383571440)2⃣️?转：关于DeepSeek的研究和思考(Archerman Capital)深入解析DeepSeek在架构和工程上的创新，例如MoE、MLA、MTP和FP8混合精度训练。强调DeepSeek不是简单模仿，而是在工程和应用平衡中达成了高效优化。对开源与闭源竞争进行了深刻反思，并指出AI生态未来发展方向。?[https://x.com/dotey/status/1883801546934083944](https://x.com/dotey/status/1883801546934083944)3⃣️?7B Model and 8K Examples:如何用8000个示例炼出自我反思AI？