以下是关于 fp8 混合模型的相关信息:
在 ComfyUI FLUX 模型的安装部署方面:
关于 T5(/t5xxl_fp16.safetensors)的 clip,原本有输入输出,可能会导致提示词被吞,短提示效果差,训练 flux 或 sd3 时应尽量用长提示词或自然语言。
在 LLM 模型量化世界观中:
此外,在宝玉日报 1 月 27 日的内容中,也有关于 DeepSeek 的研究和思考涉及到 FP8 混合精度训练的相关讨论。
FLUX.1[dev]FLUX.1[dev fp8]FLUX.1[schnell],选一个.建议选择dev版本的,显卡可以的用fp16,显卡不够用的选fp8.模型下载后,放入,这个文件应该放在你的:ComfyUI/models/unet/文件夹中。如果爆显存了,“UNET加载器”节点中的weight_dtype可以控制模型中权重使用的数据类型,设置为fp8,这将使显存使用量降低一半,但可能会稍微降低质量.默认下的weight_type,显存使用比较大.[heading4]clip[content]t5xxl_fp16.safetensors和clip_l.safetensors,放在ComfyUI/models/clip/文件夹里面.https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main可以使用t5xxl_fp8_e4m3fn.safetensors来降低内存使用率,但是如果你有超过32GB内存,建议使用fp16[heading4]Vae[content]下载后,放入ComfyUI/models/vae文件夹https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main[heading3][heading3]T5(/t5xxl_fp16.safetensors)的这个clip,[content]原本是有一个输入输出的。就是有一半是应该空着的。会导致提示词被吞的情况,就是可能会有一半的提示词被吞掉了。所以短提示的效果会比较差。我们在训练flux或者sd3时候,应该尽量的去用长提示词或者自然语言。不要用短提示词。因为T5自带了50%的删标。
因此在做all-reduce之前,会得到各个卡的梯度和对应的系数,即一系列(g_i',s_i)值。此时可以选择最小的一个系数\begin{aligned}s_g=\text{min}(s_1,s_2,\cdots,s_N)\end{aligned}然后把各自的梯度做重新归一化g_i''=\text{FP8}(s_g\cdot(g_i'/s_i))最后再做FP8的all-reduceg=g_1''+g_2''+\cdots+g_N''这里最终的系数s=N\cdot s_gFP8优化器在BF16混合精度训练中,优化器一般选用Adam,里面包含了master weight和一阶和二阶统计量,他们都是FP32的格式gradient是BF16,但是通信前转成了FP32,grad_buffer使用FP32表示因此每个权重在优化器中的显存占用为16bytes在FP8训练场景中master weight依旧需要高精度,因为有时候gradient更新量非常小,master weight需要高精度捕捉这些微小的变动gradient用上述的FP8分布式通信方式,可以用FP8存储Adam中的一阶统计量用FP8,二阶统计量用FP16因此每个权重在优化器中的显存占用为FP8分布式策略分布式策略包括常见的4D并行,即DP/TP/PP和SP(Sequence Parallel)。其中DP和PP在FP8下跟原来的混合精度方案没有差别,但是在TP和SP会有不同,如下所示
?宝玉日报「1月27日」✨✨✨✨✨✨✨✨1⃣️?拾象:DeepSeek r1闭门学习讨论|Best Ideas Vol 3讨论了DeepSeek在全球AI社区的意义,包括技术突破与资源分配策略。突出了DeepSeek长上下文能力、量化商业模式、以及其对AI生态系统的深远影响。重点分析了DeepSeek的创新路径及中国在AI追赶中的潜力与挑战。?[https://x.com/dotey/status/1883889358383571440](https://x.com/dotey/status/1883889358383571440)2⃣️?转:关于DeepSeek的研究和思考(Archerman Capital)深入解析DeepSeek在架构和工程上的创新,例如MoE、MLA、MTP和FP8混合精度训练。强调DeepSeek不是简单模仿,而是在工程和应用平衡中达成了高效优化。对开源与闭源竞争进行了深刻反思,并指出AI生态未来发展方向。?[https://x.com/dotey/status/1883801546934083944](https://x.com/dotey/status/1883801546934083944)3⃣️?7B Model and 8K Examples:如何用8000个示例炼出自我反思AI?