Chat with Wiki - 开源flux模型如何快速使用

Answer

以下是关于开源 Flux 模型快速使用的方法：

模型的下载：
- 如果因为环境问题，可以在网盘中下载。
- siglip-so400m-patch14-384（视觉模型）：siglip 由 Google 开发的视觉特征提取模型，负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip，在地址栏输入 CMD 回车，打开命令行，输入下面的命令拉取模型（也可以在网盘里下载）。
- image_adapter.pt（适配器）：连接视觉模型和语言模型，优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征，使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6 下载，放到 models 的 Joy_caption 文件夹里，如果该文件夹不存在，就新建一个。
- Meta-Llama-3.1-8B-bnb-4bit（语言模型）：大型语言模型，负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM，地址栏输入 CMD 回车，在命令行里面输入下面命令。
下载地址：
- ae.safetensors 和 flux1-dev.safetensors 下载地址：https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main 。
- 准备了夸克和百度的网盘链接，方便部分同学下载：
  - flux 相关模型（体积较大）的夸克网盘链接：https://pan.quark.cn/s/b5e01255608b 。
  - flux 相关模型（体积较大）的百度网盘链接：https://pan.baidu.com/s/1mCucHrsfRo5SttW-03ei0g?pwd=ub9h 提取码：ub9h 。
- 如果 GPU 性能不足、显存不够，底模可以使用 fp8 的量化版模型，速度会快很多，下载地址：https://huggingface.co/Kijai/flux-fp8/tree/main 。
工作流下载：
- 最后我们再下载 dev 的工作流：dev 的官方原版 workflow.json 。或者下面官方原版的图片链接，图片导入 comfyUI 就是工作流：https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI，把工作流或图片拖拽到 ComfyUI 里。

Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI JoyCaption提示词反推太强了结合MiniCPM和ollama直接上墙的强还和Flux特别的搭ComfyUI里用起来

模型的下载如果因为环境问题，可以在网盘中下载[heading4]siglip-so400m-patch14-384（视觉模型）[content]siglip由Google开发的视觉特征提取模型，负责理解和编码图像内容。工作流程：a.接收输入图像b.分析图像的视觉内容（如物体、场景、颜色、纹理等）c.将这些视觉信息编码成一组特征向量打开ComfyUI\models\clip，在地址栏输入CMD回车，打开命令行输入下面的命令，拉取模型（需要环境，也可以在网盘里下载）下载好之后，目录的文件[heading4]image_adapter.pt（适配器）[content]连接视觉模型和语言模型，优化数据转换。工作流程：a.接收来自视觉模型的特征向量b.转换和调整这些特征，使其适合语言模型处理c.一些特定任务的优化或微调（如图片到文字）通过https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6下载放到models的Joy_caption文件夹里如果Joy_caption文件夹不存在，就新建一个[heading4]Meta-Llama-3.1-8B-bnb-4bit（语言模型）[content]大型语言模型，负责生成文本描述。工作流程：a.接收经过适配器处理的特征b.基于这些特征生成相应的文本描述c.应用语言知识来确保描述的连贯性和准确性打开ComfyUI\models\LLM，地址栏输入CMD回车在命令行里面输入下面命令下载后的完整目录文件[heading4]

大模型的快思慢想：适配自己的LLM使用场景II--在Mac/Edge设备及微信上运行Flux

FLUX.1[dev]是开源模型，不可商用，直接从FLUX.1[pro]蒸馏而来，具备相似的图像质量和提示词遵循能力，但更高效。它在HuggingFace上提供，可以在Replicate或fal.ai等平台上试用。FLUX.1[schnell]是开源模型，可商用，专门为本地开发和个人使用量身定制，生成速度最快，内存占用也最小。它在Apache 2.0许可下公开提供，适合快速原型制作和个人项目。FLUX.1的训练参数高达120亿，远超SD3 Medium的20亿。它在图像质量、提示词跟随、尺寸适应、排版和输出多样性等方面超越了Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等流行模型，定义了新的图像合成的最先进水平。FLUX.1 AI的工作原理基于混合架构，结合了变换器和扩散技术，能够根据文本提示生成准确的图像。它采用尖端技术，如流匹配和优化，以生成高质量图像。FLUX.1 AI的关键特性包括尖端性能、文本处理能力、复杂构图能力和改进的人手生成。它支持在Replicate、fal.ai和Comfy UI等平台上使用，并且有明确的定价详情和使用限制。此外，FLUX.1 AI支持用户根据自己的数据集进行微调，以生成特定风格或主题的图像。本文我们尝试分别在没有N卡，不使用类似Comfy UI这样复杂的工作流搭建工具上使用Mac Mini M1上运行FLUX.1[schnell]。然后我们尝试在边缘设备Raspberry PI5B上看看是否可行，最后我们使用dify+CoW项目在微信上搭建一个通过微信发送提示词来画图的应用实例。[heading3]

工具教程：Flux

https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main我随后也准备一下百度网盘和夸克网盘。更新：（下面准备了夸克和百度的网盘链接，方便部分同学下载）flux相关模型（体积较大）的夸克网盘链接：https://pan.quark.cn/s/b5e01255608bflux相关模型（体积较大）的百度网盘链接：https://pan.baidu.com/s/1mCucHrsfRo5SttW-03ei0g?pwd=ub9h提取码：ub9h如果GPU性能不足、显存不够，底模可以使用fp8的量化版模型，速度会快很多，下载地址：https://huggingface.co/Kijai/flux-fp8/tree/main最后我们再下载dev的工作流：[dev的官方原版workflow.json](https://bytedance.feishu.cn/space/api/box/stream/download/all/KhTAbaxbconU6PxBfJkcAkt8nJc?allow_redirect=1)上面我把工作流复制上了，用上面这个就行。或者下面官方原版的图片链接，图片导入comfyUI就是工作流。https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png我们打开ComfyUI，把工作流或图片拖拽到ComfyUI里：