Chat with Wiki - 有哪些可以多图融合的图片生成AI工具

Answer

以下是一些可以多图融合的图片生成 AI 工具：

Google Whisk：支持多主体一致，包括主题、场景和风格等元素。用户上传多张图片后，Gemini 模型会自动为图片生成详细描述，并将其输入到最新版本的 Imagen 3 模型中。生成的图片在遵循提示词的同时，与给定的多个主体能保持一致。网站：https://www.vidu.cn 教程：https://pkocx4o26p.feishu.cn/docx/Mb77dt8VxoskqvxgFiMcfwwsnNe 发布：https://x.com/pika_labs/status/1867651381840040304 国内：https://hailuoai.com/video/create 海外：https://hailuoai.video/create 网站：https://labs.google/fx/tools/whisk 发布：https://blog.google/technology/google-labs/whisk
Vidu：2024 年 9 月发布时只支持单主体一致（只能上传一张图片），目前官网已经支持多主体一致（可以上传三张图片），即可以指定生成图片中的人物、物体、场景等。
Pika 2.0：支持多主体一致，Scene Ingredient（场景元素）系统能将多个输入图像（如场景、人物、物品）智能整合为连贯的动态场景。此外，模型也具备多图像融合能力，可实现复杂交互场景的视频合成，如两人在视频中实现合影或拥抱。

在进行图片融合时，有一些技巧：

上传多种图片进行融合生成时，一张图片最好只有一种特征，比如合并 2 张图，一张是有人物，另一张是只有背景，那么合并起来的效果会更精确。
写普通关键词时用逗号分开，还可以写多重关键词，让 AI 不需要考虑单词的前后关系，而只把它们当成独立的单词。也可以给不同的单词赋予不同的权重，比如 hot::2 dog，这样 hot 这个词对结果的影响更大。有增加权重，也可以减弱权重，比如在关键词后面加上 red::-.5，大红色就会少很多。
除了用数值降低某个元素的权重，还可以直接用--no 这个参数让某个元素尽量弱化，比如--no hands 跟 hands:-0.5 是等价的。

Content generated by AI large model, please carefully verify (powered by aily)

References

整体的效果会更接近参考图的效果。2.图片融合技巧上传多种图片进行融合生成，有一个技巧就是一张图片最好只有一种特征，比如合并2张图，一张是有人物，另一张是只有背景，那么合并起来的效果会更精确。3.关键词权重写普通关键词是用逗号分开，这个应该你都知道了，但其实还可以写多重关键词。它的意思是要AI不需要考虑单词的前后关系，而只把它们当成独立的单词，比如hot dog和hot::dog(到这里我付费的次数也快用完了，我就用官网上的案例给大家演示了)hot doghot::dog多个单词甚至长句也可以这样用，比如cup::cake::illustration基于这个还有更高级的用法，给不同的单词赋予不同的权重，比如hot::2 dog，可以看到hot这个词对结果的影响更大了。有增加权重，也可以减弱权重，比如这个权重可以是负数，意思是减弱某种元素的比重比如我生成了一张图上面有很多红色我不希望它出现太多红色，就可以在关键词后面加上red::-.5，这样大红色就少了很多。4.降低权重除了用数值降低某个元素的权重，还可以直接用--no这个参数让某个元素尽量弱化，比如我们AI生成图的时候，经常会出现手的问题，可以给参数--no hands，这样手出现问题的概率更低。--no hands跟hands:-0.5是等价的。5.设置v版本

ShowMeAI周刊 No.15 | 上周最有讨论度的6个AI话题：自由画布类产品密集更新、多主体一致成发展趋势、AGI、开源…

MiniMax S2V-01视频模型目前支持单主体一致，上传一张图片（人物图像），即可根据提示词生成细节精确的视频[⋙官方宣布](https://mp.weixin.qq.com/s?__biz=MzkzMTUxOTY1Mw==&mid=2247486917&idx=1&sn=a1a18eb388fc01086de5797b281dc17a&scene=21#wechat_redirect)相较于LoRA方案，主体参考既降低了用户的输入成本，也把计算成本降低到百分之一以下，等待时间也大幅减少，使用体验翻倍提升。Google WhiskWhisk是一款图片生成工具，支持多主体一致，包括主题（subject）、场景（scene）和风格（style）等元素。用户上传多张图片后，Gemini模型会自动为图片生成详细的描述，并将其输入到最新版本的Imagen 3模型中。生成的图片在遵循提示词的同时，与给定的多个主体能保持一致。网站→https://www.vidu.cn教程→https://pkocx4o26p.feishu.cn/docx/Mb77dt8VxoskqvxgFiMcfwwsnNe网站→https://pika.art发布→https://x.com/pika_labs/status/1867651381840040304国内→https://hailuoai.com/video/create海外→https://hailuoai.video/create网站→https://labs.google/fx/tools/whisk发布→https://blog.google/technology/google-labs/whisk

ShowMeAI周刊 No.15 | 上周最有讨论度的6个AI话题：自由画布类产品密集更新、多主体一致成发展趋势、AGI、开源…

主体一致，是指在生成图像或视频时，主要对象/场景/主题等与给定的参考图片保持一致。视频主体一致功能，由Vidu于2024年9月全球首发，随后Pika在2024年12月跟上，Minimax海螺前几天也宣布了同类型功能上线。图像主体一致功能，目前完成度最高的是Google Whisk。ShowMeAI周刊简要介绍这几款产品/模型。未来一段时间，我们应该会看到各家陆续上线同类型功能。Vidu2024年9月发布时，还只支持单主体一致（只能上传一张图片）。目前，官网已经支持多主体一致（可以上传三张图片），即可以指定生成图片中的人物、物体、场景等。官网称之为「参考生视频」功能[⋙官方宣布](https://mp.weixin.qq.com/s?__biz=MzkxMTcyNTA4OQ==&mid=2247483792&idx=1&sn=861e73ebd26c2550bff4dc6ca662b1e7&scene=21#wechat_redirect)Pika 2.0Pika 2.0支持多主体一致，Scene Ingredient（场景元素）系统能将多个输入图像（如场景、人物、物品）智能整合为连贯的动态场景。此外，模型也具备多图像融合能力，可实现复杂交互场景的视频合成，如两人在视频中实现合影或拥抱。Minimax海螺