Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图生文怎么制作

Answer

以下是关于图生文制作的详细步骤:

一、Tusiart 简易上手教程

  1. 定主题:明确您需要生成的图片的主题、风格和要表达的信息。
  2. 选择基础模型 Checkpoint:根据主题,选择内容贴近的 checkpoint,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。
  3. 选择 lora:基于生成内容,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看帖子中使用的 lora。
  4. ControlNet:用于控制图片中的特定图像,如人物姿态、特定文字、艺术化二维码等,属于高阶技能,可后续学习。
  5. 局部重绘:下篇再教。
  6. 设置 VAE:无脑选择 840000 这个即可。
  7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,无需管语法和长句。
  8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,无需语法。
  9. 采样算法:一般选 DPM++2M Karras 较多,也可留意 checkpoint 详情页上模型作者推荐的采样器。
  10. 采样次数:选 DPM++2M Karras 后,采样次数在 30 - 40 之间,过多意义不大且慢,过少出图效果差。
  11. 尺寸:根据个人喜好和需求选择。

二、Liblibai 简易上手教程

  1. 定主题:确定要生成的图片的主题、风格和表达信息。
  2. 选择 Checkpoint:依照主题找贴近的 checkpoint,如麦橘、墨幽的系列模型。
  3. 选择 lora:寻找与生成内容重叠的 lora 来控制图片效果和质量,参考广场上的优秀帖子。
  4. 设置 VAE:无脑选 840000 那一串。
  5. CLIP 跳过层:设成 2 。
  6. Prompt 提示词:用英文写想要 AI 生成的内容,单词和短语组合,用英文半角逗号隔开,不管语法和长句。
  7. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开,不管语法。
  8. 采样方法:一般选 DPM++2M Karras 较多,留意 checkpoint 详情页上模型作者推荐的采样器。
  9. 迭代步数:选 DPM++2M Karras 后,在 30 - 40 之间,过多意义不大且慢,过少出图效果差。
  10. 尺寸:根据个人喜好和需求选择。
  11. 生成批次:默认 1 批。

三、SD 新手入门图文教程

  1. CFG Scale(提示词相关性):决定图像与提示的匹配程度,增加该值会使图像更接近提示,但可能降低图像质量,可用更多采样步骤抵消,一般开到 7 - 11 ,过高会有粗犷线条和过锐化图像。
  2. 生成批次:每次生成图像的组数,一次运行生成图像的数量为“批次×批次数量”。
  3. 每批数量:同时生成的图像个数,增加会提高性能但需更多显存,若显存未超 12G ,保持为 1 。
  4. 尺寸:指定图像长宽,出图尺寸太宽可能出现多个主体,1024 以上尺寸可能效果不理想,推荐小尺寸分辨率+高清修复(Hires fix) 。
  5. 种子:决定模型生成图片时的随机性,初始化 Diffusion 算法起点的初始值,相同参数下应生成相同图片。
  6. 高清修复:通过勾选“Highres.fix”启用,默认高分辨率下会生成混沌图像,使用后先按指定尺寸生成再放大,实现高清大图效果,最终尺寸为(原分辨率×缩放系数 Upscale by) 。
Content generated by AI large model, please carefully verify (powered by aily)

References

Tusiart简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。局部重绘:下篇再教,这里不急。设置VAE:无脑选择前面提到的840000这个即可。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样算法:这玩意儿还挺复杂的,现在我一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。采样次数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。

Liblibai简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。(没错我是喜欢看plmm多点)选择Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。设置VAE:无脑选840000那一串就行。CLIP跳过层:设成2就行。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样方法:这玩意儿还挺复杂的,现在一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障迭代步数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,迭代步数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。生成批次:默认1批。

SD新手:入门图文教程

CFG Scale(提示词相关性)图像与你的提示的匹配程度。增加这个值将导致图像更接近你的提示,但它也在一定程度上降低了图像质量。可以用更多的采样步骤来抵消。过高的CFG Scale体现为粗犷的线条和过锐化的图像。一般开到7~11。CFG Scale与采样器之间的关系:生成批次每次生成图像的组数。一次运行生成图像的数量为“批次*批次数量”。每批数量同时生成多少个图像。增加这个值可以提高性能,但也需要更多的显存。大的Batch Size需要消耗巨量显存。若没有超过12G的显存,请保持为1。尺寸指定图像的长宽。出图尺寸太宽时,图中可能会出现多个主体。1024之上的尺寸可能会出现不理想的结果,推荐使用小尺寸分辨率+高清修复(Hires fix)。种子种子决定模型在生成图片时涉及的所有随机性,它初始化了Diffusion算法起点的初始值。理论上,在应用完全相同参数(如Step、CFG、Seed、prompts)的情况下,生产的图片应当完全相同。高清修复通过勾选"Highres.fix"来启用。默认情况下,文生图在高分辨率下会生成非常混沌的图像。如果使用高清修复,会型首先按照指定的尺寸生成一张图片,然后通过放大算法将图片分辨率扩大,以实现高清大图效果。最终尺寸为(原分辨率*缩放系数Upscale by)。

Others are asking
多模图生文评测集
以下是关于多模图生文评测集的相关信息: 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体的平均分数如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。 Kolors 开源模型相关: 2024.07.03,Kolors 在智源研究院评测中取得第二名,其中中文主观质量、英文主观质量两个单项排名第一。 2024.07.02,祝贺,可图项目组提出的可控视频生成方法被 ECCV 2024 接收。 2024.02.08,祝贺,可图项目组提出的生成模型评估方法被 CVPR 2024 接收。 多模态大模型入门指南: 训练过程: 预训练阶段:通常利用 XText 的数据集,来训练输入、输出的 Projector。通过优化损失函数来实现不同模态的对齐。PEFT 有时候用于 LLM Backbone。X文本数据集包含图像文本、视频文本和音频文本,其中图像文本有两种类型:图像文本对(即<img1><txt1>)和交错图像文本语料库(即,txt1><img1><txt2><txt3><img2><txt4>)。这些 XText 数据集的详细统计数据如附录 F 的表 3 所示。 多模态微调:对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调,MMLLM 可以遵循新的指令泛化到没有见过的任务,增强 zeroshot 的能力。MM IT 包括监督微调(SFT)和 RLHF 两部分,目的是为了使得模型符合人类的意图或者偏好,并且增强 MMLLMs 的交互能力。SFT 将 PT 阶段的数据转换为指令aware 的格式,使用 QA 任务作为例子。可以采用各种模板。优化目标和预训练相同,SFT 数据可以构造为单轮的 QA 或者多轮的 QA。常用的 SFT 和 RLHF 的数据集见表 4。
2024-12-06
图生文评测集
以下是关于图生文评测集的相关内容: 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中,Kolors 表现有竞争力,达业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,收集了 Kolors 与常见 SOTA 级别开源/闭源系统的文生图结果,并进行人工评测和机器评测。 人工评测方面,邀请 50 个具有图像领域知识的专业评估人员对不同模型生成结果对比评估,衡量维度为画面质量、图文相关性、整体满意度。Kolors 在整体满意度方面最优,画面质量显著领先其他模型。具体平均分如下: |模型|整体满意度平均分|画面质量平均分|图文相关性平均分| ||||| |AdobeFirefly|3.03|3.46|3.84| |Stable Diffusion 3|3.26|3.5|4.2| |DALLE 3|3.32|3.54|4.22| |Midjourneyv5|3.32|3.68|4.02| |Playgroundv2.5|3.37|3.73|4.04| |Midjourneyv6|3.58|3.92|4.18| |Kolors|3.59|3.99|4.17| 此外,还有关于 Vidu 大家测试和 Tusiart 简易上手教程的相关信息: Vidu 全球上线,注册即刻体验。Web 端访问:https://www.vidu.studio/ ,具有极速生成(实测 30 秒最快推理速度)、动漫风格、角色可控、精准理解、大片质感等特点。同时提供了“文生视频”“图生视频(用作起始帧)”“参考人物角色生成视频”的使用指南及相关视频链接。 Tusiart 简易上手教程中,文生图的相关要点包括:提示词相关性(数字在 5 15 之间为宜)、随机种子、ADetailer(面部修复插件)、CLIP skip(设成 2 )。
2024-12-06
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
图生文产品经理工作内容,详细一些
以下是关于图生文产品经理工作内容的详细介绍: 1. 学历与专业背景:通常要求本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 2. 工具使用与原理掌握:熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验;熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 3. 项目负责:负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 4. 技术了解:了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 5. 数据分析与决策:对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 6. 创新思维:具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 7. 前沿关注:对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践;对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 8. 编程与算法能力:具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成;具有一定的编程基础,熟练使用 Python、Git 等工具。 此外,从实际案例来看,产品经理还会在工作中运用 AI 工具解决实际问题,如使用 GPT 优化代码以提高工作效率和解决性能问题等。
2024-10-16
推荐免费使用的图生文的AI
以下为您推荐一些免费使用的图生文的 AI 工具: 1. Clip Interrogator:这是一款「图生文」反向工具,上传图片即可生成对应的文字描述。实测上传真实照片也可生成对应 prompt。 网址:https://replicate.com/pharmapsychotic/clipinterrogator 2. Midjourney:已实现「图生文」反向输出功能。 此外,还有一些相关的 AI 工具供您参考: 1. Pika:出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Leonardo:能生成高质量图片,支持用户上传自己 DIY 的模型,提供丰富的模型选择,但存在访问限制。 更多相关工具和信息您可以查看:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-11
图生文功能的开源数据集有哪些?
图生文功能的开源数据集有一些,其中一个比较知名的是智源研究院 FlagEval 团队开源的ImageEvalprompt。这是一个细粒度的文生图模型测评数据集,从实体、风格、细节上拆分出 11 个评测子维度,并对 DALLE 2、Stable Diffusion、 AltDiffusionm18 、ERNIEViLG 等模型进行了对比测评。 此外,还有一些其他的开源数据集可以用于训练和评估图生文模型,但具体的选择取决于您的需求和目标。希望这个信息对您有所帮助!
2024-04-21
如果制作智能体
制作智能体的方法如下: Logo 设计智能体: 江树提供了提示词模板,使用方法为将品牌、行业、理念等信息替换成自己的,复制到 GPT4o 中,即可瞬间呈现高质量 Logo。 若想进一步提升设计效果,可使用江树设计的 Logo 智能体生成更精准的提示词,访问链接 https://chatgpt.com/g/g67f4bf538f9081918073af13ba5c2cfelogodesigner ,生成的提示词可直接复制到 GPT4o 中,并借助最新的 AI 绘图能力达到专业设计水准。 Coze 智能体(字段捷径)获取笔记+评论信息: 第一步,创建一个智能体,使用单 Agent 对话流模式。 第二步,编排对话流,点击创建新的对话流(记得要和智能体关联)。 第三步,在获取笔记详情节点和笔记评论节点分别配置 cookie,note_link 使用开始节点的 USER_INPUT。 第四步,使用代码节点进行数据处理,注意代码节点输出的配置格式。 第五步,测试。找到一篇小红书笔记,试运行对话流,直接在对话窗口输入地址,看到数据即为成功。回到智能体的编排页面,同样方式测试,确保对话流执行成功。 第六步,发布。点发布后只选择多维表格,然后点配置。输出类型选文本,输入类型选择字段选择器。完善上架信息,填个表格,选发布范围时可选仅自己可用以加快审核。提交上架信息后,返回配置界面显示已完成即可完成最终提交。 其他智能体: 如创建一个输入人设等信息的智能体,放上已创建的工作流。但注意工作流中若有消耗个人资源的部分,如【所有视频片段拼接】节点使用的插件 api_token 填的是个人 token,不能直接发布。可将 api_token 作为工作流最开始的输入,用户购买后输入 api_token 再发布。
2025-04-14
最好的制作ppt的大模型是哪个
目前在制作 PPT 方面,没有绝对的“最好”的大模型。例如,Claude 3.7 在将 PDF 转换为 HTML 方面效果较好,但国内用户使用不太方便,可改用 DeepSeekR1 实现。某上市公司使用某互联网大厂研发的千亿 AI 大模型产品声称能 3 分钟制作 PPT,但接入公司系统时出现“一连接就死机”的情况。同时需要注意的是,过去几个月内国内的 AI 大模型在某些方面大同小异,且大部分远未达到可商用化程度。
2025-04-13
AI 制作短视频的方法
以下是关于 AI 制作短视频的方法: 1. 确定视频风格和主题:使用 Fanbook 中的 niji6 模型及sref 指令,加上每张图片的提示词来确定视频风格的一致性。比如根据丝绸之路的古风主题确定风格和时长,然后设定故事主线和镜头。 2. 创作故事剧本和分镜头:参考分镜头的基本格式要求,按照场景、地点、镜号、画面描述、台词、音效等维度进行填充。尽可能精简人物对话,提炼重点。当缺乏画面灵感时,可以借助语言大模型,如 Kimi 来获取帮助。 3. 生成角色和场景:根据剧本中的人物性格特征和时代背景,描绘人物的提示词、上传角色参考图cref,并将角色背景扣除以便于进行角色加背景的融合生成时进行垫图操作。场景提示词从剧本中的画面描述进行提取,采用文生图模式,画面风格选择提前准备好的风格图进行垫图,上传角色图、场景背景进行参考生成,提高人物和场景的融合度。 4. 让图片动起来:使用即梦进行图生视频,上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,可生成时长为 3 秒钟的画面。运镜类型可根据剧本中的镜头描绘设置,主要设置以随机运镜为主,生成速度根据视频节奏选择。 此外,根据视频脚本生成短视频的 AI 工具有多种,适用于不同的应用场景和需求,包括: 1. ChatGPT + 剪映:ChatGPT 生成视频小说脚本,剪映根据脚本自动分析出视频中需要的场景、角色、镜头等要素,并生成对应的素材和文本框架。 2. PixVerse AI:在线 AI 视频生成工具,支持将多模态输入(如图像、文本、音频)转化为视频。 3. Pictory:AI 视频生成器,允许用户提供文本描述来生成相应的视频内容。 4. VEED.IO:提供了 AI 图像生成器和 AI 脚本生成器,帮助用户从图像制作视频,并规划从开场到结尾的内容。 5. Runway:能够将文本转化为风格化的视频内容,适用于多种应用场景。 6. 艺映 AI:专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务,用户可以根据文本脚本生成视频。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-13
我想通过AI制作H5页面
以下是关于通过 AI 制作 H5 页面的相关信息: AI+高德 MCP 可以帮助您制作 H5 页面。目前,该工具已经有 1000 多人进行制作,还有几十位同学已经发出了自己的产品。 这次更新带来了三个超级实用的功能: 1. 24 种超酷的 H5 风格可供选择,如同选衣服一样简单。 2. 具备一键导航功能,无需复制粘贴地址。 3. 数据更真实,不用担心 AI 瞎编。 使用这些功能,10 分钟就能全部搞定。 在上期文章《》中,详细讲解了获取高德地图的密钥、cursor 如何设置 MCP、询问高德 MCP 生成旅游信息以及美化页面展示等内容。如果您还未阅读,可以点击查看。 另外,使用 Cursor 制作主页的步骤如下: 在搞定一个简单小游戏后,可以做个人介绍网站。假设要做一个《全 AI 自动驾驶的火星登陆飞船》项目,首先要有初步的项目介绍,然后新建一个相关文件夹并打开,在 AI 对话框中输入介绍内容,等待 AI 制作并加入修改意见。 若想让别人看到您的作品预览,可以通过网站 https://www.yourware.so/ 将项目文件夹整体上传,生成临时浏览链接,在不需要域名和服务器的情况下让外部看到作品。如果发现 cursor 卡顿,注意是否需要在终端区或者对话区确认重要操作,可将左下角的 ask every time 修改为 auto run 实现全自动化。
2025-04-13
有没有免费制作数字人的网站?
以下是一些免费制作数字人的网站及使用方法: HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。上传后效果如图所示,My Avatar处显示上传的照片。点开大图后,点击Create with AI Studio,进入数字人制作。写上视频文案并选择配音音色,也可以自行上传音频。最后点击Submit,就可以得到一段数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法:点击上面的网址,点击右上角的Create vedio。选择人物形象,可以点击ADD添加照片,或者使用DID给出的人物形象。配音时,可以选择提供文字选择音色,或者直接上传一段音频。最后,点击Generate vedio就可以生成一段视频。打开自己生成的视频,可以下载或者直接分享给朋友。 KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法:点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。点击开始创作,选择自定义照片。配音时,可以选择提供文字选择音色,或者直接上传一段音频。打开绿幕按钮,点击背景,可以添加背景图。最后,点击生成视频。 此外,在剪映中也可以生成数字人:在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费的、适合的数字人形象,比如“婉婉青春”。选择数字人形象时,软件会播放声音,可判断是否需要,点击右下角的“添加数字人”,将其添加到当前视频中。软件会根据提供的内容生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示渲染完成,可点击预览按钮查看效果。还可以为视频增加背景图片,删除先前导入的文本内容,点击左上角的“媒体”菜单并点击“导入”按钮,选择本地图片上传,将图片添加到视频轨道上,通过拖拽轨道右侧竖线使其与视频对齐。
2025-04-11
如何使用AI制作真人表情包?
以下是使用 AI 制作真人表情包的方法: 1. 使用 Gemini 2.0 Flash: 场景:表情包在社交媒体中是不可或缺的表达工具,但制作个性化表情包对许多人来说并不容易,有的工具可以生成根据某一个主体生成不同的表情,但是生成出来的图会多多少少改变原主体。 实用性:用户只需上传一张主体图片(例如一个小女孩的照片),通过简单的自然语言指令(如“让她开心大笑”),Gemini 就会自动生成相应的表情图片。 指令:“生成 XXX + XXX 的表情” 2. 使用 ChatGPT 4o: 输入提示词并加上最初的真人图片,例如:创建图片:一个戴着深蓝色蝴蝶结领结的柴犬,表情参考我上传的图片,3D 风格,毛绒绒质感,不要太逼真,比例为 1:1。如果对生成的第一个表情不满意,可以重新输入指令进行调整,如“让它看起来得意一点”。 一次生成九宫格表情包的方法:先收集很多自己喜欢的表情包,将每组拼图为 9 个,然后将先前做好的真人原图和一张九宫格拼图一起上传到 4o 对话框,输入相应指令,如:创建图片:参考图二的动作和道具制作表情包九宫格,每个图案都替换为图一为主角,保持风格为图一的质感,整整齐齐无留白排列,颜色明亮不偏黄,文字内容仔细核对不要出错。 另外,有的地方需要上传封面图,也可以由 4o 生成,先要求它做一个比例约 3:2 的。如果有个很喜欢的表情,使用九宫格出的效果不好,也可以单个一个个去生成,但比较费时间,且可能会受出图限制等待更久。最后将所有图片下载下来,挑选出需要的表情图片。
2025-04-11