Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

一张图 生成三维

Answer

以下是关于一张图生成三维的相关信息:

  • 李飞飞团队发布了空间智能的首个预览版本,通过单张图片生成完整 3D 世界,还能与之交互。您可以访问以下网站进行试玩和了解更多信息:https://www.worldlabs.ai/blog 。相关媒体报道包括量子位的《李飞飞空间智能首秀:AI 靠单图生成 3D 世界,可探索,遵循基本物理几何规则》(https://mp.weixin.qq.com/s/iU_XQdF-r8AnnXr2dwI89w )、机器之心的《刚刚,李飞飞创业首个项目引围观:单图生成交互 3D 场景,空间智能来了》(https://mp.weixin.qq.com/s/hWikSypCZXzxa9LQJq4Frg )、有新的《速递|李飞飞 World Labs 推出首个 AI 系统——生成从图片到可交互的 3D 场》(https://mp.weixin.qq.com/s/bE7boUUumTSgIK39VC1x_A )。
  • Tripo AI 提供了图生 3D 模型的功能,仅需 1 步。点击输入框右侧的图标,上传图片即可生成 3D 模型。一次只会生成一个基础模型,支持Retry 重生成和 Refine 精修。
  • 李飞飞团队的 3D 世界生成能自然地与其他 AI 工具组合,形成新的创意工作流程。例如,创作者可以先使用文本到图像模型生成图像,再用其生成 3D 世界。不同模型有各自风格,世界可继承这些风格。一些创作者已提前尝试这种 3D 原生生成 AI 工作流程带来的可能性,如 Eric Solorio 展示了模型如何填补其创意工作流程中的空白,Brittani Natali 使用将 World Labs 技术与其他工具相结合的工作流程设计摄像机路径。
Content generated by AI large model, please carefully verify (powered by aily)

References

李飞飞团队:一张图生成3D可交互场景

https://x.com/drfeifei/status/1863618536318345688李飞飞的World Labs发布了他们空间智能的首个预览版本,上线了一个浏览器可访问的AI 3D demo可以试玩。通过单张图片生成完整3D世界,而且还能与之交互就像是让你“走进”一张图片,探索其生成的三维场景https://www.worldlabs.ai/blog(下面文章是一些截图,大家可以到?的网站交互体验)https://docs.google.com/forms/d/e/1FAIpQLSf9jHsaDq1IwM_FADQP0Gbd82tbW4CBOI5YfUAdPfqrFrWEeA/viewform李飞飞的AI 3D waitlist,先填为敬感谢@阿头第一时间提供情报。李飞飞还给他点了赞媒体报道:[heading3]量子位:李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则[content]https://mp.weixin.qq.com/s/iU_XQdF-r8AnnXr2dwI89w[heading3]机器之心:刚刚,李飞飞创业首个项目引围观:单图生成交互3D场景,空间智能来了[content]https://mp.weixin.qq.com/s/hWikSypCZXzxa9LQJq4Frg[heading3]有新:速递|李飞飞World Labs推出首个AI系统——生成从图片到可交互的3D场[content]https://mp.weixin.qq.com/s/bE7boUUumTSgIK39VC1x_A

Tripo AI入门手册:AI 3D创作,从未如此简单

顾名思义就是用一段文字生成3D模型,仅需1步[Tripo文生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Qe0YbxHvNoGjQKxIUHkcHuHBnXc?allow_redirect=1)在「Create」界面底部的输入框中,可以输入自己的提示词(此处不支持中文哦)。不会写提示词的伙伴也不用担心,点击输入框左侧的</>按钮可以随机生成提示词并自动填入输出入框中。提示词填写好以后,点击右侧的「Create」来生成3D模型。每次会生成4个基础模型,如果不满意,可以点击最下方白色的「Retry」按钮,重新生成4个基础模型。如果有满意的模型,只需要点击单个模型下方黄色的「Refine」,就可以精修此模型了。在「My Models」中可以看到精修进度,一般5 min左右就可以完成。[heading1]四、图生3D模型[content]顾名思义就是用一张图片生成3D模型,仅需1步[Tripo图生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/IBmxbag9Ho8zARxvcRWcKxRKnif?allow_redirect=1)点击输入框右侧的图标,可以上传图片来生成3D模型。图生3D一次只会生成一个基础模型,同样支持Retry重生成和Refine精修。至于效果嘛,自己体验吧。

李飞飞团队:一张图生成3D可交互场景

3D世界生成自然地与其他AI工具组合在一起。这使得创作者可以使用他们已知的工具来实现新的体验。例如,我们可以通过首先使用文本到图像模型生成图像来从文本创建世界。不同的模型有自己的风格,我们的世界可以继承这些风格。在这里,我们使用不同的文本到图像模型生成同一场景的四个变体,([4])全部使用相同的提示:我们已经让一些创作者提前了解了我们的技术,开始尝试3D原生生成AI工作流程带来的可能性。[Eric Solorio](https://x.com/8bit_e)展示了我们的模型如何填补他的创意工作流程中的空白,使场景中的角色轻松上演并指导精确的摄像机移动:[video1.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/B5CCbPguHoR7xzxBSZXc6ubBn5d?allow_redirect=1)[Brittani Natali](https://x.com/brittaninatali)使用将World Labs技术与Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相结合的工作流程,在我们生成的世界中精心设计了摄像机路径,以在三部短片中唤起不同的情绪:[video2.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/C9Yab4jRnoZE3Ux0H75cnSApnse?allow_redirect=1)

Others are asking
帮我生成一个三维建模图,关于化学制品的
很抱歉,目前无法直接为您生成关于化学制品的三维建模图。但您可以使用一些专业的三维建模软件,如 3ds Max、Maya、Blender 等来创建。这些软件具有丰富的工具和功能,可以帮助您实现您的需求。您可以在网上搜索相关软件的教程来学习如何使用它们进行三维建模。
2025-04-12
有没有很对汽车三维建模方面的AI应用 介绍介绍
以下是一些与汽车三维建模相关的 AI 应用: Vibe Draw:可以根据草图进行 3D 建模。 PhysTwin:能够通过视频创建交互式物理数字孪生。 GroomLight:用于重打光的人体头发外观建模的混合逆向渲染。
2025-04-11
有没有很对汽车三维建模方面的AI应用 介绍介绍
以下是一些与汽车三维建模相关的 AI 应用: Vibe Draw:可以根据草图进行 3D 建模。 PhysTwin:能够通过视频创建交互式物理数字孪生。 GroomLight:用于重打光的人体头发外观建模的混合逆向渲染。
2025-04-11
三维建模
以下为关于三维建模的相关信息: Polycam 发布了免费的 3D 建模工具,应用于元宇宙数字空间的物体孪生采集生成。您只需上传至少 20 张图片或至少 20 秒的视频,Polycam 自动处理并构建 3D 模型。生成后还可编辑,支持 12 种以上格式导出到流行的 3D 软件中,如 Blender、SketchUp、Unreal、Unity 等。100 张图像的云处理建模时间约 1 2 分钟。可在网站以及 iOS 和 Android 应用中创建、编辑和存储 3D 模型,完全免费。Polycam 还能将无人机拍摄的图像转换为广阔的 3D 模型,与所有流行的无人机兼容,包括 DJI Mavic 3、DJI Mini 4 Pro 和 DJI Phantom 4 Pro。其官方网站为: 。此外,摄影测量是一种通过使用照片捕捉物体、地形或结构的精确三维测量和视觉表示的技术,在建筑、考古、地理空间制图和 3D 建模等多个行业中有应用。 Midjourney 图像重纹理模式(retexture)有妙用,通过 Zbrush 和 Midjourney 结合,可实现 3D 建模和 3D 纹理输出,细化物体细节。Midjourney 可自动估算场景形状,重新定义光照、材料和表面细节,增加视觉冲击力。还可根据提示细化图像中的地形轮廓与光照,例如精确估算山的坡度和距离。
2025-03-05
有什么三维图,cad图,bom表提效的ai工具
以下是一些可以提高三维图、CAD 图和 BOM 表效率的 AI 工具: 1. CADtools 12:这是一个 Adobe Illustrator(AI)插件,为 AI 添加了 92 个绘图和编辑工具,涵盖图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,有助于创建复杂的几何形状和优化设计。 3. nTopology:基于 AI 的设计软件,可帮助创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 生成设计工具:一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,可根据用户输入的设计目标和约束条件自动产生多种设计方案。 需要注意的是,这些工具通常需要一定的 CAD 知识和技能才能有效使用。对于 CAD 初学者,建议先学习基本的 3D 建模技巧,然后尝试使用这些 AI 工具来提高设计效率。
2025-02-23
我想找一个关于建筑三维模型渲染的ai网站
以下为一些关于建筑三维模型渲染的 AI 网站: 1. 3dfy.ai:这是一家专注于将稀疏数据转化为逼真三维世界的公司。其领导团队由计算成像领域资深专家组成,拥有近四十年综合专业知识。适用于数字内容创作者、艺术家、游戏开发者、动画制作人、教育和培训行业专业人士、医疗行业以及建筑和工程领域等。 2. HDAidMaster:云端工具,在建筑设计、室内设计和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster。 3. Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面有探索。 4. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入相关标准和规范。 5. Fast AI 人工智能审图平台:形成全自动智能审图流程,实现数据汇总与管理。 但需注意,每个工具都有其特定应用场景和功能,建议您根据自身具体需求选择合适的工具。
2024-12-24
生成提示词的提示词
以下是关于生成提示词的相关内容: 生成提示词的思路和方法: 可以根据效果好的图片中的高频提示词去反推效果,结合不同字体效果的描述,打包到一组提示词中。提示词给到 AI 后,AI 会根据给定文字的文义,判断适合的情绪风格,然后给出适合情绪的字体和风格描述、情感氛围等,加上一些质量/品质词,形成输出提示词结构。为了让 AI 更能描述清晰风格,可以先给定多种参照举例。 具体操作步骤: 打开 AI 工具的对话框,将相关提示词完整复制粘贴到对话框。推荐使用 ChatGPT 4o。 当 AI 回复后,发送您想要设计的文字。可以仅发送想要的文字,也可以发送图片(适合有多模态的 AI)让 AI 识别和反推。 将 AI 回复的提示词部分的内容复制到即梦 AI。 对生成提示词的一些观点: 提示词生成提示词并非必要,不一定能生成最好的 Prompt 框架,修改过程可能耗时且不一定能修改好,不如花钱找人写。 一句话生成完整符合需求的 Prompt 非常困难,只能大概给出框架和构思,需要更低成本地调整需求和修改 Prompt。 不同生图工具生成提示词的特点: 即使是简短的描述,生成的提示词也非常细节、专业。 会解析需求,找出核心要点和潜在的诠释点,并给出不同的提示词方案。 提示词构建更多在于增强,而不是发散,生成的内容更符合期望。 同时生成中、英双版本,国内外工具通用无压力。 14 款 AI 生图工具实测对比: 本次实测用到的工具包括国内版的即梦 3.0(https://jimeng.jianying.com/aitool/home)、WHEE(https://www.whee.com)、豆包(https://www.doubao.com/chat)、可灵(https://app.klingai.com/cn/texttoimage/new)、通义万相(https://tongyi.aliyun.com/wanxiang/creation)、星流(https://www.xingliu.art)、LibiblibAI(https://www.liblib.art),以及国外版的相关工具。
2025-04-20
有没有能根据描述,生成对应的word模板的ai
目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如: 在法律领域,您可以提供【案情描述】,按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件,模拟不同辩护策略下的量刑结果,对比并推荐最佳辩护策略,或者为商业合同纠纷案件设计诉讼策略等。 在 AI 视频生成方面,有结构化的提示词模板,包括镜头语言(景别、运动、节奏等)、主体强化(动态描述、反常组合等)、细节层次(近景、中景、远景等)、背景氛围(超现实天气、空间异常等),以及增强电影感的技巧(加入时间变化、强调物理规则、设计视觉焦点转移等)。 一泽 Eze 提出的样例驱动的渐进式引导法,可利用 AI 高效设计提示词生成预期内容。先评估样例,与 AI 对话让其理解需求,提炼初始模板,通过多轮反馈直至达到预期,再用例测试看 AI 是否真正理解。 但需要注意的是,不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化,以获得更符合期望的 word 模板。
2025-04-18
如何自动生成文案
以下是几种自动生成文案的方法: 1. 基于其它博主开源的视频生成工作流进行优化: 功能:通过表单输入主题观点,提交后自动创建文案短视频,创建完成后推送视频链接到飞书消息。 涉及工具:Coze 平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程)。 大体路径:通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频;发布 coze 智能体到飞书多维表格;在多维表格中使用字段捷径,引用该智能体;在多维表格中创建自动化流程,推送消息给指定飞书用户。 2. 生成有趣的《图文短句》: 实现原理: 先看工作流:包括第一个大模型生成标题、通过“代码节点”从多个标题中获取其中一个(可略过)、通过选出的标题生成简介、通过简介生成和标题生成文案、将文案进行归纳总结、将归纳总结后的文案描述传递给图像流。 再看图像流:包括提示词优化、典型的文生图。 最终的 Bot 制作以及预览和调试。 3. 腾讯运营使用 ChatGPT 生成文案: 步骤:通过 ChatGPT 生成文案,将这些文案复制到支持 AI 文字转视频的工具内,从而实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频,系统匹配的素材不符合要求时可以手动替换。例如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类 AI 视频制作工具让普罗大众生产视频变得更轻松上手。
2025-04-15
如何通过输入一些观点,生成精彩的口播文案
以下是通过输入观点生成精彩口播文案的方法: 1. 基于其它博主开源的视频生成工作流进行功能优化,实现视频全自动创建。 效果展示:可查看。 功能:通过表单输入主题观点,提交后自动创建文案短视频,并将创建完成的视频链接推送至飞书消息。 涉及工具:Coze平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程)。 大体路径: 通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频。 发布 coze 智能体到飞书多维表格。 在多维表格中使用字段捷径,引用该智能体。 在多维表格中创建自动化流程,推送消息给指定飞书用户。 2. 智能体发布到飞书多维表格: 工作流调试完成后,加入到智能体中,可以选择工作流绑定卡片数据,智能体则通过卡片回复。 选择发布渠道,重点是飞书多维表格,填写上架信息(为快速审核,选择仅自己可用),等待审核通过后即可在多维表格中使用。 3. 多维表格的字段捷径使用: 创建飞书多维表格,添加相关字段,配置后使用字段捷径功能,使用自己创建的 Coze 智能体。 表单分享,实现填写表单自动创建文案短视频的效果。 4. 自动化推送:点击多维表格右上角的“自动化”,创建所需的自动化流程。 另外,伊登的最新 Deepseek+coze 实现新闻播报自动化工作流如下: 第一步是内容获取,只需输入新闻链接,系统自动提取核心内容。开始节点入参包括新闻链接和视频合成插件 api_key,添加网页图片链接提取插件,获取网页里的图片,以 1ai.net 的资讯为例,添加图片链接提取节点,提取新闻主图,调整图片格式,利用链接读取节点提取文字内容,使用大模型节点重写新闻成为口播稿子,可使用 Deepseek R1 模型生成有吸引力的口播内容,若想加上自己的特征,可在提示词里添加个性化台词。
2025-04-15
小红书图文批量生成
以下是关于小红书图文批量生成的详细内容: 流量密码!小红书万赞英语视频用扣子一键批量生产,这是一个保姆级教程,小白都能看得懂。 原理分析: 决定搞之后,思考生成这种视频的底层逻辑,进行逆推。这种视频由多张带文字图片和音频合成,带文字图片由文字和图片生成,文字和图片都可由 AI 生成,音频由文字生成,文字来源于图片,也就是说,关键是把图片和文字搞出来。 逻辑理清后,先找好看的模版,未找到好看的视频模版,最后看到一个卡片模版,先把图片搞出来,才有资格继续思考如何把图片变成视频,搞不出来的话,大不了不发视频,先发图片,反正图片在小红书也很火。 拆模版: 要抄这种图片,搞过扣子的第一反应可能是用画板节点 1:1 去撸一个,但扣子的画板节点很难用,Pass 掉。用 PS 不行,太死板不灵活,html 网页代码可以,非常灵活。经过 2 个多小时和 AI 的 battle,用 html 代码把图片搞出来了。这里不讲代码怎么写,直接抄就行。要抄,首先要学会拆,不管用什么方式批量生成这样的图片,都必须搞清楚里面有哪些是可以变化的参数,也就是【变量】,如主题、主题英文、阶段、单词数、图片、正文、翻译、普通单词、重点单词等。 想方法: 大概知道批量生成这样的图片需要搞清楚哪些参数,图片用 html 代码搞出来了。但问题是视频怎么搞,这种视频由多张不同的【带文字的图片】生成,比如读到哪句,哪句就高亮起来,图片也可以随着读到的句子变更。最后,视频就是用这样的图片一张张拼起来的。
2025-04-14
ai如何什么生成表格
AI 生成表格通常可以通过以下技术实现: 1. 利用变分自编码器(VAEs)和序列到序列模型(Seq2Seq)等技术生成表格文件、表格公式,并清理、创建、转换和分析表格中的文本数据,例如表格结构设计、数据分析表、表格自动化等。 2. 借助一些办公软件中的 AI 插件,如飞书中的相关插件,先通过 AI 理解图片中的内容并填充到表格列中,然后利用自带插件总结生成相关指令。 此外,在多模态数据生成中,结构化数据生成包括表格生成,多模态合成数据从大类来看有非结构化数据(图片、视频、语音等)和结构化数据(表格等)两大类。非结构化数据生成包括文本生成、图像生成、音频和语音生成、视频生成、3D 生成、合成数据生成等。
2025-04-14
我想将常用的AI入口手机放在一张网页上,该如何设置waytoAGI页面
以下是关于将常用的 AI 入口放在一张网页上设置 WaytoAGI 页面的方法: 1. 点开链接就能看:不用注册,不用花钱,直接点击。 2. 想看啥就看啥:比如您想学 AI 绘画,就去看“AI 绘画”部分;想找 AI 工具,就去“工具推荐”部分。内容分得清清楚楚,想学啥都能找到。 3. 有问题还能问:如果看了还有不懂的,或者想跟别人交流,可以加入社群,大家一起讨论。 另外,关于使用 Cursor 制作您的第一个主页: 1. 在搞定一个非常简单的小游戏之后,可以做一个自己的个人介绍网站。可以先看看官网,比如 allinagi.com.cn、sboat.cn。假设要做一个《全 AI 自动驾驶的火星登陆飞船》项目,首先会有一个初步简单的项目介绍,比如 WaytoMars 是一个制造、运营全 AI 自动驾驶的火星登陆飞船公司品牌,有着领先全球的技术实力、人才优势,预计在 2030 年推出可承载上千人,五星豪华级的全 AI 自动驾驶的火星登陆飞船。有了项目介绍后,让 AI 帮助生成一个具有前端大师级审美、极富科幻感的网站首页。首先,新建一个 waytomars 文件夹并打开,在 AI 对话框中输入上述的话,一路等待 AI 制作以及加入您的修改意见即可。 2. 如何让别人看到您的作品预览:通过将项目文件夹整体上传,就可以生成一个临时浏览链接,在不需要域名和服务器的情况下让外部也能够看到您的作品。注意:如果发现 cursor 有所卡顿,注意是不是 AI 让您在终端区或者对话区确认重要操作,左下角将 ask every time 修改为 auto run 就可以全自动化了。 WaytoAGI 就是一个帮您快速入门 AI、学会用 AI 搞事情的“武器库”。不管您是完全不懂 AI 的小白,还是想用 AI 赚钱的普通人,它都能帮到您。AI 是未来的趋势,现在学一点都不晚,如果您想了解 AI、用 AI、甚至靠 AI 搞钱,WaytoAGI 就是您最该看的“AI 宝典”。
2025-04-14
我想找一个可以把服装图片用ai的方式直接‘穿’在另一张图片的模特身上
以下是两种可以将服装图片用 AI 的方式“穿”在另一张图片的模特身上的方法: 方法一:使用 ComfyUI GeminiAPI 1. 在 Google 的 AI Studio 申请一个 API key(需要网络环境),有免费的额度,网址为:https://aistudio.google.com/apikey?hl=zhcn 。 2. 安装相关依赖,根据使用的情况选择手动安装(如果使用 ComfyUI 便携版或自己的 Python 环境)或通过 ComfyUI Manager 安装。 手动安装:安装相关依赖。 通过 ComfyUI Manager 安装:在 ComfyUI 中安装并打开 ComfyUI Manager,在 Manager 中搜索“Gemini API”,然后点击安装按钮。 方法二:使用【SD】 1. 进行 SAM 模型分割:来到图生图中,提示词输入“蓝色毛衣”,蒙版区域内容处理改为“填充”,尺寸改为和图像一致,重绘幅度为 1。 2. 处理可能出现的问题:如蒙版区域较大导致的衔接问题,可以通过降低重绘幅度或添加一个 openpose 来控制人物的身体,得到正确的姿势。 3. 选择合适的重绘功能:除了使用图生图的局部重绘,还可以使用 controlnet 的局部重绘功能,控制模式选择“更注重提示词”,具体效果可自行试验选择。
2025-04-09
学习大模型请给我一张知识图谱
以下是为您提供的大模型知识图谱: 1. 非技术背景,一文读懂大模型 整体架构 基础层:为大模型提供硬件支撑,数据支持等,例如 A100、数据服务器等。 数据层:企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。 模型层:LLm 或多模态模型,LLm 即大语言模型,如 GPT,一般使用 transformer 算法实现;多模态模型包括文生图、图生图等,训练所用数据与 llm 不同,用的是图文或声音等多模态的数据集。 平台层:模型与应用间的平台部分,如大模型的评测体系,或者 langchain 平台等。 表现层:也就是应用层,用户实际看到的地方。 2. AI Agent 系列:Brain 模块探究 知识 内置知识 常识知识:包括日常生活中广泛认可的事实和逻辑规则,帮助智能体具备泛化能力。 专业知识:涉及深入特定领域的详细信息,如医学、法律、科技、艺术等领域的专有概念和操作方法。 语言知识:包括语法规则、句型结构、语境含义以及文化背景等,还涉及非文字部分如语调、停顿和强调等。 3. 大模型入门指南 通俗定义:输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。 类比学习过程 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 找老师:用算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。 就业指导:为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 Token:被视为模型处理和生成的文本单位,可代表单个字符、单词、子单词等,在将输入进行分词时,会对其进行数字化,形成词汇表。
2025-04-07
如何让一张卡通人物动起来
要让一张卡通人物动起来,可以参考以下几种方法: 1. 使用 AnimateX :类似 Animate Anyone,输入角色图片和参考动作序列,即可实现角色动画,尤其适配拟人化的角色。 2. 借助 Pika : 账号注册:访问完成免费注册。 素材整理: 视频:准备一段视频,可手机实拍,≥5 秒,生成时会自动截取前 5 秒,横屏/竖屏均可(建议 1080p 以上)。 图片:准备一张主体清晰无遮挡的角色图片,生成的视频中将参考此图片的角色并融入视频。 文案思路:提前构思角色动态关键词(如“奔跑/挥手/发光”),也可让模型自由发挥。 3. 运用即梦进行图生视频:只需上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,能生成时长为 3 秒钟的画面,运镜类型可根据剧本中的镜头描绘设置,以随机运镜为主,生成速度可选择慢速。 此外,在制作过程中,还可以像桂大羊的教程那样,通过描绘人物的提示词、上传角色参考图、扣除角色背景以便于进行角色加背景的融合生成时进行垫图操作等方式,提高人物和场景的融合度。
2025-03-30
用什么AI可以把一张图重新制作成另一张图
以下是一些可以将一张图重新制作成另一张图的 AI 工具和相关知识: 1. Stable Diffusion: 图生图功能:上传图片后,它会根据您的图片、选择的模型、输入的 prompt 等信息进行重绘。重绘幅度越大,输出的图和输入的图差别就越大。 尺寸:需注意选择合适的图片生成尺寸,太小可能导致 AI 生成内容有限,太大则可能使 AI 失控。 采样算法:决定了 AI 用何种算法生图。 采样次数:调整图片内容的次数,并非越多越好,过多可能效果提升不明显且耗时增加。 提示词相关性:影响图像与 prompt 的匹配程度,过高可能导致图像质量下降。 随机种子 seed:固定种子可对图片进行“控制变量”操作,首次生成图时无需设置。 Clip Skip:一般设为 2,早期无需过多关注。 ENSD:eta 噪声种子增量,默认设为 0 即可。 例如,将一幅图再次放入以图生图中,通过 DeepBooru 反推关键词,并使用新的大模型和 LORA 进行重新生成,可以改变图片风格。但生成的图可能存在细节瑕疵,需要不断调整参数或借助 PS 修补。 此外,在全国首例 AI 生成图片著作权案例中,法官认定利用 Stable Diffusion 等工具,根据使用者输入的提示词、增删修改相关参数生成的具有独创性和智力投入的图片属于美术作品,受到著作权保护,使用者享有生成图片的著作权。
2025-03-24
生成一张图片,把楼顶的裂缝做成人体表皮的感觉,冒着微红的血液,有施工工人正在刷涂料修补这个伤口
很抱歉,暂时无法直接为您生成这样的图片。但您可以使用一些 AI 绘画工具来尝试实现,比如 DALL·E2、StableDiffusion 等。您可以在这些工具中输入详细的描述,如“楼顶的裂缝呈现人体表皮的质感,冒着微红的血液,有施工工人正在刷涂料修补这个伤口”,然后通过不断调整参数和提示词来获得您期望的效果。
2025-03-21