Navigate to WaytoAGI Wiki →
Home/All Questions
数字人
数字人是运用数字技术创造出来的人,目前业界还没有一个关于数字人的准确定义,但一般可根据技术栈的不同分为两类,一类是由真人驱动的数字人,另一类是由算法驱动的数字人。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。 制作数字人的工具主要有: 1. HeyGen:是一个 AI 驱动的平台,可以创建逼真的数字人脸和角色。使用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。支持多种语言,并可用于教育视频、营销内容和虚拟助手等场景。 3. DID:是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 以下是每个人都可以用 10 分钟轻松制作 AI 数字人视频的方法: 在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置。 增加字幕:点击文本 智能字幕 识别字幕,点击开始识别。软件会自动将文字智能分段并形成字幕。 至此,数字人视频就完成了。点击右上角的“导出”按钮,导出视频以作备用。如果希望数字人换成自己希望的面孔,就需要用另一个工具来进行换脸了。
2025-03-21
我现在是学了一段时间的comfyui+flux,接下来准备学Python开发comfyui节点、对接模型,这样学下去方向有没有问题呢
您学习 ComfyUI 和 Flux 一段时间后准备学习 Python 开发 ComfyUI 节点并对接模型,这个方向是可行的。以下是一些相关的知识和要点供您参考: 工作流方面: 工作流节点可直接拖动单个节点到任意位置,也可按住 Control 键并用鼠标左键滑框选中多个节点,再按 Shift 键一起拖动。 选中节点后右键新建组,可修改组名、颜色等,组被覆盖时可直接拖动组。 选中节点后右键选择对齐方式,如顶部对齐、左边对齐等。 第三方节点的安装方式包括在 customer NODE manager 中安装、在 GitHub 上复制链接安装、通过终端输入指令安装、在秋叶启动器的版本管理中安装。 可通过 group by Parser 节点控制组,也可通过按住节点按 control b 跳过或按 control m 终止执行。 模型方面: 噪声强度由种子调节,种子固定噪声分布方式,噪声与 CLIP 无关,增大噪声设置值会增强模型对图片重绘的程度。 模型版本的提示词差异:1.5 以 tag 为主,XL 论文称以自然语言为主,但实际使用中因模型微调情况可能仍需用 tag。 Flux 模型有时生成黑图,可能有修复方案,需自行查询。图像生成结果为空,可能是 VAE 编码器与大模型未连接,调整连接后问题解决。 安装方面: 自动打标 joy_caption 副本的节点安装地址为 D:\\ComfyUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes。 安装步骤包括:(Comfyui evn python.exe)python m pip install rrequirements.txt 或点击 install_req.bat,注意 transformers 版本不能太低。 下载模型或者运行 ComfyUI 自动下载模型到合适文件夹,如从 https://huggingface.co/unsloth/MetaLlama3.18Bbnb4bit 下载并放到 Models/LLM/MetaLlama3.18Bbnb4bit 文件夹内。 新版的 PuLID 解决了模型污染的问题,使用新版的节点需要禁用或者删除之前的 PuLID 节点,不然可能会有冲突问题。模型放在 ComfyUI\\models\\pulid 文件夹里面,注意用新版的。 如果使用 PuLID,还需要安装 EVA CLIP 等模型。
2025-03-21
市面上对aigc设计岗位的需求度
目前,AIGC 相关岗位的需求呈现增长趋势。例如,网易内部要求所有设计师掌握 AIGC,腾讯 ISUX 已将 AI 应用于实战。在招聘方面,某数字银行招聘 AIGC 产品经理(深圳),其任职要求包括相信 AIGC、喜欢使用各种 AIGC 应用、能够上手相关操作等,岗位职责包括构建大模型工程化产品、探索和设计工程化产品、在重点业务场景中推动大模型的应用落地等。此外,小红书上也有众多 AIGC 相关的博主,如万能妍仔的 AIGC 等。总体而言,AIGC 领域的岗位需求在不断扩大,且对从业者的要求也在逐渐明确和提高。
2025-03-21
知识库目录
以下是通往 AGI 之路的知识库目录相关内容: 1. 直播一期:知识库及 GPT 基础介绍 知识库及社群介绍 最新知识库精选同步 通往 AI 绘画之路(小红书) 知识库目录导览 2. 5.关于我们&致谢 AGI 知识库:一个启程的故事 介绍:WaytoAGI 是由一群热爱 AI 的专家和爱好者共同建设的开源 AI 知识库 3. ?通往 AGI 之路分享会 深入浅出理解 AI 目录: 有趣的 AI 案例 AI 的原理 Diffusion 原理和案例 什么是 Agent
2025-03-21
什么工具可以帮我做数字人
以下是一些可以帮助您制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。它支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。 以下是使用剪映制作数字人的步骤: 1. 生成数字人:在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”,软件会根据提供的内容生成对应音视频并添加到当前视频中。左下角会提示渲染完成时间,之后可点击预览按钮查看效果。 2. 增加背景图片:删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并点击“导入”按钮,选择本地图片上传。将图片添加到视频轨道上(会覆盖数字人),可通过拖拽轨道右侧竖线使图片在整个视频播放时都显示。
2025-03-21
ai首尾帧生成视频
以下是关于 AI 首尾帧生成视频的相关信息: 制作技巧: 因为视频需要连贯且对应文本的展示,可以选择首尾帧图生成视频。 先根据文案在 MJ 里生成对应的黏菌图,再进行每一张首尾帧图生视频。 脚本示例:多种特异性黏菌的聚合体:粉瘤黏菌分泌的信息素简单高效,适合作为神经系统。灯笼黏菌坚韧有力,更适合组成皮肤。绒泡黏菌则是占比最多的菌脉,生长速率很高。 可用工具: krea:https://www.krea.ai 可灵:https://klingai.kuaishou.com 即梦:https://jimeng.jianying.com/aitool/home luma:https://lumalabs.ai 注意事项: 不要挑战 AI 首尾帧的能力,图像的区别及画面跨度不要太大,不建议倒放。 制作步骤: 1. 生成两张有承接关系的图片。 2. 首尾帧生视频 1。 3. 调换首尾帧生视频 2。 4. 拼合两段视频。 图像建议: 两张图片主体形象适当接近,AI 会通过推拉或环绕镜头等运镜来衔接两张图片。在创作上可分为主体变身循环、位置景别的循环、有无的变化循环等。 主体变身循环:T800 和施瓦辛格皮肤、弹扫把的小孩和弹吉他的成人、千纸鹤与仙鹤。 位置景别的循环:小孩骑车、宇航员头盔中的他人也是自己。 有无的变化循环:打不完的对手。 热门产品介绍: 在图片生成的过程中,可通过 MJ 局部绘画、PS 进行图片细节微调。对 Luma AI、可灵 1.0、Krea、Toon Crafter 的首尾帧动画进行测试,Luma 更接近提示词,Kling 1.0 运动幅度大。Krea 的效果着实不太行,很难保证一致性。Toon Crafter(ComfyUI)清晰度差,运行时对设备要求高,也没有继续迭代维护。另外在处理首尾帧动画时,首尾两帧之间可运动元素少、首尾间变化少,会导致可运动时长不够,最后画面中反而出现很多意料之外的动画。最终这里用了 Pixverse 的笔刷+运动方向控制实现效果(当时 kling 还没有更新笔刷能力)。SVD(ComfyUI)适合运动幅度较小的场景,可以通过后期放大、插帧得到不错的效果,就是对平面风格动画支持度一般,使用起来也有些门槛。
2025-03-21
免费的PPT加工网站
以下为您介绍一些免费的 PPT 加工网站: 歌者 PPT(gezhe.com):这是一款永久免费的智能 PPT 生成工具。具有话题生成、资料转换、多语言支持、海量模板和案例库、在线编辑和分享、增值服务等功能。其产品优势包括免费使用、智能易用、海量案例、资料转 PPT 专业、AI 翻译等。推荐理由为完全免费、智能化程度高、模板和案例丰富、支持多语言以及学习成本低。 讯飞智文(https://zhiwen.xfyun.cn/) Mindshow.fun(http://Mindshow.fun ,支持 Markdown 导入) kimi.ai(http://kimi.ai ,选 PPT 助手暂时免费效果好) Tome.app(http://Tome.app ,AI 配图效果好) Chatppt.com(http://Chatppt.com ,自动化程度高) 目前市面上大多数 AI 生成 PPT 按照 AI 生成 PPT 大纲、手动优化大纲、导入工具生成 PPT、优化整体结构的思路来完成设计和制作。 此外,还为您推荐两篇市场分析的文章供参考: 《》 《》
2025-03-21
建筑行业有哪成熟AI应用
在建筑行业,有以下成熟的 AI 应用: 1. HDAidMaster:这是一款云端工具,建筑师能在平台使用主流 AIGC 功能进行有趣的集卡式方案创作,在建筑、室内和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster,软件 UI 和设计成果颜值高。 2. Maket.ai:主要面向住宅行业,在户型和室内软装设计方面有 AI 技术探索,设计师输入房间面积需求和土地约束,软件能自动生成户型图并查看详细设计结果。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,为设计师提供全新设计模式,在住宅设计早期可引入标准和规范约束 AI 生成的设计结果,保证合规性。 4. Fast AI 人工智能审图平台:从住宅设计图构件开始,形成全自动智能审图流程,能自动导入、区域划分、构件识别、强条审查和导出结果,为建筑信息自动建模打下基础,实现建筑全寿命周期内信息集成与管理。 此外,在建筑设计效果图生成方面,图片转绘技术也有应用,比如建筑公司可利用该功能将建筑设计草图或实景照片转化为不同风格的效果图,帮助客户快速理解设计方案的外观效果。
2025-03-21
搭建可以自主决策规划和行动的agent
搭建可以自主决策规划和行动的 agent 通常涉及以下几个方面: 一、Agent 的概念 Agent 是一种能够在环境中自主感知、思考并采取行动的实体。可以将其想象成一个具有特定目标和行为能力的智能角色,能根据环境变化做出相应决策和反应。 二、LLM Agent LLM Agent 是结合大型语言模型(LLM)和自主智能体(Agent)特性的系统,能够利用大型语言模型的自然语言处理能力,理解用户输入,并在此基础上进行智能决策和行动。 三、LLM Agent 的组成部分 1. 规划(Planning) 定义:规划是 Agent 的思维模型,负责将复杂任务分解成可执行的子任务,并评估这些子任务的执行策略。 实现方式:通过使用大型语言模型的提示工程(如 ReAct、CoT 推理模式)来实现精准任务拆解和分步解决。 2. 记忆(Memory) 定义:记忆即信息存储与回忆,包括短期记忆和长期记忆。 实现方式:短期记忆用于存储对话上下文,支持多轮对话;长期记忆存储用户特征和业务数据,通常通过向量数据库等技术实现快速存取。 3. 工具(Tools) 定义:工具是 Agent 感知环境、执行决策的辅助手段,如 API 调用、插件扩展等。 实现方式:通过接入外部工具(如 API、插件)扩展 Agent 的能力,例如使用插件解析文档、生成图像等。 4. 行动(Action) 定义:行动是 Agent 将规划和记忆转换为具体输出的过程,包括与外部环境的互动或工具调用。 实现方式:根据规划和记忆执行具体行动,如智能客服回复、查询天气预报、AI 机器人抓起物体等。 四、Anthropic 的建议 随着 LLM 在几个关键能力上的成熟,如理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复,智能体开始在生产环境中涌现。智能体通过与人类用户的命令或交互式对话开始工作。一旦任务明确,智能体就会独立进行规划和操作,必要时会向人类寻求更多信息或判断。 在执行过程中,智能体需要在每个步骤从环境中获取“基准事实”(如工具调用结果或代码执行情况)以评估其进展。智能体可以在检查点或遇到障碍时暂停等待人类反馈。任务通常在完成时终止,但也常常包含停止条件(如最大迭代次数)以保持控制。 智能体适用于难以或无法预测所需步骤数量的开放性问题,且无法硬编码固定路径的场景。但智能体的自主性意味着更高的成本和潜在的错误累积。建议在沙盒环境中进行广泛测试,并设置适当的防护措施。 五、实例探究 Generative Agents 是一个有趣的实验,其中 25 个虚拟角色,每个角色都由 LLM 支持的 Agents 控制,在沙盒环境中生活和交互,其灵感来自《模拟人生》。生成 Agents 的设计将 LLM 与记忆、规划和反射机制相结合,使 Agents 能够根据过去的经验进行行为,并与其他 Agents 进行交互。 记忆流是一个长期记忆模块(外部数据库),用自然语言记录智能体经验的完整列表。检索模型会根据相关性、新近度和重要性,呈现上下文以告知 Agents 的行为。反射机制随着时间的推移将记忆合成更高层次的推论,并指导智能体未来的行为。规划与反应将反思和环境信息转化为行动,规划本质上是为了优化当前与时间的可信度。
2025-03-21
deepseek使用的文章
以下是关于 DeepSeek 使用的相关内容: DP 模型的功能:能进行自然语言理解与分析、编程、绘图,如 SVG、MA Max 图表、react 图表等。 使用优势:可以用更少的词让模型做更多事,思维发散,能给出创意思路和高级内容。 存在问题:思维链长不易控制,可能输出看不懂或胡编乱造的内容,增加纠错成本。 审核方法:可以用其他大模型来解读 DP 模型给出的内容。 使用建议:使用时要有自己的思维雏形,多看思考过程,避免被模型冲刷原有认知。 使用场景:包括阅读、育儿、写作、随意交流等方面。 案例展示:通过与孩子共读时制作可视化互动游戏,以及左脚踩右脚式的模型交互来展示 DP 模型的应用。 DeepSeek 只是品牌名,需要搭配具体模型,如 DeepSeek V3(类 GPT4o)和 DeepSeek R1(类 OpenAI o1)。 关于提升写作能力的方法:首先借助 AI 分析好的文章,如找出最喜欢的文章投喂给 deepseek R1,然后进行多次询问从不同角度分析文章;让 AI 对自己写的文章进行点评,给出详细的优缺点分析、指导和建议;还分享了根据文章内容对作者心理侧写的提示词。
2025-03-21