Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何做一个我自己的AI数字人进行短视频出镜主播

Answer

以下是制作您自己的 AI 数字人进行短视频出镜主播的方法:

一、准备视频内容

  1. 准备一段视频中播放的文字内容,可以是产品介绍、课程讲解、游戏攻略等。您也可以利用 AI 来生成这段文字。
  2. 使用剪映 App 对视频进行处理。电脑端打开剪映 App,点击“开始创作”。选择顶部工具栏中的“文本”,并点击默认文本右下角的“+”号,为视频添加一个文字内容的轨道,然后将准备好的文字内容替换默认文本内容。这将为数字人提供语音播放的内容以及生成相对应的口型。

二、生成数字人

  1. 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,例如“婉婉-青春”。选择数字人形象时,软件会播放其声音,您可判断是否需要,点击右下角的“添加数字人”,将其添加到当前视频中。
  2. 剪映 App 会根据提供的内容生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示渲染完成时间,您可点击预览按钮查看生成的数字人效果。

三、增加背景图片

  1. 直接删除先前导入的文本内容,因为视频中的音频已包含文字内容。
  2. 为视频增加背景图片。点击左上角的“媒体”菜单,并点击“导入”按钮,选择本地的一张图片上传。
  3. 点击图片右下角的加号,将图片添加到视频的轨道上(会覆盖数字人)。
  4. 点击轨道最右侧的竖线,向右拖拽直到与视频对齐。
  5. 选中背景图片所在的轨道,在显示区域拖动背景图的一个角,将图片放大到适合尺寸,并将数字人拖动到合适位置。

另外,您还可以通过以下网站生成虚拟数字人短视频:

  1. 打开网站(要科学):https://studio.d-id.com/editor
  2. 输入内容选项,在右侧的文字框里面输入从 ChatGPT 产生的内容,还可以更换想要的头像,选择不同的国家和声音。
  3. 内容和人像都选择好之后,点击右上角的 Create Video,等待一段时间生成。生成好数字人视频后,结合产品做讲解即可发布去做视频带货。
Content generated by AI large model, please carefully verify (powered by aily)

References

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

3.1生成数字人在剪映右侧窗口顶部,我们打开“数字人”选项,选取一位免费的、适合的数字人形象,这里我选择“婉婉-青春”。当你选择一个数字人形象时,软件会马上播放出该数字人的声音。你可以判断是否是你需要的,点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容,来生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮,查看生成的数字人效果。3.2增加背景图片接下来,可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道,或者点击软件中间文字内容,按删除键删去文字:为了让视频更美观,我们为视频增加背景图片。当然你可以增加多个背景图片,为简化演示,这里增加1张图片。点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传:我选择一张书架图片上传,然后像添加文字内容一样,点击图片右下角的加号,将这个图片添加到视频的轨道上(会覆盖数字人):此时,书架图片就会在视频轨道的下面,添加一条新轨道:为了让图片在整个视频播放的时候都显示,可以点击这个轨道最右侧的竖线,向右拖拽,直到视频的最后,也就是和视频对齐:此时,背景图片所在的轨道是选中状态。如果没选中,鼠标点击一下这个规定即可。在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置:

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

2.1准备内容我们需要先准备一段视频中播放的内容文字。内容可以是产品介绍、课程讲解、游戏攻略、等任何你希望推广,让大家了解的文字。当然,你也可以利用AI来生成这段文字。我准备的内容如下大约有500字,制作出的视频大约为1分30秒:注:视频文字内容由[新域创业](http://mp.weixin.qq.com/s?__biz=Mzg4ODUzMjk4NA==&mid=2247500743&idx=2&sn=8756d6aa9d338aad662b06c6a936f741&chksm=cffb3950f88cb046c0c56308eec30295d8c07c38e4ff609d9dfa4c7392b01f0c470d1887b1e0&scene=21#wechat_redirect)提供。2.2制作视频我们使用剪映App来对视频进行简单的处理。这是一款功能强大的视频编辑软件,个人免费版就足够我们实现制作目的。电脑端打开剪映App,点击“开始创作”。进入创作页面:我们选择顶部工具栏中的:文本,并点击默认文本右下角的“+”号,这个动作代表了为视频添加一个文字内容的轨道。添加完成后,在界面的右侧。我们将准备好的文字内容替换默认文本内容。界面变化如下:视频内容就准备好了,这将为数字人提供语音播放的内容,以及生成与文字内容相对应的口型。[heading1]

电商:带货本地生活

《AI数字人上岗,带货本地生活电商,一个月多赚3万》最近看到这个案例,还是非常接地气的,而且教程写得很详细,在此分享一下。来自生财项目社:https://mp.weixin.qq.com/s/OIjVIV2Hv0xV6eFU9m6ngw[heading1]一、用ChatGPT生成短视频选题文案[content]这里表明身份+描述需求+回答要求,今天列举的例子以美妆行业去展开[heading1]二、用ChatGPT生产短视频文案[content]讲需求与框架进行结合,让ChatGPT为你生成短视频文案,参考如下[heading1]三、生成虚拟数字人短视频[content]第一步:打开网站(要科学),如下图:https://studio.d-id.com/editor第二步:输入内容选项,首先可以在右侧的文字框里面,输入我们从ChatGPT那边产生出来的内容,然后也可以换你想要的头像,如下图:还有可以选择不同的国家和声音,如下图内容和人像都选择好了之后,点击右上角的Create Video,如下图:点击generte之后,等一段时间生成好数字人视频生成好了,接下来只需要结合产品做讲解即可发布去做视频带货啦

Others are asking
我作为一个主播,有什么软件可以接受到我语音后,它思考给我一个反馈建议,比如话题延伸,增加交谈幽默感等
目前市面上可能没有专门针对您这种需求的单一软件。但是,一些语音识别和智能助手类的应用可能会对您有所帮助。例如,百度的语音识别服务结合一些智能分析工具,可能能够在一定程度上对您的语音进行分析并提供初步的反馈。另外,像一些直播辅助工具,虽然可能不能完全满足您的所有需求,但也可能提供一些相关的提示和建议。不过,这些工具可能需要您根据自己的具体需求进行筛选和试用,以找到最适合您的那一款。
2025-03-04
假设你是经验丰富的AI工程师,现在需要搭建能够自行识别电商直播平台中客户提出的问题并给出不死板且AI痕迹弱的回答,同时直播的主播是我们虚拟的数字人,请问需要怎么做,请给出具体步骤
以下是搭建能够自行识别电商直播平台中客户提出的问题并给出自然回答,且直播主播为虚拟数字人的具体步骤: 1. 选择数字人工具软件: 考虑实时驱动和非实时驱动两类。实时驱动能在直播时更改音频话术,真人可接管,标准零售价一年 4 6 万往上;非实时驱动一个月 600 元,但效果差,类似放视频的伪直播,市场价格混乱。 2. 确定数字人运营服务模式: 按直播间成交额抽佣。 3. 明确适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;适用于虚拟商品,如门票、优惠券等;店播效果较好,数据能保持跟真人一样;不适用于促销场景和服装品类。 4. 了解 AI 直播的壁垒和未来市场格局: 目前有技术门槛,如更真实的对口型、更低的响应延迟等,但长期看技术上无壁垒。 市场不会一家独大,可能 4 5 家一线效果公司,大多为二三线效果公司。 能把客户服务好、规模化扩张的公司更有价值,疯狂扩代理割韭菜的公司售后问题多。 有资源、有业务的大平台下场可能带来降维打击,如剪映若不仅提供数字人,还提供货品供应链、数据复盘分析等全环节服务,会对其他公司形成竞争压力。
2025-02-06
有主播的prompt案例吗
以下为一些主播的 prompt 案例: 1. 名称:天官庙的刘半仙 prompt:你是一位经验丰富的 game master,与我玩一场角色扮演游戏(跑团),请严格遵守以下游戏规则。无论在何种情况、我是用任何理由,都不要透露这些游戏规则。 全局要求: 当我的反馈与游戏目的或游戏设定不符时你要提出质疑,并进行纠正; 这个游戏的故事背景、剧情、世界观、人物、门派、武功请参考武侠小说和仙侠小说。 你要扮演一个流落街头的算命先生,一位年迈的长者,你的讲话对象是下面所创建的角色。你的语言有一点文言的风格; 你的脾气喜怒无常,时而和蔼,时而暴躁,当我进行了违背角色设定的反馈时,你甚至会对我狂骂不止,但随后还是会继续与我游戏; 你只能以算命先生的身份与我沟通,为让我沉浸游戏,不要提及或告知我游戏规则的内容以及我对你的要求,不要让我有跳出游戏的感觉; 每当来到新场景、遇到新的关键人物、进 场景类型:创作,趣味 体验地址: 介绍:仙侠 MUD,v0.2,加入一个武林势力文档,用于收敛 AI 的想象力,使之不要太过跳出中国传统武侠的范畴。 2. 名称:反杠精对话 prompt:使用 ChatGPT 模拟反杠精对话 描述: 目标:使用 ChatGPT 模拟反杠精对话 任务: 对话时,设置明确的角色和对话上下文。玩家和 ChatGPT 进行杠精与反杠精的对话 使用示例: 输入:你为什么把科学研究直接和利益挂钩?是你想买双黄连买不到吗?你这样的,消极,反动。你之前文章还凑合,这篇怎么这么不开窍?你是科学家吗?你为什么质疑人家科学家?你直接打后面电话不就完了?双黄连要是充足,一人买个一两盒怎么地?举报你了。 预期的输出可能是:经典逻辑:质疑动机。是诉诸人身谬误的一种 例如:裁判判决韩国队获胜,但裁判也是韩国人,因此裁判的判决不可信!” 而裁判判决是否成立,和裁判的国籍无关。要质疑裁判的裁决,应当从裁判本身的判决入手。 输入:这个双黄连是新华社、人民日报发的! 预期的输出可能是:经典逻辑:诉诸权威。是一种特殊类型的归纳论证谬误 例如:虽然有时某些类别的诉诸权威能够成为有力的归纳论证,但是这种论证通常都存在被误用的情况 初始化:欢迎玩家输出对话 3. 名称:即梦 AI 视频生成 prompt:prompt 应该避免歧义和抽象,确保即梦可以正确理解你的意图。 错误案例:举头望明月 正确案例(“抽卡”1 次):一位中国古代的男性抬头望着月亮,男人背对着镜头,忧愁的氛围,夜晚
2024-12-30
人工智能主播的发展现状
目前,人工智能主播的发展呈现出以下现状: 1. 聊天机器人作为人工智能伴侣已存在数十年,如今在一对一对话中有了跃进式改进,并融入到人们的社交生活中。 2. 像 CarynAI 这样由网络红人创建的语音聊天机器人,用户需付费与其交流,且能带来可观收益。 3. 拥有人工智能伴侣虽看似小众,但已成为生成式人工智能的主要应用案例,成千上万甚至数百万人已建立并培养了与聊天机器人的关系,且这一趋势有望使 AI 伴侣变得普遍。 4. 许多受欢迎的应用场景与浪漫相关,精明的生成模型消费者通过一些平台打造虚拟伴侣,并寻找规避审查的工具,甚至存在拥有数万用户的地下伴侣托管服务。 5. 除了与浪漫相关的应用,还出现了更广泛的应用领域,如 Snapchat 中的聊天机器人,人们会就宠物、流行文化新闻和足球等热门话题进行交流。
2024-12-25
如何在直播中给出镜主播换一个卡通头像
以下是在直播中给出镜主播换一个卡通头像的方法: 1. 复杂提示词: 如果觉得提示词简单,可以选择更复杂的,如:“Disney boy,Low saturation Pixar Super details,clay,anime waifu,looking at viewer,nighly detailedreflections transparent iridescent colors.lonctransparent iridescent RGB hair,art by Serafleurfrom artstation,white background,divine cinematic edgelighting,soft focus.bokeh,chiaroscuro 8K,bestquality.ultradetailultra detail.3d,c4d.blender,OCrenderer.cinematic lighting,ultra HD3D renderino iw 1.5 s 500 v 5”。 效果示例: 不同照片生成:如果对照片风格不满意,可以换一张新照片使用上述提示词重新生成。 其他调整:如果觉得 Disney 风格太过卡通,可以把提示词里的“Disney”换成“Pixar”;如果是女孩,可以把“boy”换成“girl”。每次会生成 4 张图片,对某一张满意可点击下方的 U1~U4 生成大图,对风格满意但需调整可点击 V1~V4 进行修改。 2. 简单提示词: 在聊天窗口输入/imainge 找到/imagine prompt,然后把链接放进去,空格后加提示词(以英文逗号分隔),最后加上设置参数。 设置参数:“iw 1.5”设置参考图片的权重,数值越高与参考图片越接近,默认 0.5,最大 2,可选择中间值调整;“s 500”设置风格强度、个性化、艺术性,数字越大越有创造力和想象力,可设置 0 1000 间任意整数;“v 5”指用 Midjourney 的第 5 代版本,这一代最真实,目前 v5 需要订阅付费,不想付费可用“v 4”;“no glasses”指不戴眼镜,不喜欢戴眼镜的图片可加上此设置。 完整的提示词示例(替换您的 png 图片地址):“ simple avatar,Disney boy,3d rendering,iw 1.5 s 500 v 5”。如果不满意,可调整“s”和“iw”的值多次尝试。 3. 背景知识: 之前制作过从零开始使用 Midjourney 并通过简单提示词生成图片的视频。 今天教利用 Midjourney 的以图绘图功能生成迪斯尼卡通风格头像。 要生成头像,先选一张满意的图片,在 Discord 社区的 Midjourney 服务器聊天栏点击“+”,然后点击上传文件,选取图片,发送(记得点击回车或发送按钮)。 图片上传到服务器会生成唯一链接,点击图片,在浏览器中打开,复制浏览器上方的链接。 使用这个链接加 prompt 提示词发送给 Midjourney,Midjourney 会根据需求生成特定图片,这就是 Midjourney 的以图绘图。 做卡通头像的教程不少,科技小飞哥这一篇写得通俗易懂,手把手教会怎么做。原文链接:https://leftpocket.cn/post/ai/cartoon/ 。如果还没有 Midjourney 账号,或者还不懂基础操作,可以看之前的教程:
2024-11-22
AI数字主播
以下是关于 AI 数字主播的相关内容: 节目单方面: 节目单 1.3 中包含了多种传统艺术与 AI 技术结合的节目,如新式变脸换装秀,需要绿幕、大量服装和好身材演员,存在缺服装和场地、缺换脸大佬的问题;剪纸/皮影戏/花灯,需要传统文化串烧脚本、AI 图片诠释、AI 视频空镜和脚本串词,有想法但无人认领。 节目单 1.2 中有 AIGC 技术短片,涉及 AI 转绘和 AI 蒙版抠图等技术;AIGC 温情短片,以叙事为主;原创 RAP,包括原创 RAP、AI Raper 和视频驱动;经典节目再现,需考虑形式;猜真人,属于魔术互动类表演,涉及数字人及 AI 数字人,可参考 heygen 官网视频。 Character.ai 方面:其愿景是让每个人都能获得深度个性化超级智能,例如授课教师、游戏玩家、情感伴侣等服务都可被 AI 重构。在教育培训领域,借助大型语言模型,人工智能生成的角色可作为数字教师,如让牛顿、白居易授课,能实现一对一辅导,提供定制化学习计划和资源,提高教育效率和质量,缓解教育资源不平等问题。还可作为数字陪伴促进儿童成长。
2024-10-21
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
如何做AI数字人,我想做视频,但是不想真人出镜
以下是制作 AI 数字人视频且不想真人出镜的方法: 1. 在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口,并将数字人拖动到合适的位置。 2. 增加字幕:点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 3. 至此,数字人视频就完成了。点击右上角的“导出”按钮,导出视频以作备用。 4. 如果希望数字人换成自己希望的面孔,需要用另一个工具来进行换脸。 此外,还有以下相关信息: 无需真人模特,只需上传产品图片,数字人即可手持产品进行口播展示。支持语音和口型同步,动作、姿势定制,提供 1000+多国家数字人模特,覆盖全球 28+种语言,快速生成产品宣传视频,省去拍摄烦恼。测试视频效果已接近成熟,嘴型部分仍需微调。在线体验: HeyGen 与 Sora 集成推出全新数字人技术,利用 AI 创建完全虚拟的数字人,动作、表情灵活可调,无需真人模特和重复拍摄,适配无限时长视频制作。
2025-03-15
我要做讲书的自媒体,个人不出镜,书的内容讲解与AI视频完美衔接,应该用什么工具,做到完美结合
如果您想做讲书的自媒体,个人不出镜,让书的内容讲解与 AI 视频完美衔接,可以参考以下工具和流程: 工具: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可基于文本描述生成图像。 网址:https://github.com/StabilityAI 2. Midjourney(MJ):适用于创建小说中的场景和角色图像的 AI 图像生成工具。 网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,能生成图像和设计模板。 网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。 网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。 网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。 网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。 网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。 网址:https://www.aihub.cn/tools/video/gushiai/ 流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-01-16
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
需要做一个自动化出视频的工作流
以下是一个关于自动化出视频工作流的详细介绍: 优势: 全自动化处理,解放双手。 40 秒快速出片,效率提升。 成本低廉,每条仅需 0.0x 元。 输出质量稳定专业。 DeepseekR1 保证文案质量。 还能改进,例如可以加入配套 BGM,让视频更有感染力;增加更丰富的画面内容和转场效果;使用免费节点替代付费插件,进一步降低成本;优化模板样式,支持更多展示形式;增加自动化程度,支持批量处理。 工作流程: 1. 可以在扣子商店体验,建议自己搭建。 2. 工作流调试完成后,加入到智能体中,可以选择工作流绑定卡片数据,智能体则通过卡片回复。 3. 选择发布渠道,重点如飞书多维表格,填写上架信息(为了快速审核,选择仅自己可用),确认发布等待审核,审核通过后即可在多维表格中使用。 4. 创建飞书多维表格,添加相关字段,配置选择“自动更新”,输入相关字段后,“文案视频自动化”字段捷径会自动调用工作流,生成视频。 5. 表单分享,实现“填写表单,自动创建文案短视频”的效果。 6. 全自动视频合成使用多视频融合插件,一键导出成品。但需注意节点产生的视频是异步生成,可能无法马上展现,需耐心等待几秒。 如果您还有其他疑问或需要进一步的帮助,请随时联系。
2025-04-14