Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

普通人打工人AI制作短视频,请给出具体执行步骤

Answer

以下是普通人利用 AI 制作短视频的具体执行步骤:

  1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。
  2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。
  3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。
  4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。
  5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。
  6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。
  7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。
  8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。
  9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。

请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。

另外,制作一部 2 分钟短片,不论是使用镜头拍摄还是使用 AI 工具生成,本质上都脱离不了影视制作的基础逻辑。在角色设计阶段,需要保持角色的一致性,并为角色增加个性化特性。在分镜图片生成阶段,为了及时调整分镜画面,决定生成一张合适的图片就直接开始进行对应动画镜头的生成。在动画镜头制作阶段,主要使用了 pixverse、pika、runway 三种视频生成工具。我们这里讲的短片都是以短故事片为主,后续也会带领大家讨论广告片等不是以故事为主要基底的影片类型。

Content generated by AI large model, please carefully verify (powered by aily)

References

问:我想用 AI 把小说做成视频,应该怎么做?

1.小说内容分析:使用AI工具(如ChatGPT)分析小说内容,提取关键场景、角色和情节。2.生成角色与场景描述:根据小说内容,使用工具(如Stable Diffusion或Midjourney)生成角色和场景的视觉描述。3.图像生成:使用AI图像生成工具根据描述创建角色和场景的图像。4.视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。5.音频制作:利用AI配音工具(如Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。6.视频编辑与合成:使用视频编辑软件(如Clipfly或VEED.IO)将图像、音频和文字合成为视频。7.后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。8.审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。9.输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。内容由AI大模型生成,请仔细甄别

阿汤AI短片探索——第一幕(动画篇)

本文介绍了制作一部2分钟短片的步骤,包括剧本创作、分镜脚本创作、角色设计、分镜图片制作、动画制作、配音和配乐。在角色设计阶段,需要保持角色的一致性,并为角色增加个性化特性。在分镜图片生成阶段,为了及时调整分镜画面,决定生成一张合适的图片就直接开始进行对应动画镜头的生成。在动画镜头制作阶段,主要使用了pixverse、pika、runway三种视频生成工具。原文:[阿汤AI短片探索——第一幕(动画篇)](https://h0slqmssqrc.feishu.cn/docx/F9QfdA4U0oqd6HxHgcqcmB0Knhg?from=from_copylink)更新日志:2.24分镜图片生成/动画镜头制作更新(对于小猫动作画面效果需要进一步探索)制作一部短片,不论是使用镜头拍摄还是使用AI工具生成,本质上都脱离不了影视制作的基础逻辑。今天开始我们就将从一部2分钟动画短片开始,了解影片制作的全过程以及其中需要具备的基础知识,并学会如何将AI融入短片制作的工作流。我们这里讲的短片都是以短故事片为主,后续也会带领大家讨论广告片等不是以故事为主要基底的影片类型。

阿汤:AI短片探索——第一幕(动画篇)

本文介绍了制作一部2分钟短片的步骤,包括剧本创作、分镜脚本创作、角色设计、分镜图片制作、动画制作、配音和配乐。在角色设计阶段,需要保持角色的一致性,并为角色增加个性化特性。在分镜图片生成阶段,为了及时调整分镜画面,决定生成一张合适的图片就直接开始进行对应动画镜头的生成。在动画镜头制作阶段,主要使用了pixverse、pika、runway三种视频生成工具。原文:[阿汤AI短片探索——第一幕(动画篇)](https://h0slqmssqrc.feishu.cn/docx/F9QfdA4U0oqd6HxHgcqcmB0Knhg?from=from_copylink)更新日志:2.24分镜图片生成/动画镜头制作更新(对于小猫动作画面效果需要进一步探索)制作一部短片,不论是使用镜头拍摄还是使用AI工具生成,本质上都脱离不了影视制作的基础逻辑。今天开始我们就将从一部2分钟动画短片开始,了解影片制作的全过程以及其中需要具备的基础知识,并学会如何将AI融入短片制作的工作流。我们这里讲的短片都是以短故事片为主,后续也会带领大家讨论广告片等不是以故事为主要基底的影片类型。

Others are asking
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
普通人想学习AI自动化,make和coze哪个更推荐一点
对于普通人学习 AI 自动化,Make 和 Coze 哪个更适合的问题,以下是一些相关信息供您参考: Make 对于编程小白比较友好,其思考过程较长,有助于学习,但不太适合专业选手,因为思考过程较慢,可能会让人有点不耐烦。Make 具有国内版优势,包括深度理解中国开发场景和技术生态、完全免费、无需翻墙、流畅稳定,还具备完整的 IDE 功能(代码编写、项目管理、插件管理、源代码管理等)。您可以通过进行尝试。 Coze 是一款 AI Agent 的衍生产品,其价值在于可以跟进当前 AI Agent 工具的发展情况,发现商业化机会,还能用于做产品 Demo。在学习新知识如 RAG 时,可以先通过 Claude 了解细节概念,再通过 Coze 搭建 Demo 进行实践。在学习 RAG 过程中,还可以利用 Coze 的知识库能力创建如产品资料问答机器人等 Bot。 总的来说,如果您是编程小白,Make 可能更适合;如果您希望跟进 AI 工具发展并进行实践操作,Coze 可能更符合您的需求。但最终的选择还需根据您的具体学习目标和个人偏好来决定。
2025-04-08
ai如何让普通人个人实现经济独立
在 AI 时代,普通人实现经济独立可以通过以下方式: 1. 达到人机协作的高级形态与独立创新:努力达到与 AI 高度协同又不失主导的状态,利用 AI 组成自己的“AI 团队”,实现原来需要很多人才能完成的目标。例如在产品开发中,一个人借助 AI 可以同时扮演多个角色,高效完成各项工作,实现一人公司或个人创造者经济。但要达到此阶段,需要对 AI 工具掌控纯熟,保持自主性和判断力,将 AI 看作“增强器”而非替代者。 2. 充分运用 AI 进行渐进式培养:从心态、知识、技能、思维、创造力到协作能力,层层推进,不断强化自身的主动性和思考力,成长为适应 AI 时代的超级个体,在知识广度、思考深度、创造力和效率上实现飞跃。 此外,还可以关注以下方面: 1. 了解 AI 多模态大爆发的趋势,认识到“互动”与“内容”可能变得廉价,而“真实”会成为稀缺资源。 2. 关注“AI 原生”的商业模式,基于 AI 的能力再造商业模式,而非套用现有流程。 3. 思考 AGI 可能带来的极端垄断和中心化操控能力,为自己准备 PlanB。 4. 认识到“人的模型”是 AI Agent 的前提,是 AI 与人合作的关键一环。 5. 关注 AGI 会主动投资的技术,如可控核聚变、量子计算、超导、广义机器人等。
2025-03-24
普通人通过ai赚钱
以下是一些普通人通过 AI 赚钱的方式: 1. 电商:婴儿的四维彩超 AI 预测 思路和玩法:通过 AI 工具将宝宝的四维彩超还原出现实模样进行变现。孕妇妈妈在孕期 22 26 周会进行四维彩超检查,很多准爸爸妈妈期待宝宝的模样,从而衍生出市场需求。在小红书、抖音等公域平台发布相关笔记吸引咨询,将客户引流到私域接单变现。 操作流程:客户提供四维彩超图原图,在 Midjourney 里进行垫图和特定描述词,整个流程不超过 10 分钟就能出图。 变现方式:受众群体多为宝妈,变现方式多样,单价不低。但在平台引流要注意隐蔽,避免被平台检测限流或封号。 2. AI 产业中的机会 基础设施层:布局投入确定性强,但涉及海量资金投入,入行资源门槛高,普通人若无强资源应谨慎入局,可考虑“合作生态”的切入机会。 技术层:技术迭代速度快,小规模团队或个人须慎重考虑技术迭代风险,基础通用大模型非巨无霸公司不建议考虑。 应用层:是广阔蓝海,当前针对行业/细分领域的成熟应用产品不多,“杀手级”应用更是稀少,普通个体和小团队强烈推荐重点布局,拥有超级机会和巨大发展空间。 3. 内容创作 像作者本人是 AI 的受益者,AI 是生产力工具,能降本增效,但仍需投入大量时间和精力,起到辅助作用。 同时存在 AI 的受害者,他们的技能失效,AI 未创造足够新的生存空间。 作者作为坚定的 AGI believer,期望 AI 能做出重大科学发现、治愈疾病、消除饥饿和肥胖、给每人发钱,让人类自由从事想做的事。
2025-03-23
请问普通人怎么从事ai产品经理
普通人要从事 AI 产品经理,可以从以下几个方面入手: 1. 技术背景:具备扎实的编程、算法工程、AI 应用开发、后端开发等技术知识,这对于理解和推动 AI 产品的开发至关重要。 2. 产品开发与管理经验:积累互联网和 AI 产品开发方面的经验,提升项目管理与执行能力,以推动产品的落地与优化。 3. 多元化应用场景:了解 AI 在 AIGC 内容创作、自动驾驶、金融数据分析、教育、医疗健康、影视创作、营销等各行业的应用。 4. 学习与技能提升:处于 AI 技术初学阶段的人,要通过学习提升技能,并将其应用到实际工作和生活中。 5. 工具使用:广泛使用生成式 AI 工具,如 Midjourney、Stable Diffusion(SD)、Coze、GPT 等,培养对工具的熟悉度和运用能力。 6. 协作与共学:积极参与各种 AI 学习社群和线上线下活动,与他人共学交流,提升技能与认知。 7. 内容创作:具备自媒体运营、视频制作、文案策划等内容创作能力。 8. 营销与品牌运营:掌握商业化路径,将 AI 技术与商业化需求结合,提供完整解决方案。 9. 活动策划与执行:积累活动策划和运营经验,具备资源整合和组织协调能力。
2025-03-21
一个高中毕业普通人学习AI如何从小白到精通
对于一个高中毕业的普通人,若想从 AI 小白成长为精通者,可以参考以下步骤: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,能找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出自己的作品。 在知识库中有很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,对于纯小白开发 AI 应用,还可以参考以下经验: 1. 从小白学代码,看人类导师和硅基助教的协作之道: 像案例中,女儿在 Claude 和父亲的帮助下,用 Unity 开发了一个 RPG 小游戏。起初父亲不相信纯小白能通过 AI 搞定 Unity 程序,但女儿通过让 Claude 教她做一个简单任务,半小时内完成并明白了 Unity 里的基本概念。 开发过程有顺利也有挫折,挫折原因包括问题描述不清、AI 给的方案复杂、配置错误等。这让我们意识到小白需要通过 AI 能直接搞定的小项目,先学明白背后的原理,在此基础上才能开发复杂项目。最好有人类导师,一开始把任务拆解到足够小,针对性地设计学习路径,并密切关注随时从坑里捞人。 2. 基础小任务: 推荐从一个最最基础的小任务开始,让 AI 先帮你按照 best practice 写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,学会必备的调试技能。 如果用的是 o1mini,可以在 prompt 最后添加“请生成 create.sh 脚本,运行脚本就能直接创建插件所需要的所有文件。请教我如何运行脚本。”(如果 windows 机器则是 create.cmd),足够勤勉的 o1mini 会为你生成一段超级长的代码,并给出提示,复制粘贴并执行,一次性生成十多个目录和文件,超方便。 3. 明确项目需求: 通过和 AI 的对话,来逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,这样的文档会包含影响技术方案选择的细节,比直接给 AI 一段口头的需求描述要准确得多。在后续开发时每次新起一个聊天就把文档发给 AI 并告知在做第几点功能,会非常方便。
2025-03-21
普通人如何学习AI
普通人学习 AI 可以参考以下步骤: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,还可以参考以下补充内容: 1. 万能公式法:问 AI【一个(xxx 职业)需要具备哪些知识?】,AI 就可给出知识框架,然后根据知识框架每一个小点去问,就能让 AI 工具帮你指数级深度思考。 2. 优质信息源:像没有技术背景的普通人,想要学习或了解 AI,最好的信息源在「即刻」App 的“”等免费圈子里。 3. 信息爆炸之做减法的小 tips: 只掌握最好的产品,少关注新产品测评(除非远超 ChatGPT)。 只解决具体问题,不做泛泛了解。从问题中来,到问题中去。 只关注核心能力,不关注花式玩法,用 AI 扬其长避其短。 只关注理清需求和逻辑,不死记硬背提示词。 先关注提升认知/洞察,然后再谈技巧。 另外,对于纯 AI 小白,如果还在观望 AI 不知从何入手,可以参考《雪梅 May 的 AI 学习日记》。其学习模式是输入→模仿→自发创造。学习内容可去 waytoAGI 社区发现自己感兴趣的 AI 领域,学习最新内容。学习资源都是免费开源的。
2025-03-21
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
需要做一个自动化出视频的工作流
以下是一个关于自动化出视频工作流的详细介绍: 优势: 全自动化处理,解放双手。 40 秒快速出片,效率提升。 成本低廉,每条仅需 0.0x 元。 输出质量稳定专业。 DeepseekR1 保证文案质量。 还能改进,例如可以加入配套 BGM,让视频更有感染力;增加更丰富的画面内容和转场效果;使用免费节点替代付费插件,进一步降低成本;优化模板样式,支持更多展示形式;增加自动化程度,支持批量处理。 工作流程: 1. 可以在扣子商店体验,建议自己搭建。 2. 工作流调试完成后,加入到智能体中,可以选择工作流绑定卡片数据,智能体则通过卡片回复。 3. 选择发布渠道,重点如飞书多维表格,填写上架信息(为了快速审核,选择仅自己可用),确认发布等待审核,审核通过后即可在多维表格中使用。 4. 创建飞书多维表格,添加相关字段,配置选择“自动更新”,输入相关字段后,“文案视频自动化”字段捷径会自动调用工作流,生成视频。 5. 表单分享,实现“填写表单,自动创建文案短视频”的效果。 6. 全自动视频合成使用多视频融合插件,一键导出成品。但需注意节点产生的视频是异步生成,可能无法马上展现,需耐心等待几秒。 如果您还有其他疑问或需要进一步的帮助,请随时联系。
2025-04-14
学习ai思路,完整步骤流程
以下是新手学习 AI 的完整步骤流程: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,通过实践巩固知识,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,以“Windsurf 零基础开发”为例,AI 开发网站的操作步骤如下: 1. 开发目标:以“Windsurf 学习共创社区”为例,借助 AI 能力快速构建现代化 Web 应用。 2. 技术选型:Vue + TypeScript。 3. 目标用户:零基础开发学习者。 4. 参考项目:Cursor101。 5. 开发流程: 需求分析与代码生成。 环境配置自动化。 问题诊断与修复。 界面优化与细节打磨。 功能迭代与完善。 在开发过程中,输入需求让 windsurf 进行 code,它会将开发思路讲解并给出环境命令,可能会出现报错,将报错信息返回给 cascade,经过自动检查后修复 bug,不断优化细节,如优化导航栏和首页,插入细节图片等。
2025-04-14
我要根据PPT开发一个网页,请详细提供操作步骤和选择哪一个AI工具更合适。
以下是根据 PPT 开发网页的详细操作步骤以及适用的 AI 工具: 一、生成 PDF 1. 将您的文件转换为 PDF 格式,其他文件格式也可行,但 PDF 效果更佳。 2. 若希望在文章中加入图片,需将图片转换为 Markdown 格式。 网络图片:直接复制图片的 URL,右键图片选择复制 URL,然后用 Markdown 格式写入文档。 自己的图片:使用图床服务(如 https://sm.ms/)托管图片,生成公链。 3. 插入视频:先将本地视频上传到公网(如 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项获取 URL,用 Markdown 格式写入。 二、适用的 AI 工具 1. 爱设计 网址:https://ppt.isheji.com/?code=ysslhaqllp&as=invite 输入大纲和要点: 导入大纲和要点 输入主题自动生成大纲和要求 选择模版并生成 PPT 导出 2. MindShow 网址:https://www.mindshow.fun//home 输入大纲和要点: 导入大纲和要点 输入主题自动生成大纲和要求 选择模版并生成 PPT 导出 3. Process ON 网址:https://www.processon.com/ 输入大纲和要点: 导入大纲和要点: 手动复制(相对耗时) 导入方式:复制最终大纲内容到本地 txt 文件,将后缀改为.md(若看不见后缀可自行搜索开启),打开 Xmind 软件导入 md 文件,在 Process ON 导入 Xmind 文件。 输入主题自动生成大纲和要求:新增思维导图,输入主题点击 AI 帮我创作。 选择模版并生成 PPT:点击下载,选择导入格式为 PPT 文件,选择模版再点击下载。若喜欢使用且无会员,可在某宝买一天会员。
2025-04-13
企业RAG知识库的实施步骤
企业 RAG 知识库的实施步骤主要包括以下几个方面: 1. 文档加载(Document Loading):从多种不同来源加载文档,如包括 PDF 在内的非结构化数据、SQL 在内的结构化数据,以及 Python、Java 之类的代码等。LangChain 提供了 100 多种不同的文档加载器。 2. 文本分割(Splitting):使用文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储(Storage):存储涉及两个环节,一是将切分好的文档块进行嵌入(Embedding)转换成向量的形式,二是将 Embedding 后的向量数据存储到向量数据库。 4. 检索(Retrieval):数据进入向量数据库后,通过某种检索算法找到与输入问题相似的嵌入片。 5. Output(输出):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起生成更加合理的答案。 此外,构建知识库也是重要的步骤。 海外官方文档:https://www.coze.com/docs/zh_cn/knowledge.html 国内官方文档:https://www.coze.cn/docs/guides/use_knowledge
2025-03-30
如果一个不懂技术的人学习AI,应该怎么做?请列定详细的步骤。
以下是一个不懂技术的人学习 AI 的详细步骤: 1. 了解 AI 基本概念 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习 AI 领域广泛,如图像、音乐、视频等,根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试 理论学习之后,进行实践来巩固知识,尝试使用各种产品做出自己的作品。 在知识库中查看大家实践后的作品、文章分享,并分享自己实践后的成果。 5. 体验 AI 产品 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,还可以参考以下具体的开发示例: 1. 以“Windsurf 学习共创社区”为例,进行零基础开发网站 技术选型:Vue + TypeScript(无需先了解具体含义)。 目标用户:零基础开发学习者。 参考项目:Cursor101。 开发流程: 需求分析与代码生成。 环境配置自动化。 问题诊断与修复。 界面优化与细节打磨。 功能迭代与完善。 2. 搭建对接 GPT 大模型的微信聊天机器人 选用技术组件:极简未来平台、腾讯云轻量应用服务器、宝塔面板和 Docker。 按照详细的配置步骤操作:购买服务器、配置宝塔面板,部署 Docker 和 COW 组件,绑定微信号。 了解费用问题:包括极简未来平台的费用和腾讯云服务器的费用,以及如何通过积分和优惠降低成本。 掌握运维问题的解答:学会简单高效地管理和维护服务器和服务,以及遇到问题时的解决方案。 如果在学习过程中有任何不懂的地方,可以随时寻求帮助。同时,还可以加入免费的 AI Agent 共学群,获取更多玩法和经验分享以及最新的 AI 前沿资讯。
2025-03-28
我是一位程序开发小白,不会用代码开发程序。我现在有一台安装Window 11操作系统的笔记本电脑,配置为14代i7CPU、32G内存、1TB硬盘、1张RTX4070显卡。我想部署一套本地的大模型+智能体+知识库。我要怎么样才能实现无代码部署,请列出详细的安装步骤。
以下是为您提供的无代码部署本地大模型、智能体和知识库的详细安装步骤: 1. 硬件评估:您的笔记本电脑配置为 14 代 i7 CPU、32G 内存、1TB 硬盘、1 张 RTX4070 显卡,基本满足部署要求。但需要注意,运行内存最低 32GB,越高越好,最低配可能会经常爆显存。建议将软件和模型部署在 SSD(固态硬盘)上,以提高加载模型的速度。 2. 选择合适的部署工具:ComfyUI 是一个相对配置要求较低、系统资源占用少、出图速度快的工具。它最低可在小于 3G 的 GPU 上运行,甚至没有 GPU 光用 CPU 也可以,但速度极慢。SDXL 出来后提高了运行配置,最低需要 8GB 显存+32GB 运行内存,12GB 流畅运行,推荐 16GB 以上。 3. 安装准备:如果您的电脑能顺畅清晰地玩 3A 游戏,那么运行相关部署工具一般也没问题。 4. 预算和需求:根据您的需求和预算来选择合适的配置。例如,如果有做 AIGC 视频、建模渲染和炼丹(lora)的需求,可能需要更高的配置。 请注意,以上步骤仅为参考,实际部署过程可能会因具体情况而有所不同。
2025-03-26
微调大模型的优势与运用的功能场景是什么?微调具体步骤是?
微调大模型具有以下优势和运用的功能场景: 优势: 提高模型在特定任务中的性能:可以输入更多示例,经过微调的模型在特定任务中表现更好,虽然可能会失去一些通用性。 提高模型效率:实现更低的延迟和更低的成本,可通过专门化模型使用更小的模型,且只对输入输出对进行训练,舍弃示例或指令进一步改善延迟和成本。 功能场景:适用于需要在特定领域(如法律、医学等)获得更优表现的情况。 微调大模型的具体步骤如下: 从参数规模的角度,大模型的微调分成两条技术路线:全量微调(FFT)和参数高效微调(PEFT)。全量微调是对全量的模型参数进行全量的训练,PEFT 则只对部分模型参数进行训练。从成本和效果综合考虑,PEFT 是目前业界较流行的微调方案。 微调是在较小的、特定领域的数据集上继续大模型的训练过程,通过调整模型本身的参数来提高性能。 您可以参考 OpenAI 官方微调教程:https://github.com/openai/openaicookbook/blob/main/examples/How_to_finetune_chat_models.ipynb
2025-03-23