Navigate to WaytoAGI Wiki →
Home/All Questions
我是美区Tiktok shop 的卖家,希望AI用图片生成带货短视频
以下是利用 AI 用图片生成带货短视频的步骤: 1. 添加产品/介绍背景:如果有自己的视频/图片素材,可以直接使用;若没有产品背景/产品介绍,可以根据搜索添加。 2. 扣像结合背景:在剪映里面把数字人扣下来,导入视频,点击画面选择抠像,点击智能扣像,调整到合适的大小和位置。 3. 添加字幕和音乐:智能识别字幕,可搜索添加音乐或手动添加自己喜欢的音乐。 这样就可以根据您的需求结合您的图片生成您需要的视频,用于带货或讲解产品。如果应用在直播也是可以的,把视频做长些即可,但直播可能需要收费,短视频可以通过购买邮箱注册使用免费的时长或直接购买会员版。
2025-03-17
gemini
Google 的多模态大模型叫 Gemini。Gemini 是由 Google DeepMind 团队开发的,它不仅支持文本、图片等提示,还支持视频、音频和代码提示。能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出。被称为 Google 迄今为止最强大、最全面的模型,是一种“原生多模态大模型”,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 Gemini report 有中文翻译,翻译贡献者为林夕,源文档为:https://storage.googleapis.com/deepmindmedia/gemini/gemini_1_report.pdf 。本报告介绍了一种新的多模态模型 Gemini,它在图像、音频、视频和文本理解方面具有卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸,适用于从复杂的推理任务到设备内存受限的应用场景。 可以使用 Gemini 拆解视频,例如使用 Gemini 1.5 Pro 进行视频分析和拆解。有测试者如阿强、张余、Ling、洋洋等进行了相关测试,反馈效果较好,准确度很高。
2025-03-17
我需要的是学习目录,比如 基础--专项---实战等路径
以下是为您提供的 AI 学习目录: 基础部分: 根据电脑硬件和自身财力选择合适的开始方式,包括本地部署(M 芯片的 Mac 电脑或 2060Ti 及以上显卡的 Windows 电脑)、在线平台(在线出图和云电脑),不建议一开始就配主机。 熟练使用文生图、图生图,具备一定逻辑思考和推理能力。 掌握数学基础(线性代数、概率论、优化理论等)和编程基础(Python、C++等)。 专项部分: 建炉,针对不同炼丹方式提供炼丹工具的安装教程。 数据集预处理、模型训练以及模型调试及优化。 自然语言处理:语言模型、文本分类、机器翻译等。 计算机视觉:图像分类、目标检测、语义分割等。 实战部分: 通过真实业务场景的项目案例,如研报生成、旅游搭子、即拍即搜等积累实战经验。 模型部署:模型优化、模型服务等。 请注意,以上内容仅供参考,您可以根据自身需求和实际情况进行调整和学习。
2025-03-17
更通用一点,更落地一点,主题换成学习AI&LLM吧
以下是关于学习 AI&LLM 的相关知识: 一、AI 相关概念与技术 1. 概念 生成式 AI 生成的内容称为 AIGC。 AI 即人工智能。 2. 机器学习 电脑通过找规律进行学习,包括监督学习、无监督学习、强化学习。 监督学习:使用有标签的训练数据,算法目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习:从反馈中学习,以最大化奖励或最小化损失,类似训小狗。 3. 深度学习 一种参照人脑神经网络和神经元的方法(因有很多层所以叫深度)。 神经网络可用于监督学习、无监督学习、强化学习。 4. 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 5. LLM(大语言模型) 对于生成式 AI,生成图像的扩散模型不是大语言模型。 对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 二、技术里程碑 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。 三、RL 与 LLM 融合的本质与阐释 AI 本质是一堆 scaling law。今天能看到最好的模型规模在 10 的 25 到 26 次方 FLOPs 这种规模,且数量级还会持续增长,算力是必要条件。一个值得被 scale up 的架构是基础,要支持不断加入更多数据。现在“吃”的是 base model 的 scaling law,未来可能会“吃”用户数据源的 scaling law。alignment 也有 scaling law,只要能找到对的数据就能解决。当 next token prediction 足够好时,能够平衡创造性和事实性。多模态数据的引入可推迟数据瓶颈问题,如视频和多模态的卡点解决不了,文本的数据瓶颈就会很关键。在限定问题(如数学或写代码)上,数据相对好生成,通用问题还没有完全的解法,但有探索方向。统计模型没有问题。
2025-03-17
我是美区Tiktok shop 的卖家,希望使用AI生成带货短视频
以下是使用 AI 生成美区 TikTok Shop 带货短视频的步骤: 一、用 ChatGPT 生成短视频选题文案 表明身份,描述需求并提出回答要求,以美妆行业为例展开。 二、用 ChatGPT 生产短视频文案 将需求与框架结合,让 ChatGPT 为您生成短视频文案。 三、生成虚拟数字人短视频 1. 打开网站(需科学上网):https://studio.did.com/editor 2. 在右侧文字框输入从 ChatGPT 产生的内容,选择想要的头像。 3. 选择不同的国家和声音。 4. 内容和人像选择好后,点击右上角的“Create Video”,等待生成。 四、虚拟数字人结合产品做视频 1. 添加产品/介绍背景 若有自己的视频/图片素材可直接使用,若无,可根据搜索添加。 2. 扣像结合背景 在剪映中把数字人扣下来,导入视频,点击画面选择抠像,点击智能扣像,调整到合适的大小和位置。 3. 添加字幕和音乐 智能识别字幕。 可搜索添加音乐或手动添加喜欢的音乐。 这样就可以根据您的需求结合图片生成所需的视频,用于带货或讲解产品,也可应用于直播(直播可能收费,短视频可通过购买邮箱注册使用免费时长或直接购买会员版)。
2025-03-17
给我一份通往AIGC的学习目录
以下是一份通往 AIGC 的学习目录: 1. AIGC 概述 1.1 GenAI、AIGC 的基本概念 GenAI 的定义、工作原理及应用 典型的 GenAI 产品 AIGC 的定义及创建方式 国内 AIGC 的监管框架 1.2 AIGC 的分类及应用 语言文本生成的模型和代表项目 图像生成的技术和代表项目 音视频生成的方法和代表项目 AIGC 在音乐生成、游戏开发和医疗保健等领域的应用 1.3 AIGC 应用可能引发的风险 内生风险,如算法的不可解释性和不可问责性,代码开源的安全和伦理担忧 数据隐私问题,如数据泄露、匿名化不足、未经授权的数据共享 知识产权风险,如作品侵权、不当竞争 相关法律和规定对 AIGC 的要求 AIGC 滥用可能导致的问题,如虚假信息传播、侵犯隐私 2. AI 赋能教学 从易到难的学习路径 了解 AI 工作原理 尝试各种 AI 工具 学会优化提示词 生成课程资源 解决教学场景 课上师生机共学 促学生正确使用 提升人机共创力 相关主题 AIGC 教育革命:技术原理与课堂实践 AI 从工具到助手赋能教师提升效率与能力 大语言模型的教学潜力:交流技巧与心得 AI 与教育场景融合拓展教学边界与创新场景 AI 与人类智能的共生放大学生思考力塑造深度学习能力 一线教师的 AI 需求与高效工具推荐 AI 赋能课堂的核心逻辑:从理论到应用 解码 AI 教学案例:创新与实践 教学主要负担分析,如备课压力、适应新课标
2025-03-17
审查施工图用哪个AI
以下是一些能够帮助审查施工图的 AI 工具: 1. HDAidMaster:这是一款云端工具,在建筑设计、室内设计和景观设计领域表现出色,搭载了自主训练的建筑大模型 ArchiMaster,软件的 UI 和设计成果颜值在线。 2. Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面有探索,设计师输入需求后能自动生成户型图。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入标准和规范约束设计结果,保证合规性。 4. Fast AI 人工智能审图平台:形成全自动智能审图流程,能自动导入设计图、进行区域划分和构件识别等,还能将建筑全寿命周期内的信息集成管理。 但每个工具都有特定的应用场景和功能,建议您根据自身具体需求选择合适的工具。
2025-03-17
注册runway账号技巧
以下是注册 Runway 账号的技巧: 1. 访问 Runway 网页:https://runwayml.com/ 。 2. 在网页右上角点击“Sign Up”进行注册。 3. 输入邮箱与基础信息,并完成邮箱验证,即可完成注册。 4. 新注册用户会有 125 个积分进行免费创作(约为 100s 的基础 AI),您可以选择“Try For Free”模式。 此外,在使用 Runway 生成视频时: 1. 选择左侧工具栏“Generate videos”(生成视频)。 2. 选择“Text/Image to Video”(文字/图片生成视频)。 3. 将图片拖入框内。 4. 选择一个动画系数。 5. 点击生成 4 秒或 5 秒、10 秒(时长越长,生成的效果可能越不稳定)的视频。 6. 下载视频。 在制作视频时,以汽车内饰片段为例: 1. 登录 Runway 账户后,在首页的左侧点击“Text/Imagine to Video”(文生视频/图生视频)。 2. 点击 2 处将汽车内饰的图片上传到 Runway 中。 3. 1 处可以更改生成图片所用到的大模型版本,数字越大代表模型越强。目前只有 Gen2 每天有免费额度。 4. 3 处用于输入提示词。 5. 4 处可以修改生成的视频时长。 6. 5 处可以看到生成的结果。 提示词方框中输入的运镜方式“Roll Clockwise Shot slowly”是摄像机围绕垂直轴顺时针旋转,常用于创造动态的、有时令人眩晕的视觉效果。不想动脑的话,每个片段的运镜方式根据分镜表的建议来即可。运镜提示词可参照: 。Runway 对于这些专有的运镜方式理解得很好。其他的提示词可以不填,先看看效果,如果效果不好,再补充简短的提示词重新生成视频。很多时候提示词过多,生成的视频就很怪异。改变提示词,改变生成时长,多抽卡几次,毕竟 Runway 会员可以无限抽卡。
2025-03-17
生成电商带货视频
以下是生成电商带货视频的详细步骤: 一、用 ChatGPT 生成短视频选题文案 1. 表明身份 2. 描述需求 3. 提出回答要求,以美妆行业为例展开 二、用 ChatGPT 生产短视频文案 将需求与框架结合,让 ChatGPT 为您生成短视频文案 三、生成虚拟数字人短视频 1. 第一步:打开网站(要科学)https://studio.did.com/editor 2. 第二步:输入内容选项,在右侧文字框输入从 ChatGPT 产生的内容,可更换想要的头像,选择不同的国家和声音 3. 第三步:点击右上角的 Create Video,等待生成 四、虚拟数字人结合产品做视频 1. 第一步:添加产品/介绍背景,可使用自己的视频/图片素材,也可根据搜索添加 2. 第二步:扣像结合背景,在剪映中把数字人扣下来,导入视频,点击画面选择抠像,点击智能扣像,调整到合适的大小和位置 3. 第三步:添加字幕和音乐,智能识别字幕,可搜索添加音乐或手动添加喜欢的音乐 此外,还有以下相关信息: 《AI 数字人上岗,带货本地生活电商,一个月多赚 3 万》的案例,教程详细,来自生财项目社:https://mp.weixin.qq.com/s/OIjVIV2Hv0xV6eFU9m6ngw AnchorCrafter 是打造“电商带货”风格视频的利器,强调人物互动,优化细节表现,输出多样性提升。详细介绍:
2025-03-17
ToB行业有什么关于AI Agent的应用场景
在 ToB 行业,AI Agent 有以下应用场景: 1. 人力资源领域:如 Brix 面向北美和欧洲企业,提供全球雇佣的 AI 驱动解决方案。通过 Hiring Agent,触达全球约 2000 万以上的人才,自动完成候选人筛选、简历分析和面试流程,帮助企业快速组建高效团队。通过 Working Agent 支持远程团队的智能化管理,为企业构建 100 至 500 人规模的全球化组织提供一站式解决方案。 2. 餐饮营销领域:时来智能通过自研的 AI Agent 以及强化学习等技术,为线下餐饮服务门店提供全自动管理私域流量营销运营的解决方案。基于垂直场景数据训练的 AI 营销模型可以针对不同消费者实时生成并推送个性化的营销折扣方案,从而在优化营销成本的同时显著提升营销转化效果,能帮助门店提升 50%100%的营销转化效果,以及相应提升平均 1520%的营业额。 3. 销售和供应链管理:嵌入企业流程,提升整体运营效率。 此外,AI Agent 具有以下特点: 1. 个性化:随着用户的使用越来越了解用户习惯和想法,从而作出喜好预测。例如 Dot App 在对话中了解用户喜好,随后为用户推荐新的咖啡店。 2. 自主完成任务:如 Auto GPT,用户输入一个目标后,可自主执行任务、递归地开发和调试代码。 3. 多 Agent 协作:例如斯坦福大学的 SmallVille(小镇)项目,25 个人工智能体居住在一个沙盒虚拟城镇中通过复杂的社交互动来执行他们的日常生活;Fixie AI 在收到用户请求后启动多个负责不同模块的 Agent 进行数据查询和传递,最终生成邮件内容给客户回复。 以下是一些 Agent 构建平台: 1. Coze:新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具拓展 Bot 能力边界。 2. Microsoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 6. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。
2025-03-17