Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

内容生成流水线

Answer

在 AIGC 与宠物龙养成游戏——DragonX 中，AI 生产发挥了重要作用。整个 Demo 中超过 90%的内容由 AI 生成，涵盖养成（龙的表现、养成材料-水晶）、战斗（技能、技能描述、战斗过程、文字表现、战斗背景图）、游历（游历故事、选项、支线故事、故事背景图）、大厅（不同风格 HUD、音频 BGM）等方面。所使用的 AI 生产工具包括：Stable Diffusion 用于生成所有美术素材，如各阶段的龙、水晶材料、背景等；ChatGpt 用于文案内容生成，包括实时的对战、游历故事生成；AIVA 用于音频生成，应用场景为不同 Hud、战斗、游历的 BGM。您可以通过以下系列阅读获取更多信息：游戏实操课|DragonX 开发日志（一）：生成！从奇怪的龙开始、游戏实操课|DragonX 开发日志（二）：“训”龙高手上线

Content generated by AI large model, please carefully verify (powered by aily)

References

AIGC+宠物龙养成游戏——DragonX

AIGC不光用于了Demo研发的生产管线，在耦合在核心玩法中提供实时的内容生成；整个Demo中超过90%的内容为AI生成，AIGC生成的内容包括以下部分：●养成：龙的表现（包括蛋、不同阶段的龙、部位进化的效果），养成材料-水晶●战斗：技能、技能描述、战斗过程、文字表现、战斗背景图●游历：游历故事、选项、支线故事、故事背景图●大厅：不同风格HUD、音频BGM所使用的AI生产工具：●Stable Diffusion：生成所有美术素材，包括各阶段的龙、水晶材料、背景等●ChatGpt：文案内容生成，包括实时的对战、游历故事生成●AIVA：音频生成，使用场景为不同Hud、战斗、游历的BGM[heading1]系列阅读：[content][游戏实操课|DragonX开发日志（一）：生成！从奇怪的龙开始](http://litgate.demo.baklib.vip/ai-game-application/fdd1)[游戏实操课|DragonX开发日志（二）：“训”龙高手上线](http://litgate.demo.baklib.vip/ai-game-application/411e)

Others are asking

分布式预训练里的流水线并行

分布式预训练中的流水线并行是一种在模型参数量太大一张卡不能完全放下时采用的切分方法。具体而言，沿着模型的拓扑序将其切分成 p 段，每段为一个 stage。将大小为 N 的 minibatch 进一步切分为 m 个大小为 M 的 microbatch（N = m·M），这些 microbatch 依次进入上述 p 个 stage。在流水线并行切分后，每个 stage 的耗时会发生变化。假设 1 指出：算力为 1 的节点，处理完整模型的 1 个 microbatch，前向和反向耗时分别是 t_f 和 t_b。基于此有推论 1：算力为 1/p 的节点，处理完整模型的 1 个 microbatch，前向和反向耗时分别是 p·t_f 和 p·t_b；推论 2：算力为 1 的节点，处理 1/p 模型的 1 个 microbatch，前向和反向耗时分别是 t_f/p 和 t_b/p；推论 3：算力为 1/p 的节点，处理 1/p 模型的 1 个 microbatch，前向和反向耗时分别是 t_f 和 t_b。从耗时情况来看，理论上界是显存无限大，不需要 pipeline 并行，一把梭直接对 minibatch 的样本做前向和反向，耗时正比于样本数量，b_best 耗时为 t_best = m·，可见耗时是理论上界的 p 倍，存在大量计算资源闲置空载，硬件利率用很低。最后小结，3D 并行包括数据并行。DP 计算和通信效率友好，但权重显存不友好；PP 要求 minibatch 里 batch size 足够大以掩盖流水线带来的 overhead，batch size 过大则会增大激活显存占用；TP 权重显存友好，但计算和通信效率不友好，通信量要求大。ZeRO 针对数据并行显存占用大的问题提出优化，Alpa 借鉴 AI 编译器思路对 3D 并行建模并用自动化搜索方式得到并行策略。

生成提示词的提示词

以下是关于生成提示词的相关内容：生成提示词的思路和方法：可以根据效果好的图片中的高频提示词去反推效果，结合不同字体效果的描述，打包到一组提示词中。提示词给到 AI 后，AI 会根据给定文字的文义，判断适合的情绪风格，然后给出适合情绪的字体和风格描述、情感氛围等，加上一些质量/品质词，形成输出提示词结构。为了让 AI 更能描述清晰风格，可以先给定多种参照举例。具体操作步骤：打开 AI 工具的对话框，将相关提示词完整复制粘贴到对话框。推荐使用 ChatGPT 4o。当 AI 回复后，发送您想要设计的文字。可以仅发送想要的文字，也可以发送图片（适合有多模态的 AI）让 AI 识别和反推。将 AI 回复的提示词部分的内容复制到即梦 AI。对生成提示词的一些观点：提示词生成提示词并非必要，不一定能生成最好的 Prompt 框架，修改过程可能耗时且不一定能修改好，不如花钱找人写。一句话生成完整符合需求的 Prompt 非常困难，只能大概给出框架和构思，需要更低成本地调整需求和修改 Prompt。不同生图工具生成提示词的特点：即使是简短的描述，生成的提示词也非常细节、专业。会解析需求，找出核心要点和潜在的诠释点，并给出不同的提示词方案。提示词构建更多在于增强，而不是发散，生成的内容更符合期望。同时生成中、英双版本，国内外工具通用无压力。 14 款 AI 生图工具实测对比：本次实测用到的工具包括国内版的即梦 3.0（https://jimeng.jianying.com/aitool/home）、WHEE（https://www.whee.com）、豆包（https://www.doubao.com/chat）、可灵（https://app.klingai.com/cn/texttoimage/new）、通义万相（https://tongyi.aliyun.com/wanxiang/creation）、星流（https://www.xingliu.art）、LibiblibAI（https://www.liblib.art），以及国外版的相关工具。

有没有能根据描述，生成对应的word模板的ai

目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如：在法律领域，您可以提供【案情描述】，按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件，模拟不同辩护策略下的量刑结果，对比并推荐最佳辩护策略，或者为商业合同纠纷案件设计诉讼策略等。在 AI 视频生成方面，有结构化的提示词模板，包括镜头语言（景别、运动、节奏等）、主体强化（动态描述、反常组合等）、细节层次（近景、中景、远景等）、背景氛围（超现实天气、空间异常等），以及增强电影感的技巧（加入时间变化、强调物理规则、设计视觉焦点转移等）。一泽 Eze 提出的样例驱动的渐进式引导法，可利用 AI 高效设计提示词生成预期内容。先评估样例，与 AI 对话让其理解需求，提炼初始模板，通过多轮反馈直至达到预期，再用例测试看 AI 是否真正理解。但需要注意的是，不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化，以获得更符合期望的 word 模板。

如何自动生成文案

以下是几种自动生成文案的方法： 1. 基于其它博主开源的视频生成工作流进行优化：功能：通过表单输入主题观点，提交后自动创建文案短视频，创建完成后推送视频链接到飞书消息。涉及工具：Coze 平台（工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成）、飞书（消息）、飞书多维表格（字段捷径、自动化流程）。大体路径：通过 coze 创建智能体，创建工作流，使用 DeepSeek R1 根据用户观点创建文案，再创建视频；发布 coze 智能体到飞书多维表格；在多维表格中使用字段捷径，引用该智能体；在多维表格中创建自动化流程，推送消息给指定飞书用户。 2. 生成有趣的《图文短句》：实现原理：先看工作流：包括第一个大模型生成标题、通过“代码节点”从多个标题中获取其中一个（可略过）、通过选出的标题生成简介、通过简介生成和标题生成文案、将文案进行归纳总结、将归纳总结后的文案描述传递给图像流。再看图像流：包括提示词优化、典型的文生图。最终的 Bot 制作以及预览和调试。 3. 腾讯运营使用 ChatGPT 生成文案：步骤：通过 ChatGPT 生成文案，将这些文案复制到支持 AI 文字转视频的工具内，从而实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频，系统匹配的素材不符合要求时可以手动替换。例如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类 AI 视频制作工具让普罗大众生产视频变得更轻松上手。

如何通过输入一些观点，生成精彩的口播文案

以下是通过输入观点生成精彩口播文案的方法： 1. 基于其它博主开源的视频生成工作流进行功能优化，实现视频全自动创建。效果展示：可查看。功能：通过表单输入主题观点，提交后自动创建文案短视频，并将创建完成的视频链接推送至飞书消息。涉及工具：Coze平台（工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成）、飞书（消息）、飞书多维表格（字段捷径、自动化流程）。大体路径：通过 coze 创建智能体，创建工作流，使用 DeepSeek R1 根据用户观点创建文案，再创建视频。发布 coze 智能体到飞书多维表格。在多维表格中使用字段捷径，引用该智能体。在多维表格中创建自动化流程，推送消息给指定飞书用户。 2. 智能体发布到飞书多维表格：工作流调试完成后，加入到智能体中，可以选择工作流绑定卡片数据，智能体则通过卡片回复。选择发布渠道，重点是飞书多维表格，填写上架信息（为快速审核，选择仅自己可用），等待审核通过后即可在多维表格中使用。 3. 多维表格的字段捷径使用：创建飞书多维表格，添加相关字段，配置后使用字段捷径功能，使用自己创建的 Coze 智能体。表单分享，实现填写表单自动创建文案短视频的效果。 4. 自动化推送：点击多维表格右上角的“自动化”，创建所需的自动化流程。另外，伊登的最新 Deepseek+coze 实现新闻播报自动化工作流如下：第一步是内容获取，只需输入新闻链接，系统自动提取核心内容。开始节点入参包括新闻链接和视频合成插件 api_key，添加网页图片链接提取插件，获取网页里的图片，以 1ai.net 的资讯为例，添加图片链接提取节点，提取新闻主图，调整图片格式，利用链接读取节点提取文字内容，使用大模型节点重写新闻成为口播稿子，可使用 Deepseek R1 模型生成有吸引力的口播内容，若想加上自己的特征，可在提示词里添加个性化台词。

小红书图文批量生成

以下是关于小红书图文批量生成的详细内容：流量密码！小红书万赞英语视频用扣子一键批量生产，这是一个保姆级教程，小白都能看得懂。原理分析：决定搞之后，思考生成这种视频的底层逻辑，进行逆推。这种视频由多张带文字图片和音频合成，带文字图片由文字和图片生成，文字和图片都可由 AI 生成，音频由文字生成，文字来源于图片，也就是说，关键是把图片和文字搞出来。逻辑理清后，先找好看的模版，未找到好看的视频模版，最后看到一个卡片模版，先把图片搞出来，才有资格继续思考如何把图片变成视频，搞不出来的话，大不了不发视频，先发图片，反正图片在小红书也很火。拆模版：要抄这种图片，搞过扣子的第一反应可能是用画板节点 1:1 去撸一个，但扣子的画板节点很难用，Pass 掉。用 PS 不行，太死板不灵活，html 网页代码可以，非常灵活。经过 2 个多小时和 AI 的 battle，用 html 代码把图片搞出来了。这里不讲代码怎么写，直接抄就行。要抄，首先要学会拆，不管用什么方式批量生成这样的图片，都必须搞清楚里面有哪些是可以变化的参数，也就是【变量】，如主题、主题英文、阶段、单词数、图片、正文、翻译、普通单词、重点单词等。想方法：大概知道批量生成这样的图片需要搞清楚哪些参数，图片用 html 代码搞出来了。但问题是视频怎么搞，这种视频由多张不同的【带文字的图片】生成，比如读到哪句，哪句就高亮起来，图片也可以随着读到的句子变更。最后，视频就是用这样的图片一张张拼起来的。

ai如何什么生成表格

AI 生成表格通常可以通过以下技术实现： 1. 利用变分自编码器（VAEs）和序列到序列模型（Seq2Seq）等技术生成表格文件、表格公式，并清理、创建、转换和分析表格中的文本数据，例如表格结构设计、数据分析表、表格自动化等。 2. 借助一些办公软件中的 AI 插件，如飞书中的相关插件，先通过 AI 理解图片中的内容并填充到表格列中，然后利用自带插件总结生成相关指令。此外，在多模态数据生成中，结构化数据生成包括表格生成，多模态合成数据从大类来看有非结构化数据（图片、视频、语音等）和结构化数据（表格等）两大类。非结构化数据生成包括文本生成、图像生成、音频和语音生成、视频生成、3D 生成、合成数据生成等。

什么AI工具可以实现提取多个指定网页的更新内容

以下 AI 工具可以实现提取多个指定网页的更新内容： 1. Coze：支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容，可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时，输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序，标注要采集的内容，内容上传成功率高。 2. AI Share Card：能够一键解析各类网页内容，生成推荐文案，把分享链接转换为精美的二维码分享卡。通过用户浏览器，以浏览器插件形式本地提取网页内容。

我是一个实体店家，我怎么能利用AI产生内容进而帮助我在流量平台拓客

以下是一些利用 AI 为实体店在流量平台拓客的方法和思路： 1. 借助抖音平台：利用抖音对实体商家的流量扶持，购买 AI 抖音发广告的软件。这需要懂软件开发的技术人员，并且熟悉抖音。 2. 利用 AI 私域做客户培育/用户旅程：通过 AI 软件自动跟进和培育客户，需求是懂软件开发的技术人员且熟悉微信。 3. 打造特定领域的 AI 工具：比如针对法律、健康、财务、教育、销售、HR 等领域，开发如“AI 合同助手”“AI 健康管家”“AI 课程生成器”“AI 销售助理”等垂类工具。 4. 作为引流者：把 AI 工具做成“公众号插件”“小程序入口”或“微信机器人”进行推广，获取分成。 5. 参考优秀作品：如商业综合体 AI 伴侣、客流诊断师、跨境商品不求人、公私域全流程内容规划师、公众号 10W+爆文工厂、营销内容文案合规检查、提示词定制神器、Nicole 咖啡门店分析师、3C 软文文案撰写、网购评论助手、万能 AI 营销助手、贴心平替推荐精灵、产品一键生成一篇高质量的知乎种草文、One thing AI 目标达成教练、润物等，从中获取灵感和思路。

如何识别网页内容

识别网页内容通常可以通过以下步骤实现： 1. 内容识别：使用智能算法分析网页的 HTML 结构，确定网页的主要内容区域。 2. 文本提取：在识别出内容区域后，提取这些区域的文本内容，包括从 HTML 标签中获取可见文本，同时忽略脚本、样式和其他无需翻译的代码。 3. 预处理：对提取出的文本进行处理，清除不必要的空格、特殊字符和格式信息，进行标准化。 4. 翻译调用：将预处理后的文本拼接到 Prompt 模板中请求相关模型的 API 进行翻译。 5. 结果整合：翻译完成后，将原文和译文对照整合回网页、字幕中，常见的展示形式有原文保持不变，译文以悬浮框、下划线注释或平行文本呈现。 6. 用户界面交互：用户可通过鼠标悬停、点击等操作控制翻译的显示与否，工具会根据用户操作实时显示或隐藏译文。另外，在获取网页内容时，初版提示词实验中对大模型对话产品的外链解析能力依赖较大，但这种方式易受平台反爬机制制裁。转换思路，通过用户浏览器以浏览器插件形式本地提取网页内容是一种稳定且经济的解决方案。开发时，可拿着初版提示词询问 AI 来确定需要插件获取哪些网页元素。例如 SeeAct 能力可以在多种不同网站上识别网页上的各种元素，执行不同任务。

我想做一个，基于我个人知识库的chatbot，以供我随时搜索和提问，且优先搜索知识库内的内容而非联网搜索，你有什么建议吗？

以下是为您提供的关于创建基于个人知识库的 chatbot 的建议： 1. 选择合适的平台和工具：例如可以考虑使用飞书智能伙伴创建平台（Aily）或扣子（https://www.coze.cn/home）等。 2. 数据分段储存：由于大模型的上下文长度有限制，需要将上传的资料根据特定符号或字符长度进行分段，如将 8000 字文档按每 800 字分成一个片段储存。 3. 增强检索：当用户输入问题，大模型会根据相似度检索出若干最相关的数据片段，再据此生成答案，这一技术称为 RAG（检索增强生成）。 4. 配置知识库：在 Bot 内使用知识库：登录相关平台。在左侧导航栏的工作区区域，选择进入指定团队。在 Bots 页面，选择指定 Bot 并进入 Bot 详情页。在 Bot 编排页面的知识库区域，单击加号图标，添加指定的知识库。（可选）添加知识库后，可以在自动调用下拉界面内，调整知识库的配置项，如最大召回数量、最小匹配度、调用方式等。在工作流内使用 Knowledge 节点：登录相关平台。在左侧导航栏的工作区区域，选择进入指定团队。在页面顶部进入工作流页面，并打开指定的工作流。在左侧基础节点列表内，选择添加 Knowledge 节点。 5. 注意使用限制：单用户最多创建 1000 个知识库，文本类型知识库下最多支持添加 100 个文档，单用户每月最多新增 2GB 数据，累计上限是 10GB。此外，知识库可以解决大模型幻觉、专业领域知识不足的问题，提升大模型回复的准确率。您可以将知识库直接与 Bot 进行关联用于响应用户回复，也可以在工作流中添加知识库节点，成为工作流中的一环。

MCP（模型上下文协议）是一种创新的开放协议，由 Anthropic 公司在 2024 年 11 月推出并开源。其主要特点和功能包括：统一了交互标准，是链接所有 AI 应用与工具的桥梁，兼容所有 AI 应用。具有三大功能：工具（Tools），底层使用 Function call 实现，与 OpenAI 格式兼容；资源（Resources），为 AI 提供参考信息；提示词（Prompts），预设对话模板。主要接口路径包括获取工具列表、调用工具、获取资源列表、读取资源内容、获取提示词列表、获取提示词内容等。转换步骤包括客户端向 MCP 服务器请求工具列表，将 MCP 工具定义转换为 Function call 格式，发送 Function Call 定义给 LLM，接收 LLM 生成的 Function call，将 Function call 转为 MCP 工具调用，发送工具调用结果给 LLM。 MCP 就像一个“转接头”或“通用插座”，其核心作用是统一不同外部服务，通过标准化接口与 AI 模型对接。它与传统 API 的关键区别在于：单一协议：MCP 像一个统一接口，只要一次整合，就能连接多个服务。动态发现：AI 模型能自动识别并使用可用的工具，不用提前写死每个接口。双向通信：MCP 支持类似 WebSockets 的实时双向通信，模型不仅能查询数据，还能主动触发操作。 MCP 最早由 Anthropic 公司开发，目的是帮助 AI 模型（如 Claude）更容易地连接工具和数据源，现在已成为一个开放协议，被越来越多的企业和开发者采用，逐渐成为 AI 与工具互动的新标准。官方文档：https://modelcontextprotocol.io/

知识库中的LangChain和LangGraph的内容有哪些？

以下是关于 LangChain 和 LangGraph 的相关内容： LangChain： LangChain 是一个由 Harrison Chase 开发的开源 Python 库，旨在支持使用大型语言模型（LLM）和外部资源（如数据源或语言处理系统）开发应用程序。它提供了标准的接口，与其他工具集成，并为常见应用程序提供端到端链。设计主张集中在模块化组件上，这些组件提供用于使用 LLM 的行为抽象，并为每个抽象提供实现的集合，从而允许开发人员构造新链或实现现成的链。 LangChain 和 RAG 的关系： LangChain 是一个用于构建高级语言模型应用程序的框架，提供了实现 RAG 所必需的工具和组件。 RAG 即检索增强生成，是一种结合了检索（检索外部知识库中相关信息）和生成（利用 LLM 生成文本）的技术。 LangChain 作为框架，与 RAG 的关系包括：是框架与技术的关系，允许通过模块化组件构建 RAG 应用程序，简化开发过程，提高性能，支持构建复杂的 RAG 应用。关于大模型 RAG 应用中的 LangChain：有从产品视角出发的分享，包括项目背景、初步体验和评测结果等。预计会分成 3 篇分享，分别是 LangChain 框架初体验、调优思路分享、如何测评。