Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

有哪些靠谱的文生视频、图生视频的平台，可以通过api调用

Answer

目前，有几款比较成熟的通过图片生成视频的AI平台，但是否提供API服务还需到官网确认，随着时间推进也有不同进展。以下是一些值得关注的平台：

Runway：Runway是一家文生视频公司，发布了Gen-2，能够快速生成高质量的短视频。
Stability AI：该公司开源了文生视频的扩散模型Stable Video Diffusion，这是一个先进的模型，可以生成高质量的视频内容。
Meta：Meta发布了Emu Video，这是一个专注于视频生成和编辑的平台。
Pika Labs：Pika Labs发布了Pika 1.0，虽然目前还在内测阶段，但已经展示出文生视频的新技术水平。

这些平台和模型代表了当前AI视频生成领域的最先进技术。它们通过API提供服务，使得开发者和企业能够利用这些技术来创建和定制视频内容。由于视频生成技术仍在快速发展中，这些平台可能会持续更新和改进其功能。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：文字生成视频的 AI 产品有哪些？

小歪：AI视频软件集合

问：根据视频脚本生成短视频的工具

质朴发言：一文纵览文生图/文生视频技术发展路径与应用场景｜Z 研究第 1 期

Sora的前世今生：从文生图到文生视频

问：文生图工具有哪些？

Others are asking

以下是关于文字生成视频（文生视频）的相关信息：一些提供文生视频功能的产品： Pika：擅长动画制作，支持视频编辑。 SVD：Stable Diffusion 的插件，可在图片基础上生成视频。 Runway：老牌工具，提供实时涂抹修改视频功能，但收费。 Kaiber：视频转视频 AI，能将原视频转换成各种风格。 Sora：由 OpenAI 开发，可生成长达 1 分钟以上的视频。更多相关网站可查看：https://www.waytoagi.com/category/38 。制作 5 秒单镜头文生视频的实操步骤（以梦 AI 为例）：进入平台：打开梦 AI 网站并登录，新用户有积分可免费体验。输入提示词：涵盖景别、主体、环境、光线、动作、运镜等描述。选择参数并点击生成：确认提示词无误后，选择模型、画面比例，点击「生成」按钮。预览与下载：生成完毕后预览视频，满意则下载保存，不理想可调整提示词再试。视频模型 Sora：OpenAI 发布的首款文生视频模型，能根据文字指令创造逼真且充满想象力的场景，可生成长达 1 分钟的一镜到底超长视频，视频中的人物和镜头具有惊人的一致性和稳定性。

以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总： 4 月 11 日： Pika 上线 Pika Twists 能力，可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中，结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术，可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术，实现从单张图片快速生成超逼真的 3D 头像，在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage，通过图片生成可自由拼装 3D 场景，再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型，无缝支持各种视频生成任务（文本/图像/视频到视频）。 4 月 9 日： ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下，可生成完整的 1 分钟视频。 4 月 14 日：字节发布一款经济高效的视频生成基础模型 Seaweed7B。可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。

以下是为您提供的 AI 视频教学相关内容： 1. 第一节回放 AI 编程从入门到精通：课程安排：19、20、22 和 28 号四天进行 AI 编程教学，周五晚上穿插 AI 视频教学。视频预告：周五晚上邀请小龙问露露拆解爆火的 AI 视频制作，视频在视频号上有大量转发和播放。编程工具 tree：整合多种模型，可免费无限量试用，下载需科学上网，Mac 可拖到文件夹安装，推荐注册 GitHub 账号用于代码存储和发布，主界面分为工具区、AI 干活区、右侧功能区等。网络不稳定处理：网络不稳定时尝试更换节点。项目克隆与文件夹：每个项目通过在本地新建文件夹来区分，项目运行一轮一轮进行，可新建会话，终端可重开。 GitHub 仓库创建：仓库相当于本地项目，可新建，新建后有地址，可通过多种方式上传。 Python 环境安装：为方便安装提供了安装包，安装时要选特定选项，安装后通过命令确认。代码生成与修改：在 tree 中输入需求生成代码，可对生成的代码提出修改要求，如添加滑动条、雪花形状、颜色等，修改后审查并接受。 2. AI 视频提示词库：神秘风 Arcane：Prompt：a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego：Prompt：a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background：Prompt：a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli：Prompt：a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk：Prompt：a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism：Prompt：a robot is walking through a destroyed city,,big movements

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

需要做一个自动化出视频的工作流

以下是一个关于自动化出视频工作流的详细介绍：优势：全自动化处理，解放双手。 40 秒快速出片，效率提升。成本低廉，每条仅需 0.0x 元。输出质量稳定专业。 DeepseekR1 保证文案质量。还能改进，例如可以加入配套 BGM，让视频更有感染力；增加更丰富的画面内容和转场效果；使用免费节点替代付费插件，进一步降低成本；优化模板样式，支持更多展示形式；增加自动化程度，支持批量处理。工作流程： 1. 可以在扣子商店体验，建议自己搭建。 2. 工作流调试完成后，加入到智能体中，可以选择工作流绑定卡片数据，智能体则通过卡片回复。 3. 选择发布渠道，重点如飞书多维表格，填写上架信息（为了快速审核，选择仅自己可用），确认发布等待审核，审核通过后即可在多维表格中使用。 4. 创建飞书多维表格，添加相关字段，配置选择“自动更新”，输入相关字段后，“文案视频自动化”字段捷径会自动调用工作流，生成视频。 5. 表单分享，实现“填写表单，自动创建文案短视频”的效果。 6. 全自动视频合成使用多视频融合插件，一键导出成品。但需注意节点产生的视频是异步生成，可能无法马上展现，需耐心等待几秒。如果您还有其他疑问或需要进一步的帮助，请随时联系。

以下是关于论文生成的相关信息： Deepseek V3 案例：有人用 Claude 做了一系列各种风格卡片的提示词，并在 V3 上进行尝试，效果不错。还有人把论文变成可视化。 ChatGPT 文本生成：以“词”为单位进行文本生成，存在随机性，有特定的“温度”参数控制较低排名单词的使用频率，对于文章生成“温度”为 0.8 效果较好。论文写作的 AI 产品：文献管理和搜索：Zotero 可自动提取文献信息，Semantic Scholar 是 AI 驱动的学术搜索引擎。内容生成和辅助写作：Grammarly 提供文本校对等帮助，Quillbot 可重写和摘要。研究和数据分析：Google Colab 支持 AI 和机器学习研究，Knitro 用于数学建模和优化。论文结构和格式：LaTeX 结合自动化和模板处理格式，Overleaf 是在线 LaTeX 编辑器。研究伦理和抄袭检测：Turnitin 和 Crossref Similarity Check 检测抄袭。使用这些工具时要结合自身需求和写作风格，并仔细甄别内容。

以下是关于文生图的简易上手教程： 1. 定主题：确定您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint：根据主题选择内容贴近的模型，如麦橘、墨幽的系列模型，如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora：在生成内容基础上，寻找重叠的 lora 以控制图片效果和质量，可参考广场上好看的帖子。 4. ControlNet：可控制图片中特定图像，如人物姿态、生成特定文字等，属于高阶技能。 5. 局部重绘：下篇再教。 6. 设置 VAE：无脑选择 840000 即可。 7. Prompt 提示词：用英文写想要 AI 生成的内容，使用单词和短语组合，用英文半角逗号隔开，不用管语法和长句。 8. 负向提示词 Negative Prompt：用英文写想要 AI 避免产生的内容，同样是单词和短语组合，用英文半角逗号隔开，不用管语法。 9. 采样算法：一般选 DPM++2M Karras 较多，也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数：选 DPM++2M Karras 时，采样次数一般在 30 40 之间。 11. 尺寸：根据个人喜好和需求选择。以下是一些常见的文生图工具和模型： 1. 腾讯混元 2. luma 3. Recraft 4. 文生图大模型 V2.1L（美感版） 5. 美图奇想 5.0 6. midjourney 7. 快手可图 8. Flux.1.1 9. Stable Diffusion 3.5 Large 10. Imagen 3 网页版

文生图工具

以下是关于文生图工具的相关信息：常见的文生图工具包括： DALL·E：由 OpenAI 推出，能根据输入的文本描述生成逼真图片。 StableDiffusion：开源工具，可生成高质量图片，支持多种模型和算法。 MidJourney：因高质量图像生成效果和友好界面在创意设计人群中受欢迎。更多文生图工具可在 WaytoAGI 网站（https://www.waytoagi.com/category/104）查看。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法：点击链接进入官方 DISCORD 服务器：https://discord.com/invite/stablediffusion 。进入 ARTISAN 频道，任意选择一个频道。输入/dream 会提示没有权限，点击链接，注册登录，填写信用卡信息以及地址，提交后可免费试用三天，三天后开始收费。输入/dream 提示词，和 MJ 类似，可选参数有五类，包括 prompt（提示词，正常文字输入，必填项）、negative_prompt（负面提示词，填写负面提示词，选填项）、seed（种子值，可以自己填，选填项）、aspect（长宽比，选填项）、model（模型选择，SD3，Core 两种可选，选填项）、Images（张数，14 张，选填项）。完成后选择其中一张。 Tusiart 文生图的简易上手教程：定主题：确定生成图片的主题、风格和表达的信息。选择基础模型 Checkpoint：根据主题找内容贴近的 checkpoint，如麦橘、墨幽的系列模型。选择 lora：寻找内容重叠的 lora 控制图片效果及质量。 ControlNet：控制图片中特定图像，如人物姿态、生成特定文字、艺术化二维码等。局部重绘：下篇再教。设置 VAE：无脑选择 840000 。 Prompt 提示词：用英文写需求，单词和短语组合，用英文半角逗号隔开。负向提示词 Negative Prompt：用英文写避免产生的内容，单词和短语组合，用英文半角逗号隔开。采样算法：一般选 DPM++2M Karras，也可参考模型作者推荐的采样器。采样次数：选 DPM++2M Karras 时，采样次数在 30 40 之间。尺寸：根据个人喜好和需求选择。

文生图大模型排名

以下是文生图大模型的排名（从高到低）： 1. Imagen 3：真实感满分，指令遵从强。 2. Recraft：真实感强，风格泛化很好，指令遵从较好（会受风格影响）。 3. Midjourney：风格化强，艺术感在线，但会失真，指令遵从较差。 4. 快手可图：影视场景能用，风格化较差。 5. Flux.1.1：真实感强，需要搭配 Lora 使用。 6. 文生图大模型 V2.1L（美感版）：影视感强，但会有点油腻，细节不够，容易糊脸。 7. Luma：影视感强，但风格单一，糊。 8. 美图奇想 5.0：AI 油腻感重。 9. 腾讯混元：AI 油腻感重，影视感弱，空间结构不准。 10. SD 3.5 Large：崩。

论文生成提示词

以下是为您整理的关于论文生成提示词的相关内容： 1. 在关于 DALL·E 3 论文的研究中，提示词包括：给评分员提供完整的图像描述内容，要求评分员选择更符合文本描述的图像。让评分员想象自己正在借助工具根据文本生成图像，并选择希望看到的图像。让评分员从人的身体部位、面部和姿势、对象的位置等方面判断图像的连贯性。但 DALL·E 3 仍存在空间感知不佳、构建文本描述生成器时的功能不可靠、生成的图片在重要细节上产生幻觉等问题。 2. 云舒为读懂 Claude 论文使用的提示词： “论文深度剖析导师”提示词，可用于深度理解文本，如解读公众号文章、专业论文、书籍、在线课程等。还可用于求职分析，拆解岗位描述并定制求职攻略，甚至作为自我介绍的“测谎仪”。希望以上内容对您有所帮助。

ComfyUI GeminiAPI 相关内容如下：用途：用于在 ComfyUI 中调用 Google Gemini API。安装说明：手动安装： 1. 将此存储库克隆到 ComfyUI 的 custom_nodes 目录。 2. 安装所需依赖：如果使用 ComfyUI 便携版。如果使用自己的 Python 环境。通过 ComfyUI Manager 安装： 1. 在 ComfyUI 中安装并打开 ComfyUI Manager。 2. 在 Manager 中搜索“Gemini API”。 3. 点击安装按钮，安装完成后重启 ComfyUI。节点说明： Gemini 2.0 image：通过 Gemini API 生成图像的节点。输入参数： prompt（必填）：描述想要生成的图像的文本提示词。 api_key（必填）：Google Gemini API 密钥（首次设置后会自动保存）。 model：模型选择。 width：生成图像的宽度（512 2048 像素）。 height：生成图像的高度（512 2048 像素）。 temperature：控制生成多样性的参数（0.0 2.0）。 seed（可选）：随机种子，指定值可重现结果。 image（可选）：参考图像输入，用于风格引导。输出： image：生成的图像，可以连接到 ComfyUI 的其他节点。 API Respond：包含处理日志和 API 返回的文本信息。使用场景：创建独特的概念艺术。基于文本描述生成图像。使用参考图像创建风格一致的新图像。基于图像的编辑操作。 API key 获取：在 Google 的 AI Studio 申请一个 API key（需要网络环境），有免费的额度，访问 https://aistudio.google.com/apikey?hl=zhcn 。温度参数说明：温度值范围为 0.0 到 2.0，较低的温度（接近 0）生成更确定性、可预测的结果，较高的温度（接近 2）生成更多样化、创造性的结果，默认值 1.0 平衡确定性和创造性。注意事项： API 可能有使用限制或费用，请查阅 Google 的官方文档。图像生成质量和速度取决于 Google 的服务器状态和您的网络连接。参考图像功能会将您的图像提供给 Google 服务，请注意隐私影响。首次使用时需要输入 API 密钥，之后会自动存储在节点目录中的 gemini_api_key.txt 文件中。

grok API能用在什么软件上

Grok API 可以用在以下软件上： 1. 扣子工作流：可以用代码模块进行 HTTP 访问，实现 0 token 脱离扣子模型来使用 Groq 作为 LLM，还能参考相关教程将扣子接入微信机器人，但有微信封号风险。 2. 沉浸式翻译：由于 Groq 的 API 与 OpenAI 的 API 几乎兼容，可以适配到任何 APP 产品可以用来填 APIKEY 调用的场景，比如沉浸式翻译这个网页翻译工具。 3. 手机类 APP：比如通过快捷方式接入 Siri。此外，xAI 发布的 Grok 3 API 提供了多个模型版本，如 grok3beta、mini、fast 等，满足不同场景需求，上下文窗口达 131K，支持图像输入输出，但当前不支持联网或实时访问外部网页与数据。

Jina DeepSearch 是一项基于推理大模型的深度搜索服务，其 API 已上线且开源。它可以在搜索时进行不断推理、迭代、探索、读取和归纳总结，直到找到最优答案为止。与 OpenAI 和 Gemini 不同，Jina DeepSearch 专注于通过迭代提供准确的答案，而不是生成长篇文章。它针对深度网络搜索的快速、精确答案进行了优化，而不是创建全面的报告。使用入口：官方深度搜索 API 与 OpenAI API 架构完全兼容，您可以前往官网（jina.ai/deepsearch）了解详情；或者前往应用页面（search.jina.ai）体验。此外，北京时间 00:30 至 08:30 期间，DeepSeek API 价格大幅下调。DeepSeekV3 降至原价的 50%，DeepSeekR1 低至 25%，鼓励用户在夜间空闲时段调用 API，以更低成本享受服务。

以下是关于 API 的相关信息： ComfyUI GeminiAPI：用于在 ComfyUI 中调用 Google Gemini API。安装说明：手动安装：将存储库克隆到 ComfyUI 的 custom_nodes 目录，安装所需依赖（根据使用的 ComfyUI 版本有所不同）。通过 ComfyUI Manager 安装：在 ComfyUI 中安装并打开 ComfyUI Manager，搜索“Gemini API”并点击安装按钮，安装完成后重启 ComfyUI。节点说明： Gemini 2.0 image：通过 Gemini API 生成图像的节点。输入参数包括必填的 prompt、api_key，可选的 model、width、height、temperature、seed、image 等。输出包括生成的图像和 API Respond。使用场景包括创建独特的概念艺术、基于文本描述生成图像、使用参考图像创建风格一致的新图像、基于图像的编辑操作。 API 与速率限制：速率限制是 API 对用户或客户端在指定时间内访问服务器的次数施加的限制。速率限制的原因包括防止滥用或误用 API、确保公平访问、管理基础设施负载等。 OpenAI 的 API 提供商在 API 使用方面有限制和规定，不同用户类型可获得不同的速率限制，若请求超过限制将返回错误响应。关于 API 的一般性描述： API 就像是一个信差，接受一端的请求，告诉系统用户想要做的事情，然后把返回的信息发回。学习使用 GPT 的 Action 工作流包括：确定想要的 GPT 及是否需要外部数据，寻找 API 文档或开发 API 以及编写 Action 里的 Schema 和 Prompt。对 Action 感兴趣可以从系统了解和学习 API 相关知识、在网上寻找可用的 API 练习、发掘 GPT Action 更多潜力等方向继续前进。

API是什么意思有什么用

API 是应用程序编程接口（Application Programming Interface）的缩写。它是软件之间进行交互和数据交换的接口，使得开发者能够访问和使用另一个程序或服务的功能，而无需了解其内部实现的详细信息。 API 就像是一个信差，接受一端的请求，告诉那边的系统您想要做的事情，然后把返回的信息发回给您。 APIKey 是一种实现对 API 访问控制的方法，通常是一串字符串，用于身份验证和访问控制。当开发者或应用程序尝试通过 API 与另一个程序或服务交互时，APIKey 作为请求的一部分被发送，以证明请求者具有调用该 API 的权限。APIKey 帮助服务提供商识别调用者身份，监控和控制 API 的使用情况，以及防止未经授权的访问。要使用 API，通常需要去官网寻找 API 文档，API 的规则一般会写在网站的开发者相关页面或 API 文档里。例如，TMDB 的搜索电影 API 文档的网址是：https://developer.themoviedb.org/reference/searchmovie 。在 API 文档中，会详细告知如何使用相应的 API，包括请求方法、所需的查询参数等。您可以在文档中进行相关配置和操作。登录网站寻找 Apikeys 创建新的密钥（记得保存好、不要泄露）。使用 APIKEY 可能需要单独充值，一共有两种模式可以使用： 1. 使用官方的 key 网站：https://platform.openai.com/apikeys 创建好您的 key 后记得复制保存。 2. 如果觉得充值比较麻烦可以考虑用第三方的网站：https://www.gptapi.us/register?aff=WLkA ，这个充值起来方便一些，模型选择也可以多一些。

哪个大模型的API接口免费？

以下是一些提供免费 API 接口的大模型： 1. Silicon 硅基接口：有众多开源模型（Yi、Qwen、Llama、Gemma 等）免费使用，还赠送 14 元体验金，有效期未知。注册和使用地址为，邀请码：ESTKPm3J。注册登录后，单击左边栏的 API 密钥，单击新建 API 密钥，单击密钥即可完成 API 密钥的复制。它支持多种大模型，也支持文生图、图生图、文生视频。 2. 智普 GLM4 接口：在 BigModel.cn 上通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利。进入个人中心，先完成实名认证，再单击左边栏 API KEYS 或右上角的 API 密钥，进入后单击右上角的添加 API，鼠标移至密钥上方，单击复制即可得到智普的 API key。 3. 阿里的通义千问大模型：打开链接，创建个 API key。 4. 智谱 AI（ChatGLM）：有免费接口。 5. 科大讯飞（SparkDesk）：有免费接口。此外，谷歌的 Gemini 大模型（gemini 1.5）和海外版 Coze 的 GPT4 模型是免费的，但需要给服务器挂梯子。

coze搭建工作流调用deepseek如何把模型的输出存入到多维表中

以下是将模型的输出存入到多维表中的步骤： 1. 逐步搭建 AI 智能体：搭建整理入库工作流。设置大模型节点提取稍后读元数据，使用 MiniMax 6.5s 245k，设置最大回复长度至 50000，以确保能完整解析长内容网页。进行日期转时间戳，后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳，需要使用「日期转时间戳time_stamp_13」插件进行格式转化。把稍后读元数据转换为飞书多维表格插件可用的格式，飞书多维表格插件目前（2024 年 08 月）只支持带有转义符的 string，以 Array<Object>格式输入，所以必须将之前得到的元数据数组进行格式转换。添加「飞书多维表格add_records」插件，只需要设置{{app_token}}与{{records}}参数，将元数据写入飞书表格。 2. 搭建 Coze 工作流：打开 Coze 的主页，登录后，在【工作空间】创建一个智能体。在编排页面，给智能体编辑好人设，可先写一个简单的，然后点右上角自动优化，系统会自动补全更精细的描述。点击工作流的+，创建一个工作流。大模型节点把 input 给到 DeepSeek，让 DeepSeek 按照提前规定的输出框架生成对应文案。生图节点将输出给到图像生成组件画图。结束输出时，两个输出给到最终的 end 作为最终的输出。注意在编写系统提示词时，如果需要 input 可被 DeepSeek 调用，需要用{{input}}作为参数引入，不然大模型不知道自己需要生成和这个 input 相关的结果。编排完，点击【试运行】，调试至满意后点击发布。

单独调用知识库

以下是关于知识库的相关内容：创建并使用知识库：在 Bot 内使用知识库： 1. 登录。 2. 在左侧导航栏的工作区区域，选择进入指定团队。 3. 在 Bots 页面，选择指定 Bot 并进入 Bot 详情页。 4. 在 Bot 编排页面的知识库区域，单击加号图标，添加指定的知识库。 5. （可选）添加知识库后，可以在自动调用下拉界面内，调整知识库的配置项，包括最大召回数量（Bot 在调用知识库匹配用户输入内容时，返回的数据片段数量，数值越大返回的内容越多）、最小匹配度（Bot 在调用知识库匹配用户输入内容时，会将达到匹配度要求的数据片段进行召回。如果数据片段未达到最小匹配度，则不会被召回）、调用方式（自动调用：每轮对话将自动从所有关联的知识库中匹配数据并召回；按需调用：需要在人设与回复逻辑中提示 Bot 调用 RecallKnowledge 方法，以约束 Bot 在指定时机从知识库内匹配数据）。 6. （可选）在预览与调试区域调试 Bot 能力时，扩展运行完毕的内容可以查看知识库命中并召回的分片内容。在工作流内使用 Knowledge 节点： 1. 登录。 2. 在左侧导航栏的工作区区域，选择进入指定团队。 3. 在页面顶部进入工作流页面，并打开指定的工作流。 4. 在左侧基础节点列表内，选择添加 Knowledge 节点。 Coze 打造 AI 私人提效助理实战知识库：在上述步骤中创建好知识库后，就可以在智能体中配置知识库了。在 coze 主页，个人空间 > 项目开发中，打开一个需要添加知识库的智能体，可以选择配置“文本”、“表格”、“照片”三种知识库。下面以配置文本知识库作为例子。点击加号，选择在 1.3 中已经提前创建好的知识库，点击添加。下一步就是配置提示词，让智能体自动使用知识库回答问题。在进行大概地描述以后，点击右上角“优化”，可以自动优化提示词，获得更好的结果。最后，在网页最右方的“预览与调试”中，测试智能体是否正常调用知识库。集合 Deepseek 提示词方法论： DeepSeek R1 提示词系统完全指南：三、进阶控制技巧： 1. 思维链引导：分步标记法（请逐步思考：1. 问题分析→2. 方案设计→3. 风险评估）、苏格拉底式追问（在得出最终结论前，请先列举三个可能存在的认知偏差）。 2. 知识库调用：领域限定指令（基于 2023 版中国药典，说明头孢类药物的配伍禁忌）、文献引用模式（以 Nature 2022 年发表的论文为参考，解释 CRISPR Cas9 最新突破）。 3. 多模态输出。四、高级调试策略： 1. 模糊指令优化：问题类型：宽泛需求，修正方案：添加维度约束，示例对比：原句："写小说"→修正："创作以 AI 觉醒为背景的悬疑短篇，采用多视角叙事结构"。问题类型：主观表述，修正方案：量化标准，示例对比：原句："写得专业些"→修正："符合 IEEE 论文格式，包含 5 项以上行业数据引用"。 2. 迭代优化法： 1. 首轮生成：获取基础内容。 2. 特征强化：请加强第三段的技术细节描述。 3. 风格调整：改用学术会议报告语气，添加结论部分。 4. 最终校验：检查时间逻辑一致性，列出可能的事实性错误。

知识库的批量创建和调用

以下是关于知识库的批量创建和调用的详细信息：使用知识库：在 Bot 内使用： 1. 登录。 2. 在左侧导航栏的工作区区域，选择进入指定团队。 3. 在 Bots 页面，选择指定 Bot 并进入 Bot 详情页。 4. 在 Bot 编排页面的知识库区域，单击加号图标，添加指定的知识库。 5. （可选）添加知识库后，可以在自动调用下拉界面内，调整知识库的配置项，包括最大召回数量、最小匹配度和调用方式（自动调用或按需调用）。 6. （可选）在预览与调试区域调试 Bot 能力时，扩展运行完毕的内容可以查看知识库命中并召回的分片内容。在工作流内使用： 1. 登录。 2. 在左侧导航栏的工作区区域，选择进入指定团队。 3. 在页面顶部进入工作流页面，并打开指定的工作流。 4. 在左侧基础节点列表内，选择添加 Knowledge 节点。创建知识库并上传表格数据： API 方式： 1. 在表格格式页签下，选择 API，然后单击下一步。 2. 单击新增 API。 3. 输入网址 URL 并选择数据的更新频率，然后单击下一步。 4. 输入单元名称或使用自动添加的名称，然后单击下一步。 5. 配置数据表信息后，单击下一步。 5.1 确认表结构：系统已默认获取了表头的列名，您可以自定义修改列名，或删除某一列名。 5.2 指定语义匹配字段：选择哪个字段作为搜索匹配的语义字段。在响应用户查询时，会将用户查询内容与该字段内容的内容进行比较，根据相似度进行匹配。 6. 查看表结构和数据，确认无误后单击下一步。 7. 完成上传后，单击确定。自定义方式： 1. 在表格格式页面下，选择自定义，然后单击下一步。 2. 输入单元名称。 3. 在表结构区域添加字段，单击增加字段添加多个字段。 4. 设置列名，并选择指定列字段作为搜索匹配的语义字段。在响应用户查询时，会将用户查询内容与该字段内容的内容进行比较，根据相似度进行匹配。 5. 单击确定。 6. 单击创建分段，然后在弹出的页面输入字段值，然后单击保存。创建文本型知识库：目前支持 5 种导入类型：本地文档、在线数据、notion、飞书、自定义。在线数据：自动采集：支持从单个页面或批量从指定网站中导入内容。添加单个页面的内容： 1. 添加方式：选择添加单个。 2. 更新频率：选择是否自动更新指定页面的内容及自动更新的频率。 3. 网址 URL：输入要采集内容的网址。批量添加网页内容： 1. 添加方式：选择批量添加。 2. 根地址或网站地图：输入要批量添加的网页内容的根地址或 sitemap 地址，然后单击导入。 3. 导入成功后，单击确认。手动采集：支持标注要采集的内容，内容上传成功率高。使用手动采集方式，需要先安装浏览器扩展程序。安装步骤，参考。 1. 在新增 URL 页面，选择手动采集。 2. 在弹出的页面输入要采集内容的网址，然后单击确认。 3. 在弹出的页面上，点击页面下方文本标注按钮，开始标注要提取的内容，然后单击文本框上方的文本或链接按钮。 4. 单击查看数据查看已采集的内容，确认无误后再点击完成并采集。

我们是搜索团队的产品经理，团队定位倾向于“对于插件的建设与调用”定位，现在要做AI相关的产品规划，请以通俗易懂的方式对以下问题做出回答 1、请通过流程图的方式，介绍【插件/工具】能力在大模型生态架构中的环节、定位、实现流程是什么 2、调研下对于我们搜索团队而言，插件应该做什么，可以做什么 3、思考对于大模型来说，有哪些（通用或垂类）的模块/功能/插件是无法绕开的，或高频使用的，作为我们团队后续争取的发力点（如搜索推荐对于传统综合搜索结果页）

以下是为您提供的关于 AI 相关产品规划的回答：一、插件/工具能力在大模型生态架构中的环节、定位、实现流程从 2023 年 3 月份 OpenAI 宣布插件计划开始，到 5 月份上线，其中包括联网、代码、画图三个插件。其实现流程大致为： 1. 经过对模型的微调，检测何时需要调用函数（取决于用户的输入）。 2. 使用符合函数签名的 JSON 进行响应。 3. 在接口层面声明可调用的工具。 4. 使用函数和用户输入调用模型。 5. 使用模型响应调用 API。 6. 将响应发送回模型进行汇总。二、对于搜索团队，插件可以做和应该做的事目前没有直接针对搜索团队插件具体可做和应做事项的明确内容，但可以参考 OpenAI 的插件计划，例如开发与搜索相关的特定功能插件，或者探索如何将现有的搜索推荐功能与大模型更好地结合。三、对于大模型无法绕开或高频使用的模块/功能/插件目前没有直接指出对于大模型无法绕开或高频使用的具体模块、功能或插件。但从相关信息中可以推测，例如与数据获取和处理相关的插件（如联网）、与技术开发相关的插件（如代码）以及与内容生成相关的插件（如画图）可能是较为重要和高频使用的。对于搜索团队来说，可以考虑在这些方向上寻找发力点，结合搜索推荐等传统功能，开发出更具竞争力的插件。

coze上提取视频文案的插件有哪些？都是怎么调用的

以下是关于在 coze 上提取视频文案的插件及调用方法： 1. 进入 coze 个人空间，选择插件，新建一个插件并命名，如 api_1。 2. 在插件的 URL 部分，填入通过 ngrok 随机生成的 https 的链接地址。 3. 配置输出参数和 message 输出。 4. 测试后发布插件。需要注意的是： 1. 如果在生产环境中已有准备好的 https 的 api，可直接接入。 2. 本案例中使用的是 coze 国内版，且案例中的 ngrok 仅供娱乐，在生产环境中勿用。

如何综合运用插件、工作流、知识库，搭建满足各种需求的智能体，尤其是调用多个智能体，组成像Manus这样的工具？

要综合运用插件、工作流、知识库搭建满足各种需求的智能体，尤其是调用多个智能体组成类似 Manus 的工具，需要了解以下内容：插件：插件如同一个工具箱，里面可放置一个或多个工具，称为 API。扣子平台有多种类型的插件，如看新闻、规划旅行、提高办公效率、理解图片内容的 API 及能处理多种任务的模型。若平台现有插件不符合需求，还可自行制作添加所需 API。工作流：工作流类似可视化拼图游戏，可将插件、大语言模型、代码块等功能组合，创建复杂稳定的业务流程。工作流由多个节点组成，开始和结束节点有特殊作用，不同节点可能需要不同信息，包括引用前面节点信息或自行设定信息。知识库：可上传私有文件作为回答参考。智能体：智能体是对自定义操作的封装，用于解决特定场景问题。以 ChatGPT 的 GPTs 为例，包括描述作用和回复格式的提示词、作为回答参考的知识库、请求第三方 API 获取实时数据的外挂 API 以及个性化配置等。例如，在“竖起耳朵听”的智能体中添加了插件和工作流的相关设置。创建智能体时，输入人设等信息，并配置工作流。但需注意，如工作流中使用的插件 api_token 为个人 token 时，不能直接发布，可将其作为工作流开始的输入，由用户购买后输入使用再发布。此外，在 AI 搜索中，可预置 after_answer 钩子，将请求大模型的上下文和回答发给第三方插件整理成文章或思维导图等格式同步到第三方笔记软件。全流程中有很多节点可做 Hook 埋点，多个插件构成可插拔架构，常用功能可抽离成标准插件用于主流程或辅助流程，还可自定义智能体 Agent 等。