Navigate to WaytoAGI Wiki →
Home/All Questions
AI提示词超详细版本
以下是关于 AI 提示词的超详细内容: 在图像和视频生成阶段,分镜转图片和视频提示词大师的使用技巧包括:每次只处理 2 3 个分镜以确保提示词的精确性;对于关键场景,生成多个版本的提示词;根据不同工具的特点调整提示词的细节。图像生成工具方面,首选 LIBLIB 的 FLUX 模型,其次是谷歌的 ImageFX(网址:https://labs.google/fx/zh/tools/imagefx ,有网络门槛),还有即梦、可灵、Midjourmey(国内版“悠船”)。提示词辅助工具方面,通义万相的智能扩写只需输入简单的画面主题,点击“智能扩写”按钮就能自动生成包含场景描述、主体特征、构图和光线氛围等全方位的详细提示词;堆友的图推词功能可通过上传参考图片,自动分析并反推出详细的提示词。接入 Deepseek R1 的即梦,只需输入简单的主题或关键词,R1 就能写出 4 段不同风格且详细又丰富的提示词。 此外,还有一套万能文生图提示框架,您只需把脑子里能想到的、用来描述模糊想法的碎片词汇,随手替换到框架的最下方,然后发给任意一个 AI。但要注意,AI 生成的提示词水平与模型本身能力正相关,推理模型在揣摩人类意图上优于普通模型。 在写 AI 拟人化提示词时,要像写作文的 6 要素一样讲明白。描述越全面,生成的结果就越贴近想要的样子,但要注意避免啰里啰嗦导致 AI 理解出现偏差。您还可以把想要的直接塞给 LLM,让它进行补充。
2025-04-10
提示词学习
以下是关于提示词学习的相关内容: 提示词的知识体系: 分为五个维度,从高到低依次是思维框架、方法论、语句、工具和场景。但初学者舒适的学习顺序应是反过来的。 初学者学习提示词的顺序: 1. 场景:直接切入提示词的场景去学,对比在不同场景下使用提示词的效果。 2. 工具:使用现成的提示词工具,如 Meta Prompt、Al 角色定制等。 3. 有效语句:学习大量经典论文中提出的提示词语句。 4. 方法论:将有效语句及其背后的原理整合成稳定可控的方法,自动编写稳定的提示词。 学习 Stable Diffusion 提示词的步骤: 1. 学习基本概念:了解其工作原理、模型架构,理解提示词对生成结果的影响,掌握提示词的组成部分。 2. 研究官方文档和教程:通读官方文档,研究开发团队和专家的教程与技巧分享。 3. 学习常见术语和范例:熟悉相关领域术语和概念,研究优秀的图像标题和描述作为范例。 4. 掌握关键技巧:学会组合词条精确描述效果,掌握控制生成权重的符号使用,处理抽象概念和情感描述。 5. 实践和反馈:尝试生成不同风格和主题的图像,对比结果分析原因,在社区分享请教获取反馈。 6. 创建提示词库:按主题、风格等维度建立,记录成功案例方便复用。 7. 持续跟进前沿:关注最新更新和社区分享,掌握新技术、新范式、新趋势。 提示词学习的认知进化路径:从“不会表达”到“过度结构化”再到“高阶简洁”,初学者重“信息提供”,高手重“精准取舍”。 此外,GPT4 可一次生成多图,一段提示词出完整绘本,相关提示词范例可参考链接。
2025-04-10
阶跃星辰、通义千问、Gemini三个视频理解模型哪个收费更便宜
以下是阶跃星辰、通义千问、Gemini 三个视频理解模型的收费情况: 阶跃星辰:输入价格为 0.005~0.015 元/千 tokens,输出价格为 0.02~0.07 元/千 tokens。 通义千问:Qwenvlplus 模型调用价格为 0.008 元/千 tokens,训练价格为 0.03 元/千 tokens。 Gemini 未提及收费信息。 综上,从已有的信息来看,通义千问的收费相对可能更便宜,但具体还需根据您的使用情况和需求来判断。
2025-04-10
智能体分为哪几类
智能体主要可以分为以下几类: 1. 简单反应型智能体(Reactive Agents):根据当前的感知输入直接采取行动,不维护内部状态,也不考虑历史信息。例如温控器,它根据温度传感器的输入直接打开或关闭加热器。 2. 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入进行建模,能够推理未来的状态变化,并根据推理结果采取行动。比如自动驾驶汽车,它不仅感知当前环境,还维护和更新周围环境的模型。 3. 目标导向型智能体(Goalbased Agents):除了感知和行动外,还具有明确的目标,能够根据目标评估不同的行动方案,并选择最优的行动。例如机器人导航系统,它有明确的目的地,并计划路线以避免障碍。 4. 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动的优劣,权衡利弊。比如金融交易智能体,根据不同市场条件选择最优的交易策略。 5. 学习型智能体(Learning Agents):能够通过与环境的交互不断改进其性能,学习模型、行为策略以及目标函数。例如强化学习智能体,通过与环境互动不断学习最优策略。 此外,在 Menlo Ventures 的观点中,智能体还分为以下三种主要类型: 1. 决策智能体:使用语言模型来遍历预定义的决策树。 2. 轨道智能体:为智能体配备了更高层次的目标,但同时限制了解决空间,要求遵循标准作业程序并使用预先设定的“工具”库。 3. 通用人工智能体:本质上是没有任何数据支架的 for 循环,完全依赖于语言模型的推理能力来进行所有的计划、反思和纠正。
2025-04-10
微信机器人如何配置
微信机器人的配置步骤如下: 1. sum4all 配置 进入插件目录:/root/chatgptonwechat/plugins 找到 sum4all 插件目录下的 config.json.template,复制并粘贴重命名为:config.json 注册并获取 sum4all key:https://pro.sum4all.site/register?aff=T6rP ,新用户注册有送免费额度,大家先使用这个进行试用,后续可改为自己的 openAI key。 把复制的 key,粘贴到 sum4all 的 config.json 文件内。(上方有功能阐述,你想要哪个,就把哪个改成 ture) 2. Apilot 配置 进入插件目录:/root/chatgptonwechat/plugins 找到 Apilot 文件下的 config.json.template,复制并粘贴重命名为:config.json 去 https://admin.alapi.cn/account/center 注册,并复制 key 把复制来的 key,粘贴进入。保存。 3. 分段对话配置替换 找到这个路径:/root/chatgptonwechat/channel/wechat,直接下载以下文件进行替换。 此外,微信的配置相对较简单,只需要主项目的 config.json 文件看看是否有"channel_type"参数,参数值为:"wx",即:"channel_type":"wx"。完成以上所有配置部分后,可以准备启动步骤了: 使用 nohup 命令在后台运行程序。 执行完启动脚本,等待 30s 左右,会看到终端有一个微信登录的二维码,微信扫码登录。 如果您想使用更多辅助功能,比如使用总结文件能力,总结网页内容能力,此时需要安装各种插件。这部分配置查看插件配置管理部分。
2025-04-10
我想了解最新的ai的即时信息(最新资讯与ai工具)
以下是为您提供的最新 AI 即时信息和工具: 4 月 1 日 AI 资讯: 【AI 模型及应用】 OpenAI:将会开源一个推理模型,ChatGPT 即将推出推理强度控制选项,Gpt4o 生图能力面向免费用户。 Gemini 2.5 Pro:免费使用,任何人都可以使用 Canvas 进行编码和创作。 【AI 视频】 Higgsfield:发布 50 多个电影级摄影机动作预设,提升动态镜头表现力。 luma:为 Ray 2 引入摄像机运动概念,可基于预设镜头并组合编辑。 Remakes:支持基于用户上传图像直接编辑,并融合 Remade 视频特效,简化创意流程。 Meta:宣布推出 MoCha 系统,实现电影级说话角色合成效果。 【AI 3D】 HSMR:推出从单张图像重建人体 3D 骨骼和网格模型的系统。 krea:引入 AI 3D 生成能力,扩展其创意工具的功能范围。 PGC:推出基于物理的单一姿势高斯布料模拟技术,提升数字服装的真实感。 【AI 音频】 MiniMax Audio:发布全新 Speech02 语音模型,提升语音合成质量。 3 月 19 日 AI 资讯: 【AI 模型】 英伟达:发布全球首个开源人形机器人基础模型 Isaac GR00T N1 及相关 GTC 信息。 谷歌 Gemini:放出了两个功能 Canvas 和 Audio Overview。 【AI 视频】 STAbility AI:发布 Stable Virtual Camera,2D 图像转化 3D 视频。 Domo AI:推出“图片说话”功能,带口型匹配。 【AI 3D】 Roblox:推出 AI 3D 技术 Cube 3D。 Claude MCP Unity 版本推出。 【AI 音乐】 AI 音乐工具 Udio:推出 v1.5 Allegro。 LVAS Agent:基于多智能体协作的长视频音频合成。 获取 AI 资讯的渠道: 公众号:超时空视角、AI 替代人类。 小红书/抖音:EverAI。 B 站:Ever AI 酱(这里会有教程及 AI 工具界面操作)。 关于“通往 AGI 之路”知识库和社区平台: WaytoAGI(通往 AGI 之路)是一个致力于人工智能(AI)学习的中文知识库和社区平台。为学习者提供系统全面的 AI 学习路径,覆盖从基础概念到实际应用的各个方面。 汇集了上千个人工智能网站和工具,提供最新的 AI 工具、AI 应用、AI 智能体和行业资讯。 提供丰富的学习资源,包括文章、教程、工具推荐以及最新的 AI 行业资讯等。 社区定期组织活动,如视频挑战赛、模型创作大赛等,鼓励成员在实践中学习,促进交流与合作。 引领并推广开放共享的知识体系,倡导共学共创等形式,孵化了 AI 春晚、离谱村等大型共创项目。 在没有任何推广的情况下,WaytoAGI 一年时间已有超过 100 万用户和超千万次的访问量。 目前合作过的公司/产品包括阿里云,通义千问,淘宝,智谱,支付宝,豆包,火山引擎,marscode,coze,堆友,即梦,可灵,MiniMax 海螺 AI,阶跃星辰,百度,Kimi,吐司,liblib,华硕,美团,美的,360,伊利,魔搭,央视频,Civitai,Openart,Tripo3D,青椒云等。
2025-04-10
如何打造个人知识库
以下是关于如何打造个人知识库的相关内容: 使用 GPT 打造个人知识库: 1. 利用 embeddings 技术:将文本转换成向量(一串数字),可理解为索引。把大文本拆分成若干小文本块(chunk),通过 embeddings API 转换为 embeddings 向量并保存,当用户提问时,将问题也转换为向量,比对查找距离最小的几个向量对应的文本块,与问题组合成新的 prompt 发送给 GPT API。 例如,对于一篇万字长文拆分成多个文本块,如“文本块 1:本文作者:越山。xxxx。”等,当提问“此文作者是谁?”,通过比较 embeddings 向量可提取关联度高的文本块。 2. 理解 embeddings:embeddings 是浮点数字的向量(列表),向量之间的距离衡量关联性,小距离表示高关联度。例如,“猫”和“狗”距离近,与“汽车”距离远。 3. 注意 GPT3.5 一次交互支持的 Token 数量有限,OpenAI 提供了 embedding API 解决方案。 此外,张翼然在“AI 引领未来课堂的探索与实践”中提到: 1. 学习有效收集、整理和检索信息来打造个人知识库。 2. 进行知识管理,通过实际操作体验工具在教学准备和科研中的应用。 3. 例如: 早晚速读朋友圈文章。 编写小代码、小脚本。 转换数据并呈现。 从图像和图形中提取数据。 翻译、改换风格。 总结视频内容。 私人导师,探究问题。 分新闻、观点、访谈、论文翻译来进行提炼。 用通义听悟整理录音笔记(https://tingwu.aliyun.com)。 用 React 实现选中即解释。 在本机跑大语言模型工具(https://ollama.com)。 选词翻译、解读、拓展(https://snapbox.app)。 与各种 AI 机器人聊天(https://opencat.app、https://chathub.gg/、https://www.elmo.chat/)。 用 Downie 下载视频或用 OBS 录制视频文件,开源免费屏幕录制工具 OBS 下载地址(https://obsproject.com/),Mac 用 Downie,Windows 推荐 IDM 淘宝数码荔枝店购买,用 losslessCut 快速切块。
2025-04-10
coze教程
以下是关于 Coze 教程的相关内容: 可能是全网最好的 Coze 教程之一,能一次性带您入门 Coze 工作流。即使是非技术出身的爱好者也能上手跟学,一站式学会 AI Agent 从设计到落地的全流程方法论。 阅读指南: 长文预警,请视情况收藏保存。 核心看点: 通过实际案例逐步演示,用 Coze 工作流构建能稳定按模板要求生成结构化内容的 AI Agent。 开源 AI Agent 的设计到落地的全过程思路。 10+项常用的 Coze 工作流的配置细节、常见问题与解决方法。 适合人群: 任何玩过 AI 对话产品的一般用户(如果没用过,可以先找个国内大模型耍耍)。 希望深入学习 AI 应用开发平台(如 Coze、Dify),对 AI Agent 工作流配置感兴趣的爱好者。 注:本文不单独讲解案例所涉及 Prompt 的撰写方法。文末「拓展阅读」中,附有相关 Prompt 通用入门教程、Coze 其他使用技巧等内容,以供前置或拓展学习。 Coze 概述: 字节的官方解释:Coze 是新一代一站式 AI Bot 开发平台。无论是否有编程基础,都可在 Coze 平台上快速搭建基于 AI 模型的各类问答 Bot,从解决简单问答到处理复杂逻辑对话。并且,可将搭建的 Bot 发布到各类社交平台和通讯软件上,与这些平台/软件上的用户互动。 个人认为:Coze 是字节针对 AI Agent 领域的初代产品,在 Coze 中称 AI Agent 为 Bot。 字节针对 Coze 部署了两个站点,分别是国内版和海外版。 国内版: 网址:https://www.coze.cn 官方文档教程:https://www.coze.cn/docs/guides/welcome 大模型:使用字节自研的云雀大模型,国内网络可正常访问。 海外版: 网址:https://www.coze.com 官方文档教程:https://www.coze.com/docs/guides/welcome 大模型:GPT4、GPT3.5 等大模型(可参考文档白嫖 ChatGPT4) 访问需要突破网络限制的工具 参考文档:https://www.coze.com/docs/zh_cn/welcome.html AI Agent 的开发流程: Bot 的开发和调试页面布局主要分为如下几个区块: 提示词和人设的区块。 Bot 的技能组件。 插件。 工作流。 Bot 的记忆组件。 知识库。 变量。 数据库。 长记忆。 文件盒子。 一些先进的配置。 触发器:例如定时发送早报。 开场白:用户和 Bot 初次对话时,Bot 的招呼话语。 自动建议:每当和 Bot 一轮对话完成后,Bot 给出的问题建议。 声音:和 Bot 对话时,Bot 读对话内容的音色。 下面会逐一讲解每个组件的能力以及使用方式。
2025-04-10
本地部署大模型,如何微调建立本地知识库
以下是关于本地部署大模型并微调建立本地知识库的详细步骤: 一、使用 AnythingLLM 进行本地知识库搭建 1. 安装 AnythingLLM 安装地址:https://useanything.com/download 安装完成后进入配置页面,主要分为三步: 第一步:选择大模型 第二步:选择文本嵌入模型 第三步:选择向量数据库 2. 构建本地知识库 在 AnythingLLM 中创建自己独有的 Workspace 与其他项目数据隔离。 上传文档并在工作空间中进行文本嵌入。 选择对话模式,提供了 Chat 模式(大模型根据训练数据和上传文档数据综合给出答案)和 Query 模式(大模型仅依靠文档中的数据给出答案)。 二、张梦飞的全本地部署教程 1. 部署大语言模型 下载并安装 Ollama 点击进入,根据电脑系统,下载 Ollama:https://ollama.com/download 下载完成后,双击打开,点击“Install” 安装完成后,将下方地址复制进浏览器中。如果出现下方字样,表示安装完成:http://127.0.0.1:11434/ 下载 qwen2:0.5b 模型 如果是 Windows 电脑,点击 win+R,输入 cmd,点击回车;如果是 Mac 电脑,按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 复制相关命令行,粘贴进入,点击回车。 三、智能纪要中的相关内容 在智能纪要中,许键介绍了模型 API 调用方法与知识库创建,包括获取 API key 位置及调用设置,详细讲解了创建 Rag 应用(知识库)流程,如上传非结构化文件、数据解析、切分段落等操作,并回答了诸多问题。同时还涉及工作流创建、模型能力及相关问题的探讨,以及通义千问相关应用及明天课程安排交流等内容。 总之,本地部署大模型并建立本地知识库需要按照上述步骤进行操作和配置,同时不断实践和探索,以达到理想的效果。
2025-04-10
输入文本就可以输出视频的免费AI工具
以下是一些输入文本就可以输出视频的免费 AI 工具: 1. Stuart:实践中采用了 GPTSoVITS 和 BertVITS2 两个开源模型,项目免费且好用。可直接找到需要的音色,输入文字,点击“合成语音”生成后就能下载。 GPTSoVITS 在线一键语音生成合集:https://www.modelscope.cn/studios/xzjosh/GPTSoVITS/summary BertVITS2 在线一键语音生成合集:https://www.modelscope.cn/studios/xzjosh/BertVITS2/summary 2. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 3. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频。它是由 Stability AI 开源的 video model。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-04-09