Chat with Wiki - WayToAGI

Navigate to WaytoAGI Wiki →

Home/All Questions

最近有什么新的AI工具或者功能出现吗？

以下是一些新出现的 AI 工具和功能：游戏方面： Unity 推出了两款 AI 工具。其中，新 Copliot 工具可通过与 Muse Chat 聊天快速启动创建游戏项目，如一键生成塔防类游戏基础框架、创建人物角色动作，还能协助编码和创建 3D 材质、动画等内容。Muse Chat 现已经开放 Waiting list，可通过 https://create.unity.com/aibeta 申请加入，官方提示这个暑假会进一步开放。 Unity Sentis 是第一个将 AI 模型嵌入到实时 3D 引擎中的跨平台解决方案，能在 Unity 运行时为游戏或应用程序嵌入 AI 模型，增强游戏玩法和其他功能，目前还在封测阶段。 AI 智能体方面：企业自动化出现新架构，工具使用或函数调用被视为从 RAG 到主动行为的第一个半步，为现代人工智能栈增加了新层。一些流行的原语如网页浏览、代码解释和授权+认证已经出现，使 LLMs 能够执行特定操作。 ProductHunt 2023 年度最佳产品榜单中的 AI Infra 类别： Langfuse 是大模型应用的开源追踪和分析工具，提供开源可观测性和分析功能，包括可观测性的可视化界面探索和调试复杂的日志和追踪，以及分析的使用直观仪表板改善成本、降低成本、减少延迟，提高响应质量。 Eden AI 可将顶尖 AI API 融合为一，能为每项 AI 任务选择正确的 AI API 来提高准确性和降低成本，集中管理使用限制和成本监测，并探索新兴的 AI 能力。 Langdock 能在几分钟内创建、部署、测试和监控 ChatGPT 插件，将 API 连接到 Langdock 并作为插件部署到多个大模型应用中，然后使用内置测试功能确保正常工作并进行监控。 LLM Spark 是用于构建生产就绪大模型应用的开发平台。

多智能体（MultiAgent）是由多个自主、独立的智能体（Agent）组成的系统。每个智能体能够感知环境、进行决策并执行任务，它们之间可以进行信息共享、任务协调以及协同行动，以实现整体目标。随着大型语言模型（LLM）的出现，以 LLM 为核心构建的 Agent 系统近期受到广泛关注。在单 Agent 场景下，其核心在于 LLM 与工具的协同配合，可能需要与用户进行多轮交互。而在多 Agent 场景中，会为不同的 Agent 指定不同角色，并通过协作完成复杂任务，与用户的交互可能相对减少。构建多 Agent 框架的主要组成部分包括： 1. 环境：所有 Agent 处于同一个环境中，环境包含全局状态信息，Agent 与环境存在信息交互与更新。 2. 阶段：通常采用 SOP 思想，将复杂任务分解为多个子任务。 3. 控制器：可以是 LLM 或预先定义好的规则，负责环境在不同 Agent 和阶段之间的切换。 4. 记忆：相比单 Agent，多 Agent 框架中由于 Agent 数量增多，消息数量及相关字段也会增加。在实际应用中，如《执笔者》基于多 Agent 模式的全能写手，操作步骤包括： 1. 多 agent 模式切换：在 bot 编排页面点选多 agent 模式，页面自动切换为调试状态，相比单 agent 多了中间的 agent 连接区。 2. 添加合适节点：有使用已发布的 bot 或创建新的 agent 两种方式，添加的 agent 直接连接在默认的总管 agent 后面，无结束节点。 3. 添加合适的 prompt：为每个 agent 填写合适的 prompt，外围人设填写主要功能，内部 bot 填写应用场景。 4. 调试与美化：经过以上步骤基本搭建完成，后续可通过调整提示词优化交互。在 Agent 产品开发中，不要过于神话 Agent。其本质是动态 Prompt 拼接，通过工程化手段将业务需求转述为新的 prompt。包括短期记忆（messages 里的历史 QA 对）、长期记忆（summary 之后的文本塞回 system prompt）、RAG（向量相似性检索）、Action（触发 tool_calls 标记进行请求循环）等。Multi Agents 则是更换 system prompt 和 tools。当然，要做深做好还有很多坑需要踩。

今天是2025-3-20日，给下最近一周的AI相关新闻

以下是最近一周（2025 年 3 月 14 日至 20 日）的 AI 相关新闻：在 GTC 2025 大会上，黄仁勋展示了英伟达的最新芯片 Blackwell Ultra，强调其性能是 Hopper 的 40 倍，预计 2025 年将出货 360 万颗。黄仁勋反驳市场质疑，指出推理的算力需求远超预期，Dynamo 的推出将优化 GPU 利用率。尽管市场信心动摇，英伟达依然展现了其作为 AI 算力领导者的决心，“只要有 Token 就有英伟达的生意”。本文介绍了如何通过 MCP（Model Context Protocol）将 Claude 3.7 与 Blender 连接，实现一句话生成 3D 场景的功能。Claude 作为“大脑”，MCP 为“桥梁”，Blender 则是“手脚”，三者紧密协作，使得 3D 建模变得简单而高效。随着 MCP 的崛起，AI 不再是数据孤岛，未来的 AI 智能体将能自主完成更复杂的任务，开启创作的新纪元。 AI 切磋大会第 11 期报名开启！3 月 30 日，主题是“2 小时，让 AI 将你的创意变为现实”。无论你是编程小白还是高手，欢迎来现场展示你们的案例。 Yourware 是一款强大的工具，让普通用户轻松创建和部署 AI 编程作品集。只需复制代码，即可一键部署网页，快速展示自己的创作。此外，平台提供了全球优秀作品的参考，极大激发灵感。更有一键美化功能，让网页焕然一新，分享权限也能自由控制。谷歌以 320 亿美元收购网络安全公司 Wiz，创下其历史上最大收购案。Wiz 在 18 个月内实现 1 亿美元年收入，成为史上最快的软件公司之一。创始团队拥有近 20 年的友谊和合作，先后成立 Adallom 并被微软收购，再打造 Wiz。

今天是2025年3月20日，给下最近一周的AI相关新闻

以下是最近一周（2025 年 3 月 19 日至 3 月 20 日）的 AI 相关新闻： 3 月 20 日：在 GTC 2025 大会上，黄仁勋展示了英伟达的最新芯片 Blackwell Ultra，强调其性能是 Hopper 的 40 倍，预计 2025 年将出货 360 万颗。黄仁勋反驳市场质疑，指出推理的算力需求远超预期，Dynamo 的推出将优化 GPU 利用率。尽管市场信心动摇，英伟达依然展现了其作为 AI 算力领导者的决心，“只要有 Token 就有英伟达的生意”。介绍了如何通过 MCP（Model Context Protocol）将 Claude 3.7 与 Blender 连接，实现一句话生成 3D 场景的功能。Claude 作为“大脑”，MCP 为“桥梁”，Blender 则是“手脚”，三者紧密协作，使得 3D 建模变得简单而高效。随着 MCP 的崛起，AI 不再是数据孤岛，未来的 AI 智能体将能自主完成更复杂的任务，开启创作的新纪元。 3 月 19 日： “回答我！Look in my eyes！Tell me why？baby why？”——最近全网都被这句魔性古风骂人视频刷屏了！古人+现代梗的爆笑碰撞，不只是娱乐玩梗，更成了宣传、带货、文旅推广的新利器。本文手把手教你 0 基础复刻这类 AI 视频，搭配爆款文案+AI 人物+鬼畜视频合成，让你也能轻松玩转流量密码，打造自己的“AI 古人爆款工厂”！在 GTC2025 大会上，黄教主分享了十五个“饼”，涵盖数据中心的未来、强大的 CUDA、边缘计算与 6G 结合、汽车智能驾驶安全方案等多个领域。他强调，未来推理需求将暴增，并推出新款 NVL72 服务器，性价比显著提升。管推出了多项创新，黄教主仍未解答算力通缩的疑问，未来的硬件发展将面临更多挑战。延伸阅读：《[“AI 工厂时代降临”:黄仁勋 GTC2025 主旨演讲图文全文 3 万字》

有没有能将PRD文档转化成产品培训文档的AI工具

以下是一些能够将 PRD 文档转化成产品培训文档的 AI 工具： Tome：于 3 月 23 日推出了第一个基于文档的 AI 演示工具，基于 GPT4，能够将文档转换成演示文稿、叙述和故事。链接：https://beta.tome.app/ Gamma：上周五推出了文生演示文稿工具。 ChatPRD、WriteMyPRD、Uizard、tldraw：可以通过人类语言描述想要的产品，得到 80%的完成稿，然后进行修改和发布。

图片合并的工具

以下是一些常见的图片合并工具及相关信息： 1. Midjourney： /blend 命令允许使用 Midjourney 的 AI 图像生成将多个图像混合在一起。使用时需上传至少两张图像，然后使用命令加上已上传的图像 ID。在单个混合命令中最多可用 10 张图像，参数可调整混合过程中的各种设置。您可以通过了解更多。 2. 星流一站式 AI 设计工具：框选多张图像后右键，选择“合并为图片（左上角为 Merged Image 标志）”可将组内所有图片（包括空白区域）合并为一张图片。此外，使用 coze 做智能报表助手时，会从数据库中查询前面存放的图表连接，然后调用合并图片的插件，把几张图表合并成一张大图。

图片上文字识别与提取

以下是关于移动端图片视觉处理中图片上文字识别与提取的方法： 1. 图像预处理：图像去噪：运用去噪算法（如高斯滤波、中值滤波）去除图像中的噪声。图像增强：通过增强算法（如直方图均衡化、对比度增强）提高图像的清晰度和对比度。 2. 图像分割：采用图像分割算法将试卷图像中的书写笔迹和背景分离，常用分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测：在分割后的图像中，使用文字检测算法（如基于深度学习的文本检测模型）识别出试卷上的文字区域。 4. 文字识别：对检测到的文字区域进行文字识别，将文字内容转换为计算机可处理的文本数据。常用文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR 技术。 5. 后处理：根据需求进行后处理，如去除残余噪点、填补文字区域空白等。 6. 机器学习模型训练（可选）：若有足够数据，可采用机器学习技术训练模型，通过学习样本中的书写笔迹特征来自动去除试卷上的笔迹。 7. 优化算法：对整个处理流程进行优化，提高处理速度和准确度。可采用并行计算、硬件加速等方法提升算法效率。 8. 移动端集成：将设计好的算法和模型集成到移动应用程序中，以实现试卷拍照去除书写笔迹的功能。可使用移动端开发框架（如 iOS 的 Core ML、Android 的 TensorFlow Lite）来实现模型的部署和调用。在 AI 拍立得的工作流中，也涉及到图片文字的提取，其核心处理能力交由阿里云百炼大模型平台端执行，该模型系统集成了多模态的大模型以及垂直领域的小模型，也包含了知识库和插件的能力，处理链条涵盖了从图片的识别与理解、图片文字的提取，再到将文字与场景内容相结合，同时也能够支持风格化重构和输出的整个过程。在 0 基础手搓 AI 拍立得的工作流中，实现图片文字提取的步骤包括上传输入图片、理解图片信息并提取图片中的文本内容信息等。

HeyGen 是一个 AI 驱动的平台，具有以下特点和用途：用途：可创建逼真的数字人脸和角色，适用于游戏、电影和虚拟现实等应用。能用于制作营销视频和虚拟主持人等。优点：人物灵活，五官自然，视频生成很快。缺点：中文的人声选择较少。使用方法：点击网址注册后，进入数字人制作，选择 Photo Avatar 上传自己的照片。上传后效果如图所示，My Avatar 处显示上传的照片。点开大图后，点击 Create with AI Studio，进入数字人制作。写上视频文案并选择配音音色，也可以自行上传音频。最后点击 Submit，就可以得到一段数字人视频。

如何建立自己的知识库

建立自己的知识库可以参考以下几种方法： 1. 使用 flowith 指南：拆解创作任务：将复杂任务拆解到合适颗粒度，提供方法论和定义输出格式。建立定向知识库：将相关元知识导入 flowith 的知识花园，转化为文字上传，打开智能拆分模式，形成知识“种子”。激活知识库后，AI 会根据创作场景自动匹配库内素材，还可发布或分享知识库。 2. 基于 GPT 打造：搭建基于 GPT API 的定制化知识库涉及给 GPT 输入定制化知识，但 GPT3.5 免费版交互容量有限。理解 embeddings：embeddings 是浮点数字的向量，向量间距离衡量关联性，小距离表示高关联度。 3. 用 Coze 免费打造微信 AI 机器人：设计 AI 机器人，确定功能范围。创建知识库：整理“关键字”与“AI 相关资料链接”的对应关系，支持多种文档类型，如本地文档、在线数据、飞书文档、Notion 等，可使用特殊分割符如“”便于自动切分数据。

自动化流程图的AI

以下是关于自动化流程图的 AI 相关内容：如果您需要创建一个项目管理流程图，可以按照以下步骤使用 Lucidchart： 1. 注册并登录： 2. 选择模板：在模板库中搜索“项目管理流程图”。 3. 编辑图表：根据您的项目需求添加和编辑图形和流程步骤。 4. 优化布局：利用 AI 自动布局功能，优化图表的外观。 5. 保存和分享：保存图表并与团队成员分享，或导出为 PDF、PNG 等格式。使用 AI 来绘制示意图可以大大提高效率和效果。以下是一些推荐的 AI 工具和平台，可以帮助您轻松创建专业的示意图： 1. Lucidchart 简介：Lucidchart 是一个强大的在线图表制作工具，集成了 AI 功能，可以自动化绘制流程图、思维导图、网络拓扑图等多种示意图。功能：拖放界面，易于使用。支持团队协作和实时编辑。丰富的模板库和自动布局功能。官网： 2. Microsoft Visio 简介：Microsoft Visio 是专业的图表绘制工具，适用于复杂的流程图、组织结构图和网络图。其 AI 功能可以帮助自动化布局和优化图表设计。功能：集成 Office 365，方便与其他 Office 应用程序协同工作。丰富的图表类型和模板。支持自动化和数据驱动的图表更新。官网： 3. 简介：是一个免费且开源的在线图表绘制工具，适用于各种类型的示意图绘制。功能：支持本地和云存储（如 Google Drive、Dropbox）。多种图形和模板，易于创建和分享图表。可与多种第三方工具集成。官网：在 AI 不断进化的时代，AI“词生卡”技术展现出独特优势。通过将抽象文字描述转化为直观的逻辑图表和流程图，改变了我们处理和呈现信息的方式。例如，在商业领域，AI 可以根据项目描述自动生成清晰的流程图，帮助团队更好地理解和执行复杂任务。在商业领域，每个公司甚至每个员工都可以通过“词生卡”方式，自定义活动海报、商务名片、简历，也可以用来日报、月报等介绍工作进度，这种用几句自然语言，实现了可 AI 自动设计、批量化、定制化的文图双输出，不仅提高了信息传导的效率，也为创新思维提供了新的工具。