Chat with Wiki - WayToAGI

Navigate to WaytoAGI Wiki →

Home/All Questions

关于ai输入法

以下是关于 AI 输入法的相关信息：在 ShowMeAI 周刊 No.14 中提到，最早注意到 AI Keyboard（AI 输入法）是通过 a16z 在 2024 年 8 月发布的榜单。从 11 月末开始，AI 输入法出现得越来越频繁。 FaceMoji 是一款输入法，其 AI 特性包括根据上下文预测 emoji、跨语言实时翻译、智能对话、GIF 智能搜索、智能纠错等，同时具备常规输入法的功能，如自定义皮肤、海量 emoji 和颜文字库等。 Bobble AI 的 AI 功能更有新意，除根据聊天内容推荐 emoji 外，还能创作和推荐个性化的表情包（贴纸），支持智能回复、翻译、总结等，讲笑话是其官方重点强调的功能之一，也支持其他常规功能。在 AI 智库的月度榜单（10 月）中，百度输入法、MaxAI.me、AnyDoor 等产品在覆盖力方面有不同的表现。

Manus 是一款由中国团队研发的全球首款通用型 AI 代理工具，于 2025 年 3 月 5 日正式发布。其特点和技术架构包括： 1. 区别于传统聊天机器人，具备自主规划、执行复杂任务并直接交付完整成果的能力，被称为“首个真干活的 AI”。 2. 技术架构主要基于多智能体（Multiple Agent）架构，运行在独立的虚拟机中。通过规划、执行和验证三个子模块的分工协作，实现对复杂任务的高效处理。 3. 核心功能由多个独立模型共同完成，分别专注于不同的任务或领域，如自然语言处理、数据分析、推理等。 4. 技术架构还包括以下关键组件：虚拟机：运行在云端虚拟机中，用户可随时查看任务进度，适合处理耗时任务。计算资源：利用计算资源生成算法，用于筛选简历等具体任务。生成物：能够生成各种类型的输出，如文本、表格、报告等。内置多个 agents：通过内置多个智能体，实现任务的分解和协同工作。 5. 采用“少结构，多智能体”的设计哲学，强调在数据质量高、模型强大、架构灵活的情况下，自然涌现 AI 的能力。在实际应用中： 1. 当前的 Manus 相当于 AI 操纵着一个没有图形界面的 Linux 虚拟机和浏览器，能感知电脑环境，执行各类操作，如运行各种 linux 下的指令、库、程序（cd、ls 指令、python 等），访问各种网页、获取一些 API 接口的数据，但无法运行图形程序。 2. 访问网页时，阻挠人类使用的各种要素会对其产生干扰。为方便用户通过键鼠介入，Manus 提供了用户可视的命令行视窗、浏览器、vscode 两种选项，方便查看运行指令、接管网页和修改文件。此外，Manus 一经预览发布便引爆 AI 圈，邀请码被炒至数千美元，Discord 社区人数破 13 万。但也有实测指出其存在多次崩溃、速度慢、上下文能力差等问题，且部分演示视频功能被证实为误导。专家认为其热度更多来自饥饿营销，技术实力尚未达到“自主研发”的高度。

推理类模型，以deepseek为代表，与此前的聊天型ai，比如chatgpt3.5，有什么差异

推理类模型如 DeepSeek 与聊天型 AI 如 ChatGPT3.5 存在以下差异： 1. 内部机制：对于大语言模型，输入的话会被表示为高维时间序列，模型根据输入求解并表示为回答。在大模型内部，是根据“最大化效用”或“最小化损失”计算，其回答具有逻辑性，像有自己的思考。 2. 多模态能力：ChatGPT3.5 是纯语言模型，新一代 GPT 将是多模态模型，能把感官数据与思维时间序列一起作为状态，并装载在人形机器人中，不仅能对话，还能根据看到、听到的事进行判断，甚至想象画面。 3. 超越人类的可能性：有人假设人按最大化“快乐函数”行动，只要“效用函数”足够复杂，AI 可完全定义人，甚至超越人类。如在“短期快乐”与“长期快乐”的取舍上，人类难以找到最优点，而 AI 可通过硬件算力和强化学习算法实现，像 AlphaGo 击败世界冠军，在复杂任务上超越人类。 4. 应用领域：文字类的总结、润色、创意是大语言模型 AI 的舒适区，如从 ChatGPT3.5 问世到 ChatGPT4 提升，再到 Claude 3.5 sonnet 在文学创作领域取得成绩，只要有足够信息输入和合理提示词引导，文案编写可水到渠成。

一句话阐述推理类模型的原理

推理类模型的原理主要包括以下方面： OpenAI 的推理模型通过强化学习进行训练，以执行复杂推理。此类模型在回答前会思考，能产生长链的思维过程。通过训练，它们学会优化思考过程、尝试不同策略并识别错误，从而遵循特定指南和模型政策，提供更有用的回答，避免产生不安全或不适当的内容。例如 OpenAI o1 这样的推理模型基于链式思维，逐步推理问题的每个步骤来得到答案。还有一些概率预测的快速反应模型，通过大量数据训练来快速预测可能的答案。

GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点和使用方法：特点：零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感，模仿出来的声音更接近原声且自然。跨语言支持：支持英语、日语和中文等不同语言的推理。易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，方便初学者创建训练数据集和模型。适用于不同操作系统：可在包括 Windows 在内的多种操作系统上安装和运行。提供预训练模型：可直接下载使用。使用：开源数字人组合方案中，第一步先剪出音频，使用 https://elevenlabs.io/speechsynthesis 或 GPTSoVITS 克隆声音，做出文案的音频。第二步使用 wav2lip 整合包，导入视频和音频，对口型得到视频。前置数据获取处理：选择音频并切割，有噪音时进行降噪处理，完成降噪后开启离线 ASR。 GPTSowitsTTS：训练集格式化时开启一键三连并耐心等待，然后进行微调训练（开启 SoVITS 训练和 GPT 训练）和推理（开始推理、刷新模型、选择微调后的模型），成功后会出现新的 URL，表明声音微调完毕。声音复刻：可实现跨多语种语言的声音，例如 AIyoyo 普通话和粤语版的《满江红》。 GitHub 地址：视频教程：基础 wav2lip+高清修复整合包下载地址：相关产品：

ai作图网站复杂吗？

AI 作图网站的使用复杂程度因人而异。一些网站可能具有较为简单直观的界面和操作流程，而另一些可能相对复杂。例如，ILLUMINARTY 网站通过对大量图片数据的抓取和分析来鉴别图片是否为 AI 生成，但在测试中可能存在误判。同时，还有一些专门用于绘制示意图的网站，如 Creately、Whimsical 和 Miro 等。Creately 是在线绘图和协作平台，适合绘制多种图表，具有智能绘图、丰富模板库和实时协作等功能。Whimsical 专注于用户体验和快速绘图，界面直观易上手。Miro 是在线白板平台，结合 AI 功能适用于团队协作和各种示意图绘制，具有无缝协作、丰富模板和工具以及与其他项目管理工具集成等功能。使用这些网站绘制示意图的一般步骤包括选择工具、创建账户、选择模板、添加内容、协作和分享等。对于 Tusiart 这类工具，文生图的操作流程包括确定主题、选择基础模型 Checkpoint（如麦橘、墨幽的系列模型）、选择 lora、设置 VAE（如 840000）、编写 Prompt 提示词和负向提示词 Negative Prompt（均用英文）、选择采样算法（如 DPM++2M Karras）、确定采样次数（如 30 40 次）以及设置尺寸等。

ai agent和workfolw的差异

AI Agent 和 Workflow 的主要差异如下：任务编排方式：AutoGPT 的任务由大模型自动编排，而 Workflow 中的子任务是人为编排的。带来的优化：流程中可加入人类 Knowhow，弥补模型知识的不足。专家测试试跑，减少生产环境中的无效反思，提升 Agent 的表现。引入图的概念，灵活组织节点，连接各类工具，包括套工具、套其他 Agent、写代码用硬逻辑处理、接大模型进行判断等，极大地提高了灵活性和可控性，提升了 Agent 能力的上限。解决的问题：Agentic Workflow 可以从提升效率、提高质量、节省时间的角度思考，通过将复杂任务分解为小步骤，融入更多人类参与的规划与定义，减少对 Prompt Engineering 和模型推理能力的依赖，提高 LLM 应用面向复杂任务的性能。涉及的概念：记忆：分为短期记忆和长期记忆，短期记忆将上下文学习视为利用模型的短期记忆学习，长期记忆提供长期存储和召回信息的能力。工具：学会调用外部不同类型 API 获取模型缺少的额外信息、代码执行能力、访问专有信息源等。动作：大模型根据问句、上下文规划、各类工具决策出最终执行的动作。人机协同关系：生成式 AI 的人机协同分为 Embedding（嵌入式）、Copilot（副驾驶）、Agent（智能代理）3 种模式，不同模式下人与 AI 的协作流程有所差异。 Embedding 模式：人类完成大多数工作。 Copilot 模式：人类和 AI 协同工作。 Agents 模式：AI 完成大多数工作。工作流变革：使用 Multiagent Collaboration 的方法，让不同角色的 Agent 按照任务要求自主规划选择工具、流程进行协作完成任务。信息处理逻辑：抽象化拆解大模型的底层能力，如翻译、识别、提取、格式化等，围绕“输入”“处理”“输出”“反馈”构建最底层的信息处理逻辑。对获取信息方式的重塑：搜索引擎和基于大模型的聊天机器人在解决问题方面目标一致，ChatGPT 的发布被认为将对传统搜索引擎带来颠覆。

RAG的优化思路

RAG（RetrievalAugmented Generation，检索增强生成）是一种结合检索和生成能力的自然语言处理架构，旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。 LLM 需要 RAG 进行检索优化的原因在于其存在一些缺点： 1. LLM 无法记住所有知识，尤其是长尾知识，受限于训练数据和学习方式，对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新，微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证，存在黑盒不可控以及受幻觉等问题干扰的情况。 4. LLM 容易泄露隐私训练数据。 5. LLM 规模大，训练和运行成本高。 RAG 具有以下优点： 1. 数据库对数据的存储和更新稳定，不存在学不会的风险。 2. 数据库的数据更新敏捷，可解释且不影响原有知识。 3. 数据库内容明确、结构化，加上模型的理解能力，能降低大模型输出出错的可能。 4. 知识库存储用户数据便于管控用户隐私数据，且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。在优化 RAG 性能方面，对于向量化基本平权的情况，可引入来源机制进行改进，对向量化的数据进行综合评分，如相似度置信度等，然后再进行 rebank。特别是对于私有化数据，业务方清楚数据的置信度，有优化空间。

一句话阐述工作流的原理

工作流的原理通常包括以下几个方面： 1. 由多个节点构成，节点是基本单元，如大语言模型、自定义代码、判断逻辑等。默认包含起始的 Start 节点和末尾的 End 节点。 2. 不同节点可能需要不同的输入参数，包括引用前面节点的参数值和自定义的输入值。 3. 一些工作流通过特定插件实现特定功能，如 SDXL Prompt Styler 插件结合 ControlNet 实现图片风格转化，其原理是在 prompt 中加入预设好的风格关键词组合。 4. 对于复杂任务场景，通过对插件、大语言模型、代码块等功能的可视化组合，实现复杂、稳定的业务流程编排，例如旅行规划、报告分析等。 5. 像生成图文短句的工作流，会包含多个步骤，如大模型生成标题、通过代码节点获取标题、生成简介、生成文案、归纳总结、传递给图像流等，并对图像流进行提示词优化和文生图等操作。

一句话阐述ai agent的原理。

AI Agent 的原理主要包括以下几个方面： 1. 其核心通常是大型语言模型（LLM）或大模型。 2. 为 LLM 增加了工具、记忆、行动、规划这四个能力。工具：如长期记忆，相当于给大模型一个数据库工具来记录重要信息。记忆：提供长期记忆能力。行动：将目标进行每一步的拆解，并输出不同的固定格式 action 指令给工具。规划：在大模型的 prompt 层做逻辑处理，如目标拆解。 3. 目前行业里主要用到的是 langchain 框架，它通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。 4. 心灵社会理论认为，智能是由许多简单的 Agent（分等级、分功能的计算单元）共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能，通过协作实现复杂的智能行为。多重层次：从低层次的感知和反应到高层次的规划和决策，每个层次由多个 Agent 负责。功能模块：每个 Agent 类似于功能模块，专门处理特定类型的信息或执行特定任务。分布式智能：智能通过多个相互关联的 Agent 共同实现，提高系统的灵活性和鲁棒性。 5. AI Agent 包括 Chain（步骤，可接受输入变量并产生输出变量）、Router（通过判定让 Agent 走向不同的 Chain）、Tool（工具调用）等概念。同时，还需要 Responser Agent（主 agent，用于回复用户）、Background Agent（背景 agent，用于推进角色当前状态）、Daily Agent（每日 agent，用于生成剧本等）等不同类型的 Agent 协同工作。