Navigate to WaytoAGI Wiki →
Home/All Questions
关于ai输入法
以下是关于 AI 输入法的相关信息: 在 ShowMeAI 周刊 No.14 中提到,最早注意到 AI Keyboard(AI 输入法)是通过 a16z 在 2024 年 8 月发布的榜单。从 11 月末开始,AI 输入法出现得越来越频繁。 FaceMoji 是一款输入法,其 AI 特性包括根据上下文预测 emoji、跨语言实时翻译、智能对话、GIF 智能搜索、智能纠错等,同时具备常规输入法的功能,如自定义皮肤、海量 emoji 和颜文字库等。 Bobble AI 的 AI 功能更有新意,除根据聊天内容推荐 emoji 外,还能创作和推荐个性化的表情包(贴纸),支持智能回复、翻译、总结等,讲笑话是其官方重点强调的功能之一,也支持其他常规功能。 在 AI 智库的月度榜单(10 月)中,百度输入法、MaxAI.me、AnyDoor 等产品在覆盖力方面有不同的表现。
2025-03-18
manus的本质
Manus 是一款由中国团队研发的全球首款通用型 AI 代理工具,于 2025 年 3 月 5 日正式发布。 其特点和技术架构包括: 1. 区别于传统聊天机器人,具备自主规划、执行复杂任务并直接交付完整成果的能力,被称为“首个真干活的 AI”。 2. 技术架构主要基于多智能体(Multiple Agent)架构,运行在独立的虚拟机中。通过规划、执行和验证三个子模块的分工协作,实现对复杂任务的高效处理。 3. 核心功能由多个独立模型共同完成,分别专注于不同的任务或领域,如自然语言处理、数据分析、推理等。 4. 技术架构还包括以下关键组件: 虚拟机:运行在云端虚拟机中,用户可随时查看任务进度,适合处理耗时任务。 计算资源:利用计算资源生成算法,用于筛选简历等具体任务。 生成物:能够生成各种类型的输出,如文本、表格、报告等。 内置多个 agents:通过内置多个智能体,实现任务的分解和协同工作。 5. 采用“少结构,多智能体”的设计哲学,强调在数据质量高、模型强大、架构灵活的情况下,自然涌现 AI 的能力。 在实际应用中: 1. 当前的 Manus 相当于 AI 操纵着一个没有图形界面的 Linux 虚拟机和浏览器,能感知电脑环境,执行各类操作,如运行各种 linux 下的指令、库、程序(cd、ls 指令、python 等),访问各种网页、获取一些 API 接口的数据,但无法运行图形程序。 2. 访问网页时,阻挠人类使用的各种要素会对其产生干扰。为方便用户通过键鼠介入,Manus 提供了用户可视的命令行视窗、浏览器、vscode 两种选项,方便查看运行指令、接管网页和修改文件。 此外,Manus 一经预览发布便引爆 AI 圈,邀请码被炒至数千美元,Discord 社区人数破 13 万。但也有实测指出其存在多次崩溃、速度慢、上下文能力差等问题,且部分演示视频功能被证实为误导。专家认为其热度更多来自饥饿营销,技术实力尚未达到“自主研发”的高度。
2025-03-18
推理类模型,以deepseek为代表,与此前的聊天型ai,比如chatgpt3.5,有什么差异
推理类模型如 DeepSeek 与聊天型 AI 如 ChatGPT3.5 存在以下差异: 1. 内部机制:对于大语言模型,输入的话会被表示为高维时间序列,模型根据输入求解并表示为回答。在大模型内部,是根据“最大化效用”或“最小化损失”计算,其回答具有逻辑性,像有自己的思考。 2. 多模态能力:ChatGPT3.5 是纯语言模型,新一代 GPT 将是多模态模型,能把感官数据与思维时间序列一起作为状态,并装载在人形机器人中,不仅能对话,还能根据看到、听到的事进行判断,甚至想象画面。 3. 超越人类的可能性:有人假设人按最大化“快乐函数”行动,只要“效用函数”足够复杂,AI 可完全定义人,甚至超越人类。如在“短期快乐”与“长期快乐”的取舍上,人类难以找到最优点,而 AI 可通过硬件算力和强化学习算法实现,像 AlphaGo 击败世界冠军,在复杂任务上超越人类。 4. 应用领域:文字类的总结、润色、创意是大语言模型 AI 的舒适区,如从 ChatGPT3.5 问世到 ChatGPT4 提升,再到 Claude 3.5 sonnet 在文学创作领域取得成绩,只要有足够信息输入和合理提示词引导,文案编写可水到渠成。
2025-03-18
一句话阐述推理类模型的原理
推理类模型的原理主要包括以下方面: OpenAI 的推理模型通过强化学习进行训练,以执行复杂推理。此类模型在回答前会思考,能产生长链的思维过程。通过训练,它们学会优化思考过程、尝试不同策略并识别错误,从而遵循特定指南和模型政策,提供更有用的回答,避免产生不安全或不适当的内容。 例如 OpenAI o1 这样的推理模型基于链式思维,逐步推理问题的每个步骤来得到答案。 还有一些概率预测的快速反应模型,通过大量数据训练来快速预测可能的答案。
2025-03-18
声音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用方法: 特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且自然。 跨语言支持:支持英语、日语和中文等不同语言的推理。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,方便初学者创建训练数据集和模型。 适用于不同操作系统:可在包括 Windows 在内的多种操作系统上安装和运行。 提供预训练模型:可直接下载使用。 使用: 开源数字人组合方案中,第一步先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或 GPTSoVITS 克隆声音,做出文案的音频。第二步使用 wav2lip 整合包,导入视频和音频,对口型得到视频。 前置数据获取处理:选择音频并切割,有噪音时进行降噪处理,完成降噪后开启离线 ASR。 GPTSowitsTTS:训练集格式化时开启一键三连并耐心等待,然后进行微调训练(开启 SoVITS 训练和 GPT 训练)和推理(开始推理、刷新模型、选择微调后的模型),成功后会出现新的 URL,表明声音微调完毕。 声音复刻:可实现跨多语种语言的声音,例如 AIyoyo 普通话和粤语版的《满江红》。 GitHub 地址: 视频教程: 基础 wav2lip+高清修复整合包下载地址: 相关产品:
2025-03-18
ai作图网站复杂吗?
AI 作图网站的使用复杂程度因人而异。一些网站可能具有较为简单直观的界面和操作流程,而另一些可能相对复杂。 例如,ILLUMINARTY 网站通过对大量图片数据的抓取和分析来鉴别图片是否为 AI 生成,但在测试中可能存在误判。 同时,还有一些专门用于绘制示意图的网站,如 Creately、Whimsical 和 Miro 等。Creately 是在线绘图和协作平台,适合绘制多种图表,具有智能绘图、丰富模板库和实时协作等功能。Whimsical 专注于用户体验和快速绘图,界面直观易上手。Miro 是在线白板平台,结合 AI 功能适用于团队协作和各种示意图绘制,具有无缝协作、丰富模板和工具以及与其他项目管理工具集成等功能。使用这些网站绘制示意图的一般步骤包括选择工具、创建账户、选择模板、添加内容、协作和分享等。 对于 Tusiart 这类工具,文生图的操作流程包括确定主题、选择基础模型 Checkpoint(如麦橘、墨幽的系列模型)、选择 lora、设置 VAE(如 840000)、编写 Prompt 提示词和负向提示词 Negative Prompt(均用英文)、选择采样算法(如 DPM++2M Karras)、确定采样次数(如 30 40 次)以及设置尺寸等。
2025-03-18
ai agent和workfolw的差异
AI Agent 和 Workflow 的主要差异如下: 任务编排方式:AutoGPT 的任务由大模型自动编排,而 Workflow 中的子任务是人为编排的。 带来的优化: 流程中可加入人类 Knowhow,弥补模型知识的不足。 专家测试试跑,减少生产环境中的无效反思,提升 Agent 的表现。 引入图的概念,灵活组织节点,连接各类工具,包括套工具、套其他 Agent、写代码用硬逻辑处理、接大模型进行判断等,极大地提高了灵活性和可控性,提升了 Agent 能力的上限。 解决的问题:Agentic Workflow 可以从提升效率、提高质量、节省时间的角度思考,通过将复杂任务分解为小步骤,融入更多人类参与的规划与定义,减少对 Prompt Engineering 和模型推理能力的依赖,提高 LLM 应用面向复杂任务的性能。 涉及的概念: 记忆:分为短期记忆和长期记忆,短期记忆将上下文学习视为利用模型的短期记忆学习,长期记忆提供长期存储和召回信息的能力。 工具:学会调用外部不同类型 API 获取模型缺少的额外信息、代码执行能力、访问专有信息源等。 动作:大模型根据问句、上下文规划、各类工具决策出最终执行的动作。 人机协同关系:生成式 AI 的人机协同分为 Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理)3 种模式,不同模式下人与 AI 的协作流程有所差异。 Embedding 模式:人类完成大多数工作。 Copilot 模式:人类和 AI 协同工作。 Agents 模式:AI 完成大多数工作。 工作流变革:使用 Multiagent Collaboration 的方法,让不同角色的 Agent 按照任务要求自主规划选择工具、流程进行协作完成任务。 信息处理逻辑:抽象化拆解大模型的底层能力,如翻译、识别、提取、格式化等,围绕“输入”“处理”“输出”“反馈”构建最底层的信息处理逻辑。 对获取信息方式的重塑:搜索引擎和基于大模型的聊天机器人在解决问题方面目标一致,ChatGPT 的发布被认为将对传统搜索引擎带来颠覆。
2025-03-18
RAG的优化思路
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 LLM 需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在黑盒不可控以及受幻觉等问题干扰的情况。 4. LLM 容易泄露隐私训练数据。 5. LLM 规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在学不会的风险。 2. 数据库的数据更新敏捷,可解释且不影响原有知识。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。 在优化 RAG 性能方面,对于向量化基本平权的情况,可引入来源机制进行改进,对向量化的数据进行综合评分,如相似度置信度等,然后再进行 rebank。特别是对于私有化数据,业务方清楚数据的置信度,有优化空间。
2025-03-18
一句话阐述工作流的原理
工作流的原理通常包括以下几个方面: 1. 由多个节点构成,节点是基本单元,如大语言模型、自定义代码、判断逻辑等。默认包含起始的 Start 节点和末尾的 End 节点。 2. 不同节点可能需要不同的输入参数,包括引用前面节点的参数值和自定义的输入值。 3. 一些工作流通过特定插件实现特定功能,如 SDXL Prompt Styler 插件结合 ControlNet 实现图片风格转化,其原理是在 prompt 中加入预设好的风格关键词组合。 4. 对于复杂任务场景,通过对插件、大语言模型、代码块等功能的可视化组合,实现复杂、稳定的业务流程编排,例如旅行规划、报告分析等。 5. 像生成图文短句的工作流,会包含多个步骤,如大模型生成标题、通过代码节点获取标题、生成简介、生成文案、归纳总结、传递给图像流等,并对图像流进行提示词优化和文生图等操作。
2025-03-18
一句话阐述ai agent的原理。
AI Agent 的原理主要包括以下几个方面: 1. 其核心通常是大型语言模型(LLM)或大模型。 2. 为 LLM 增加了工具、记忆、行动、规划这四个能力。 工具:如长期记忆,相当于给大模型一个数据库工具来记录重要信息。 记忆:提供长期记忆能力。 行动:将目标进行每一步的拆解,并输出不同的固定格式 action 指令给工具。 规划:在大模型的 prompt 层做逻辑处理,如目标拆解。 3. 目前行业里主要用到的是 langchain 框架,它通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。 4. 心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。 多重层次:从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。 功能模块:每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务。 分布式智能:智能通过多个相互关联的 Agent 共同实现,提高系统的灵活性和鲁棒性。 5. AI Agent 包括 Chain(步骤,可接受输入变量并产生输出变量)、Router(通过判定让 Agent 走向不同的 Chain)、Tool(工具调用)等概念。同时,还需要 Responser Agent(主 agent,用于回复用户)、Background Agent(背景 agent,用于推进角色当前状态)、Daily Agent(每日 agent,用于生成剧本等)等不同类型的 Agent 协同工作。
2025-03-18