Navigate to WaytoAGI Wiki →
Home/All Questions
我什么都不懂,完完全全的小白
以下是为您提供的 AI 入门指导: 1. 如果您想把大模型接入小米音箱,可参考以下本地部署教学(vscode)的步骤: 电脑需要安装的软件和环境配置: Python 3.8 以上的版本(https://www.python.org/) Vscode(https://code.visualstudio.com/) nodeJS(https://nodejs.org/zhcn) Github 需要有账号(https://github.com/) Github 经常会打不开,可以下载一个 steam++,https://steampp.net/ 安装方法参考大雨老师的教学: 重要!安装完成后,需要配置环境,否则后面的部署过程中运行会报错。具体操作如下:搜索 windows powershell,用管理员身份运行,进入命令行工具页面,输入相关命令,按回车。第一次执行会弹出窗口,会出现执行策略更改确认时,输入 A 后按回车确认,关闭运行窗口。 2. 对于完全没有 AI 使用经验的小白,您可以从以下方面入手: 工具入门篇(Prompt):现成好用的 Prompt,,有很多可以直接复制、粘贴的优秀 prompt 案例,它们都有完整的结构。 工具入门篇(AI Agent):Agent 工具小白的 Coze 之旅,,适合完全没有编程基础,但对 AI 已有一点概念的小白。 工具入门篇(AI Pic):现在主流的 AI 绘图工具网站,,适合完全没接触过 AI 出图、只是听说过的小伙伴。 3. 如果您对 AI 都没太多概念,属于纯纯小白,可以参考以下内容: 通识篇:现有常见 AI 工具小白扫盲,(1 小时 32 分开始),可以快速感受当下 AI 工具的力量。 通识篇:AI 常见名词、缩写解释,,帮助您理解“黑话”和诸多缩写。
2025-03-06
AI怎样赋能文旅产业发展
AI 赋能文旅产业发展主要体现在以下几个方面: 1. 全流程制作文旅宣传片:利用 AIGC 技术生成全国文旅宣传片,如《AI 我中华》,融合了 AI 生成视频及 AI 配音技术,将各地特色巧妙结合,展现大美中华。使用的工具包括 ChatGPT、Midjourney、Stable Diffusion、Runway、PS、AE、Ebsynth 等。 2. 提升 2D 美术效果:在 2D 美术中广泛使用图像生成技术,主流生成式图像应用如 DALLE 2.0、Stable Diffusion 和 Midjourney 提升了图像生成的精细化程度和提示对图像生成结果的控制能力。 3. 优化 3D 模型生成流程:在 3D 模型生成中,AI 可直接完成可调整的 3D 粗模,大大提升效率。 4. 改善游戏测试与优化环节:AI 在游戏测试环节中可模拟玩家、NPC 和游戏模型,在优化环节承担改善角色动画、编程加速、自动化游戏测试等功能,通过生成文字、图片、视频、音乐来缩减时间和资源消耗,快速识别并解决问题。 5. 丰富故事情节与 NPC 设计:在游戏设计中,AI 依托自然语言生成用法,用于角色与故事生成、游戏机制创新等方面,通过针对性训练数据集强化 NPC 模型的基础能力。 6. 创新音乐与音效生成:AI 生成音乐存在基于乐理规则的符号生成模型和基于音频数据的音频生成模型两种主流技术路线,可用于填充游戏音效和音乐。 7. 提升玩家体验与个性化:AI 能评估玩家技能水平和游戏风格,动态调整游戏难度,还能在游戏运营中提供客服和分析服务。 8. 带来新的游戏玩法:如《Soul Chronicle》实现了实时 3D+AIGC+UGC,《Roleverse》可在平台内定制角色和编辑游戏世界。
2025-03-06
智能体
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 智能体的定义: 智能体是一种自主系统,通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并辅以几个关键组成部分,包括规划、子目标和分解、反思和完善、记忆(短期记忆和长期记忆)、工具使用。 智能体的类型: 1. 简单反应型智能体(Reactive Agents):根据当前的感知输入直接采取行动,不维护内部状态,也不考虑历史信息。例如温控器。 2. 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入进行建模,能够推理未来的状态变化,并根据推理结果采取行动。例如自动驾驶汽车。 3. 目标导向型智能体(Goalbased Agents):除了感知和行动外,还具有明确的目标,能够根据目标评估不同的行动方案,并选择最优的行动。例如机器人导航系统。 4. 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动的优劣,权衡利弊。例如金融交易智能体。 5. 学习型智能体(Learning Agents):能够通过与环境的交互不断改进其性能,学习模型、行为策略以及目标函数。例如强化学习智能体。 智能体功能实现: 本智能体主要通过一个工作流实现,采用单 Agent(工作流模式)。工作流全景图按照市场分析报告内容划分,分成 7 个分支处理,每个分支调研并生成报告中的一部分,以发挥并行处理的效率。工作流主要节点包括文本处理节点、必应搜索节点、LinkerReader 节点、在 LinkerReader 节点前的代码节点、代码节点、大模型节点和结束节点。文本处理节点将用户输入与报告某一部分的主题拼装,形成用于网络搜索的关键词句。必应搜索节点根据指定的关键词句搜索相关网络内容。LinkerReader 节点从必应搜索到的网页链接中获取网页详细内容。在 LinkerReader 节点前的代码节点用于等待 2 3 秒,错开众多 LinkerReader 节点的执行时间,避免拥塞。代码节点将搜索到的网页链接信息进行过滤,只保留网页名称、摘要、url 信息,以备后面大模型进行处理。大模型节点根据多个网页中获取的内容按照指定的格式生成报告内容,并根据代码过滤后的搜索摘要信息列表将引用链接加到报告内容中。结束节点将 7 部分大模型节点生成的内容拼接并流式输出。
2025-03-06
AI语音生成
以下是关于 AI 语音生成的相关信息: 工具和网站: Coqui Studio:https://coqui.ai Bark:https://github.com/sunoai/bark Replica Studios:https://replicastudios.com 开源模型: GPTSoVITS+BertVITS2:提供的在线生成模型均已达到商用标准。 技术和模型: 用于语音生成的模型可以由 Transformers 提供。 生成音频信号常用的技术包括循环神经网络(RNNs)、长短时记忆网络(LSTMs)、WaveNet 等。 具有代表性的海外项目: Sora(OpenAI):以扩散 Transformer 模型为核心,能够生成长达一分钟的高保真视频。支持多种生成方式,在文本理解方面表现出色,能在单个生成的视频中创建多个镜头,保留角色和视觉风格。 Genie(Google):采用 STtransformer 架构,包括潜在动作模型、视频分词器与动力学模型,拥有 110 亿参数,可通过单张图像提示生成交互式环境。 WaveNet(DeepMind):一种生成模型,可以生成非常逼真的人类语音。 MuseNet(OpenAI):一种生成音乐的 AI 模型,可以在多种风格和乐器之间进行组合。 Multilingual v2(ElevenLabs):一种语音生成模型,支持 28 种语言的语音合成服务。
2025-03-06
如何将一个网页或者网站的内容作为知识库导入?
将网页或网站的内容作为知识库导入主要有以下几种方式及操作步骤: 1. Notion: 在文本格式页签下,选择 Notion,然后单击下一步。 单击授权。首次导入 Notion 数据和页面时,需要进行授权。 在弹出的页面完成登录,并选择要导入的页面。 选择要导入的数据,然后单击下一步。 选择内容分段方式: 自动分段与清洗:系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据。 自定义:手动设置分段规则和预处理规则。分段标识符:选择符合实际所需的标识符。分段最大长度:设置每个片段内的字符数上限。文本预处理规则:替换掉连续的空格、换行符和制表符,删除所有 URL 和电子邮箱地址。 单击下一步完成内容上传和分片。 2. 在线数据: 自动采集方式:适用于内容量大,需要批量快速导入的场景。 在文本格式页签下,选择在线数据,然后单击下一步。 单击自动采集。 单击新增 URL。在弹出的页面完成以下操作:输入要上传的网站地址;选择是否需要定期同步网站内容,如果需要选择内容同步周期;单击确认。 当上传完成后单击下一步。系统会自动根据网站的内容进行内容分片。 手动采集:适用于需要精准采集网页上指定内容的场景。 安装扩展程序,详情请参考。 在文本格式页签下,选择在线数据,然后单击下一步。 点击手动采集,然后在弹出的页面点击权限授予完成授权。 在弹出的页面输入要采集内容的网址,然后单击确认。 在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。 单击查看数据查看已采集的内容,确认无误后再点击完成并采集。 3. 本地文档: 在文本格式页签下,选择本地文档,然后单击下一步。 将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档。目前支持上传.txt、.pdf、.docx 格式的文件内容。每个文件不得大于 20M。一次最多可上传 10 个文件。 当上传完成后单击下一步。 选择内容分段方式: 自动分段与清洗:系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据。 自定义:手动设置分段规则和预处理规则。分段标识符:选择符合实际所需的标识符。分段最大长度:设置每个片段内的字符数上限。文本预处理规则:替换掉连续的空格、换行符和制表符,删除所有 URL 和电子邮箱地址。 单击下一步完成内容上传和分片。
2025-03-06
如何利用ai把一段文字,变成视频里的人说的话
以下是利用 AI 将一段文字变成视频里人说的话的步骤: 1. 准备文字内容: 可以是产品介绍、课程讲解、游戏攻略等任何您希望推广或让大家了解的文字。 您也可以利用 AI 生成这段文字。 2. 制作视频: 使用剪映 App ,电脑端打开点击“开始创作”。 选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号,为视频添加文字内容轨道。 在界面右侧将准备好的文字内容替换默认文本内容,这将为数字人提供语音播放的内容以及生成相对应的口型。 3. 生成数字人: 在显示区域拖动背景图的角将其放大到适合尺寸,并将数字人拖动到合适位置。 点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 4. 为视频加入旁白(人物配音): 打开剪映,点击左上角菜单 文本,从默认文本开始,点击默认文本。 在右边文本框输入文字,可以是人物对话或短片旁白介绍。 输入文字后,点击上面菜单栏 朗读。 在朗读下面有克隆音色和文本朗读两个按钮。 克隆音色步骤:点击克隆音色 点击克隆(电脑版未检测到麦克风时无法使用,手机版可直接点击开始录制)。 至此,数字人视频就完成了,点击右上角“导出”按钮导出视频以作备用。如果希望数字人换成自己希望的面孔,需要用另一个工具来进行换脸。
2025-03-06
如何使用本地数据训练AI?
使用本地数据训练 AI 可以参考以下内容: Teachable Machine: 应用场景广泛,如商品说明书、自动驾驶、教学互动等。 允许用户快速、简单地创建机器学习模型,无需专业知识或编程技能。 使用步骤: 收集数据:可上传图片、录制声音或动作视频作为训练数据。 训练模型:用收集的数据训练模型并测试其能否正确识别新的内容。 导出模型:完成训练后可下载或上传到网上用于其他项目。 特点: 提供多种创建机器学习模型的方式,灵活且用户友好。 可在本地完成训练,不通过网络发送或处理数据,保护隐私。 生成的模型是真实的 TensorFlow.js 模型,可在任何运行 JavaScript 的地方工作,还能导出到不同格式在其他地方使用。 官方网站: Stable Diffusion: 训练数据集制作: 数据清洗:筛除分辨率低、质量差、存在破损及与任务目标无关的数据,去除水印、干扰文字等。 数据标注:分为自动标注(如使用 BLIP 输出自然语言标签)和手动标注(依赖标注人员)。 补充标注特殊 tag:可手动补充特殊标注,如运行相关代码并修改参数。
2025-03-06
介绍一下manus
Manus 是由 Monica 团队发布的真正自主的 AI 代理,具有以下核心亮点: 1. 自主执行:能够直接执行任务,而非仅提供建议。 2. 类人工作模式:可以解压文件、浏览网页、阅读文档、提取关键信息。 3. 云端异步运行:在后台执行任务,完成后自动通知用户。 4. 持续学习与记忆:能从用户反馈中学习,提高未来任务的准确性。 5. “心智与手”理念:象征着 AI 实际执行能力。 其任务示例包括但不限于自动分析和执行任务,并直接交付最终结果。您可以通过以下链接查看演示视频和详细介绍:
2025-03-06
figma设计稿转为vue代码
以下是关于将 Figma 设计稿转为 Vue 代码的相关信息: Visual Copilot by Builder 是一款基于 AI 的工具,它可以将 Figma 设计转换为干净、语义化且开发者友好的响应式代码。该工具能够将代码转换为多种框架,其中包括 Vue 框架。同时,它可以将 Figma 组件映射到设计系统中的可重用组件,还允许用户通过聊天来改进代码,并与 Builder API 集成以生成 JavaScript 组件和页面。在 beta 版本中,该工具是免费的。
2025-03-06
老旧照片修复
以下是关于用 AI 给老旧照片修复上色的详细步骤和方法: 1. 启用 MutiDiffusion 插件,在显存不够的情况下,仅使用分块渲染功能将图片放大到足够倍数。 2. 在 PS 里进行角度调整和照片裁切。 3. 对于人物照片还原,选择 realisian 的写实大模型,提示词直接描述颜色和对应内容。 4. ControlNet 选择 Recolor,预处理器选择“recolor_luminance”效果较好。 5. 将照片放入后期处理,使用 GFPGAN 算法将人脸变清晰。 6. 把图片发送到图生图中,打开 stableSR 脚本,放大两倍,切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可不写以免干扰原图。 7. 对于复杂的照片,如人物多、场景复杂、像素低的情况,可放弃人物服装颜色指定,只给场景方向,让 AI 自行决定颜色,还可从网上找参考照片让 AI 匹配色调,加入第二个 controlnet 控制颜色,使用 t2ia_color 模型,给出简单关键词如“蓝天、绿树、灰石砖”。 作者为白马少年,发布时间为 2023 年 9 月 10 日 19:00,原文网址:https://mp.weixin.qq.com/s/hlnSTpGMozJ_hfQuABgLw 。
2025-03-06