Navigate to WaytoAGI Wiki →
Home/All Questions
学习人工智能,小白应该从哪学起?
对于小白学习人工智能,建议从以下几个方面入手: 1. 了解 AI 基本概念:首先,阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅:在「」中,您将找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。同时,建议掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试:理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品:与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 另外,您可以参考《雪梅 May 的 AI 学习日记》,其中提到适合纯 AI 小白的学习模式是输入→模仿→自发创造。同时要记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-03-08
工作流构建
以下是关于工作流构建的相关内容: Comfyui 界面的工作流搭建: 1. 打开 Comfyui 界面后,右键点击界面,即可找到 Comfyui LLM party 的目录。您既可以学习如何手动连接节点来实现一个最简单的 AI 女友工作流,也可以直接将工作流文件拖拽到 Comfyui 界面中一键复刻提示词工程实验。 2. 从 ollama 的 github 仓库找到对应版本并下载。启动 ollama 后,在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。如果 ollama 连接不上,很可能是代理服务器的问题,请将 127.0.0.1:11434 添加到不使用代理服务器的列表中。 公众号内容自动总结并推送的工作流搭建: 1. 双击画板查看高清大图,此图很重要,可结合后边的具体细节反复查看。 2. 在开始节点输入 server 酱的 sendkey 和 rss 列表。其中,key 为 server 酱的 sendkey,获取方式参看文档「相关资源」部分;rss_list 为 rss 列表,没有的可以先白嫖提供的测试数据。 3. 使用「文本处理」节点处理输入的 rss 列表,处理为一行一个,输出为数组,方便后边节点批处理。 4. 读取用户输入的 rss 列表中的内容,在插件中找到链接读取节点。配置节点时选择批处理,批处理输入参数选择「分割 rss 列表」的 output,下方输入参数中 url 选择当前节点中的 item1。 5. 汇总 RSS 中所有文章内容。使用「代码」节点,左侧节点选择代码,输入项选择上一步中输出的 outputList,点击「在 IDE 中编辑」,选择「Python」,输入相应代码。配置输出项时,类型选择「Array<Object>」,点击右边的小加号,分别输出 title、url、author。 其他工作流相关内容: 1. 阿里云百炼工作流应用与模型介绍及作业布置,包括智能体与工作流的区别、工作流应用新建的类型、多模态模型工作流节点的操作、作业布置的要求和发布渠道等。 2. 工作流相关知识讲解,涵盖工作流类型差异、大模型使用、知识库创建等方面。 3. 工作流构建的步骤,如添加 Markdown 标题、输入内容、放入模型输出等,还提到不同场景下文字校对工作流的差异。 4. 模型能力应用方式和理解,包括语言翻译、图片识别、根据用户语言回复等。 5. 模型部署方式,提及智能体的发布与消耗 token 的情况,以及本地部署、蒸馏模型部署的相关内容。 6. 开源模型情况,介绍了通义万象的开源版本等。
2025-03-08
帮我搜索一下一个图片处理的AI工具,我记得是以M开头的
以下为您找到一些以 M 开头的图片处理 AI 工具: Midjourney Murf 此外,还有其他一些常见的图片处理 AI 工具,如 DallE、Leonardo、BlueWillow 等。 如果您需要去除图片水印,以下是一些推荐的工具: AVAide Watermark Remover:在线工具,支持多种图片格式,操作简单,还提供去除文本、对象等功能。 Vmake:可上传最多 10 张图片,适合快速去除水印并在社交媒体分享图片的用户。 AI 改图神器:提供智能图片修复去水印功能,支持粘贴或上传手机图像,操作方便。 这些工具各有特点,您可以根据具体需求选择。
2025-03-08
最近想要出一本书,书籍的主题是“Deepseek的应用革命:打造AI时代的竞争力”主要是面相企业家和企业高管,希望能够将知识库内容中关于企业应用的部分提炼成书,请根据知识库素材,输出一个图书内容规划和重点参考资料
以下是为您规划的图书内容和重点参考资料: 一、图书内容规划 1. 引言 介绍 AI 时代的背景和企业面临的挑战与机遇。 阐述 DeepSeek 在塑造企业竞争力方面的重要性。 2. DeepSeek 的技术创新 详细介绍 DeepSeek 最新模型 V3 与 R1 的架构创新,如混合专家(MoE)架构、多头潜注意力(MLA)等。 解释其如何提升计算效率和推理能力,打破算力壁垒。 3. 多领域的应用案例 字节跳动的新技术 OmniHuman 在视频生成方面的突破。 Coinbase 全面推动 AI 应用的实践,如在欺诈预防和客户支持等领域的应用。 4. 对企业管理的影响 探讨善于沟通上下文、明晰 AI 能力边界、合理授权并监督等管理经验如何提升 AI 协作效率。 5. 行业趋势与挑战 分析 AI 基础大模型参数量的变化趋势。 讨论初级程序员面临的职业挑战以及编程领域的颠覆性变化。 6. 未来展望 预测 DeepSeek 及相关技术在未来的发展方向和可能的创新。 二、重点参考资料 1. 《》 2. 《》 3. 《》 4. 《》 5. 《》 6. 《[零基础掌握 Deepseek》》 7. 日报 8. 日报
2025-03-08
AI生产力 数字劳动力 数字员工
以下是关于 AI 生产力、数字劳动力和数字员工的相关信息: 摊位信息方面: 有摊位主题为“AI 数字员工”,内容为为企业和个人提供数字劳动力,解决重复性、创意性工作难题,体验 demo 包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库。 学习路径方面: 结合“一人公司”的愿景,需要大量智能体(数字员工)替我们打工。未来的 AI 数字员工会以大语言模型为大脑,串联所有已有的工具和新造的 AI 工具。 Agent 工程(基础版)如同传统的软件工程学,有迭代的范式,包括梳理流程、“任务”工具化、建立规划、迭代优化。 关于数字员工“进化论”,需要在对 AI 能力基础上对固化流程和让 AI 自主思考作出妥协和平衡。 社区动态方面: BCG 最新报告指出,AI Agents 能让一名员工完成六名分析师的工作,将成为数字员工,帮助企业降低成本、提升效率和客户满意度,预计未来五年市场将快速发展。 月之暗面推出国产多模态模型 Kimi k1.5,全面对标 OpenAI 满血版 o1,在多项基准测试中表现优异,推动了国内 AI 技术的进步。
2025-03-08
怎么把OFFICE 和DEEPSEEK 结合
以下是关于将 Office 和 DeepSeek 结合的一些信息: 1. 可以参考《》,其中介绍了通过结合 VS Code、Cline 插件和 Deepseek API 等工具提升 AI 的应用能力,用户可以实现自动发送邮件、查找重复文件、网页抓取翻译等功能。 2. 参考《》,了解如何将飞书多维表格与 DeepSeek R1 结合,实现批量处理信息,提升工作效率,如批量转换文风、快速回复消息,甚至利用 AI 生成文案。 目前提供的信息中暂未直接提及 Office 与 DeepSeek 结合的具体方式,但您可以从上述类似的结合案例中获取一些思路和启发。
2025-03-08
怎么调优
以下是关于大模型 RAG 应用调优的相关内容: 1. 整理知识库文档阶段: 确定知识库包含的文档类型,如政策原文文档、业务积累的 QA、操作指引、产品说明等,并进行预处理。 注重知识库本身质量,因其对最终效果影响重大,是大模型生成回答的原始语料。 优化方向包括: 文档格式:实践中根据场景测试不同格式(如 PDF、docx 等),一般 PDF 效果较好,因其格式信息简洁,对大模型干扰少,但也有说 docx 效果更优的。 文档命名:尽量控制在 10 字左右,涵义简洁明了,避免无意义的数字、符号或缩写。 文档语言:尽量统一为同一种,避免中英文混在一个 chunk 里导致向量化问题。 文档内容:设置清晰的一二级标题,对特殊内容(如图片、表格、公式、超链接、附件、架构图、代码等)进行特殊处理。 构建问答对:能达到更好效果,但耗费人力且需考虑运营成本。需根据具体场景和需求及处理成本实践,找到最适合的方式。 2. Prompt 阶段: 匹配出与问句向量最相似的 top k 个 chunk 后,将匹配文本和问句添加到配置好的 prompt 中提交给 LLM。 进行 prompt 工程,选择最合适的 prompt 模板。 根据相关论文,把 query 放到头部和尾部,把相似度大的文档放到 context 的两端,能提升回答效果。 3. 召回 TopK 阶段: 开源框架检索返回的 Top K 按数据库中的顺序排序,保留原始数据库的上下文结构,但不一定是最优排序。 当索引规模大时,精确度不高,可增加 top k 的大小(如从 10 个增加到 30 个),再用更精确的算法进行 rerank。具体可查看:https://www.zhihu.com/question/628651389/answer/3356678699 4. LLM 生成答案阶段: 最大影响因素是大语言模型本身的性能。 选择大模型时,要在成本和收益间找到最佳平衡点,有些场景无需最好的大模型就能实现不错效果。 有条件可对模型进行微调,使其更匹配自身场景。
2025-03-08
ai音乐工具
AI 生成音乐的工具是利用人工智能技术,特别是机器学习和深度学习算法,来创作、编排和生成音乐的软件平台。它们能够分析大量音乐数据,学习音乐模式和结构,然后根据用户输入或特定指令创作出新的音乐作品。 为您推荐以下 AI 音乐产品: 1. Udio:由前 Google DeepMind 工程师开发,通过文本提示可快速生成符合用户音乐风格喜好的高质量音乐作品。网址:https://www.udio.com/ 2. Suno AI:是一款革命性的人工智能音乐生成工具,通过先进的深度学习技术,能将用户输入转化为富有情感且高质量的音乐作品。网址:https://suno.com/ 此外,5 月 1 日的 Xiaohu.AI 日报中提到 AI 音乐工具 Udio 有更新,包括增加上下文窗口使音乐作品过渡更自然,音轨最大长度扩展至 15 分钟适合长篇混音和复杂音乐制作,引入基于树的音轨历史查看方式。详细介绍:https://x.com/imxiaohu/status/1785666886648447251
2025-03-08
如何调试智能体回答问题准确率
调试智能体回答问题准确率可以参考以下方法: 1. 从问题场景出发:明确活动为问答对话场景,考验智能体对问题的理解和准确回答能力,真实对话场景中一般以完整句子回复。 2. 具体交流技巧:与大语言模型交流时尽量具体、丰富、少歧义,多说有用的信息。 3. 测试方法:可使用弱智吧问题对 LLM 进行测试,评价提示词的生成效果。 4. 行业案例参考: 服务和业务助手:关注回答准确率、数据覆盖范围,具备丰富的文档/多媒体/数据库支持、多数据源打通、文档 Meta 信息增强、搜索过滤、大模型召回判定等功能。 个人助理:关注回答准确率、业务数据关联性、人设契合度、多模态,通过 Prompt 优化、多模态数据上传、互联网搜索、音频/视频交互等方式提升。 多模态文件交互和数据处理:关注成本、延迟、多场景适配度,可进行自定义文件解析设置、视觉解析增强、企业级数据管理。 例如在服务和业务助手方面,内部业务助手可使用企业内部规章制度等构建知识库进行内部知识问答,通过复杂文档解析视觉增强来提供更好的文档理解。在医疗助手/法律助手/智能导购等场景,构建领域内知识库,结合规则性和智能性进行相似度阈值判定和大模型智能分析,减少数据混淆和模型幻觉问题,但判定速度略慢且有额外大模型调用费用,适合高度定制化和智能化搜索服务场景。
2025-03-08
10s的ai视频生成方案
以下是一些 10s 的 AI 视频生成方案: 1. Pika 2.2 版本:可以生成 10s 1080p 的 AI 视频,同时更新了 Pikaframes 模式,用户可通过首尾帧进行创意化自然转场的视频制作,能自由设置 1 10s 的转场时长。官方宣传视频: 地址:Pika.art 2. Storyflicks:用户输入一个故事主题,它使用大语言模型快速生成故事视频,视频中包含图片、故事内容、音频和字幕信息。地址:https://github.com/alecm20/storyflicks/blob/main/READMECN.md 在“我 AI 北京比赛&有手就行的 10s 创意视频制作”中: 出图方面: 智谱清言出图 可灵出图:第二轮出图采用可灵的参考图模式,并从百度搜索符合预期的图垫进去,城墙结构大体符合现实逻辑。 即梦出图:2.1 模型对提示词的理解更好,生成的风景画面也比 2.0pro 好些。 风格迁移:可使用 midjourney 的 Retexture 功能(有一定限制条件),平替方案可以选择即梦风格垫图或者 liblib 上面的一些风格迁移工作流。即梦风格垫图:https://www.liblib.art/modelinfo/e8e74a1540df4590b981be4ecd753dfe?from=personal_page&versionUuid=02ec32fcc5f94520b69efbc238ac5a6f 出视频方面:思考想要达到的效果,然后进行首尾帧提示词描述,一般用比较抽象化的短句式,用充足的留白让 AI 去进行随机性的填空。 此外,还有一些创意主题,如经典 icon 巡礼(长城、故宫一隅的延时拍摄,日出日落等)、宜居生活画卷(一碗豆汁里面的烟火人间等)、潮流文化新地标(国家博物馆里面的文物进行跳舞之类的趣味性互动等)、未来科技序章(创意上班场景等)。敲定的制作方案为先制作长城的日出延时摄影图片,之后采用风格迁移的方式将其变成秦朝时期的宫殿寺观壁画,利用首尾帧引导的“时间压缩”效果来体现历史演变。
2025-03-08