Navigate to WaytoAGI Wiki →
Home/All Questions
如何学习comfyUI
以下是一些学习 ComfyUI 的途径和资源: 1. 官方文档:ComfyUI 官方文档提供了使用手册和安装指南,适合初学者和有经验的用户,可在获取相关信息。 2. 优设网:有一篇详细的 ComfyUI 入门教程,适合初学者,详细介绍了其特点、安装方法及如何生成图像等内容,教程地址是。 3. 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解的用户,可在找到相关教程。 4. Bilibili:提供了一系列涵盖从新手入门到精通各个阶段的视频教程,可在找到。 此外,还有以下 ComfyUI 共学快闪的学习内容: 王蓉??Wang Easy 基础搭建和转绘 唯有葵花向日晴基础教程,工作流开发,实际应用场景 热辣 HuolarrAI 系统课私聊图生视频 咖菲猫咪基础教程/工作流搭建思路/各版本模型使用的优缺点 傅小瑶 Lucky 如何制作多人转绘视频 云尚工作流节点搭建思路 FǎFá 热门节点功能,搭建 森林小羊基本报错解决方式及基础工作流逻辑分析 苏小蕊基础教程 Sophy 基础课程 蜂老六装一百个最新常用插件后如何快速解决冲突问题 阿苏工作流框架设计 aflyrt comfyui 节点设计与开发 老宋&SD 深度解释虚拟环境部署和缺失模型的安装 Liguo 模型训练 啊乐福基础课程 塵优秀案例 风信基础课程➕平面设计应用场景 北南基础课程 视频工作流框架设计 Damon 基础课程 渔舟基础课程+工作流搭建思路 乔木船长工作流 ☘️基础教程 ☘基础教程 工作流设计+典型案例剖析 麒白掌工作流搭建 OutSider 风格迁移 吴鹏基础+工作流搭建 拾光工作流基础搭建从入门到精通 茶浅浅。视频转绘/节点工作流介绍 百废待.新(早睡版)工作流从入门到进阶 电商应用场景 学习使用 ComfyUI 的原因包括: 更接近 SD 的底层工作原理。 实现自动化工作流,消灭重复性工作。 作为强大的可视化后端工具,可实现 SD 之外的功能,如调用 api 及本文所讲的内容等。 可根据定制需求开发节点或模块。 例如,有人因工作室需要抠图素材,传统途径存在问题,近期在 github 上看到一个名为的项目,其中包含丰富的蒙版处理节点,于是基于此创建了 ComfyUI 工作流,不仅可用于绿幕素材的抠图,还能自动生成定制需求的抠图素材,全程只需几秒。
2025-03-17
chatbot
以下是关于 ChatBot 的相关内容: 1. 基于 COW 框架的 ChatBot 实现: 作者熊猫大侠介绍了基于大模型搭建的 Chat 机器人框架,可将多模型塞进微信里实现。张梦飞同学写了更适合小白的使用教程,链接为:https://waytoagi.feishu.cn/wiki/A9w1wUcXSihF6XkeKVic8CXxnHb 。 实现内容包括打造属于自己的 ChatBot(文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等),常用开源插件的安装应用。 正式开始前需知道:本实现思路需接入大模型 API(API 单独付费)。存在风险与注意事项,如微信端有封号危险,不建议主力微信号接入;操作需依法合规,对大模型生成的内容注意甄别,禁止用于非法目的,处理敏感或个人隐私数据时注意脱敏。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等。可选择多模型,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等。支持多消息类型,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能。有多种部署方法,如本地运行、服务器运行、Docker 的方式。 2. 打造聊天机器人“订餐机器人”: 建立自己的聊天机器人,称为“订餐机器人”,使用自动化方式收集用户提示和助手反馈来构建。用于比萨饼店接收订单。 定义“帮助函数”收集用户消息,避免手动输入。函数从用户界面收集提示并附加到称为上下文的列表中,每次使用该上下文调用模型。 模型和用户的反馈信息都会添加到上下文中,上下文会越来越长,模型据此决定下一步行动。 订餐机器人需等待收集整个订单,然后总结,并最后再次确认客户是否需要添加其他内容。若送货,需询问地址,最后收取支付款项。确保澄清所有选项、附加项和规格,以唯一地从菜单中识别出该项目。以简短、口语化和友好的方式回应。 可要求模型创建基于对话的 JSON 摘要,提交给订单系统。可对其进行定制,改变聊天机器人的行为。
2025-03-17
AI编程
以下是关于 AI 编程的相关内容: Trae 国内版 Trae 是字节跳动旗下的 AI 原生编程工具,类似 Cursor、Windsurf 等 IDE 工具。它具有以下特点: 1. 对国内用户友好,有中国官网、中文界面、国内模型,稳定且快速。 2. 使用完全免费,无需折腾会员,下载后可直接使用,支持豆包 1.5pro 和满血版 DeepSeek R1、V3 模型。 3. 内置预览插件,写完代码一键运行,所见即所得。 它不仅适合新手入门,能解决初学 AI 编程时遇到的官网打不开、购买会员、安装中文和预览插件等前置问题,让 AI 编程进入零门槛时代,还能帮助资深程序员大幅提升编程速度。网址:Trae.com.cn 或点击文末【阅读原文】直接访问。 借助 AI 学习编程的关键 1. 打通学习与反馈循环:从验证环境、建立信心、理解基本概念开始,形成“理解→实践→问题解决→加深理解”的循环。 2. 建议:使用流行语言和框架(如 React、Next.js、TailwindCSS);先运行再优化,小步迭代,一次解决一个小功能;借助 AI 生成代码后请求注释或解释,帮助理解代码;遇到问题时采取复现、精确描述、回滚三步走。 用好 AI 编程工具(如 Cursor)的关键技能 1. 准确描述需求,清晰表达目标和问题。 2. 具备架构能力,将复杂系统拆解为松耦合的模块,便于 AI 高效处理。 3. 拥有专业编程能力,能够判断 AI 生成代码的优劣。 4. 具备调试能力,能快速定位问题并解决,独立或借助 AI 完成调试。
2025-03-17
Google 图片视频AI
以下是关于 Google 图片视频 AI 的相关信息: Google 发布了 AI 视频 Veo2 和 AI 绘图 Imagen3。 关于 AI 视频 Veo2: 官网介绍可申请 waitlist,链接为 https://labs.google/fx/zh/tools/videofx 。 引入了改进后的物理引擎,能模拟真实世界动态变化。 能更好地捕捉和模拟人类动作、运动轨迹,并高精度呈现。 具有电影级视觉效果,能生成有深度感和层次感的场景。 提供灵活的镜头控制选项,允许用户调节镜头角度、视角和焦距等参数。 关于 AI 绘图 Imagen3: 绘图链接为 https://labs.google/fx/tools/imagefx 。 是最高质量的文本到图像模型,能生成比之前模型更好细节、更丰富光照和更少干扰伪影。 在图像细节和清晰度上有显著提高,生成的图像更生动、真实,细节更丰富。 相关报道和链接: 数字生命卡兹克:Google 全新发布 AI 视频 Veo2、AI 绘图 Imagen3 何以凌越,https://mp.weixin.qq.com/s/4ACndSdfG8az3gdLn5QLIQ 。 量子位:谷歌版 Sora 升级 4K 高清!一句话控制镜头运动,跑分叫板可灵海螺,https://mp.weixin.qq.com/s/8H286tyxbTeZrtEBDZHaA 。 锤爆 Sora,尺度最大,谷歌发布最强视频模型 Veo2,叫板海螺可灵,https://mp.weixin.qq.com/s/sMECORvSikuKHNaEzPor6Q 。 谷歌版 Sora 来了,4K 高清暴击 OpenAI!视频生图新卷王,更理解物理世界,https://mp.weixin.qq.com/s/PFeyrX2q9mWd6GIrJ9qdWQ 。 谷歌的 Imagen 3 终于来了——它是最好的 AI 图像生成器吗?https://mp.weixin.qq.com/s/gcyGvA6_9mxN9yz__jRRHQ 。 测评: ,Google 视频和图像生成模型更新包括 Veo 2、Imagen 3 和一个新工具 Whisk 。
2025-03-17
什么样的数据集适合测试大语言模型?
以下是一些适合测试大语言模型的数据集: Guanaco:地址为,是一个使用 SelfInstruct 的主要包含中日英德的多语言指令微调数据集。 chatgptcorpus:地址为,开源了由 ChatGPT3.5 生成的 300 万自问自答数据,包括多个领域,可用于训练大模型。 SmileConv:地址为,数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话,含有 56k 个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更符合长程多轮对话的应用场景。 用于评估大语言模型的框架和基准有: GAOKAOBench:地址为,是以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了 2010 2022 年全国高考卷的题目,包括 1781 道客观题和 1030 道主观题。 AGIEval:地址为,是由微软发布的新型基准测试,选取 20 种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。 Xiezhi:地址为,是由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估 Benchmark,包含 13 个学科门类,24 万道学科题目,516 个具体学科,249587 道题目。 此外,在多语言能力评测方面,还使用了以下数据集: MMMLU:来自 Okapi 的多语言常识理解数据集,在阿、德、西、法、意、荷、俄、乌、越、中这几个子集进行测试。 MGSM:包含德、英、西、法、日、俄、泰、中和孟在内的数学评测。针对人工评测,使用内部评估集比较了 Qwen272BInstruct 与 GPT3.5、GPT4 和 Claude3Opus,该评测集包括 10 种语言:ar(阿拉伯语)、es(西班牙语)、fr(法语)、ko(韩语)、th(泰语)、vi(越南语)、pt(葡萄牙语)、id(印度尼西亚语)、ja(日语)和 ru(俄语)。
2025-03-17
什么样的数据集适合训练大语言模型?
以下是一些适合训练大语言模型的数据集: 1. Guanaco:这是一个使用 SelfInstruct 的主要包含中日英德的多语言指令微调数据集,地址为:。 2. chatgptcorpus:开源了由 ChatGPT3.5 生成的 300 万自问自答数据,包括多个领域,可用于训练大模型,地址为:。 3. SmileConv:数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话,含有 56k 个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景,地址为:。 虽然许多早期的大型语言模型主要使用英语语言数据进行训练,但该领域正在迅速发展。越来越多的新模型在多语言数据集上进行训练,并且越来越关注开发专门针对世界语言的模型。然而,在确保不同语言的公平代表性和性能方面仍然存在挑战,特别是那些可用数据和计算资源较少的语言。 大模型的预训练数据通常非常大,往往来自于互联网上,包括论文、代码以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用 TB 级别的数据进行预训练。
2025-03-17
如何创设一个作业时间计划管理智能体
以下是创设一个作业时间计划管理智能体的步骤: 1. 创建智能体:使用单 Agent 对话流模式。 编排对话流:点击创建新的对话流并与智能体关联。在获取笔记详情节点和笔记评论节点分别配置 cookie,note_link 使用开始节点的 USER_INPUT。 数据处理:使用代码节点对两个插件获取的结果进行处理,注意代码节点输出的配置格式。 2. 测试:找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。回到智能体的编排页面进行同样的测试,确保对话流执行成功。 3. 发布: 选择多维表格,点击配置。 输出类型选文本,输入类型选择字段选择器。 完善上架信息,填写表格,选发布范围时可选择仅自己可用以加快审核。 提交上架信息,返回配置界面显示已完成,即可完成最终提交。 另外,在创建智能体时还需注意: 1. 像在“DeepSeek+扣子”的案例中,输入人设等信息,放上创建的工作流,但工作流中如【所有视频片段拼接】节点使用的插件 api_token 填的是个人 token 时,不能直接发布。可以将 api_token 作为工作流最开始的输入,用户自己购买后输入 api_token 再发布。 2. 如创建“画小二智能小助手”Coze 智能体,需打开扣子官网(https://www.coze.cn/),在 Coze 商店体验地址(https://www.coze.cn/store/bot/7371793524687241256?panel=1&bid=6cqnnu5qo7g00)点击创建 Bot,在对话框中工作空间选择“个人空间”并命名。同时设置提示词。
2025-03-17
AI发展大事记与 时间线
以下是 AI 发展的大事记与时间线: 2022 年 11 月 30 日,OpenAI 发布基于 GPT 3.5 的 ChatGPT。 2024 年 3 月,AI 发展持续升温,潞晨科技发布 OpenSora,Suno 发布 V3 版本爆火。 2024 年 4 月,英伟达发布硬件股价飙升。 2024 年 5 月,苹果发布 AI 芯片,张吕敏发布 IC light,AI 竞争白热化,伊莉雅离开 OpenAI 并成立新公司,估值超五亿美金。 2024 年 7 月,快手开源 LivePortrait 模型,表情迁移。 2024 年 8 月,StabilityAI 老板成立新公司发布 flux 大模型。 2024 年 9 月,阿里云发布模型,海螺 AI 参战,Google 发布 GameGen 实时生成游戏,通义千问 2.5 系列全家桶开源,华为发布 cloud matrix 云计算基础设施,GPT 高级语音模式上线,Meta 发布 AI 眼镜 Orion,AI 代码编辑器 cursor 爆火。 2024 年 10 月,Pika 发布 1.5 模型,诺奖颁发给 AI 奠基人,特斯拉发布机器人,Adobe 发布 Illustrator+Al 生成矢量图,智谱 AI 发布 autoGLM,腾讯混元开源 3D 模型。 在更早的时间: 1943 年,心理学家麦卡洛克和数学家皮特斯提出了机器的神经元模型,为后续的神经网络奠定了基础。 1950 年,伟大的计算机先驱图灵最早提出了图灵测试,做为判别机器是否具备智能的标准。 1956 年,在美国一个小镇的达特茅斯学院中,马文·明斯基和约翰·麦凯西拉着香农大佬站台背书,共同发起召开了著名的达特茅斯会议,在这次会议上,人工智能 Artifical Intelligence 一词被正式提出,并做为一门学科被确立下来。 2024 年的其他进展: 2 月,OpenAI 发布视频生成模型 Sora,首次实现高质量文本生成视频,开创 AI 视频生成新纪元。 3 月,Suno 发布 V3 版本,AI 音乐生成方向进入生产力可用状态。 4 月,Meta 发布高性能开源大模型 Llama3,降低了 AI 技术的准入门槛。 5 月,GPT4 发布,RayBan 与 Meta 合作的智能眼镜销量突破百万,字节上线即梦 AI。 6 月,快手发布可灵。 9 月,OpenAI 发布 o1 预览版。 10 月,Rosetta 和 AlphaFold 算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖,约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖,Anthropic 大模型 Claude 3.5 Sonnet 获得“computer use”功能。 12 月,OpenAI 发布 o3 系列模型。
2025-03-17
AI 搜索中用户查询理解
Perplexity AI 是一家专注于开发新一代 AI 搜索引擎的公司,由前 OpenAI 研究科学家 Aravind Srinivas 与前 Meta 研究科学家 Denis Yarats(Perplexity CTO)等合伙人于 2022 年 8 月共同创办。 其优势包括: 1. 理解能力强,能够深入理解查询的语义,而非仅仅匹配关键词,从而提供更准确和相关的结果。 2. 生成式回答,可生成通顺的自然语言回答,而非简单返回网页链接和片段,使结果更易于理解和使用。 3. 个性化和上下文感知,能根据用户的历史查询和偏好个性化结果,提供更贴合需求的答复。 劣势有: 1. 训练成本高,训练大型 LLM 模型需要大量计算资源和高质量训练数据。 2. 可解释性差,LLM 的工作原理较为黑箱,难以解释为何给出某个结果,缺乏透明度。 3. 潜在的偏差和不当内容,由于训练数据的局限性,LLM 可能产生偏见或不当内容。 独特之处在于将 LLM 技术应用于搜索引擎领域,试图颠覆传统基于关键词匹配的搜索范式,为用户提供更自然和智能的搜索体验,还融合了个性化和上下文感知等功能,努力成为新一代的“智能助手”。 总的来说,Perplexity 凭借 LLM 的强大语义理解能力,为搜索引擎带来了新的可能性,但也面临着一些技术和伦理挑战。 在搜索领域,推荐算法存在精确推荐提高用户黏性和平台广告收益的优点,但也有导致信息茧房和信息过载等负面影响。搜索引擎采用以用户查询为导向的“拉取式”信息获取模式,极大改变了人们获取信息的方式,搜索广告因用户搜索往往携带着明确意图,点击转化率通常高于泛泛的推荐广告,在数字广告市场中长期占据重要份额。 AI 智能体中的检索增强生成(RAG)是当今大多数现代人工智能应用程序的标准架构。以 Sana 的企业搜索用例为例,其过程始于应用程序加载和转换无结构文件,将其转换为 LLM 可查询格式,分块成更小的文本块并作为向量嵌入存储在数据库中。当用户提出问题时,系统检索语义上最相关的上下文块,折叠到“元提示”中与检索到的信息一起馈送给 LLM,LLM 合成答复返回给用户。在生产中,AI 应用程序具有更复杂的流程,包含多个检索步骤和提示链,将结果综合生成最终输出。例如 Eve 法律研究的共同驾驭员,会将查询分解为独立提示链,运行每个提示链生成中间输出,并综合编写最终备忘录。
2025-03-17
目前支持上下文长度最长的是什么AI
目前支持上下文长度较长的 AI 有以下几种: Kimi:是国内最早支持 20 万字无损上下文的 AI,现在已提升到 200 万字,对长文理解表现出色,适合处理长文本或大量信息的任务,但在文字生成和语义理解、文字生成质量方面可能不如国内其他产品,且不支持用户自定义智能体。 http://X.AI 发布的 Grok1.5:支持 128k 上下文长度,性能翻倍,在 MATH、HumanEval、GSM8K、MMLU 测试中表现出色。 AI21 发布的 Jamba:创新的 SSMTransformer 架构,支持 256K 上下文长度,结合 Joint Attention 和 Mamba 技术,提升长上下文吞吐量。
2025-03-17