Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有哪些与RAG技术相关的案例?

Answer

根据搜索结果,有以下几个与RAG技术相关的案例:

  1. 基于RAG的问答系统 RAG技术可以用于构建问答系统,通过从外部知识库中动态检索相关信息,帮助语言模型生成更准确、可靠的答复。这种方式可以提高问答系统的性能。

  2. 基于RAG的内容生成 RAG技术也可以应用于文本生成任务,如新闻撰写、博客创作等。通过检索相关背景知识,语言模型可以生成更加丰富、贴近实际的内容。

  3. 基于RAG的多模态应用 结合CLIP等多模态模型,RAG技术可以处理图像、视频等多种类型的数据,扩展到更广泛的应用场景,如视觉问答、图像描述生成等。

  4. 基于RAG的智能助手 将RAG技术集成到智能助手系统中,可以增强其回答问题、完成任务的能力。助手可以动态检索相关信息,提供更加准确、可靠的响应。

  5. 基于RAG的知识管理系统 RAG技术可以应用于知识管理系统,通过检索相关知识片段,帮助用户快速获取所需信息,提高工作效率。

总的来说,RAG技术为各种人工智能应用带来了新的可能性,可以显著提升系统的性能和用户体验。随着技术的不断发展,相信未来会有更多基于RAG的创新应用出现。

Content generated by AI large model, please carefully verify (powered by aily)

References

Others are asking
rag
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 通用语言模型通过微调可完成常见任务,而更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源来完成,如 Meta AI 引入的 RAG 方法。RAG 把信息检索组件和文本生成模型结合,可微调,内部知识修改高效,无需重新训练整个模型。它会接受输入并检索相关支撑文档,给出来源,与原始提示词组合后送给文本生成器得到输出,能适应事实变化,让语言模型获取最新信息并生成可靠输出。 大语言模型(LLM)存在一些缺点,如无法记住所有知识尤其是长尾知识、知识易过时且不好更新、输出难以解释和验证、易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有诸多优点,如数据库存储和更新稳定且无学习风险、数据更新敏捷且不影响原有知识、降低大模型输出出错可能、便于管控用户隐私数据、降低大模型训练成本。 在 RAG 系统开发中存在 12 个主要难题,并已有相应的解决策略。
2025-04-15
rag介绍
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在内容黑盒、不可控以及受幻觉等问题干扰的情况。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化数据、SQL 在内的结构化数据,以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-04-14
什么是RAG
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型存在一些缺点,如无法记住所有知识(尤其是长尾知识)、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型本身的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载:从多种不同来源加载文档。 2. 文本分割:把 Documents 切分为指定大小的块。 3. 存储:包括将切分好的文档块进行嵌入转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-04-14
RAG对话 摘要总结 功能实现
LangChain 和 RAG 的结合具有以下优势: 1. 灵活性:可根据需求和数据源选择不同组件和参数定制 RAG 应用,也能使用自定义组件(需遵循接口规范)。 2. 可扩展性:能利用 LangChain 的云服务部署和运行,无需担忧资源和性能限制,还可借助分布式计算功能加速应用,发挥多个节点并行处理能力。 3. 可视化:通过 LangSmith 可视化工作流程,查看各步骤输入输出及组件性能状态,用于调试和优化,发现并解决潜在问题和瓶颈。 其应用场景多样,包括: 1. 专业问答:构建医疗、法律、金融等专业领域的问答应用,从专业数据源检索信息辅助大模型回答问题,如从医学文献中检索疾病诊治方案回答医疗问题。 2. 文本摘要:构建新闻或论文摘要应用,从多个数据源检索相关文本帮助大模型生成综合摘要,如从多个新闻网站检索同一事件报道生成全面摘要。 3. 文本生成:构建诗歌、故事生成等应用,从不同数据源检索灵感协助大模型生成更有趣和创意的文本,如从诗歌、歌词或小说中检索相关文本生成作品。 此外,还介绍了本地部署资讯问答机器人的实现方式,即基于用户问题从向量数据库检索相关段落并按阈值过滤,让模型参考上下文信息回答,还创建了网页 UI 并进行评测,对不同模型的测试表现进行了对比,得出 GPT4 表现最佳等结论,并总结了使用 Langchain 和 Ollama 技术栈在本地部署资讯问答机器人及相关要点,即上下文数据质量和大模型性能决定 RAG 系统性能上限。
2025-04-11
飞书智能伙伴创建平台 RAG实现
飞书智能伙伴创建平台(英文名:Aily)是飞书团队旗下的企业级 AI 应用开发平台,能提供简单、安全且高效的环境,帮助企业构建和发布 AI 应用,推动业务创新和效率提升,为企业探索大语言模型应用新篇章、迎接智能化未来提供理想选择。 在飞书智能伙伴创建平台上实现 RAG 相关应用有多种方式: 1. 利用飞书的知识库智能问答技术,引入 RAG 技术,通过机器人帮助用户快速检索内容。 2. 可以使用飞书的智能伙伴功能搭建 FAQ 机器人,了解智能助理的原理和使用方法。 3. 本地部署资讯问答机器人,如通过 Langchain + Ollama + RSSHub 实现 RAG,包括导入依赖库、从订阅源获取内容、为文档内容生成向量等步骤。例如使用 feedparse 解析 RSS 订阅源,ollama 跑大模型(使用前需确保服务开启并下载好模型),使用文本向量模型 bgem3(如从 https://huggingface.co/BAAI/bgem3 下载,假设放置在某个路径 /path/to/bgem3,通过函数利用 FAISS 创建高效向量存储)。 使用飞书智能伙伴创建平台的方式: 1. 在 WaytoAGI 飞书知识库首页找到加入飞书群的链接(二维码会定期更新,需在找到最新二维码),点击加入,直接@机器人。 2. 在 WaytoAGI.com 的网站首页,直接输入问题即可得到回答。 创建问答机器人的原因: 1. 知识库内容庞大,新用户难以快速找到所需内容。 2. 传统搜索基于关键词及相关性,存在局限性。 3. 需要用更先进的 RAG 技术解决问题。 4. 在群中提供快速检索信息的方式,使用更便捷。 2024 年 2 月 22 日的会议介绍了 WaytoAGI 社区的成立愿景和目标,以及其在飞书平台上的知识库和社区情况,讨论了相关技术和应用场景,并介绍了企业级 agent 方面的实践。
2025-04-08
RAG是什么
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在内容黑盒、不可控及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景如知识问答系统,用户提出问题,RAG 模型从大规模的文档集合中检索相关的文档,然后生成回答。 一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块。 3. 存储:包括将切分好的文档块进行嵌入转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-04-03
请找到 AI 用于知识管理的案例
以下是一些 AI 用于知识管理的案例: 1. 在法学领域,当模型培训针对组织内特定的基于文本的知识体系进行微调时,生成式人工智能可以有效地管理组织的知识。例如摩根士丹利正在与 OpenAI 的 GPT3 合作,微调财富管理内容的培训,以便财务顾问既可以搜索公司内部的现有知识,又可以轻松地为客户创建量身定制的内容。 2. 在构建高效的知识管理体系方面,可以通过一系列创新的 AI 应用来实现。比如,AI 可以通过分析工作模式和内容类型,自动生成提示词,帮助将信息和知识分类到 PARA(项目、领域、资源、档案)的相应部分,还能帮设计笔记标签系统。此外,知识助手 Bot 可以根据学习进度和兴趣点,定期推送相关的文章、论文和资源,实现渐进式积累领域知识。 3. 在代码库相关的知识管理中,Cursor 有针对大代码库精准找到相关函数,并利用其信息帮助撰写代码的功能。对于非开发性质的问答,它是一个天然的 RAG 引擎。在问答窗口使用特定操作时,它会先在当前文件夹下搜索并显示相关文档和相关度,最后用这些信息构建提示词完成生成。而且,它能与私有文档自然结合进行问答,并将新生成的见解沉淀成新文档,形成知识闭环,提高知识检索和管理的效率。
2025-04-14
飞书+AI的应用案例
以下是飞书+AI的应用案例: 在企业运营方面,包括日常办公文档材料撰写整理、营销对话机器人、市场分析、销售策略咨询,以及法律文书起草、案例分析、法律条文梳理和人力资源简历筛选、预招聘、员工培训等。 在教育领域,协助评估学生学习情况,为职业规划提供建议,针对学生情况以及兴趣定制化学习内容,论文初稿搭建及论文审核,帮助低收入国家/家庭通过 GPT 获得平等的教育资源。 在游戏/媒体行业,有定制化游戏、动态生成 NPC 互动、自定义剧情、开放式结局,出海文案内容生成、语言翻译及辅助广告投放和运营,数字虚拟人直播,游戏平台代码重构,AI 自动生成副本。 在零售/电商领域,包括舆情、投诉、突发事件监测及分析,品牌营销内容撰写及投放,自动化库存管理,自动生成或完成 SKU 类别选择、数量和价格分配,以及客户购物趋势分析及洞察。 在金融/保险行业,有个人金融理财顾问、贷款信息摘要及初始批复、识别并检测欺诈活动风险、客服中心分析及内容洞。 线下活动方面: 活动宣传:用飞书文档制作活动宣传页面,用 AI 快速制作海报,用 GPTs 写人员分配和主持人台词,活动从策划到开始仅用 2 天时间。 活动报名:使用飞书的多维表格完成报名表及数据统计。 活动过程:大家在线协同,一起编辑文档,演示时共同展示一个文档。 活动记录:有相关的记录页面。 办活动的初衷是宣扬 AI 不只是降本增效的工具,还有很多乐趣等待挖掘,例如大理户外圆桌讨论、清迈的 AI 逛古城、杭州的 AI 玄学小组。
2025-04-13
有AI在各个行业的案例吗
以下是 AI 在各个行业的一些应用案例: 汽车行业: 1. 自动驾驶技术:利用 AI 进行图像识别、传感器数据分析和决策制定,如特斯拉、Waymo 和 Cruise 等公司在开发和测试自动驾驶汽车。 2. 车辆安全系统:AI 用于增强自动紧急制动、车道保持辅助和盲点检测等系统,通过分析数据预防事故。 3. 个性化用户体验:根据驾驶员偏好和习惯调整车辆设置,如座椅位置、音乐选择和导航系统。 4. 预测性维护:分析车辆实时数据预测潜在故障和维护需求,减少停机时间和维修成本。 5. 生产自动化:在汽车制造中用于自动化生产线,提高生产效率和质量控制。 6. 销售和市场分析:汽车公司用 AI 分析市场趋势、消费者行为和销售数据,制定营销策略和优化产品定价。 7. 电动化和能源管理:在电动汽车的电池管理和充电策略中发挥作用,提高能源效率和延长电池寿命。 8. 共享出行服务:如 Uber 和 Lyft 等,使用 AI 优化路线规划、调度车辆和定价策略,提高服务效率和用户满意度。 9. 语音助手和车载娱乐:AI 驱动的语音助手允许驾驶员通过语音控制车辆功能、获取信息和娱乐内容。 10. 车辆远程监控和诊断:AI 系统远程监控车辆状态,提供实时诊断和支持。 其他行业: 1. 企业运营:包括日常办公文档材料撰写整理、营销对话机器人、市场分析和销售策略咨询等。 2. 教育:协助评估学生学习情况,为职业规划提供建议,定制化学习内容,论文初稿搭建及审核,帮助低收入国家/家庭获得平等教育资源。 3. 游戏/媒体:定制化游戏、动态生成 NPC 互动、自定义剧情、开放式结局,出海文案生成、语言翻译及辅助广告投放和运营,数字虚拟人直播,游戏平台代码重构,AI 自动生成副本。 4. 零售/电商:舆情、投诉、突发事件监测及分析,品牌营销内容撰写及投放,自动化库存管理,自动生成或完成 SKU 类别选择、数量和价格分配,客户购物趋势分析及洞察。 5. 金融/保险:个人金融理财顾问,贷款信息摘要及初始批复,识别并检测欺诈活动风险,客服中心分析及内容洞察。
2025-04-12
用AIGC生成的单镜头循环视频案例
以下是一些用 AIGC 生成的单镜头循环视频的案例: OpenAI 的 Sora 视频生成模型:能够生成长达 1 分钟的视频,在时长、稳定性、一致性和运动幅度上表现出色。它可以根据提供的图像和提示生成视频,还能在时间上向前或向后扩展视频以产生无缝的无限循环。此外,能零镜头地改变输入视频的风格和环境,在两个输入视频之间逐渐进行插值创建无缝过渡,也能够生成图像。 Luma 视频生成工具 Dream machine 增加了尾帧生成视频的功能和循环视频生成功能。 智谱 AI 发布的 DiT 视频生成模型“智谱清影”,支持文生和图生视频,目前免费使用,加速生成需要付费。 此外,还有一些其他相关项目: Google 的 Genie 采用 STtransformer 架构,包括潜在动作模型、视频分词器与动力学模型,拥有 110 亿参数。 DeepMind 的 WaveNet 是一种生成模型,可以生成非常逼真的人类语音。 OpenAI 的 MuseNet 是一种生成音乐的 AI 模型,可以在多种风格和乐器之间进行组合。 ElevenLabs 的 Multilingual v2 是一种语音生成模型,支持 28 种语言的语音合成服务。 Stability 发布了 Stable Video 4D 模型,可以从视频中生成更多角度的新视频。 Pixverse 更新了 V2 版本 DiT 视频模型,支持 8 秒时长视频生成、细节和动作增强、支持最多 5 段内容一次性生成,无缝衔接。
2025-04-10
推荐知识库中用ai做学术的案例
以下是知识库中与用 AI 做学术相关的案例和信息: B 站 up 主的课程:每节 15 分钟,免费且内容好,涵盖 AI 艺术字等。 炼丹操作:16 号晚上中老师会带大家动手炼丹,炼丹需提前准备一些图,会让老师提前发布内容让大家准备。 高效 PB 及相关案例:高效 PB 投入力度大,有厉害的伙伴,案例在社区,有多种 battle 方式,会有菩萨老师专门介绍。 初学者入门推荐:推荐看 open AI 的官方 Cookbook,小琪姐做了中文精读翻译,也可查看 cloud 的相关内容。 经典必读文章:如介绍 GPT 运作原理、Transformer 模型、扩散模型等的文章,还包括软件 2.0 时代相关内容。 历史脉络类资料:整理了 open AI 的发展时间线和万字长文回顾等。 6 月 29 日更新:翻译完 a16z 推荐的 AI 典藏文章其中两篇:。
2025-04-01
有AI+游戏的最新案例吗
以下是一些 AI+游戏的最新案例: 由 5 人独立游戏工作室 Proxima 开发的 AI 冒险独立游戏 Suck Up!上线三周油管播放超千万。这是一款沙盒社交冒险游戏,团队尝试加入了名为 Nemo 的 AI NPC,基于 LLM 驱动,Nemo 能在接收到用户命令或其他线索后,调动感知、记忆,并转化为可执行的游戏行动。去年上半年,该工作室因获得 160 万美元投资引起轰动,上线后也受到资本关注。玩家对其玩法和模式提出了很多创意想法,如设计成就系统、上线多人模式等。 开发者正在使用 AI 生成音乐来填充游戏过程与游戏 UI 中需要使用到的各类音效、不同游戏场景中用以渲染氛围的各种音乐。像 MusicLM 等模型已经支持生成多音轨的作品。 2023 年 Genfun.ai 和 Meshy 联合制作的游戏《Soul Chronicle》,是首款实时 3D+AIGC+UGC 的 MMO 手游,最大突破是制作出了与游戏完美融合的 3D AIGC 技术,可在游戏中实时生成角色皮肤。 2024 年 Bitmagic 释出的《Roleverse》平台,可在平台内使用提示在游戏内定制角色,对角色进行缩放、挤压和拉伸,也能轻松对游戏世界进行编辑。 AI 技术在游戏行业的应用由来已久,且不断发展。从最初的简单内容和随机元素生成,到辅助游戏设计,再到如今能够生成更复杂的游戏内容,如动态场景、智能 NPC 行为等。AI 对游戏创作的影响包括美术与风格、剧情与叙事、关卡与玩法、音效与音乐、测试与优化等方面。同时,AI 能基于玩家游戏行为评估玩家技能水平和游戏风格,动态调整游戏难度等,提升玩家体验。此外,游戏还能成为 AI 模型能力的最佳试验场。
2025-04-01
金融业相关AI应用场景或AI技术介绍
在金融业中,AI 有以下应用场景和技术: 1. 风控和反欺诈:用于识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:评估借款人的信用风险,帮助金融机构做出更好的贷款决策。 3. 投资分析:分析市场数据,辅助投资者做出更明智的投资决策。 4. 客户服务:提供 24/7 的客户服务,回答客户常见问题。 例如,Hebbia 获得近 1 亿美元 B 轮融资,其 AI 技术能够一次处理多达数百万份文档,在短时间内浏览数十亿份包括 PDF、PowerPoint、电子表格和转录内容等,并返回具体答案,主要面向金融服务公司,如对冲基金和投资银行,同时也适用于律师事务所等其他专业领域。
2025-04-15
AI相关的最前沿技术网站
以下是一些 AI 相关的前沿技术网站: 1. OpenAI:提供了诸如 GPT 等先进的语言模型和相关技术。 2. Google AI:涵盖了多种 AI 领域的研究成果和应用。 3. Microsoft Research:在 AI 方面有众多创新研究和技术展示。 此外,WaytoAGI 也是一个致力于人工智能学习的中文知识库和社区平台,汇集了上千个人工智能网站和工具,提供最新的 AI 工具、应用、智能体和行业资讯。在没有任何推广的情况下,WaytoAGI 两年时间已有超过 300 万用户和超千万次的访问量,其目标是让每个人的学习过程少走弯路,让更多的人因 AI 而强大。目前合作过的公司/产品包括阿里云、通义千问、淘宝、智谱、支付宝等。
2025-04-15
想要学习AIGC,推荐下相关的行业大V
以下是一些 AIGC 相关的行业大 V 推荐: :归臧整理的 AIGC 周刊,关注 AI 的朋友每周必读。 :连续创业者,Prompt 版块共建者。 。 :“互联网的那点事”,微博互联网观察家。 ZHO:建筑师|ComfyUI 设计师。 :AIGC 社区野神殿创始人。 。 赛博禅心:最新最快的 AI 资讯,作者大聪明。 张蔚:华兴资本经理,架构和投资版块共建者。 :热爱分享,永远好奇,AI 高质量社群组织者。 汗青:产品经理|AI 设计师。 此外,还有北京分队中的一些相关人士: Lucky:在信息技术领域公司任职 7 年+,目前担任江西 5 家公司企业级 information security 管理,3 个地区千万级企业级 confidentiality Project 管理,5 个地区上海、合肥、苏州、南京、深圳 information security 体系建设管理顾问,目前一只 20 人+AI 项目团队,终身学习践行者。能提供 AI 相关技术的所有项目,包括 AI 图片视频、2D 动画视频、AI prompt、AI 提示词企业培训、AI 大模型、AI agent、数字人等产品。坐标南昌。 粉仔:目前抖音上的 AIGC 相关博主,粉丝画像特别受到中老年妇女们的喜爱,俨然成了她们的偶像。熟悉目前主流的 AIGC 工具。坐标北京。 sam:做技术行业,热爱互联网和 AI 技术。 海地老师:AI 影视共创社北京分社的负责人。逍遥游的制片人和编剧。 Sunkim:自由体验设计师,前保利威设计负责人,先后在新浪、百度、脉脉做体验设计工作。对 AIGC 感兴趣,目前在做 AI 口语教育类产品(上线了),和 web3 相关设计,以及跟大伙学习 AI 视频制作。 胡凯翔:国企工作 10 余年,后沉迷 AI 提示词研究编写,小七姐第一期课程毕业生,微软、讯飞认证提示词工程师,曾担任破局俱乐部企业培训和 AI+教育行动营教练,共创有约 10 万字 AI+教育手册,使用 AI 辅助阅读和开智,标书、论文的写作,玄学取名和头像设计,目前沉迷个人知识体系的搭建和离谱村系列视频的共创。 陈皓/Robin:目前在家科技公司从事产品工作,主要和 Ai,3D 视觉内容+数字人相关;有过知识付费和海外教育的创业经历。
2025-04-14
AI办公相关的课程、软件教学
以下是为您提供的 AI 办公相关的课程和软件教学资源: 1. 90 分钟从 0 开始打造您的第一个 Coze 应用: 课程包含从零开始的应用界面教学,涉及过年相关应用。 介绍了当前承接的业务,包括辅导、培训、定制及企业 AI 落地等。 提到 11 月底应用推出背后的情况,包括社区对 AI 应用的呼声和功能需求挖掘。 2. AI 视频的软件教程: 涵盖了众多工具,如剪映、Dreamina、Pika、StableVideo、Pixverse、morphstudio、Runway Gen3、Adobe Firefly 以及清影等。 3. 张翼然:用 AI 为教师减负(3H).pdf: 包括教师的 AI 减负指南,生成式人工智能在教学中的应用。 介绍了教师使用 AI 的小技巧,如提示词设计公式之——RTFC。 涉及使用 AI 生成图片的方法与注意事项,AI 自动生成 PPT 功能。 展示了通过小程序实现文字与声音、视频的转化,自定义数字人形象进行教学。 展示了便捷的课堂教学工具与 Ai 课件制作,探讨了 A 生成视频与手工制作视频的教学效果差异。 强调了教育资源与版权问题,教师能力重塑,极简思维的教育应用,生成式 AI 教学策略。 包括 AI 技术助力教育管理和辅助教学实践,如班级与学校管理中的行政职日流程简化、听课记录自动化等。
2025-04-12
我想要自学AI相关的知识,但不知道从哪里开始,需要一个行动方案,我未来想做一个ai产品经理
以下是为您提供的自学 AI 知识并成为 AI 产品经理的行动方案: 1. 应用方面: 深入了解 Prompt,选择适合自己的 AI 对话、绘画和语音产品,每天使用并用于解决实际问题或提升效率。 2. 分析方面: 大量阅读各类文章、视频以及行业报告,理解各知识之间的关系。 3. 掌握相关技能: 了解目前 AI 提示词工程师岗位的招聘技能要求,例如: 本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验。 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践。 对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成。 具有一定的编程基础,熟练使用 Python、Git 等工具。 4. 了解产品经理工作: 调研市场、思考需求、转化需求、思考解决方案、设计解决方案、分配任务、进行测试、实现解决方案。 像善用提示词工程的人一样,将需求抽象再具象成产品。 总之,要成为 AI 产品经理,需要不断学习和实践,适应行业的发展和变化。
2025-04-12
用deepseek写一份课题申报书,请提供相关指令
以下是一些用 DeepSeek 写课题申报书的相关指令和要点: 1. 思维链引导: 分步标记法:请逐步思考,如问题分析→方案设计→风险评估。 苏格拉底式追问:在得出最终结论前,先列举三个可能存在的认知偏差。 2. 知识库调用: 领域限定指令:基于特定的标准或文献,如 2023 版中国药典,说明相关内容。 文献引用模式:以特定的论文为参考,解释相关突破。 3. 多模态输出: 模糊指令优化:对于宽泛需求添加维度约束,将主观表述量化标准。 迭代优化法:包括首轮生成获取基础内容、特征强化、风格调整和最终校验等步骤。 4. 在课题申报书的内容方面: 关于提示词编写及 AI 应用的探讨:介绍用于不确定世界中理性决策的提示词编写方法,包括收集信息、重新定义问题、运用 Mini Max Regret 方法等步骤。注意示例的价值,自用与他用提示词在稳定性、经济性、可维护性等方面的区别。 AI 应用于软件开发:未来借助 AI 模型的 API 和编写提示词,可快速实现软件开发。 关于写作与模型:用 DeepSeek 写小说要能引起共鸣和考虑人类共性,文字要感动人。注意模型特点与推荐,如 Cloud 3.5 模型多样性差,DeepSeek R1 有缺陷但也不错。 以上内容仅供参考,您可以根据具体的课题需求进一步调整和完善。
2025-04-11
能画技术路线图的prompt
以下是关于能画技术路线图的 prompt 相关内容: Midjourney Bot 的 Prompt 类型: 基本 Prompts:可以只是一个单词、短语或表情符号。 高级 Prompts:包括一个或多个图片 URL、多个文本短语以及一个或多个参数。其中,图片 URL 始终位于 prompt 的最前面,以影响完成结果的风格和内容。提示文字是对希望生成的图像的文本描述,精心编写的提示有助于生成惊艳的图像。参数可以改变生成图片的方式,需放在提示语的末尾。 ComfyUI Flux 与 runway 制作绘画视频: 生成图片:提示词告诉 flux 生成一张技术草图,如 CAD。 绘制的视频:在 runway 里面,使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧。 草图上色:使用 flux 的 controlNet,depth 固定,目前 Union 版本不建议权重调太高,结束时间也需注意。 Prompt engineering(提示工程): 开发测试用例:定义任务和成功标准后,创建多样化的测试用例,包括典型示例和边界情况,以确保提示具有鲁棒性。 设计初步提示:制定初步提示,概述任务定义、良好响应的特征及必要上下文,添加规范输入和输出的示例供参考。 根据测试用例测试提示:使用初步提示将测试用例输入,评估模型响应与预期输出和成功标准的一致性,使用一致的评分标准进行系统性的性能评估。
2025-04-19
stable diffusion底层技术
Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其原理包括以下几个步骤: 1. 使用新颖的文本编码器(OpenCLIP),由 LAION 开发并得到 Stability AI 的支持,将文本输入转换为向量表示,以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型,将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布,根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高分辨率,从低分辨率图像中恢复细节信息并增强图像质量。 此外,ComfyUI 的底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构,能处理多尺度特征表示。在 ComfyUI 中,去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制,在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点: 1. 可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像,且保持良好的视觉效果和真实感。 它还可以进行深度引导和结构保留的图像转换和合成,例如根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。
2025-04-15
学习AI怎么在工作中使用,提高工作效率,有必要从技术原理开始学习吗
学习 AI 在工作中使用以提高工作效率,不一定需要从技术原理开始学习。以下是一些相关的案例和建议: 案例一:GPT4VAct 是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。其应用场景在于以后互联网项目产品的原型设计自动化生成,能使生成效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。它基于 AI 学习模型,通过视觉理解技术识别网页元素,能执行点击和输入字符操作等,但目前存在一些功能尚未支持,如处理视觉信息程度有限、不支持输入特殊键码等。 案例二:对于教师来说,有专门的 AI 减负指南。例如“AI 基础工作坊用 AI 刷新你的工作流”,从理解以 GPT 为代表的 AI 工作原理开始,了解其优势短板,学习写好提示词以获得高质量内容,并基于一线教师工作场景分享优秀提示词与 AI 工具,帮助解决日常工作中的常见问题,提高工作效率。 建议:您可以根据自身工作的具体需求和特点,有针对性地选择学习方向。如果您只是想快速应用 AI 提高工作效率,可以先从了解常见的 AI 工具和应用场景入手,掌握基本的操作和提示词编写技巧。但如果您希望更深入地理解和优化 AI 在工作中的应用,了解技术原理会有一定帮助。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14