Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

增强检索生成

Answer

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。

通用语言模型通过微调可完成常见任务,而对于更复杂和知识密集型任务,基于语言模型构建访问外部知识源的系统能使结果更符合事实、更可靠,缓解“幻觉”问题。Meta AI 的研究人员引入了 RAG 方法来完成这类任务,它把信息检索组件和文本生成模型结合在一起,可微调且内部知识修改高效,无需重新训练整个模型。

RAG 工作流程如下:

  1. 检索:利用用户查询从外部知识源获取相关信息,将查询转化为向量与向量数据库比对,找到最匹配的前 k 个数据作为补充背景信息。
  2. 数据库索引:包括离线获取数据、清理提取原始数据、转换文件格式、分块、嵌入和创建索引等步骤。
  3. 增强:将用户查询和检索到的额外信息嵌入预设提示模板。
  4. 生成:将问题与相关文档合并为新提示信息,由大语言模型回答问题,可选择依赖知识库或仅基于给定信息,也可融入历史对话信息支持多轮对话。

LLM 需要 RAG 的原因在于 LLM 存在一些缺点:

  1. 无法记住所有知识,尤其是长尾知识,接受能力不高。
  2. 知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。
  3. 输出难以解释和验证,易受幻觉等问题干扰。
  4. 容易泄露隐私训练数据。
  5. 规模大,训练和运行成本高。

RAG 具有以下优点:

  1. 数据库对数据的存储和更新稳定,无学习风险。
  2. 数据库数据更新敏捷,可解释且不影响原有知识。
  3. 数据库内容明确结构化,降低大模型输出出错可能。
  4. 便于管控用户隐私数据,可控、稳定、准确。
  5. 降低大模型训练成本,新知识存储在数据库无需频繁更新模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

检索增强生成 (RAG)

通用语言模型通过微调就可以完成几类常见任务,比如分析情绪和识别命名实体。这些任务不需要额外的背景知识就可以完成。要完成更复杂和知识密集型的任务,可以基于语言模型构建一个系统,访问外部知识源来做到。这样的实现与事实更加一性,生成的答案更可靠,还有助于缓解“幻觉”问题。Meta AI的研究人员引入了一种叫做[检索增强生成(Retrieval Augmented Generation,RAG)(opens in a new tab)](https://ai.facebook.com/blog/retrieval-augmented-generation-streamlining-the-creation-of-intelligent-natural-language-processing-models/)的方法来完成这类知识密集型的任务。RAG把一个信息检索组件和文本生成模型结合在一起。RAG可以微调,其内部知识的修改方式很高效,不需要对整个模型进行重新训练。RAG会接受输入并检索出一组相关/支撑的文档,并给出文档的来源(例如维基百科)。这些文档作为上下文和输入的原始提示词组合,送给文本生成器得到最终的输出。这样RAG更加适应事实会随时间变化的情况。这非常有用,因为LLM的参数化知识是静态的。RAG让语言模型不用重新训练就能够获取最新的信息,基于检索生成产生可靠的输出。Lewis等人(2021)提出一个通用的RAG微调方法。这种方法使用预训练的seq2seq作为参数记忆,用维基百科的密集向量索引作为非参数记忆(使通过神经网络预训练的检索器访问)。这种方法工作原理概况如下:图片援引自:[Lewis et el.(2021)(opens in a new tab)](https://arxiv.org/pdf/2005.11401.pdf)

问:RAG 是什么?

1.检索:此过程涉及利用用户的查询内容,从外部知识源获取相关信息。具体来说,就是将用户的查询通过嵌入模型转化为向量,以便与向量数据库中的其他上下文信息进行比对。通过这种相似性搜索,可以找到向量数据库中最匹配的前k个数据,作为当前问题的补充背景信息。2.数据库索引:指的是在离线状态下,从数据来源处获取数据并建立索引的过程。具体而言,构建数据索引包括以下步骤:3.数据索引:包括清理和提取原始数据,将PDF、HTML、Word、Markdown等不同格式的文件转换成纯文本。4.分块:将加载的文本分割成更小的片段。由于语言模型处理上下文的能力有限,因此需要将文本划分为尽可能小的块。5.嵌入和创建索引:这一阶段涉及通过语言模型将文本编码为向量的过程。所产生的向量将在后续的检索过程中用来计算其与问题向量之间的相似度。由于需要对大量文本进行编码,并在用户提问时实时编码问题,因此嵌入模型要求具有高速的推理能力,同时模型的参数规模不宜过大。完成嵌入之后,下一步是创建索引,将原始语料块和嵌入以键值对形式存储,以便于未来进行快速且频繁的搜索。6.增强:接着,将用户的查询和检索到的额外信息一起嵌入到一个预设的提示模板中。7.生成:最后,将给定的问题与相关文档合并为一个新的提示信息。随后,大语言模型(LLM)被赋予根据提供的信息来回答问题的任务。根据不同任务的需求,可以选择让模型依赖自身的知识库或仅基于给定信息来回答问题。如果存在历史对话信息,也可以将其融入提示信息中,以支持多轮对话。文章源链接:https://juejin.cn/post/7341669201008869413(作者:lyc0114)

问:RAG 是什么?

RAG(Retrieval-Augmented Generation),即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,它旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。简单来说,就是通过检索的模式,为大语言模型的生成提供帮助,从而使大模型生成的答案更符合要求。[heading2]为什么LLM需要RAG?[content]众所周知,大模型已经在很多领域和问题下都取得了很好的效果,那为什么还需要RAG进行检索优化呢?[heading3]LLM的缺点[content]1.LLM无法记住所有知识,尤其是长尾的。受限于训练数据、现有的学习方式,对长尾知识的接受能力并不是很高;长尾数据是指数据集中某些类别数量较少,而其他类别样本数较多的不平衡“长尾”状态。例如在自然语言处理中,一些少见的词汇出现频率很低,而常见的词汇出现频率很高。2.LLM的知识容易过时,而且不好更新。只是通过微调,模型的接受能力其实并不高而且很慢,甚至有丢失原有知识的风险;3.LLM的输出难以解释和验证。一方面最终的输出的内容黑盒且不可控,另一方面最终的结果输出可能会受到幻觉之类的问题的干扰;4.LLM容易泄露隐私训练数据。用用户个人信息训练模型,会让模型可以通过诱导泄露用户的隐私;5.LLM的规模大,训练和运行的成本都很大。[heading3]RAG的优点[content]1.数据库对数据的存储和更新是稳定的,不像模型会存在学不会的风险。2.数据库的数据更新可以做得很敏捷,增删改查可解释,而且对原有的知识不会有影响。3.数据库的内容是明确、结构化的,加上模型本身的理解能力,一般而言数据库中的内容以及检索算法不出错,大模型的输出出错的可能就大大降低。4.知识库中存储用户数据,为用户隐私数据的管控带来很大的便利,而且可控、稳定、准确。5.数据库维护起来,可以降低大模型的训练成本,毕竟新知识存储在数据库即可,不用频繁更新模型,尤其是不用因为知识的更新而训练模型。

Others are asking
联网检索的ai
以下是关于联网检索的 AI 的相关信息: 存在能联网检索的 AI,它们通过连接互联网,实时搜索、筛选并整合所需数据,为用户提供更精准和个性化的信息。 例如 ChatGPT Plus 用户现在可以开启 web browsing 功能实现联网。 Perplexity 结合了 ChatGPT 式的问答和普通搜索引擎的功能,允许用户指定希望聊天机器人在制定响应时搜索的源类型。 Bing Copilot 作为 AI 助手,旨在简化在线查询和浏览活动。 还有如 You.com 和 Neeva AI 等搜索引擎,提供基于人工智能的定制搜索体验,并保持用户数据的私密性。 常见的 AI 助手采用通过联网搜索获取实时信息。当用户开启联网搜索时,助手先将用户的请求发送至搜索引擎,再将返回内容与用户输入一起提供给大模型,最终生成回答。搜索引擎在此作为实时信息源,为大语言模型提供额外的上下文。 如果希望 AI 能提供行业内部信息、或者研发的自有系统内的信息,AI 联网搜索的效果就很不好,甚至无法实现。用户可以自行搭建 AI 代理,将自有系统的数据通过 API 的形式接入 AI 助手,为大语言模型补充提供丰富的上下文信息。 MCP 协议解决了 AI 大模型与数据源集成碎片化的问题,提供统一标准,让开发者无需为每个数据源和 AI 助手单独开发连接器。通过 MCP,数据源和 AI 工具可建立安全双向连接,使 AI 在不同工具和数据集间流畅协作,实现更可持续的架构。 在完成意图识别,确认需要联网检索之后,可以对用户的 query 进行改写(Rewrite)。Query Rewrite 的目的,是为了得到更高的检索召回率。Query Rewrite 可以通过设置提示词请求大模型完成,主要包括三个维度的改写: 让提问有更精准/更专业的表达。比如用户搜索“ThinkAny”,改写后的 query 可以是“ThinkAny 是什么?”,再把问题翻译成英文“ What is ThinkAny ”,同一个问题,双语分别检索一次,得到更多的参考信息。 补全上下文,做指代消解。比如用户搜索“ThinkAny 是什么?”,得到第一次回复后继续追问“它有什么特点?”,用历史对话内容作为上下文,把第二次 query 改写成“ThinkAny 有什么特点?”,指代消解后再去检索,会有更高的召回率。 名词提取。比如用户搜索“ThinkAny 和 Perplexity 有什么区别?”,可以把“ThinkAny”和“Perplexity”两个名词提取出来,分别检索。 提升 AI 搜索准确度,另一个关键措施就是做多信息源整合。结合上面提到的意图识别和问题改写,假设用户搜索“ThinkAny 和 Perplexity 的区别是什么?”,根据意图识别,判断需要联网,并且是信息查询类的搜索意图。在问题改写阶段,提取出来“ThinkAny”和“Perplexity”两个概念名词,除谷歌检索之外,还可以检索 Wikipedia/Twitter 等信息源,拿到百科词条内容和 Twitter 的用户反馈信息,可以更好地回答这个问题。AI 搜索最大的壁垒在于数据。 内容由 AI 大模型生成,请仔细甄别。
2025-04-09
你这个知识库和检索是用什么搭建的?
我们的知识库和检索主要基于以下原理和流程搭建: 1. 文本预处理:包括去除无关字符、标准化文本(如将所有字符转换为小写)、分词等,以清洁和准备文本数据。 2. 嵌入表示:将预处理后的文本(词或短语)转换为向量。通常通过使用预训练的嵌入模型,如 Word2Vec、GloVe、BERT 等,将每个词或短语映射到高维空间中的一个点(即向量)。 3. 特征提取:对于整个问题句子,可能应用进一步的特征提取技术,比如句子级别的嵌入,或使用深度学习模型(如 BERT)直接提取整个句子的表示,以捕捉句子的上下文信息。 4. 向量优化:在某些情况下,问题的向量表示可能会根据具体任务进行优化,例如通过调整模型参数来更好地与检索系统的其他部分协同工作。 在知识库检索阶段: 1. 首先需要有一个知识库。在大模型的检索中,并非依靠传统的关键字搜索,而是依靠问题在空间中的向量位置,去寻找距离这个向量最近的其他词句,然后完成检索。 2. 要在向量中进行检索,我们的知识库会被转化成一个巨大的向量库。具体流程包括文档向量化、文档加载(从多种不同来源加载文档)、文本分割(把文档切分为指定大小的块)、存储(将切分好的文档块进行嵌入转换成向量的形式,并将向量数据存储到向量数据库)、检索(通过某种检索算法找到与输入问题相似的嵌入片)以及输出(把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起生成更加合理的答案)。
2025-03-25
检索有关AI入门必读书籍
以下是为您推荐的 AI 入门必读书籍: 1. 「」,有助于熟悉 AI 的术语和基础概念。 2. 「」,其中包含为初学者设计的课程。 3. GPT1 到 Deepseek R1 所有公开论文 The 2025 AI Engineer Reading List:涉及人工智能工程的 10 个领域,包括 LLMs、基准、提示、RAG、代理、CodeGen、视觉、语音、扩散、微调。如果您想从零开始,可以从此处开始。 4. 入门经典必读:作者为 ,原文地址:https://a16z.com/2023/05/25/aicanon/ 。文中分享了一份用于更深入了解现代 AI 的精选资源列表。
2025-03-17
如何设置知识库才可以提高检索效率
以下是一些提高知识库检索效率的方法: 1. 文档分块: 分块是为了后续的检索能返回更精准的答案。 避免把整个使用手册作为一个整体检索,防止返回大量无关信息。 适应模型输入限制,确保能将相关信息输入到模型中,不超出其处理能力。 提升回答质量,让大语言模型更集中地理解和回答特定问题。 优化向量表示,得到更精确的向量,提高检索准确性。 2. 选择合适的工具和平台: 如使用 Coze 时: 可以使用外贸大师产品的帮助文档进行演示。 选择其中一个文档创建知识库,如“购买后新人常见问题汇总·语雀”。 点击创建知识库,从知识库中添加知识单元,使用 Local doucuments 的方式,上传 Markdown 格式文档,注意每个问题使用“”开头。 但要注意文档的分片策略会严重影响查询结果,跨分片总结和推理能力弱、文档有序性被打破、表格解析失败等是基于 RAG 方案自身原理导致的问题。 如使用百炼时: 在百炼控制台的中的非结构化数据页签中点击导入数据,上传相关文档。 根据文档大小,百炼需要一定时间解析,通常占用 1 6 分钟。 进入,创建新的知识库并选择上传的文件,其他参数保持默认,建立索引。 选择向量存储类型时,若希望集中存储、灵活管理多个应用的向量数据,可选择 ADB PG。 完成知识库创建后,返回,打开知识检索增强开关、选择目标知识库,测试验证符合预期后点击发布。 特别需要注意的是,不同工具和平台可能存在各自的特点和限制,需要根据实际情况进行选择和优化。
2025-03-14
有没有路径可以围绕DS、豆包等大模型的检索结果做优化的路径
围绕 DS、豆包等大模型的检索结果做优化的路径包括以下方面: 首先,通过集成收集 AI 反馈(AIF)聊天模型完成情况,然后利用 GPT4(UltraFeedback)进行评分并二值化为偏好。其中,Step2AIF 在某种程度上是一种 selfplay,通过多模型 prompt 生成来进行 RL。在模型最终采用的 DPO 算法的 SFT 过程中,用于最终模型 SFT 所训练的 AIF 数据集与原始 pretraining 数据集在数据(tokens)序列组织构象上存在差异,这是一种 Synthetic Data 的路径,关键在于这种 Synthetic Data 与原始 Data 在特征与知识分布上的差异。 DPO 算法通俗来讲,当一个答案是好的答案时,模型要尽可能增大其被策略模型生成的概率;当一个答案是差的答案时,模型则需要尽可能降低其被策略模型生成的概率。 以上是在 RL×LLM 方面的一些探索,接下来需要将上述模型案例以及延展的思考进行沉淀,回归第一性原理进行更进一步的本质探寻,以找到两者之间隐含的共性、差异以及呈现当前技术发展路径与现状的必然性。
2025-03-04
有什么AI相关的笔记软件,既可以记录我的想法、灵感,然后AI也可以直接生成对我所写内容的评价(如可以安抚情绪),并且这个笔记软件的检索功能很好用
以下是一些符合您需求的 AI 相关笔记软件: 1. Notion AI:https://www.notion.so/help/guides/category/ai?ref=indigox.me 随着大语言模型的流行,其在智能化方面表现出色。 2. Mem.ai:https://mem.ai/?ref=indigox.me 一款 AI 驱动的笔记工具。 3. Pile:https://udara.io/pile/ 开源且界面美观,助力日记撰写和记录,集成 OpenAI API,具有 AI 搜索和问题解答功能,保证安全隐私。项目源码:https://github.com/UdaraJay/Pile
2025-02-19
生成提示词的提示词
以下是关于生成提示词的相关内容: 生成提示词的思路和方法: 可以根据效果好的图片中的高频提示词去反推效果,结合不同字体效果的描述,打包到一组提示词中。提示词给到 AI 后,AI 会根据给定文字的文义,判断适合的情绪风格,然后给出适合情绪的字体和风格描述、情感氛围等,加上一些质量/品质词,形成输出提示词结构。为了让 AI 更能描述清晰风格,可以先给定多种参照举例。 具体操作步骤: 打开 AI 工具的对话框,将相关提示词完整复制粘贴到对话框。推荐使用 ChatGPT 4o。 当 AI 回复后,发送您想要设计的文字。可以仅发送想要的文字,也可以发送图片(适合有多模态的 AI)让 AI 识别和反推。 将 AI 回复的提示词部分的内容复制到即梦 AI。 对生成提示词的一些观点: 提示词生成提示词并非必要,不一定能生成最好的 Prompt 框架,修改过程可能耗时且不一定能修改好,不如花钱找人写。 一句话生成完整符合需求的 Prompt 非常困难,只能大概给出框架和构思,需要更低成本地调整需求和修改 Prompt。 不同生图工具生成提示词的特点: 即使是简短的描述,生成的提示词也非常细节、专业。 会解析需求,找出核心要点和潜在的诠释点,并给出不同的提示词方案。 提示词构建更多在于增强,而不是发散,生成的内容更符合期望。 同时生成中、英双版本,国内外工具通用无压力。 14 款 AI 生图工具实测对比: 本次实测用到的工具包括国内版的即梦 3.0(https://jimeng.jianying.com/aitool/home)、WHEE(https://www.whee.com)、豆包(https://www.doubao.com/chat)、可灵(https://app.klingai.com/cn/texttoimage/new)、通义万相(https://tongyi.aliyun.com/wanxiang/creation)、星流(https://www.xingliu.art)、LibiblibAI(https://www.liblib.art),以及国外版的相关工具。
2025-04-20
有没有能根据描述,生成对应的word模板的ai
目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如: 在法律领域,您可以提供【案情描述】,按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件,模拟不同辩护策略下的量刑结果,对比并推荐最佳辩护策略,或者为商业合同纠纷案件设计诉讼策略等。 在 AI 视频生成方面,有结构化的提示词模板,包括镜头语言(景别、运动、节奏等)、主体强化(动态描述、反常组合等)、细节层次(近景、中景、远景等)、背景氛围(超现实天气、空间异常等),以及增强电影感的技巧(加入时间变化、强调物理规则、设计视觉焦点转移等)。 一泽 Eze 提出的样例驱动的渐进式引导法,可利用 AI 高效设计提示词生成预期内容。先评估样例,与 AI 对话让其理解需求,提炼初始模板,通过多轮反馈直至达到预期,再用例测试看 AI 是否真正理解。 但需要注意的是,不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化,以获得更符合期望的 word 模板。
2025-04-18
如何自动生成文案
以下是几种自动生成文案的方法: 1. 基于其它博主开源的视频生成工作流进行优化: 功能:通过表单输入主题观点,提交后自动创建文案短视频,创建完成后推送视频链接到飞书消息。 涉及工具:Coze 平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程)。 大体路径:通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频;发布 coze 智能体到飞书多维表格;在多维表格中使用字段捷径,引用该智能体;在多维表格中创建自动化流程,推送消息给指定飞书用户。 2. 生成有趣的《图文短句》: 实现原理: 先看工作流:包括第一个大模型生成标题、通过“代码节点”从多个标题中获取其中一个(可略过)、通过选出的标题生成简介、通过简介生成和标题生成文案、将文案进行归纳总结、将归纳总结后的文案描述传递给图像流。 再看图像流:包括提示词优化、典型的文生图。 最终的 Bot 制作以及预览和调试。 3. 腾讯运营使用 ChatGPT 生成文案: 步骤:通过 ChatGPT 生成文案,将这些文案复制到支持 AI 文字转视频的工具内,从而实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频,系统匹配的素材不符合要求时可以手动替换。例如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类 AI 视频制作工具让普罗大众生产视频变得更轻松上手。
2025-04-15
如何通过输入一些观点,生成精彩的口播文案
以下是通过输入观点生成精彩口播文案的方法: 1. 基于其它博主开源的视频生成工作流进行功能优化,实现视频全自动创建。 效果展示:可查看。 功能:通过表单输入主题观点,提交后自动创建文案短视频,并将创建完成的视频链接推送至飞书消息。 涉及工具:Coze平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程)。 大体路径: 通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频。 发布 coze 智能体到飞书多维表格。 在多维表格中使用字段捷径,引用该智能体。 在多维表格中创建自动化流程,推送消息给指定飞书用户。 2. 智能体发布到飞书多维表格: 工作流调试完成后,加入到智能体中,可以选择工作流绑定卡片数据,智能体则通过卡片回复。 选择发布渠道,重点是飞书多维表格,填写上架信息(为快速审核,选择仅自己可用),等待审核通过后即可在多维表格中使用。 3. 多维表格的字段捷径使用: 创建飞书多维表格,添加相关字段,配置后使用字段捷径功能,使用自己创建的 Coze 智能体。 表单分享,实现填写表单自动创建文案短视频的效果。 4. 自动化推送:点击多维表格右上角的“自动化”,创建所需的自动化流程。 另外,伊登的最新 Deepseek+coze 实现新闻播报自动化工作流如下: 第一步是内容获取,只需输入新闻链接,系统自动提取核心内容。开始节点入参包括新闻链接和视频合成插件 api_key,添加网页图片链接提取插件,获取网页里的图片,以 1ai.net 的资讯为例,添加图片链接提取节点,提取新闻主图,调整图片格式,利用链接读取节点提取文字内容,使用大模型节点重写新闻成为口播稿子,可使用 Deepseek R1 模型生成有吸引力的口播内容,若想加上自己的特征,可在提示词里添加个性化台词。
2025-04-15
小红书图文批量生成
以下是关于小红书图文批量生成的详细内容: 流量密码!小红书万赞英语视频用扣子一键批量生产,这是一个保姆级教程,小白都能看得懂。 原理分析: 决定搞之后,思考生成这种视频的底层逻辑,进行逆推。这种视频由多张带文字图片和音频合成,带文字图片由文字和图片生成,文字和图片都可由 AI 生成,音频由文字生成,文字来源于图片,也就是说,关键是把图片和文字搞出来。 逻辑理清后,先找好看的模版,未找到好看的视频模版,最后看到一个卡片模版,先把图片搞出来,才有资格继续思考如何把图片变成视频,搞不出来的话,大不了不发视频,先发图片,反正图片在小红书也很火。 拆模版: 要抄这种图片,搞过扣子的第一反应可能是用画板节点 1:1 去撸一个,但扣子的画板节点很难用,Pass 掉。用 PS 不行,太死板不灵活,html 网页代码可以,非常灵活。经过 2 个多小时和 AI 的 battle,用 html 代码把图片搞出来了。这里不讲代码怎么写,直接抄就行。要抄,首先要学会拆,不管用什么方式批量生成这样的图片,都必须搞清楚里面有哪些是可以变化的参数,也就是【变量】,如主题、主题英文、阶段、单词数、图片、正文、翻译、普通单词、重点单词等。 想方法: 大概知道批量生成这样的图片需要搞清楚哪些参数,图片用 html 代码搞出来了。但问题是视频怎么搞,这种视频由多张不同的【带文字的图片】生成,比如读到哪句,哪句就高亮起来,图片也可以随着读到的句子变更。最后,视频就是用这样的图片一张张拼起来的。
2025-04-14
ai如何什么生成表格
AI 生成表格通常可以通过以下技术实现: 1. 利用变分自编码器(VAEs)和序列到序列模型(Seq2Seq)等技术生成表格文件、表格公式,并清理、创建、转换和分析表格中的文本数据,例如表格结构设计、数据分析表、表格自动化等。 2. 借助一些办公软件中的 AI 插件,如飞书中的相关插件,先通过 AI 理解图片中的内容并填充到表格列中,然后利用自带插件总结生成相关指令。 此外,在多模态数据生成中,结构化数据生成包括表格生成,多模态合成数据从大类来看有非结构化数据(图片、视频、语音等)和结构化数据(表格等)两大类。非结构化数据生成包括文本生成、图像生成、音频和语音生成、视频生成、3D 生成、合成数据生成等。
2025-04-14
可以增强图片清晰的的ai
以下是一些可以增强图片清晰度的 AI 工具: 1. Magnific:https://magnific.ai/ 2. ClipDrop:https://clipdrop.co/imageupscaler 3. Image Upscaler:https://imageupscaler.com/ 4. Krea:https://www.krea.ai/ 更多工具可以查看网站的图像放大工具库:https://www.waytoagi.com/category/17 此外,PMRF 也是一种全新的图像修复算法,它具有以下特点: 擅长处理去噪、超分辨率、着色、盲图像恢复等任务,生成自然逼真的图像。 不仅提高图片清晰度,还确保图片看起来像真实世界中的图像。 能够应对复杂图像退化问题,修复细节丰富的面部图像或多重损坏的图片,效果优质。 详细介绍: 在线体验: 项目地址: 这些 AI 画质增强工具都具有不同的特点和功能,可以根据您的具体需求选择合适的工具进行使用。
2025-04-18
免费增强图像分辨率的
以下是一些免费增强图像分辨率的工具和方法: 1. Kraken.io:主要用于图像压缩,但也提供免费的图像放大功能,能保证图像细节清晰度。 2. Deep Art Effects:强大的艺术效果编辑器,通过 AI 技术放大图像并赋予艺术效果,支持多种滤镜和风格。 3. Waifu2x:提供图片放大和降噪功能,使用深度学习技术提高图像质量,保留细节和纹理,简单易用效果好。 4. Bigjpg:强大的图像分辨率增强工具,使用神经网络算法加大图像尺寸,提高图像质量,处理速度快。 此外,还有以下相关资源: 1. 【超级会员 V6】通过百度网盘分享的 Topaz 全家桶,链接:https://pan.baidu.com/s/1bL4tGfl2nD6leugFh4jg9Q?pwd=16d1 ,提取码:16d1 ,复制这段内容打开「百度网盘 APP 即可获取」。 2. RealESRGAN:基于 RealESRGAN 的图像超分辨率增强模型,具有可选的人脸修复和可调节的放大倍数,但使用几次后要收费。 3. InvSR:开源图像超分辨率模型,提升图像分辨率的开源新工具,只需一个采样步骤(支持 1 5 的材料步骤)即可增强图像,可以高清修复图像。地址、在线试用地址:https://github.com/zsyOAOA/InvSR?tab=readme ov filerailway_car online demo 、https://huggingface.co/spaces/OAOA/InvSR 。 4. GIGAGAN:https://mingukkang.github.io/GigaGAN/ 。 5. Topaz Gigapixel AI:https://www.topazlabs.com/gigapixel ai 。 6. Topaz Photo AI:https://www.topazlabs.com/ 。 7. discord:https://discord.gg/m5wPDgkaWP 。
2025-03-24
请推荐相关的学习资料: AI与新媒体设计:AI视频编辑、AI社交媒体内容创作、ai虚拟现实与增强现实设计等。
以下是为您推荐的关于 AI 与新媒体设计(如 AI 视频编辑、AI 社交媒体内容创作、AI 虚拟现实与增强现实设计等)的学习资料: 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 开始 AI 学习之旅:在「」中,您将找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 选择感兴趣的模块深入学习:AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。建议您一定要掌握提示词的技巧,它上手容易且很有用。 实践和尝试:理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 体验 AI 产品:与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,对于 filMarathon 全球 AI 电影马拉松大赛参赛引导中的学习资料: 音效创作指导: 语音合成: 剧本创作:人力为主: 图片生成:AI 作图绘画: 视频生成:AI 视频生成: 音频生成:AI 音乐创作: 剪辑工具:剪映剪辑:
2025-02-27
请推荐相关的学习资料: AI与新媒体设计:探索AI如何影响视频编辑、社交媒体内容创作、虚拟现实与增强现实设计等。
以下是关于学习“AI 与新媒体设计”的相关资料推荐: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,能找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),可根据自己的兴趣选择特定的模块进行深入学习,建议掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出作品。在知识库提供了很多大家实践后的作品、文章分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,通过对话获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。
2025-02-27
请推荐相关的资源:AI与新媒体设计:探索AI如何影响视频编辑、社交媒体内容创作、虚拟现实与增强现实设计等。
很抱歉,目前没有相关的具体资源可以推荐给您。但您可以通过以下途径获取相关信息: 1. 学术数据库:如 Web of Science、Scopus 等,搜索相关的研究论文。 2. 在线教育平台:例如 Coursera、EdX 等,可能有相关的课程。 3. 专业论坛和社区:如知乎、V2EX 等,与同行交流获取资源推荐。 4. 相关的行业报告网站:如艾瑞咨询、易观智库等。
2025-02-27
- AI与新媒体设计:探索AI如何影响视频编辑、社交媒体内容创作、虚拟现实与增强现实设计等。
AI 在新媒体设计领域的影响广泛且深入,主要体现在以下方面: 在视频编辑方面: 能够自动进行剪辑和特效处理,提高制作效率和质量。 在社交媒体内容创作方面: 可以对大量信息进行自动编辑和汇总,生成有趣的图文摘要。 辅助创作吸引人的文案和图片。 在虚拟现实与增强现实设计方面: 有助于创建更逼真的虚拟场景和增强现实体验。 在图文创作赛道: 内容生成:自动编写文章并选择或生成相应图片。 图像标注:识别和理解图片内容并生成文字描述。 图文匹配:为图片找到合适文字描述或为文字找到匹配图片。 数据可视化:将复杂数据以直观简洁的图表、信息图等方式展示。 设计辅助:生成 LOGO、海报等。 自动化排版:根据文本内容与结构自动进行页面布局和美观排版。 图文识别:借助 OCR 技术抓取图文内容后理解处理。 在艺术创作方面: 辅助绘画、音乐、文学等领域的创作,探索新的结合模式。 在智能产品设计方面: 如智能家居设备、可穿戴设备等。 在游戏行业: 是最有价值的应用场景之一,其应用可追溯至上世纪 80 年代。 从最初生成简单内容和随机元素,到辅助设计、生成动态世界和复杂内容,如动态场景、智能 NPC 行为等。 具有诸多优势,如游戏开发者亲近并乐于使用 AI 技术,游戏数据降低了筛选和清洗成本,游戏成为 AI 模型能力的最佳试验场。 革新游戏创作,简化工作流,在美术与风格、音效与音乐、剧情与任务、玩法与平衡、测试与优化等方面产生积极影响。
2025-02-27