Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

帮我找知识库里和「评估」相关的内容或文章

Answer

以下是知识库里与“评估”相关的内容:

提示工程

  • 评估程序在优化系统设计时很有用。好的评估程序需要具备以下特点:
    • 具有代表性:能够代表真实世界的使用场景,或者至少包含多样化的测试用例。
    • 样本量充足:拥有足够的测试用例,以保证统计结果的可靠性。
    • 易于自动化:可以自动运行或重复执行。
    • 评估工作可以由计算机、人类或两者协作完成。计算机可以使用客观标准以及一些主观或模糊标准自动执行评估,其中模型输出由其他模型查询评估。OpenAI Evals是一个开源软件框架,提供了创建自动评估程序的工具。
    • 基于模型的评估在评估具有多种可能答案的问题时非常有用,模型可以根据预定义的标准对不同的答案进行评分,帮助我们选择最佳答案。可以用模型进行评估和需要人工评估之间的界限是模糊的,并且随着模型变得越来越强大而不断变化。

OpenAI 官方指南

  • 评估程序(或称为“Evals”)对于优化系统设计非常有用。良好的评估:
    • 代表现实世界的使用(或至少是多样化的)。
    • 包含许多测试用例以获得更大的统计能力。
    • 易于自动化或重复。
    • 输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准以及一些主观或模糊标准来自动评估,其中模型输出由其他模型查询评估。OpenAI Evals是一个开源软件框架,提供用于创建自动评估的工具。
    • 当存在一系列可能被认为质量相同的输出时,基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型变得更强大而不断变化。

Gemini 报告

  • 为了评估 Gemini 模型在政策领域和其他在影响评估中确定的关键风险领域中的表现,在模型开发的整个生命周期中开展了一系列评估。
    • 在训练和优化 Gemini 模型过程中,会进行开发评估以进行“hill-climbing”。这些评估是由 Gemini 团队设计的,或者是针对外部学术基准的评估。评估考虑诸如有用性(指令遵循和创造力)、安全性和事实性等问题。
    • 保证评估是为了治理和审查而进行的,通常在关键里程碑或培训运行结束时由模型开发团队之外的团队进行。保证评估按照模态进行标准化,数据集严格保密。只有高层次的见解被反馈到训练过程中,以协助缓解工作。保证评估包括对 Gemini 政策的测试,并包括对潜在生物危害、说服力和网络安全等危险能力的持续测试。
    • 外部评估由谷歌之外的合作伙伴进行,以发现盲点。外部团体对模型进行了一系列问题的压力测试,包括白宫承诺书中列出的领域,测试通过结构化评估和非结构化的红队测试进行。这些评估的设计是独立的,并且结果定期报告给 Google DeepMind 团队。
Content generated by AI large model, please carefully verify (powered by aily)

References

提示工程: 如何与大型语言模型高效沟通【OpenAI官网翻译】

[title]提示工程:如何与大型语言模型高效沟通【OpenAI官网翻译】[heading1]写在前面[heading2]策略:系统地测试更改有时很难分辨出更改——例如,新的指令或新的设计——是使你的系统变得更好还是更糟。查看几个示例可能会暗示哪个更好,但由于样本量小,很难区分真正的改进还是随机运气。也许更改在某些输入上有助于性能,但在其他输入上则损害性能。评估程序(或“评估”)在优化系统设计时很有用。好的评估程序需要具备以下特点:具有代表性:能够代表真实世界的使用场景,或者至少包含多样化的测试用例。样本量充足:拥有足够的测试用例,以保证统计结果的可靠性(参考下表)。易于自动化:可以自动运行或重复执行。|需要检测的差异|95%置信度所需的样本量|<br>|-|-|<br>|30%|~10|<br>|10%|~100|<br>|3%|~1,000|<br>|1%|~10,000|评估工作可以由计算机、人类或两者协作完成。计算机可以使用客观标准(例如,针对单一正确答案的问题)以及一些主观或模糊标准自动执行评估,其中模型输出由其他模型查询评估。[OpenAI Evals](https://github.com/openai/evals)是一个开源软件框架,提供了创建自动评估程序的工具。基于模型的评估在评估具有多种可能答案的问题时非常有用,例如开放性问题。模型可以根据预定义的标准对不同的答案进行评分,帮助我们选择最佳答案。可以用模型进行评估和需要人工评估之间的界限是模糊的,并且随着模型变得越来越强大而不断变化。我们鼓励你进行实验,找到最适合你的用例的评估方法。

目录:OpenAI 官方指南

[title]目录:OpenAI官方指南[heading1]二、战术[heading2]策略:系统地测试变化有时候,很难判断一个变化(例如,新的指令或新的设计)是否使你的系统变得更好或更差。看几个例子可能会暗示哪个更好,但如果样本量很小,很难区分真正的改进或是随机运气。也许这个改变在一些输入上有助于提高性能,但在其他输入上却降低了性能。评估程序(或称为"Evals")对于优化系统设计非常有用。良好的评估:代表现实世界的使用(或至少是多样化的)包含许多测试用例以获得更大的统计能力(有关指南,请参见下表)易于自动化或重复|要检测的差异|95%置信度所需的样本量|<br>|-|-|<br>|0.3|~10|<br>|0.1|~100|<br>|0.03|~1,000|<br>|0.01|~10,000|输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准(例如,具有单一正确答案的问题)以及一些主观或模糊标准来自动评估,其中模型输出由其他模型查询评估。[OpenAI Evals](https://github.com/openai/evals)是一个开源软件框架,提供用于创建自动评估的工具。当存在一系列可能被认为质量相同的输出时(例如,对于答案很长的问题),基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型变得更强大而不断变化。我们鼓励实验来找出基于模型的评估在你的用例中可以工作得多好。

Gemini report 中文翻译

为了评估Gemini模型在政策领域和其他在影响评估中确定的关键风险领域中的表现,我们在模型开发的整个生命周期中开展了一系列评估。在训练和优化Gemini模型过程中,会进行开发评估以进行“hill-climbing”。这些评估是由Gemini团队设计的,或者是针对外部学术基准的评估。评估考虑诸如有用性(指令遵循和创造力)、安全性和事实性等问题。请参阅第5.1.6节和下一节的mitigations的样本结果。保证评估是为了治理和审查而进行的,通常在关键里程碑或培训运行结束时由模型开发团队之外的团队进行。保证评估按照模态进行标准化,数据集严格保密。只有高层次的见解被反馈到训练过程中,以协助缓解工作。保证评估包括对Gemini政策的测试,并包括对潜在生物危害、说服力和网络安全等危险能力的持续测试(Shevlane等,2022年)以修订回应并在多个回应候选项之间进行选择。外部评估由谷歌之外的合作伙伴进行,以发现盲点。外部团体对我们的模型进行了一系列问题的压力测试,包括白宫承诺书中列出的领域,测试通过结构化评估和非结构化的红队测试进行。这些评估的设计是独立的,并且结果定期报告给Google DeepMind团队。

Others are asking
coze搭建智能体,用上传的文件和知识库的文件做对比,分析差异点。
以下是关于在 Coze 中搭建智能体的相关信息: 1. 证件照相关操作: 展示原图上传结果,基本脸型已换,生成效果与上传照片特征有关。 改背景可利用改图功能,一键改图效果更好,输出数据类型为图片。 豆包节点生成的是 URL 地址,与前者不同,在工作流使用有差异,可参考简单提示词。 介绍证件照工作流相关操作,包括通过提示词改背景颜色,设置输出方式为返回变量;讲解消耗 token 及保存结果相关问题;对按钮、表单添加事件并设置参数,限制上传文件数量;还涉及给表单和图片绑定数据,以及每次操作后刷新界面确保设置生效。 围绕操作讲解与优化展开,介绍 for meet 的设置,如表单事件操作、图片上传数量修改等,提及编程基础知识。还讲述成果图连接、绑定数据方法及注意事项。展示基本功能实现情况,分析换性别等问题成因,指出需在工作流优化提示词,也可尝试用视频模型解决,最后进入问答环节。 2. 多维表格的高速数据分析: 创建智能体,使用单 Agent 对话流模式。 编排对话流,创建新的对话流并关联智能体。 使用代码节点对两个插件获取的结果进行数据处理,注意代码节点输出的配置格式。 测试,找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。 发布,选择多维表格,配置输出类型为文本,输入类型选择字段选择器,完善上架信息,可选择仅自己可用以加快审核。 3. 智能体与微信和微信群的连接: 创建知识库,可选择手动清洗数据提高准确性,包括在线知识库和本地文档。 在线知识库创建时,飞书在线文档中每个问题和答案以分割,可编辑修改和删除。 本地文档中注意拆分内容提高训练数据准确度,如将课程章节按固定方式人工标注和处理。 发布应用,确保在 Bot 商店中能够搜到。
2025-04-18
coze搭建知识库和上传文件做对比分析
以下是关于 Coze 搭建知识库和上传文件的对比分析: 创建文本型知识库: 自动分段与清洗:扣子可对上传的内容进行自动解析,支持复杂布局的文件处理,如识别段落、页眉/页脚/脚注等非重点内容,支持跨页跨栏的段落合并,支持解析表格中的图片和文档中的表格内容(目前仅支持带线框的表格)。操作步骤为在分段设置页面选择自动分段与清洗,然后依次单击下一步、确认,可查看分段效果,不满意可重新分段并使用自定义分段。 自定义:支持自定义分段规则、分段长度及预处理规则。操作时在分段设置页面选择自定义,然后依次设置分段规则和预处理规则,包括选择分段标识符、设置分段最大长度和文本预处理规则,最后单击下一步完成内容分段。 创建表格型知识库: 目前支持 4 种导入类型:本地文档、API、飞书、自定义。 本地文档:选择本地文档从本地文件中导入表格数据,目前支持上传 Excel 和 CSV 格式的文件,文件不得大于 20M,一次最多可上传 10 个文件,且表格内需要有列名和对应的数据。 API:参考特定操作从 API 返回数据中上传表格内容,包括选择 API、单击新增 API、输入 API URL 并选择数据更新频率,然后单击下一步。 飞书:参考特定操作从飞书表格中导入内容,包括选择飞书、在新增知识库页面单击授权并选择要导入数据的飞书账号、单击安装扣子应用(仅首次导入需授权和安装),然后选择要导入的表格并单击下一步。目前仅支持导入“我的空间”下的飞书文档,云文档的创建者必须是自己,暂不支持导入知识库和共享空间下的云文档。 上传文本内容: 在线数据:扣子支持自动抓取指定 URL 的内容,也支持手动采集指定页面上的内容,上传到数据库。 自动采集方式:适用于内容量大、需批量快速导入的场景。操作步骤为在文本格式页签下选择在线数据,然后依次单击下一步、自动采集、新增 URL,输入网站地址、选择是否定期同步及周期,最后单击确认,上传完成后单击下一步,系统会自动分片。 手动采集:适用于精准采集网页指定内容的场景。操作步骤为安装扩展程序,在文本格式页签下选择在线数据,然后依次单击下一步、手动采集、授予权限,输入采集内容的网址,标注提取内容,查看数据确认无误后完成并采集。
2025-04-18
知识库怎么构建
构建知识库的方法主要有以下几种: 1. 使用 Flowith 构建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,为其起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 等待 Flowith 对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 2. 使用 Dify 构建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:根据需求选择高质量模式、经济模式或 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 3. 本地部署大模型并搭建个人知识库(涉及 RAG 技术): 了解 RAG 技术:大模型训练数据有截止日期,RAG 可通过检索外部数据并在生成步骤中传递给 LLM 来解决依赖新数据的问题。 RAG 应用的 5 个过程: 文档加载:从多种来源加载文档,如 PDF、SQL 等。 文本分割:把文档切分为指定大小的块。 存储:包括将文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:将问题和检索出的嵌入片提交给 LLM 生成答案。 文本加载器:将用户提供的文本加载到内存中以便后续处理。
2025-04-15
如何搭建知识库
搭建知识库的方法如下: 使用 flowith 搭建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,给知识库起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 Flowith 会对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 使用 Dify 搭建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:提供三种索引方式,根据需求选择,如高质量模式、经济模式和 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 使用 Coze 智能体搭建: 手动清洗数据: 在线知识库:点击创建知识库,创建 FAQ 知识库,选择飞书文档,输入区分问题和答案,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意拆分内容,提高训练数据准确度,按章节进行人工标注和处理,然后创建自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能搜到。
2025-04-14
如何搭建自己的知识库
以下是搭建自己知识库的方法: 1. 选择“Manage Your Knowledge Base”,进入知识库管理页面。 2. 在页面左上角点击加号,添加新的知识库,并为其起一个易于分辨的名字。 3. 点击添加文件,建议使用 Markdown 格式的文件。 4. 等待 Flowith 对文件进行抽取等处理。 5. 处理完毕后,可在知识库管理页面测试检索,输入关键词过滤相关内容。 此外,搭建本地知识库还需了解 RAG 技术: 1. RAG 是一种当需要依靠不包含在大模型训练集中的数据时所采用的主要方法,即先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。 2. 一个 RAG 的应用包括文档加载、文本分割、存储、检索和输出 5 个过程。 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 文本分割:把 Documents 切分为指定大小的块。 存储:将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,生成更合理的答案。 对于基于 GPT API 搭建定制化知识库,涉及给 GPT 输入定制化的知识。由于 GPT3.5 一次交互支持的 Token 有限,OpenAI 提供了 embedding API 解决方案。Embeddings 是一个浮点数字的向量,两个向量之间的距离衡量它们的关联性,小距离表示高关联度。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。文档上有创建 embeddings 的示例。
2025-04-14
我想做一个,基于我个人知识库的chatbot,以供我随时搜索和提问,且优先搜索知识库内的内容而非联网搜索,你有什么建议吗?
以下是为您提供的关于创建基于个人知识库的 chatbot 的建议: 1. 选择合适的平台和工具:例如可以考虑使用飞书智能伙伴创建平台(Aily)或扣子(https://www.coze.cn/home)等。 2. 数据分段储存:由于大模型的上下文长度有限制,需要将上传的资料根据特定符号或字符长度进行分段,如将 8000 字文档按每 800 字分成一个片段储存。 3. 增强检索:当用户输入问题,大模型会根据相似度检索出若干最相关的数据片段,再据此生成答案,这一技术称为 RAG(检索增强生成)。 4. 配置知识库: 在 Bot 内使用知识库: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在 Bots 页面,选择指定 Bot 并进入 Bot 详情页。 在 Bot 编排页面的知识库区域,单击加号图标,添加指定的知识库。 (可选)添加知识库后,可以在自动调用下拉界面内,调整知识库的配置项,如最大召回数量、最小匹配度、调用方式等。 在工作流内使用 Knowledge 节点: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在页面顶部进入工作流页面,并打开指定的工作流。 在左侧基础节点列表内,选择添加 Knowledge 节点。 5. 注意使用限制:单用户最多创建 1000 个知识库,文本类型知识库下最多支持添加 100 个文档,单用户每月最多新增 2GB 数据,累计上限是 10GB。 此外,知识库可以解决大模型幻觉、专业领域知识不足的问题,提升大模型回复的准确率。您可以将知识库直接与 Bot 进行关联用于响应用户回复,也可以在工作流中添加知识库节点,成为工作流中的一环。
2025-04-14
AI应用于教育行业在评估和认证机制的改革方面的问题
AI 应用于教育行业在评估和认证机制的改革方面存在以下问题: 1. 教育体系具有惯性,课程设置、教师资格认证、学术评价体制等均有深厚传统根基,更新和调整需要时间,资源重新配置无法一蹴而就,大规模改革提案的决策流程涉及多方利益博弈,是长期议程。 2. 现有的教育体系追求稳定性和标准化,而非灵活性和快速响应,抵制变动,本质上较为保守,与 AI 引领的教育创新所需的快速试错和持续迭代能力脱节。 3. 教育政策更新滞后,政策制定者对新兴技术理解不足,无法充分预见技术对教育的长远影响,政策调整受预算限制、法规约束和政治周期影响,过程缓慢。 4. 技术与政策的脱节体现在教师的培训和招聘上,多数教师未接受相关培训,不仅要掌握工具操作,还需了解如何与教学目标结合,当前教师培训和专业发展项目在数量和质量上与需求存在差距。 5. 现有评估和认证机制侧重于传统学习方法和结果,学校和教师受其约束,创新的教育实践难以得到认可,甚至可能因偏离既定评价标准而遭质疑。
2025-02-10
AI可行性评估报告
以下是为您提供的关于 AI 可行性评估报告的相关内容: 一、关于 AI 责任和新技术的提案 1. 该提案建立在 4 年的分析和利益相关者(包括学者、企业、消费者协会、成员国和公民)的密切参与基础上。 2. 准备工作始于 2018 年,成立了责任和新技术专家组。专家组于 2019 年 11 月发布报告,评估了 AI 的某些特征对国家民事责任规则构成的挑战。 3. 专家组报告的输入得到了三项额外外部研究的补充: 基于欧洲侵权法对关键 AI 相关问题的比较法律研究。 关于责任制度有针对性调整对消费者决策(特别是他们对采用 AI 支持的产品和服务的信任和意愿)影响的行为经济学研究。 涵盖一系列问题的经济研究,包括 AI 应用的受害者与非 AI 设备的受害者在试图获得损失赔偿时面临的挑战;企业对当前责任规则在其涉及 AI 的业务中的应用是否不确定以及不确定程度;法律不确定性的影响是否会阻碍对 AI 的投资;国家责任法的进一步碎片化是否会降低 AI 应用和服务的内部市场的有效性,以及通过欧盟立法协调国家民事责任的某些方面是否会减少这些问题并促进欧盟公司对 AI 技术的总体采用。 二、AI 相关的其他内容 1. 让 Claude 3.5 摆脱循环的提示技巧:在模型陷入重复或逻辑僵局时,可使用“退后一步”提示词,让其先进行多步、多角度思考,输出十段左右分析,再转化为代码实现。优势是避免错误方向的持续生成,促使模型输出新的思考过程。但如果模型输出内容已过于冗杂,建议修改原始提示词。 2. AI 对程序员工作的影响分析:AI 可代替代码生成、补全、分析问题和数据提取、辅助架构设计文档等部分;无法代替需求分析、复杂项目拆分、线上问题排查、调试及安全性保障。专业程序员可通过 AI 提升效率,但非专业人士难以依赖 AI 完成复杂任务,需注重自身技能提升和架构设计能力。 3. AI 应用场景:可从“自相矛盾”“时间线”“常识性冲突”角度,分析访谈内容的内部一致性,并结合常识推测可能存在夸大或不实之处。适合验证新闻、访谈或声明的真实性,发现潜在问题。 三、关于 AI 的创新方法 1. 政府已通过发布相关内容支持工具的开发。 2. 提出关于非监管工具对组织嵌入可信 AI 的帮助。 3. 包括长期规划,如交付确保框架有效的核心功能的首次迭代、与关键监管机构合作、发布草案咨询、开发监管沙盒或试验台、发布监测和评估报告、更新 AI 监管路线图等。
2025-01-22
请写一份基于人工智能的智能家居安防系统建设方案,包括项目介绍、商业模式、、竞品分析、行业分析、经营规划、风险评估、融资规划等。
以下是为您生成的基于人工智能的智能家居安防系统建设方案: 项目介绍: 智能家居安防系统是利用人工智能技术,对家居环境进行实时监控和安全防护的系统。它融合了智能硬件、智能软件、智能网联和服务平台等技术,旨在提升家居安防的效率和可靠性。 商业模式: 可以采用设备销售与服务订阅相结合的模式。销售智能安防设备获取收入,同时提供定期的维护和升级服务,用户按需订阅。 竞品分析: 目前市场上的竞品主要包括传统安防企业的智能化产品和新兴科技公司的创新方案。传统企业可能在硬件制造和渠道方面有优势,新兴公司则在技术创新和用户体验上有所突破。 行业分析: 智能家居安防市场正处于快速发展阶段。随着人们对生活品质和安全的重视,需求不断增长。同时,技术的进步也为行业发展提供了有力支持。 经营规划: 1. 产品研发:不断优化智能安防设备的性能和功能。 2. 市场推广:通过线上线下多种渠道进行宣传和推广。 3. 客户服务:建立完善的售后服务体系,提高用户满意度。 风险评估: 1. 技术风险:如技术更新换代快,需要持续投入研发。 2. 市场风险:竞争激烈,市场份额可能受到挤压。 3. 法律风险:需符合相关法律法规和标准。 融资规划: 根据项目的发展阶段和资金需求,制定合理的融资计划。可以考虑天使投资、风险投资、银行贷款等多种融资渠道。 需要注意的是,以上方案仅为初步框架,具体内容还需要进一步深入调研和细化。
2024-12-11
AI 评估 GPU 大模型的性能指标,包括输入 token 和输出 token 能力的区分。
以下是关于 AI 评估 GPU 大模型性能指标中输入 token 和输出 token 能力区分的相关内容: 大模型是通过输入大量语料进行训练,从而获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。在大模型的训练和使用过程中: 1. 训练需要大量计算,GPU 更合适,只有具备大量 GPU 的才有资本训练大模型。 2. 大模型需要大量数据量,几千亿序列(Token)的输入基本是标配。 3. 要用合适的算法让大模型更好理解 Token 之间的关系。 4. 为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 完成上述步骤后,大模型就可以进行如翻译、问答等推导(infer)工作。 Token 是大模型语言体系中的最小单元,人类语言发送给大模型时,会先转换为其自身语言,推理生成答案后再翻译输出。不同厂商的大模型对中文的文本切分方法不同,通常 1Token 约等于 1 2 个汉字。大模型的收费计算方法以及对输入输出长度的限制,都是以 token 为单位计量的。 在评估 GPU 大模型性能时,显卡的常规指标很重要。大部分模型默认采用 FP16 的加载方式,因此显卡的性能指标主要关注 FP16 的算力和显存大小。算力影响推理速度,包括输入数据处理和持续吐出数据的速度,会体现在从提示词输入后到第一个输出的 token 的等待时间间隔,以及流式输出下每秒吐字的字数,通常每秒 10 token 以上能获得较好的用户体验。显存大小影响能否装载模型,可通过“参数大小乘 2”简化判断所需显存大小,但实际显存需求还会受其他因素影响。
2024-12-05
如何对rag进行评估
对 RAG 进行评估可以从以下几个方面入手: 1. 使用 RAG 三角形的评估方法: 在 LangChain 中创建 RAG 对象,使用 RAGPromptTemplate 作为提示模板,指定检索系统和知识库的参数。 在 TruLens 中创建 TruChain 对象,包装 RAG 对象,指定反馈函数和应用 ID。反馈函数可使用 TruLens 提供的 f_context_relevance、f_groundness、f_answer_relevance,也可自定义。 使用 with 语句运行 RAG 对象,记录反馈数据,包括输入问题、得到的回答以及检索出的文档。 查看和分析反馈数据,根据 RAG 三角形的评估指标评价 RAG 的表现。 2. 建立评估框架将检索性能与整个 LLM 应用程序隔离开来,从以下角度评估: 模型角度(generation): 回答真实性:模型结果的真实性高低(减少模型幻觉)。 回答相关度:结果和问题的相关程度,避免南辕北辙。 检索角度(retrieval): 召回率(recall):相关信息在返回的检索内容中的包含程度,越全越好。 准确率(precision):返回的检索内容中有用信息的占比,越多越好。 3. 考虑以下评估方法和指标: 生成质量评估:常用自动评估指标(如 BLEU、ROUGE 等)、人工评估和事实验证,衡量生成文本的流畅性、准确性和相关性。 检索效果评估:包括检索的准确性、召回率和效率,其好坏直接影响生成文本的质量。 用户满意度评估:通过用户调查、用户反馈和用户交互数据了解用户对 RAG 系统的满意度和体验。 多模态评估:对于生成多模态内容的 RAG 系统,评估不同模态之间的一致性和相关性,可通过多模态评估指标实现。 实时性评估:对于需要实时更新的 RAG 任务,考虑信息更新的及时性和效率。 基准测试集:使用基准测试集进行实验和比较不同的 RAG 系统,涵盖多样化的任务和查询,以适应不同的应用场景。 评估方法和指标的选择取决于具体的任务和应用场景,综合使用多种评估方法可更全面地了解 RAG 系统的性能和效果,评估结果能指导系统的改进和优化,满足用户需求。此外,RAGAS 是一个用于 RAG 评估的知名开源库,可参考使用: 。需要注意的是,RAG 适合打造专才,不适合打造通才,且存在一定局限性,如在提供通用领域知识方面表现不佳,可能影响模型的风格或结构输出、增加 token 消耗等,部分问题需使用微调技术解决。
2024-11-13
怎么评估提示词的效果?
评估提示词的效果可以从以下几个方面进行: 1. 模型的准确率:观察模型生成的回答与预期结果的匹配程度。 2. 流畅度:检查生成的文本在语言表达上是否通顺、自然。 3. 相关性:判断生成的内容与提示词所表达的意图和需求的关联程度。 提示词工程师在评估提示词效果时,通常会采取以下步骤和方法: 1. 设计提示:根据用户需求和模型能力,精心考虑提示的长度、结构、措辞和信息量等因素,以清晰传达用户意图。 2. 优化提示:通过收集用户反馈、分析模型结果和实验不同的提示策略等方式,不断改进提示。 3. 实际测试:包括对基础提示词模板的测试,确保其能兼容国内外各种模型,并生成拟人化的提示词,然后将其应用于不同模型中评估实际应用效果和适应性。 此外,提示工程有几项核心原则: 1. 编写清晰的指令。 2. 将复杂任务分解为简单任务。 3. 给模型一定的时间空间思考。 4. 系统地测试性能变化。 要提高提示技巧,应多学习和实践。同时,可以参考大模型厂商的提示工程指南,以及 LangGPT 结构化提示词知识库中的相关资料,如:
2024-10-15
有关 ai agent 的科普文章
以下是为您提供的关于 AI Agent 的科普内容: AI Agent 是一个融合了多学科精髓的综合实体,包括语言学、心理学、神经学、逻辑学、社会科学和计算机科学等。它不仅有实体形态,还有丰富的概念形态,并具备许多人类特有的属性。 目前,关于 AI Agent 存在一些情况。例如,网络上对其的介绍往往晦涩难懂,让人感觉神秘莫测,其自主性、学习能力、推理能力等核心概念,以及如何规划和执行任务、理解并处理信息等方面,都像是笼罩在一层神秘面纱之下。 另外,以国与国之间的外交为例来解释相关协议。假设每个 AI 智能体(Agent)就是一个小国家,它们各自有自己的语言和规矩。各国大使馆试图互相沟通、做生意、交换情报,但现实中存在诸多问题,如协议各异、要求不同等。 如果您想了解更多关于 AI Agent 的详细内容,可访问: 。
2025-04-15
AI通识科普文章
以下是为您提供的 AI 通识科普相关内容: 对于对 AI 都没太多概念的纯纯小白: 现有常见 AI 工具小白扫盲:(1 小时 32 分开始)。 AI 常见名词、缩写解释: 。 新手学习 AI 的步骤: 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,了解人工智能的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 开始 AI 学习之旅:在「」中,您将找到一系列为初学者设计的课程。特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程按照自己的节奏学习,并有机会获得证书。 选择感兴趣的模块深入学习:AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。建议一定要掌握提示词的技巧,它上手容易且很有用。 实践和尝试:理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 体验 AI 产品:与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 入门经典必读:作者为 。文中提到人工智能的研究正在以指数级别的速度增长,对于初学者来说跟上新发布的内容很难,因此分享了一份用于更深入了解现代 AI 的精选资源列表,称为“AI 典藏”,包括对 Transformer 和 Latent Diffusion 模型的介绍、技术学习资源、构建大型语言模型的实用指南、AI 市场的分析以及里程碑式研究成果的参考列表等。
2025-04-14
自媒体文章创作提示词教学
以下是关于自媒体文章创作提示词教学的相关内容: 一、宝玉日报中的提示词教学 1. 提示词四要素包括指令、上下文、输出格式、角色。明确表达需求,学会结构化 Prompt,能让 AI 效果立竿见影。 2. 相关链接: 二、工具教程:清影中的提示词优化原则 1. 强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。 2. 聚焦出现内容:尽量让提示集中在场景中应该出现的内容上。 3. 规避负面效果:在提示词中写明不需要的效果,保障视频生成质量。 写提示词的步骤: 1. 明确场景中的人物和冲突,这是推动场景发展的关键因素。 2. 对场景进行详细描述,包括地点、人物形象、任务动作等细节,使用生动的动词营造动态和戏剧化氛围。 3. 加强镜头语言,常用的镜头运动包括推、拉、摇、移、升、降等,每种镜头运动都有其特定作用和效果。 三、关于律师如何写好提示词用好 AI 1. 第一部分:说清楚本文要解决的问题、问题的背景以及可能导致的损失。 2. 第二部分:以案例引入,案例需改写自【基础材料】的【类案参考】部分,包括案号、案件事实经过、法院裁判结果、关键依据等与文章有关的要点。 3. 第三部分:对案例进行进一步分析,写明需要注意的关键点,分析可改写自【基础材料】的【问答结果及分析】部分,这部分不要给建议。 4. 第四部分:给出具体的操作建议,分为事前应注意事项、事中需要注意留存的证据、事后可以采取的补救措施三个部分,每个部分分别给出三条清晰具体的建议。 5. 第五部分:结语及对于本文作者的宣传。 文章结构要点: 1. 定义身份(边界),整体流程和所需资源描述。 2. 对所需资源及如何使用进行描述。 3. 对最终输出的结果进行描述。 注意事项: 1. 所有结论均应有相对应的案例基础,不能违反法律规定,不能编造。 2. 文字需要简练精准,有足够的信息密度,给出的建议必需具体细致且易于操作。
2025-04-12
文章AI度检测
文章原创度检测通常包括以下两大步骤: 1. 从互联网或文章库中定位相似内容: 将文章细分为小句或段落,便于逐个对照。 从每个细分内容中提炼关键词或词组,在网络或专业数据库中搜寻可能的相似内容。 2. 评估文章与搜索出的内容的相似程度评估原创度。 此外,文中还提到了一种将文章手搓成 Token 炸弹的有趣玩法,包括编码和解码的方法。例如,在特定网站进行操作,将按钮切换到“Decode”可解码,切换到“Encode”可编码,输入隐藏信息并选择表情或字母,然后复制生成的内容。由于 Unicode 的特性,隐藏信息跨平台时不会被格式化,但在微信发送时有 1.5 万个 token 左右的极限值,超过则无法发送。在爬虫和不同系统中也有不同的表现,如在 Windows 系统导出 txt 文件会出现乱码,而在 Mac 系统打开则基本正常。这种 Token 炸弹玩法还可以用于躲避信息审核员、传输信息或当作数字水印。
2025-04-12
文章配图的智能体或者软件
以下是为您整理的关于文章配图的智能体或软件的相关内容: 在《智变时代/全面理解机器智能与生成式 AI 加速的新工业革命》中提到,智能时代,智能应用会从有形界面消失,变成无所不在的助理或智能体,辅助甚至直接完成任务。文中还配有图 2.10:智能代理将改变企业组织架构。 在《XAIR:AI 智能体平台对决:腾讯元器与字节扣子的创新之路》中,个人实操案例部分提到为本篇文章配图的相关情况,但生成结果显示问题描述不够清楚。之后换提示词“那你给我生成搞笑图片吧,让人一看就有继续看下去的动力那种,需要一张公众号封面和一张配图”,得到了相应结果。同样的提示词,元器某应用也有生成。此外,文中还提到在搭建 bot 过程中存在工作流未成功触发导致访谈记录未成功存储入库的问题。
2025-04-11
文章风格提取
以下是关于文章风格提取的相关内容: 该提示词用于抽取不同风格文章的核心要素,抽取到的字段可作为 prompt,结合指定主题进行风格迁移。整体创作思路见文末 PDF。 具体使用方法为:拷贝文章风格提取提示词,输入给任意大模型,随后提供要抽取的文本。 已抽取的一些风格参考包括万维钢风格、史铁生《我与地坛》文风、李娟《我的阿勒泰》文风、许倬云《说中国》文风、鲁迅《狂人日记》文风、王小波《万寿寺》文风、飞书多维表格工作流自动化抽取等。 使用 DeepSeek V3 进行实验时,智能体地址为 https://www.coze.cn/s/VM9pUn9HdmA/ 。初级使用方法是输入公众号文章标题或内容,智能体会自动提取相关信息,默认风格是“炫彩”。高级使用方法需按照要求输入几个要素,如标题、副标题、分享封面、标签、风格等。
2025-04-11