Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

模型敏感词管控

Answer

在模型敏感词管控方面,对于 RAG 提示工程,我们对 Example 模块进行了重要调整。原先像“清朝末年有哪些政治事件?”这样的示例内容可能会无意引导模型触及政治敏感话题,违背初衷。为此,重新设计了示例内容,既能为模型提供清晰工作指导,又避免引发敏感议题讨论,同时进一步修改了示例流程,确保模型更理解自身任务。以下是进一步修正的提示词。接下来继续运行并查看结果。从表现看,成功控制住 GPT 模型讨论敏感话题的问题,但可能存在漏洞及提示词被攻击、诱骗的情况,这些留待后续解决。目前面对常规请求问题,GPT 模型应不会“东扯西扯”。

Content generated by AI large model, please carefully verify (powered by aily)

References

19. RAG 提示工程系列(一)

最终,我们对Example模块进行了重要的调整。原先的示例内容如“清朝末年有哪些政治事件?”可能会无意中引导模型触及政治敏感话题,这与我们的初衷相悖。为了避免这种情况,我们重新设计了示例内容,确保它们既能为模型提供清晰的工作指导,又不会引发对敏感议题的讨论。与此同时,我们也进一步修改了示例流程,以确保模型能够更加理解自己需要怎么做。以下是进一步修正的提示词:接下来让我们继续运行,查看结果:根据表现来看,我们成功控制住GPT模型讨论敏感话题的问题了。可能会有漏洞,也可能存在提示词被攻击、诱骗的情况,这些问题我们放到part2中慢慢解决。不过就目前来看,面对常规请求问题,GPT模型应该是不会跟你”东扯西扯“了。

RAG提示工程(一):基础概念

最终,我们对Example模块进行了重要的调整。原先的示例内容如“清朝末年有哪些政治事件?”可能会无意中引导模型触及政治敏感话题,这与我们的初衷相悖。为了避免这种情况,我们重新设计了示例内容,确保它们既能为模型提供清晰的工作指导,又不会引发对敏感议题的讨论。与此同时,我们也进一步修改了示例流程,以确保模型能够更加理解自己需要怎么做。以下是进一步修正的提示词:接下来让我们继续运行,查看结果:根据表现来看,我们成功控制住GPT模型讨论敏感话题的问题了。可能会有漏洞,也可能存在提示词被攻击、诱骗的情况,这些问题我们放到part2中慢慢解决。不过就目前来看,面对常规请求问题,GPT模型应该是不会跟你”东扯西扯“了。

教程:18_霜降

模型:majicmixRealistic_v6生成的尺寸和你的草稿图保持一致关键词和ControlNet参数都不一样都进行了调整,这里以第一张为例正关键词:(masterpiece,highres,high quality,high resolution),autumn,(frost flower:1.1),(the golden leaves are covered with frost flowers:1.2),the sky,high definition blurry background,clean and simple background,frosty grass,clean and simple background,8k,High detail,(detailed light:0.8),Ambient light,3d rendering,<lora:极光V1:0.4>,<lora:LORA_xueliang_guohuashanshui:0.6> guohuashanshui负关键词:NSFW,Negative,(worst quality:2),(low quality:2),(normal quality:2),watermark,ng_deepnegative_v1_75t,character,people,可以发中文的关键词:(杰作,高分辨率,高画质,高分辨率),秋天,(霜花:1.1),(金色的叶子上挂满了霜花:1.2),天空,高清模糊背景,干净简单的背景,霜花,干净简洁的背景,8k,高细节,(细节光:0.8),环境光,3D渲染,

Others are asking
ai落地场景:输入敏感词管控,脱敏怎么返回处理
很抱歉,目前知识库中没有关于输入敏感词管控及脱敏返回处理的相关内容。但一般来说,对于输入敏感词的管控和脱敏处理,常见的方法包括: 1. 建立敏感词库:事先整理出常见的敏感词列表。 2. 文本检测:在输入时对文本进行实时检测,判断是否包含敏感词。 3. 脱敏处理方式:可以采用替换、隐藏部分字符、加密等方法对敏感词进行处理。 4. 设置规则和策略:例如根据不同的场景和用户级别,确定不同的处理方式。 由于缺乏具体的详细信息和场景,以上只是一些常见的思路和方法,您可以根据实际情况进一步深入研究和设计具体的解决方案。
2024-09-10
输入询问ai模型敏感词管控
以下是关于 AI 模型敏感词管控的相关信息: 在给予 GPT 足够的时间进行“思考”的最佳实践中,通过测试数据发现,由于输入内容超过一定 token 会导致模型遗忘。因此,在输入大量文本或大量对话后,让模型进行自我检查的提示词习惯,有助于收获更准确的答案。 在应对提示词攻击的输入侧防护方面,可采用基于模型进行分类过滤的方法。这是“基于提示词过滤”的进阶版,能使用像 BERT 这样的小型文本分类模型或像 ChatGPT 这样的大型语言模型,自动分析和分类输入内容。其好处是无需提前知晓大量信息,就能灵活应对复杂场景和不同需求。通过学习和训练大量已知的安全威胁样本,建立分类模型来检测和过滤输入中的有害内容,这是很多大型语言模型服务如 OpenAI 的 ChatGPT、谷歌的 Bard、微软的 NewBing 等采用的主流防御策略,它们会检测用户输入内容,与核心大型语言模型协同工作,防止有害和敏感信息输入,确保输出内容合规。
2024-09-10
如何限制AI Chat回答非法话题,敏感词过滤
以下是关于限制 AI Chat 回答非法话题和进行敏感词过滤的相关内容: 首先,以 ChatGPT 为例,其系统提示词会详细描述身份、角色、时间、记忆功能、DALLE 绘图功能、限制、调用方式、上网和浏览网页功能以及 function calling 和 python 代码等功能。 存在提示词越狱的情况,常见方式包括角色扮演、情境模拟、任务伪装、模式重构等,由此诞生了如 DAN 模式、越狱提示词、邪恶机器人以及 ChatGPT 的开发者模式等经典提示词。例如 DAN 模式,会让 AI 胡说八道、说脏话、讨论非法话题、限制级话题、侵犯隐私、规避版权法等,从而突破限制讨论多种话题。 对于防御措施,将所有复杂的 AI 系统简单抽象为提示词输入、AI 大模型、输出结果三部分,相应的防御措施也可分为这三个部分。
2025-01-02
如何搭建 chatbox 敏感词库
很抱歉,目前知识库中没有关于如何搭建 chatbox 敏感词库的相关内容。但一般来说,搭建 chatbox 敏感词库可以考虑以下步骤: 1. 明确敏感词的范畴和类型,例如涉及政治、色情、暴力、辱骂等方面的词汇。 2. 收集相关的敏感词汇,可以通过参考行业标准、法律法规、用户反馈以及其他类似平台的经验。 3. 对收集到的敏感词进行分类和整理,以便于管理和更新。 4. 利用合适的技术和工具,将敏感词库集成到 chatbox 的系统中,实现实时检测和处理。 5. 定期更新和维护敏感词库,以适应不断变化的语言环境和用户需求。 以上是一个大致的搭建思路,具体的实施还需要根据您的实际情况和技术条件进行调整和优化。
2024-12-03
我想翻译一些日漫,我该如何提问才可以让得到的翻译结果更接近正常人说话,而不是简单的直译。还有当翻译时ai遇到比较敏感的话题通常会拒绝回答或者委婉的回答,我不想这样,
在让 AI 翻译日漫时,如果您希望得到更接近正常人说话的翻译结果,而非简单的直译,您可以这样提问:“请以符合自然语言表达习惯和逻辑的方式,为我翻译这段日漫内容,注重语言的流畅性和生动性,避免生硬的直译。” 关于 AI 遇到敏感话题可能拒绝回答或委婉回答的情况,如果您不想这样,需要注意的是,AI 遵循一定的道德和法律规范,对于确实不适合或不被允许处理的敏感内容,强制要求其回答是不可取且不恰当的。但如果您认为某些话题并非真正敏感,只是被误判,您可以尝试更清晰准确地描述相关内容,以减少误解的可能性。
2024-10-27
企业级别ai模型使用敏感词场景设计
很抱歉,目前知识库中没有关于企业级别 AI 模型使用敏感词场景设计的相关内容。但一般来说,在进行企业级别 AI 模型使用敏感词场景设计时,需要考虑以下几个方面: 1. 明确敏感词的定义和范围:根据企业的业务特点、法律法规要求以及道德规范,确定哪些词汇被视为敏感词。 2. 数据采集和预处理:在收集数据用于训练模型时,对包含敏感词的数据进行特殊处理或标记。 3. 模型训练中的考虑:调整模型的参数和算法,以降低对敏感词的过度依赖或错误理解。 4. 实时监测和更新:随着业务和社会环境的变化,及时更新敏感词列表,并对模型进行相应的调整和优化。 5. 人工审核与干预:对于模型输出中涉及敏感词的内容,设置人工审核环节,确保准确性和合规性。 希望以上思路能对您有所帮助,如果您需要更详细准确的设计方案,建议咨询专业的 AI 技术团队或相关专家。
2024-09-10
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14