Chat with Wiki - 如何限制AI Chat回答非法话题，敏感词过滤

Answer

以下是关于限制 AI Chat 回答非法话题和进行敏感词过滤的相关内容：

首先，以 ChatGPT 为例，其系统提示词会详细描述身份、角色、时间、记忆功能、DALLE 绘图功能、限制、调用方式、上网和浏览网页功能以及 function calling 和 python 代码等功能。

存在提示词越狱的情况，常见方式包括角色扮演、情境模拟、任务伪装、模式重构等，由此诞生了如 DAN 模式、越狱提示词、邪恶机器人以及 ChatGPT 的开发者模式等经典提示词。例如 DAN 模式，会让 AI 胡说八道、说脏话、讨论非法话题、限制级话题、侵犯隐私、规避版权法等，从而突破限制讨论多种话题。

对于防御措施，将所有复杂的 AI 系统简单抽象为提示词输入、AI 大模型、输出结果三部分，相应的防御措施也可分为这三个部分。

Content generated by AI large model, please carefully verify (powered by aily)

References

云中江树：智能对决：提示词攻防中的AI安全博弈

我们给一个具体的例子：ChatGPT的一个系统提示词.在它里面详细描述了它的整体的身份、角色、时间。他的这个记忆功能是怎么样去做的，它的DALLE绘图功能是怎么怎么做的，有哪些限制，怎么样调用的，它的上网功能，浏览网页的功能怎么调用的，function calling怎么做的，以及它的python代码等功能是怎么做的。第三种的话就是我们讲的提示词越狱。我们前面也讲了最经典的就是ChatGPT的这样的一个DAN模式。解禁它，让它可以说所有的脏话，讨论违法的这种问题，让它更像一个人，甚至能够让他做一些敏感内容。然后越狱一些常用的方式是什么样的？往往是一些角色扮演也好，或者说情境的模拟、任务的伪装、模式的重构等等。这方面也诞生了非常多经典的提示词，像DAN模式、越狱提示词、邪恶机器人以及ChatGPT的开发者模式，PPT中列了很多。还可以通过模式重构等方式实现越狱，时间有限我们就不详细展开。我们来简单的分析一下一个经典的越狱提示词——DAN，非常的狂野。这里面只展示部分，你可以看到他让我们的AI去干什么：可以胡说八道，可以尽情的说脏话，可以讨论非法话题，限制级的这种话题，可以去侵犯各种的隐私，规避各种的版权法等等。当你进行了这样的一些设定之后，你的AI就能突破许多限制，可以讨论许多话题。好了，以上介绍了各种的攻击的这种方法。接下来我们了解一下防御的话有哪些方式呢？我们把所有的这种AI系统，不管多复杂的这种AI系统进行一个简单的抽象，都可以抽象为这三部分。我们的提示词输入，然后给到我们的AI大模型，最后他给一个输出结果。因此在这个简单的这种抽象之上的话，我们可以把我们的防御措施也分为三个部分。