Chat with Wiki - WayToAGI

以下是关于联网检索的 AI 的相关信息：存在能联网检索的 AI，它们通过连接互联网，实时搜索、筛选并整合所需数据，为用户提供更精准和个性化的信息。例如 ChatGPT Plus 用户现在可以开启 web browsing 功能实现联网。 Perplexity 结合了 ChatGPT 式的问答和普通搜索引擎的功能，允许用户指定希望聊天机器人在制定响应时搜索的源类型。 Bing Copilot 作为 AI 助手，旨在简化在线查询和浏览活动。还有如 You.com 和 Neeva AI 等搜索引擎，提供基于人工智能的定制搜索体验，并保持用户数据的私密性。常见的 AI 助手采用通过联网搜索获取实时信息。当用户开启联网搜索时，助手先将用户的请求发送至搜索引擎，再将返回内容与用户输入一起提供给大模型，最终生成回答。搜索引擎在此作为实时信息源，为大语言模型提供额外的上下文。如果希望 AI 能提供行业内部信息、或者研发的自有系统内的信息，AI 联网搜索的效果就很不好，甚至无法实现。用户可以自行搭建 AI 代理，将自有系统的数据通过 API 的形式接入 AI 助手，为大语言模型补充提供丰富的上下文信息。 MCP 协议解决了 AI 大模型与数据源集成碎片化的问题，提供统一标准，让开发者无需为每个数据源和 AI 助手单独开发连接器。通过 MCP，数据源和 AI 工具可建立安全双向连接，使 AI 在不同工具和数据集间流畅协作，实现更可持续的架构。在完成意图识别，确认需要联网检索之后，可以对用户的 query 进行改写（Rewrite）。Query Rewrite 的目的，是为了得到更高的检索召回率。Query Rewrite 可以通过设置提示词请求大模型完成，主要包括三个维度的改写：让提问有更精准/更专业的表达。比如用户搜索“ThinkAny”，改写后的 query 可以是“ThinkAny 是什么？”，再把问题翻译成英文“ What is ThinkAny ”，同一个问题，双语分别检索一次，得到更多的参考信息。补全上下文，做指代消解。比如用户搜索“ThinkAny 是什么？”，得到第一次回复后继续追问“它有什么特点？”，用历史对话内容作为上下文，把第二次 query 改写成“ThinkAny 有什么特点？”，指代消解后再去检索，会有更高的召回率。名词提取。比如用户搜索“ThinkAny 和 Perplexity 有什么区别？”，可以把“ThinkAny”和“Perplexity”两个名词提取出来，分别检索。提升 AI 搜索准确度，另一个关键措施就是做多信息源整合。结合上面提到的意图识别和问题改写，假设用户搜索“ThinkAny 和 Perplexity 的区别是什么？”，根据意图识别，判断需要联网，并且是信息查询类的搜索意图。在问题改写阶段，提取出来“ThinkAny”和“Perplexity”两个概念名词，除谷歌检索之外，还可以检索 Wikipedia/Twitter 等信息源，拿到百科词条内容和 Twitter 的用户反馈信息，可以更好地回答这个问题。AI 搜索最大的壁垒在于数据。内容由 AI 大模型生成，请仔细甄别。