Chat with Wiki - 问答对挖掘

Answer

以下是关于提升问答效果的技巧：

智能问答的原理和注意事项：在召回排序的逻辑中，文档总标题在相似度计算中权重较高。若文档总标题与用户问题吻合，相关片段在排序中更靠前，送入大模型的可能性更大。但正文与总标题相关性不高可能导致回答不准确、答非所问。
编写文档的注意事项：
- 文档的标题内容需与正文有强相关性。
- 不同的知识点尽量分段书写，合理控制段落长度。不同主题通过子标题区分，子标题下正文每个段落对应一个明确知识点，避免多个知识点混合，以保证每个片段主题鲜明，在用户提问相关问题时，该片段在召回排序中更靠前。同时，每个段落尽量不超过 500 字，过长段落可能在文档分割时被切割成多个片段，打散段落主题，导致最终召回的片段内容不全、答案不够全面。
对于经常被问到的内容，可写成问答对（FAQ）格式。问答对包含问题描述，用户提出相关问题时，包含该问答对的片段在召回排序中非常靠前，更可能被送入大模型，给出准确回答。样例参考可查看相关示例。

Content generated by AI large model, please carefully verify (powered by aily)

References

召回排序的逻辑里文档总标题（对应上文中的title）在相似度计算中占有较高的权重。如果某个片段携带的文档总标题和用户提出的问题很吻合，那么也会极大程度提高整个片段的语义相似度，这个片段在排序里会更加靠前，更有可能被送入大模型。所以如果正文内容（对应上文中的content）跟文档总标题内容相关性不高的话，就有可能出现回答不准确、答非所问的情况。[heading3]不同的知识点尽量分段书写、合理控制段落长度[content]不同的主题通过文档内的子标题（对应上文中的headings）进行区分，子标题下正文里每个段落最好对应一个明确的知识点，不要将多个知识点混合在同一个段落里。这样在文档分割过程中可以保证每个片段的主题更加鲜明，当用户问出和该主题相关的问题时这个片段在召回排序里就会更靠前。同时每个段落尽量不超过500字，如果段落过长在文档分割的过程中会可能会导致一个段落被切割成多个片段，打散了这个段落的主题，这样终召的片段内容可能不全、给出的答案不够全面。[heading3][heading3]对于经常被问到的内容，可以写成问答对（FAQ）的格式[content]问答对里已经包含了问题的描述，因此当用户提出相关问题时，包含该问答对的片段在召回排序里会非常靠前，更有可能被送入大模型，这样给出的答案也会是问答对里的准确回答。✅样例参考