Chat with Wiki - 如何通过提示词提高模型数据对比和筛选能力

Answer

以下是一些通过提示词提高模型数据对比和筛选能力的方法：

选择自定义提示词或预定义话题，在网站上使用如 Llama-3.1 8B Instruct 模型时，输入对话内容等待内容生成，若右边分析未刷新可在相关按钮间切换。由于归因聚类使用大模型，需稍作等待，最终结果可能因模型使用的温度等因素而不同。
在写提示词时不能依赖直觉和偷懒，要实话实说，补充详细信息以避免模型在边缘情况上犯错，这样也能提高数据质量。
在分类问题中，提示中的每个输入应分类到预定义类别之一。在提示末尾使用分隔符如“\n\n###\n\n”，选择映射到单个 token 的类，推理时指定 max_tokens=1，确保提示加完成不超过 2048 个 token，每班至少有 100 个例子，可指定 logprobs=5 获得类日志概率，用于微调的数据集应在结构和任务类型上与模型使用的数据集相似。例如在确保网站广告文字正确的案例中，可微调分类器，使用合适的分隔符和模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

有人破译了模型回答 9.9<9.11 的原因！（大佬把模型拆了，解剖神经元帮你解释

1.选择自定义提示词（当然你也可以选之前预定义的话题，也就是黑色的按钮）:PS:黑色的按钮会带着你做新手使用指引。然后左边会出现我们熟悉的chat界面，就不详细介绍这个界面。网站上提供的模型是Llama-3.1 8B Instruct:1.输入你的对话内容，等待左右两边的内容生成。如果这时右边的分析没刷新成上图的样子，在这两个按钮之间做做切换。由于它的归因聚类也是用了大模型，所以稍微等等，它也有个反应时间，过程中可能是这样的：最终你得到的结果可能和我不同，甚至可能是正确的答案，猜测是这个模型用的温度temprature不是最低，因此你会得到不同的结果。Activation Mode:你将获得整段的推理判断。Attribution Mode:你需要选中一个token，它会帮你分析对应的内容里最大的关联。1.从结果中，你会发现模型认知的9.11大概率是那个著名的时间，也可能是一个日期。这种情况下，模型就判断9月11日比9月3日大。而如果我们用一个显然不是日期的数字对比，比如9.31和9.4比，大概率答案是正确的：解释也回归到了数字范畴：它从侧面证明了LLM的基本原理：LLM是采用多头注意力机制预测下一个token的，因此训练数据中相关的语句如果越多，它们之间的相关性概率会越高。在这个案例里，9.11作为日期“概念”的权重显然比它是个数字“概念”的权重大。

Claude工程师聊prompt：不要把模型当小孩子、不需要角色扮演、实话实说

Alex Albert：我觉得主要是很多人都没有理解什么是提示词。很多人看到一个输入框时，会把它当成一个谷歌搜索框，输入几个关键词。人们总是想在提示中偷懒，用一些简单的捷径，以为一两行文字就能起到很大的作用。David Hershey：是的。在写提示词的时候不能依赖直觉、不能偷懒。Amanda Askell：偷懒就会导致模型在很多边缘情况上犯错。比如刚刚评价表格的数据集里混进了一张山羊的图片，模型就不知道该怎么办了，这甚至不是一张图表。一张山羊的图片作为图表有多好？而如果你补充一下，比如「如果发生一些奇怪的事情，你真的不确定该怎么办，就输出：不确定」。Zack Witten：而且你也通过这样做提高了你的数据质量，因为你找到了所有搞砸的例子。

微调（Fine-tuning）

在分类问题中，提示中的每个输入都应分类到预定义的类别之一。对于此类问题，我们建议：在提示末尾使用分隔符，例如\n\n###\n\n.当您最终向您的模型发出请求时，请记住还要附加此分隔符。选择映射到单个token的类。在推理时，请指定max_tokens=1，因为您只需要第一个token进行分类。确保提示+完成不超过2048个token，包括分隔符目标是每班至少~100个例子logprobs=5要获得类日志概率，您可以在使用模型时指定（对于5个类）确保用于微调的数据集在结构和任务类型上与模型将用于的数据集非常相似[heading4]案例研究：模型是否做出了不真实的陈述？[content]假设您希望确保您网站上的广告文字提及正确的产品和公司。换句话说，您要确保模型没有胡编乱造。您可能想要微调过滤掉不正确广告的分类器。数据集可能类似于以下内容：在上面的示例中，我们使用了包含公司名称、产品和相关广告的结构化输入。作为分隔符，我们使用\nSupported:它清楚地将提示与完成分开。对于足够数量的示例，分隔符不会产生太大影响（通常小于0.4%），只要它没有出现在提示或完成中即可。对于这个用例，我们微调了一个ada模型，因为它会更快、更便宜，而且性能将与更大的模型相当，因为它是一个分类任务。现在我们可以通过发出完成请求来查询我们的模型。哪个将返回yesor no。