Chat with Wiki - 测试集

Answer

以下是关于测试集的相关信息：

Meta 开源视频生成模型的测试集包括 Movie Gen Video Bench 和 Audio Bench。Movie Gen Video Bench 是目前规模最大、最全面的视频生成评估基准，包含 1000 多个提示词，涵盖多种概念并有不同运动幅度的测试。Movie Gen Audio Bench 用于评估视频音效生成及视频配音能力，包含 527 个视频及相应提示。
2023 年度中文大模型基准测评采用多维度、多视角的综合性测评方案，由多轮开放问题 SuperCLUE-OPEN 和三大能力客观题 SuperCLUE-OPT 两部分测评结果组成。评测集共 4273 题，其中 1060 道多轮简答题（OPEN），3213 道客观选择题（OPT）。测评采用待评估模型与基准模型对比，由超级模型评判，计算胜和率作为 OPEN 得分，最终 OPEN 分=0.7OPEN 分+0.3OPT 分，并经过人工校验。
在嵌入（Embeddings）相关内容中，通过对用户和产品的所有评论进行平均获得嵌入，并在单独的测试集上评估其有用性，发现甚至在用户收到产品之前，就可以比随机预测更好地预测用户是否喜欢该产品。此外，嵌入在聚类和文本搜索任务中也有应用。

Content generated by AI large model, please carefully verify (powered by aily)

References

?宝玉日报「10月18日」✨✨✨✨✨✨✨✨1⃣️?Meta开源视频生成模型的测试集：Movie Gen Video Bench和Audio BenchMovie Gen Video Bench：目前规模最大、最全面的视频生成评估基准，包含1000多个提示词，涵盖人类活动、动物、自然景象、物理现象等概念，并有高、中、低运动幅度的测试。Movie Gen Audio Bench：评估视频音效生成及视频配音能力，包含527个视频及相应的音效和音乐提示。?[https://x.com/op7418/status/1847121108874809381](https://x.com/op7418/status/1847121108874809381)2⃣️?OpenAI Canvas新增历史版本对比功能基于服务端实现，可以查看项目的历史版本并进行对比，方便追踪和管理内容的变化。?[https://x.com/OpenAI/status/1847016089202610235](https://x.com/OpenAI/status/1847016089202610235)?[https://x.com/dotey/status/1847117889641292114](https://x.com/dotey/status/1847117889641292114)3⃣️?️OpenAI发布gpt-4o-audio-preview模型，支持异步语音交互

2023年度中文大模型基准测评报告.pdf

对大模型研发机构及应用开发者，为优化模型和场景应用提供了相对全面的视角。测评方法持续扩充C L U E测评组OPEN在一个确定的评估标准指导下，OPEN基准使用超级模型作为评判官，使用一个待评估模型与一个基准模型进行对比，让超级模型选出A模型好，B模型好，或平局。进而计算胜和率作为OPEN得分。为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4273题，其中1060道多轮简答题（OPEN），3213道客观选择题（OPT），以下为评测集与测评方法简述。评测反馈10万+题库被测模型A（如文心一言）VS多轮基线模型B（如GPT3.5）SuperCLUE总分不重复抽样5000原始评测集裁判模型（如GPT4-Turbo）胜(3分)、和(1分)、负(0分)OPEN分=胜和率=0.7*OPEN分+0.3*OPT分人工校验4273道评测题OPT

嵌入（Embeddings）

[User_and_product_embeddings.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/User_and_product_embeddings.ipynb)我们可以通过对他们的所有评论进行平均来获得用户嵌入。同样，我们可以通过对有关该产品的所有评论进行平均来获得产品嵌入。为了展示这种方法的实用性，我们使用50k评论的子集来覆盖每个用户和每个产品的更多评论。我们在单独的测试集上评估这些嵌入的有用性，我们将用户和产品嵌入的相似性绘制为评分的函数。有趣的是，基于这种方法，甚至在用户收到产品之前，我们就可以比随机预测更好地预测他们是否喜欢该产品。[heading3]聚类[content][Clustering.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/Clustering.ipynb)聚类是理解大量文本数据的一种方式。嵌入对于这项任务很有用，因为它们提供了每个文本的语义上有意义的向量表示。因此，以一种无监督的方式，聚类将揭示我们数据集中隐藏的分组。在这个例子中，我们发现了四个不同的集群：一个专注于狗食，一个专注于负面评论，两个专注于正面评论。[heading3]使用嵌入的文本搜索[content][Semantic_text_search_using_embeddings.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/Semantic_text_search_using_embeddings.ipynb)为了检索最相关的文档，我们使用查询的嵌入向量与每个文档之间的余弦相似度，并返回得分最高的文档。