Chat with Wiki - 训练AI玩游戏

Answer

以下是关于训练 AI 玩游戏的相关信息：

训练 LLM 成为吐槽能手：用日本传统喜剧游戏“大喜利”（Oogiri）作为测试，挑战 AI 以吐槽高手的方式回应信息。建立包含超过 130000 个样本的多模态、多语言的 Oogiri-GO 数据集，通过特殊训练方法让 AI 学会在游戏中给出创意和幽默的回答，还设计了探索性自我完善过程以提高其能力，实验结果显示能显著提高 LLM 在多种 Oogiri 游戏类型中的表现。
自制 2048 小游戏理解算法对应用的性能影响：作者为调剂脑子学习 Pygame 并自制 5*5 的 2048 游戏，产生让 AI 帮玩的想法，与 GPT 交流后发现带入简单算法可让 AI 跑游戏，虽性能不如人但能直观感受算法对模型性能的提升，目前只做了基础逻辑优化，后续会继续改进。
游戏 AI 发展报告 2023：经由游戏训练的人工智能体不仅能在游戏中表现出色，还能应用于现实场景解决问题。未来游戏人工智能研究的重点是现实世界成果转化、游戏产业生产力革命和孵化通用人工智能。关注公众号（游戏哲学研究）并回复“游戏 AI 报告 2023”可下载 pdf 版本。

Content generated by AI large model, please carefully verify (powered by aily)

References

CLoT：训练LLM成为吐槽能手用日本传统喜剧游戏“大喜利”（Oogiri）作为测试，挑战AI以吐槽高手的方式回应信息。游戏中的挑战，AI需要理解给定图文信息来产生幽默搞笑的回答。Oogiri是一种需要参与者对给定的图像文做出意想不到且幽默的回应的创意游戏。测试包括图像到文本（I2T）、文本到文本（T2T）和图像&文本到文本（IT2T）具体方法：建立数据集：研究人员构建了一个多模态、多语言的Oogiri-GO数据集，包含超过130000个样本。训练AI：通过特殊的训练方法，让AI学会如何在游戏中给出创意和幽默的回答。CLoT首先将Oogiri-GO数据集转化为LoT导向的指令调整数据，以训练预训练的LLM达到一定的LoT幽默生成和辨别能力。然后，CLoT设计了一个探索性自我完善过程，鼓励LLM通过探索看似无关概念之间的平行关系来生成更多创造性的LoT数据，并选择高质量数据进行自我完善。实验结果：实验结果显示，CLoT能够显著提高LLM（如Qwen和CogVLM）在多种Oogiri游戏类型中的表现。具体来说，CLoT帮助LLM生成了更好的幽默内容。量化性能提升：与原始和CoT集成的LLM相比，CLoT集成的LLM在Oogiri游戏的多项选择和排名问题中取得了更高的性能。

[算法学习] 自制2048小游戏理解算法对应用的性能影响

前阵子写了一篇BP算法入门，由于公式太多，遭到了大家的一致批评~然后最近肝Transformer也有点伤，为了调剂下脑子，去稍微学了点Pygame，做点弹球游戏这种没什么用的东西玩一玩。偶然想到2048，之前玩的都是4*4的，有点不过瘾，于是想自己做一个5*5的，做出来以后又觉得自己玩太费时间了，就产生了让AI帮我玩的想法...人总是懒的。简单和GPT聊了下，发现其实还真可以，带入一些简单的算法，就可以让AI把游戏跑起来了，虽然性能还是不如人来玩，但也是可以慢慢进步的。玩了两天发现，其实这东西可以挺直观的感受算法给模型性能带来的提升，对初学者而言比看数学公式要友好不少，所以把它开源出来供大家体验。目前还没用到比较高级的算法，只是在基础逻辑上做了一些优化，后面我会继续做。效果视频⬆️

游戏：游戏AI发展报告2023：历史演变、技术革新与应用前景

经由游戏训练的人工智能体，不仅能够在游戏中得心应手，也可以走出虚拟世界，应用于现实的场景，帮助人们解决生活中的问题。现实世界的成果转化，游戏产业的生产力革命以及孵化通用人工智能，将会是未来一段时间里游戏人工智能研究所攻关和发展的重点。相信科技与游戏的结合，学界与产业界的交流互动，能够更好地阐发游戏的社会价值，探寻游戏弘扬和实现技术进步的新路径。关注公众号（游戏哲学研究），并回复“游戏AI报告2023”，可以下载pdf版本