以下是关于训练 AI 玩游戏的相关信息:
CLoT:训练LLM成为吐槽能手用日本传统喜剧游戏“大喜利”(Oogiri)作为测试,挑战AI以吐槽高手的方式回应信息。游戏中的挑战,AI需要理解给定图文信息来产生幽默搞笑的回答。Oogiri是一种需要参与者对给定的图像文做出意想不到且幽默的回应的创意游戏。测试包括图像到文本(I2T)、文本到文本(T2T)和图像&文本到文本(IT2T)具体方法:建立数据集:研究人员构建了一个多模态、多语言的Oogiri-GO数据集,包含超过130000个样本。训练AI:通过特殊的训练方法,让AI学会如何在游戏中给出创意和幽默的回答。CLoT首先将Oogiri-GO数据集转化为LoT导向的指令调整数据,以训练预训练的LLM达到一定的LoT幽默生成和辨别能力。然后,CLoT设计了一个探索性自我完善过程,鼓励LLM通过探索看似无关概念之间的平行关系来生成更多创造性的LoT数据,并选择高质量数据进行自我完善。实验结果:实验结果显示,CLoT能够显著提高LLM(如Qwen和CogVLM)在多种Oogiri游戏类型中的表现。具体来说,CLoT帮助LLM生成了更好的幽默内容。量化性能提升:与原始和CoT集成的LLM相比,CLoT集成的LLM在Oogiri游戏的多项选择和排名问题中取得了更高的性能。
前阵子写了一篇BP算法入门,由于公式太多,遭到了大家的一致批评~然后最近肝Transformer也有点伤,为了调剂下脑子,去稍微学了点Pygame,做点弹球游戏这种没什么用的东西玩一玩。偶然想到2048,之前玩的都是4*4的,有点不过瘾,于是想自己做一个5*5的,做出来以后又觉得自己玩太费时间了,就产生了让AI帮我玩的想法...人总是懒的。简单和GPT聊了下,发现其实还真可以,带入一些简单的算法,就可以让AI把游戏跑起来了,虽然性能还是不如人来玩,但也是可以慢慢进步的。玩了两天发现,其实这东西可以挺直观的感受算法给模型性能带来的提升,对初学者而言比看数学公式要友好不少,所以把它开源出来供大家体验。目前还没用到比较高级的算法,只是在基础逻辑上做了一些优化,后面我会继续做。效果视频⬆️
经由游戏训练的人工智能体,不仅能够在游戏中得心应手,也可以走出虚拟世界,应用于现实的场景,帮助人们解决生活中的问题。现实世界的成果转化,游戏产业的生产力革命以及孵化通用人工智能,将会是未来一段时间里游戏人工智能研究所攻关和发展的重点。相信科技与游戏的结合,学界与产业界的交流互动,能够更好地阐发游戏的社会价值,探寻游戏弘扬和实现技术进步的新路径。关注公众号(游戏哲学研究),并回复“游戏AI报告2023”,可以下载pdf版本