【一帖破三棋】深度学习造就三棋棋王【长期更新】

2023/03/121866 浏览综合
不懂为什么贴吧审核不让我过[嗒啦啦4_叹气]
历时大概40天左右,由我一人完成的deep reinforcement learning-based无监督三棋棋王学习项目,终于给出了V0和V0.5版本的最强五人组,和胜率最高武将。
发此贴是希望能找到志同道合的朋友一起交流完善这个项目(纯娱乐),因为接下去要赶NIPS
ddl,同时还要玩游戏哈哈哈哈,这个项目可能暂时搁置一会会儿。
武将数据库分为2版本(1)基于最后一次内测v0;(2)基于最近一次官方更新v0.5。
注意:
武将不包含:
1. 召唤:张角,张宝,娄圭,刘晔,袁绍
2. 邹氏(睡觉好烦)
3. 个人感觉没什么太大用,主要技能代码又麻烦的的武将(目的极大减少训练cost):戏志才,黄月英,严颜(这个可能有用),典韦
技能不包括:撒豆成兵,召唤物机制和数值让我头秃,请教大佬启发)、暴戾无仁(写起来麻烦)
1. 先放结论:
两个版本胜率最高武将均为【荀彧】
V0版本影响胜率最高技能【风雨同舟】
V0.5版本由于该技能被移除,影响胜率最高技能为【魅huo】
V0胜率最高五人组【荀彧刘备董卓张辽庞德】有内测大佬评估一下这个吗哈哈[嗒啦啦4_害羞]
V0.5胜率最高五人组【卖个关子嘻嘻等我战报】
PS: “影响胜率最高技能”来自于取最高注意力值
2. 模型简介:
强化学习已被证实其强大效果于DOTA2 (OPEN FIVE), 王者农药(Ye et al, 2020; Gao et al., 2021,腾讯牛X!),因此我基本是复现了他们的模型,去除了一些视觉特征(vision features),再加了“棋盘化限制”,“回合制(这个两简单哈哈)”和“23技能挑选机制”,并结合DeepMind军旗项目提出的基于纳什平衡的决策,完成self-play RL
系统对62个英雄,选取的44个S技能进行了N=2.73*10^17次训练(V0训练了大概27天)
然后训练V0.5的时候为了获得一个简要的结果,只用了基于V0 结果的TOP20武将和TOP30技能训练
强化学习模型结构参考下图(懂得都懂)
TapTap
其中,去除了Mini Map,因为我把整个棋盘看作完整的local map
用的注意力机制是一个简单的self-att用于获取有关英雄2,3技能选取的key, query
注意:伤害计算公式是目前版本最大的BUG,我选取了网上能获取的三国志战略版伤害计算公式里最靠谱的一个:https://zhuanlan.zhihu.com/p/439300738
另外目前还有一个BUG是,训练不涉及A级战法(cost太大)
因此公测后需要收集数据(好累,机器有多智能,就有多人工[嗒啦啦4_抱住])完善伤害计算公式
因为利益相关,短期(半年)内不会开源代码,狗头保命,但可以分享给一起参与项目的小伙伴一起完善
(我这儿只有4块A100可以用)
所以对这个项目感兴趣的老哥们,或者单纯对我们项目结论感兴趣的大佬们,可以多多留言跟我交流呀!
另外有没有不去赛事服,第二天进的小伙伴们带我一手?(150人以上的大集体就算啦)
30
16
9