【一帖破三棋】深度学习造就三棋棋王【长期更新】

2023/03/121883 浏览综合

不懂为什么贴吧审核不让我过 [嗒啦啦4_叹气]

历时大概40天左右，由我一人完成的deep reinforcement learning-based无监督三棋棋王学习项目，终于给出了V0和V0.5版本的最强五人组，和胜率最高武将。

发此贴是希望能找到志同道合的朋友一起交流完善这个项目（纯娱乐），因为接下去要赶NIPS

ddl，同时还要玩游戏哈哈哈哈，这个项目可能暂时搁置一会会儿。

武将数据库分为2版本（1）基于最后一次内测v0；（2）基于最近一次官方更新v0.5。

注意：

武将不包含：

1. 召唤：张角，张宝，娄圭，刘晔，袁绍

2. 邹氏（睡觉好烦）

3. 个人感觉没什么太大用，主要技能代码又麻烦的的武将（目的极大减少训练cost）：戏志才，黄月英，严颜（这个可能有用），典韦

技能不包括：撒豆成兵，召唤物机制和数值让我头秃，请教大佬启发）、暴戾无仁(写起来麻烦)

1. 先放结论：

两个版本胜率最高武将均为【荀彧】

V0版本影响胜率最高技能【风雨同舟】

V0.5版本由于该技能被移除，影响胜率最高技能为【魅huo】

V0胜率最高五人组【荀彧刘备董卓张辽庞德】有内测大佬评估一下这个吗哈哈 [嗒啦啦4_害羞]

V0.5胜率最高五人组【卖个关子嘻嘻等我战报】

PS: “影响胜率最高技能”来自于取最高注意力值

2. 模型简介：

强化学习已被证实其强大效果于DOTA2 (OPEN FIVE), 王者农药（Ye et al, 2020; Gao et al., 2021，腾讯牛X！），因此我基本是复现了他们的模型，去除了一些视觉特征（vision features），再加了“棋盘化限制”，“回合制（这个两简单哈哈）”和“23技能挑选机制”，并结合DeepMind军旗项目提出的基于纳什平衡的决策，完成self-play RL

系统对62个英雄，选取的44个S技能进行了N=2.73*10^17次训练（V0训练了大概27天）

然后训练V0.5的时候为了获得一个简要的结果，只用了基于V0 结果的TOP20武将和TOP30技能训练

强化学习模型结构参考下图（懂得都懂）