用深度学习预测专业棋手走法

时间 2019-12-06 标签深度学习预测专业棋手走法

摘要： 相信不少朋友都会玩国际象棋，那么有尝试过构建一个国际象棋引擎吗，一块儿来玩玩看吧！javascript

来源：Pexelshtml

我不擅长国际象棋。java

我父亲在我年幼的时候教过我，但我猜他是那些一直让他们的孩子获胜的爸爸之一。为了弥补世界上最受欢迎的游戏之一的技能的缺少，我作了任何数据科学爱好者会作的事情:创建一我的工智能来击败我没法击败的人。遗憾的是，它不如AlphaZero（甚至普通玩家）好。但我想看看国际象棋引擎在没有强化学习的状况下如何作，以及学习如何将深度学习模型部署到网络上。python

比赛在这里!git

获取数据github

FICS拥有一个包含3亿场比赛，我的走法，结果以及所涉玩家评级的数据库。我下载了全部在2012年的比赛，其中至少有一名玩家超过2000 ELO。这总计约97000场比赛，有730万个走子。胜利分配是：43000次白方胜利，40000次黑方胜利和14000次平局。web

极小极大算法算法

了解如何作一个深度学习象棋AI,我必须首先了解传统象棋AI程序。来自于极小极大算法。Minimax是“最小化最大损失”的缩写，是博弈论中决定零和博弈应如何进行的概念。数据库

Minimax一般用于两个玩家，其中一个玩家是最大化者，另外一个玩家是最小化者。机器人或使用此算法获胜的人假设他们是最大化者，而对手是最小化者。该算法还要求有一个棋盘评估函数，来衡量谁赢谁输。该数字介于-∞和∞之间。最大化者但愿最大化此值，而最小化者但愿最小化此值。这意味着当你，最大化者，有两个走法能够选择的时候，你将选择一个给你更高评估的那个，而最小化者将作相反的选择。这个游戏假设两个玩家都发挥最佳状态而且没有人犯任何错误。flask

来源：GlobalSoftwareSupport

以上面的GIF为例。你，最大化者（圆圈）有三个你能够选择的走法（从顶部开始）。你直接选择的走法取决于你的对手（方块）在走子后将选择的走法。可是你的对手直接选择的走法取决于你走子后选择的走法，依此类推，直到游戏结束。玩到游戏结束会占用大量的计算资源和时间，因此在上面的例子中，选择一个深度，2。若是最小化者（最左边的方块）选择左移，你有1和-1可供选择。你选择1，由于它会给你最高分。若是最小化者选择正确的走法，则选择0，由于它更高。如今是最小化者的回合，他们选择0由于这更低。这个游戏继续进行，一直进行到全部的走子都完成或你的思惟时间耗尽。对于个人国际象棋引擎来讲，假设白方是最大化者，而黑方是最小化者。若是引擎是白方，则算法决定哪一个分支将给出最高的最低分数，假设人们在每次走子时选择最低分数，反之亦然。为了得到更好的性能，该算法还能够与另外一种算法结合使用：alpha-beta剪枝。 Alpha-beta剪枝截止系统适用于决定是否应该搜索下一个分支。

深度学习架构

个人研究始于Erik Bernhardsson关于国际象棋深度学习的优秀文章。他讲述了他如何采用传统方法制做AI下棋并将其转换为使用神经网络做为引擎。

第一步是将棋盘转换为输入层的数字形式。我借用了Erik Bernhardsson的编码策略，其中棋盘是一个热编码，每个方块中都有一个棋子。这总计为768个元素数组（8 x 8 x 12，由于有12种棋子）。

Bernhardsson选择将输出图层设为1表示白方胜利，-1表示黑方胜利，0表示平局。他认为游戏中的每一个板位置都与结果有关。若是黑方赢了，每一个棋的位置都被训练成“支持黑方”，若是白方赢了，则“支持白方棋”。这容许网络返回介于-1和1之间的值，这将告诉你该位置是否更有可能致使白赢或黑赢。

我想用稍微不一样的评估函数来解决这个问题。网络是否可以看到不是白方仍是黑方获胜，而是可以看到哪一个走子将致使胜利？首先，我尝试将768元素的棋盘表示放入输出，其中一个位置是输入，下一个位置是输出。固然，这没有用，由于这把它变成了一个多分类问题。这致使引擎适当地选择合法走子时出现太多的错误，由于输出层中的全部768个元素能够是1或0。所以，我查阅了Barak Oshri和Nishith Khandwala的斯坦福大学论文《利用卷积神经网络预测国际象棋中的运动》，了解他们如何解决这个问题。他们训练了7个神经网络，其中1个网络是棋子选择器网络。这个网络决定哪个方格最有可能被移动。其余六个网络专门针对每个棋子类型,并决定将一个特定的棋子移动到哪里。若是棋子选择器选择了一个带有兵的方格，那么只有棋子神经网络会响应最有可能移动到的方格。

我从他们的想法中借鉴了两个卷积神经网络。第一个，从网络移动，将被训练成采用768元素数组表示并输出专业棋手移动的方格（在方块0和方块63之间）。第二个网络：移动到网络，将作一样的事情，除了输出层将是专业棋手移动到的地方。我没有考虑谁赢了，由于我认为训练数据中的全部移动都是相对最优的，不管最终结果如何。

我选择的架构是两个128卷积层，带有2x2滤波器，后面是两个1024神经元彻底链接层。我没有应用任何池，由于池提供位置不变性。图片左上角的猫就像图片右下角的猫同样。然而,对于国际象棋，,棋子国王的值是彻底不一样于车兵。隐藏图层的激活功能是RELU，而我将softmax应用到最后一层，所以我基本上获得一个几率分布，其中全部方格的几率总和加起来达到100％。

个人训练数据是训练集的600万个位置，其他130万个位置用于验证集。在训练结束时，我从网络上得到了34.8％的验证准确率，而且在转移到网络时得到了27.7％的验证准确率。这并不意味着70％的时间它没有学习合法的走子，这只意味着AI没有像验证数据中的专业玩家那样作出相同的举动。相比之下，Oshri和Khandwala的网络平均验证准确率为37％。

将深度学习与Minimax结合起来

由于如今这是一个分类问题，其中输出能够是64个类之一，这就留下了很大的错误空间。关于训练数据（来自高级别玩家的比赛）的一个警告是，优秀的棋手不多会玩到“将军”。他们知道何时输了，一般没有必要跟进整场比赛。这种缺少平衡的数据使得网络在最终游戏结束时很是混乱。它会选择车来移动，并试图沿对角线移动。若是失败，网络甚至会试图指挥对手的棋子（厚颜无耻！）。

为了解决这个问题，我命令输出的几率。而后，我使用python-chess库获取给定位置的全部合法走子的列表，并选择具备最高结果几率的合法走子。最后，我应用了一个带有惩罚的预测分数方程式，用于选择较不可能的走子：400（选择的走子指数之和）。名单上的合法走子越远，其预测得分就越低。例如，若是从网络移动的第一个索引（索引0）与移动到网络的第一个索引相结合是合法的，那么预测分数是400（0 + 0），这是最高可能分数：400。

在与材料分数结合使用数字后，我选择了400做为最大预测分数。材料分数是一个数字，能够判断所作的走子是否会捕获一个棋子。根据捕获的棋子，走子的总体得分将获得提高。我选择的材料价值以下：

兵:10,马:500,象:500,车:900,后:5000,王:50000。

这特别有助于残局。在将杀走子将是第二个最可能的合法行动且预测得分较低的状况下，国王的物质价值将超过它。兵的分数如此之低，由于网络在早期比赛中考虑得足够充分，因此若是它是战略举措，它将会采用兵。

而后我将这些分数结合起来，以返回给定任何潜在走子的棋盘的评估。我经过深度为3的minimax算法（使用alpha-beta修剪）提供了这个，并获得了一个能够将杀的可运行国际象棋引擎！

使用Flask和Heroku进行部署

我在Youtube上使用了Bluefever Software的指南，展现了如何经过向flask服务器发出AJAX请求来制做javascript国际象棋UI并经过它来路由个人引擎。我使用Heroku将python脚本部署到Web并将其链接到个人自定义域：Sayonb.com。

结论

虽然引擎的性能没有我但愿的那么好，可是我学到了不少关于AI的基础知识，将机器学习模型部署到web上，以及为何AlphaZero不使用卷积神经网络来玩游戏!

能够经过如下方式进行改进：

1.经过使用bigram模型LSTM将从网络移动和移动到网络中的时间序列组合在一块儿。这可能有助于将移出和移动到决策中，由于每一个目前都是独立接近的。

2.经过添加夺取的棋子的位置来改进棋子的赋值（夺取棋盘中心的兵比它在边缘时夺取更有利）。

3.在使用神经网络预测分数和子力分值之间切换，而不是在每一个节点使用二者。这能够容许更高的极小极大算法搜索深度。

4.考虑边缘状况，例如：减小孤立本身的兵的可能性，增长马靠近棋盘中心的可能性。

查看代码，或者在GitHub repo用本身的训练数据本身训练一个新网络！

原文连接