老一代人工智能深蓝,使用穷举法战胜国际象棋大师
AlphaGo,围棋的可能性要远远超过国际象棋,因此挑战围棋的新一代人工智能的进化采用了这么长的时间。它没有使用穷举法,而是使用了类似决策树的算法,即机器学习。
马尔可夫决策树
策略与估值函数
监督学习利用已有经验,促使机器快速学习,即有标准答案的学习
强化学习即使用结果来训练机器,使用估值网络来让机器学习更好的策略