7.阿尔法狗与强化学习算法

时间 2021-06-12 标签人工智能、大数据与复杂系统（笔记）

7.1 人工智能的发展

老一代人工智能深蓝，使用穷举法战胜国际象棋大师
AlphaGo，围棋的可能性要远远超过国际象棋，因此挑战围棋的新一代人工智能的进化采用了这么长的时间。它没有使用穷举法，而是使用了类似决策树的算法，即机器学习。

机器学习区别于穷举法的地方是，它仅取出若干可能性，再去计算新的可能

7.2～7.4 强化学习算法

马尔可夫决策树
策略与估值函数
监督学习利用已有经验，促使机器快速学习，即有标准答案的学习
强化学习即使用结果来训练机器，使用估值网络来让机器学习更好的策略

7.5 AlphaGo的启示

人工智能潜力是无限的，阿尔法狗的案例可以运用到各个领域
人工智能的发挥作用是有条件的
我们的生存策略：
1）用人工智能提高自己的效率
2）数据思维
3）专业知识依然是第一生产力

7.6 无监督学习