原题:5 Things You Need to Know about Reinforcement Learning
原文:HTML
作者:Shweta Bhatt, Youplus
强化学习是当前最热门的研究主题之一,其普及程度正日益增长。让我们看一下有关RL的5件事。
强化学习(Reinforcement Learning,RL)是一种机器学习技术,它使代理(agent)能够在交互环境(environment)中通过反复试验使用来自其自身行为(actions)和经验(experiences)的反馈来学习。
虽然监督学习和强化学习都使用输入和输出之间的映射,但与监督学习不同,监督学习向代理提供的反馈是执行任务的正确动作集,强化学习使用奖励(rewards)和惩罚(punishment)作为积极和消极行为的信号。
与无监督学习相比,强化学习在目标方面有所不同。无监督学习的目标是发现数据点之间的相似性和差异性,而强化学习的目标是找到一个合适的行为模型,使代理的总累积奖励最大化。下图代表了强化学习模型的基本思想和要素。
描述RL问题要素的一些关键术语是:
强化学习问题可以通过游戏得到最好的解释。让我们以PacMan游戏为例,代理(PacMan)的目标是在躲避途中鬼魂的同时吃掉网格中的食物。网格世界是代理的交互环境。PacMan吃了食物会得到奖励,如果被鬼魂杀死会受到惩罚(输掉游戏)。这些状态是PacMan在网格世界中的位置,总的累积奖励是PacMan赢得了比赛。
为了建立一个最优策略,代理人面临着在探索新状态的同时最大化其回报的困境。这称为探索与开发的权衡(Exploration vs Exploitation trade-off)。
马 尔 可 夫 决 策 过 程 ( M a r k o v D e c i s i o n P r o c e s s e s , M D P s ) 马尔可夫决策过程(Markov Decision Processes,MDPs) 马尔可夫决策过程(MarkovDecisionProcesses,MDPs)是描述强化学习环境的数学框架,几乎所有的强化学习问题都可以用马尔可夫决策过程来形式化。一个MDP由一组有限的环境状态 S S S、每个状态下的一组可能的行为 A ( s ) A(s) A(s)、一个实值奖励函数 R ( s ) R(s) R(s) 和一个转移模型 P ( s ’ , s ∣ a ) P(s’, s | a) P(s’,s∣a) 组成。然而,现实世界的环境更有可能缺乏任何环境动力学的先验知识。无模型RL方法(Model-free RL)在这种情况下就派上用场了。
Q − l e a r n i n g Q-learning Q−learning 是一种常用的无模型方法,可用于构建一个自玩的PacMan代理。它围绕着更新 Q Q Q 值的概念, Q Q Q 值表示在状态 s s s 中进行动作 a 4 a4 a4 的值。值更新规则是 Q − l e a r n i n g Q-learning Q−learning 算法的核心。
Here’s a video of a Deep reinforcement learning PacMan agent
Q − l e a r n i n g Q-learning Q−learning 和 S A R S A ( S t a t e − A c t i o n − R e w a r d − S t a t e − A c t i o n ) SARSA(State-Action-Reward-State-Action) SARSA(State−Action−Reward−State−Action)是两种常用的无模型RL算法。他们的探索策略不同,而他们的开发策略是相似的。Q-learning是一种脱离策略的方法,在这种方法中,代理基于从另一个策略派生的动作a*来学习值,而SARSA是一种基于策略的方法,在这种方法中,它基于从其当前策略派生的当前动作来学习值。这两种方法实现起来很简单,但缺乏通用性,因为它们不能估计未知状态的值。
这可以通过更先进的算法来克服,例如使用神经网络来估计Q值的 D e e p Q − N e t w o r k s , D Q N s Deep\ Q-Networks, DQNs Deep Q−Networks,DQNs。但是 DQNs 只能处理离散的、低维的动作空间。 深 度 确 定 性 策 略 梯 度 ( D e e p D e t e r m i n i s t i c P o l i c y G r a d i e n t , D D P G ) 深度确定性策略梯度(Deep\ Deterministic\ Policy\ Gradient,DDPG) 深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是一种无模型、脱离策略、行动者-批评家( actor-critic)算法,它通过在高维连续动作空间中学习策略来解决这个问题。
由于RL需要大量数据,因此它最适用于容易获得模拟数据的领域,例如游戏玩法,机器人技术。
为了了解RL的基本概念:
要开始构建和测试RL代理: