【机器学习之数学】01 导数、偏导数、方向导数、梯度

最近学习《最优化导论》,遇到了“方向导数”这一律念,故对其及相关概念进行一遍梳理。并给出方向导数的推导过程。git

导数、偏导数和方向导数

  在一元可导函数 \(y = f(x)\) 中,导数 \(f'(x_0)\) 便是曲线上 \(x = x_0\) 处的斜率。按照定义求导数:
\[ f'(x) = \lim_{\Delta x \to 0}\frac{f(x+ \Delta x) - f(x)}{\Delta x} \tag{1} \]github

固然,咱们也能够经过各类求导法则来计算导数。机器学习

  对一个 \(R^m \to R\) 的多元可导函数,\(y=f(\bm x),\bm x = [x_1, x_2, ..., x_m]^\top\),咱们可以求的导数就多,如偏导数、方向导数,但归根到底,这些导数均可以认为是曲面上一点在某个方向的斜率。对于 \(m\le 2\) 的状况,咱们还可以经过坐标系很直观地了解;当 \(m > 2\) 时,咱们能够从向量空间的角度理解。函数

  偏导数是指 \(y=f(\bm x)\)\(\bm x = [x_1, x_2, ..., x_m]^\top\) 中的某一维进行求导,以下式(2)所示,对第 \(i\) 维求偏导数:
\[ \begin{split} \frac{\partial f(\bm x)}{\partial x_i} &= \frac{\partial f(x_1, x_2, ...,x_i,..., x_m)}{\partial x_i} \\ &= \lim_{\Delta x_i \to 0}\frac{f(x_1, x_2, ...,x_i + \Delta x_i,..., x_m) - f(x_1, x_2, ...,x_i,..., x_m)}{\Delta x_i} \end{split} \tag{2} \]学习

  方向导数就更好理解了,\(y=f(\bm x)\)\(\bm x = [x_1, x_2, ..., x_m]^\top\) 构成的向量空间 \(R^m\) 中某一方向 \(\bm d' = [\Delta x_1, \Delta x_2, ..., \Delta x_m]^\top\) 求导数,即获得该方向上的方向导数 \(\frac{\partial f(\bm x)}{\partial \bm d'}\),如式(3)所示:
\[ \begin{split} \frac{\partial f(\bm x)}{\partial \bm d'} &= \frac{\partial f(x_1, x_2,..., x_m)}{\partial x_i} \\ &= \lim_{\rho \to 0}\frac{f(x_1 + \Delta x_1, x_2 +\Delta x_2, ..., x_m +\Delta x_m) - f(x_1, x_2, ..., x_m)}{\rho} \\ &\rho = \sqrt{\Delta x_1^2 + \Delta x_2^2 + \cdots +\Delta x_m^2} \end{split} \tag{3} \]优化

  方向导数和偏导数是什么关系?对于多元可导函数 \(y=f(\bm x),\bm x = [x_1, x_2, ..., x_m]^\top\),在其上任一点 \(\bm x_i\),咱们均可以在向量空间 \(R^m\) 中的每个方向均可以计算一个方向导数,也就是超平面上点 \(\bm x_i\) 在每个方向切线的“斜率”。这里“每个方向”天然包括各个偏导数的方向。即偏导数构成的集合 A 是方向导数构成集合 B 的子集。spa

方向导数的推导过程

  \(f(\boldsymbol x)\) 是一个 \(R^m \to R\) 的函数,若是咱们要求 \(f(\boldsymbol x)\) 在任一点 \(\boldsymbol x_0 = [x_1^{0}, x_2^{0}, ..., x_m^{0}]^\top\) 点方向为 \(\boldsymbol d\) 的方向导数,那么按照定义,咱们获得以下公式:
\[ \frac{\partial f(\boldsymbol x)}{\partial \boldsymbol d}\mid_{\boldsymbol x = \boldsymbol x_0} = \lim_{\alpha \to 0}\frac{f(\boldsymbol x_0 + \alpha \boldsymbol d) - f(\boldsymbol x_0)}{\alpha} \tag{4} \].net

式(4)中,\(\boldsymbol d\) 为单位向量。公式(4)实际上是公式(3)的向量形式。(plus:公式(3)中 \(d'\) 不是单位向量,故加上 \('\) 来区分)htm

  设 \(g(\alpha) = f(x_0+\alpha \boldsymbol d)\),咱们注意到,\(g(0) = f(x_0)\),因此,式(4)又能够写为:
\[ \begin{split} \frac{\partial f(\boldsymbol x)}{\partial \boldsymbol d}\mid_{\boldsymbol x = \boldsymbol x_0} & = \lim_{\alpha \to 0}\frac{g(\alpha) - g(0)}{\alpha} \\ &= \frac{d g(\alpha)}{d \alpha}\mid_{\alpha = 0} \\ &= \frac{d f(\boldsymbol x_0+\alpha \boldsymbol d)}{d \alpha}|_{\alpha = 0} \\ &= \nabla f(\boldsymbol x_0)^\top\boldsymbol d \\ &= <\nabla f(\boldsymbol x_0), \boldsymbol d> \\ &= \boldsymbol d^\top\nabla f(\boldsymbol x_0) \end{split} \tag{5} \]

因此,
\[ \frac{\partial f(\boldsymbol x)}{\partial \boldsymbol d}= \boldsymbol d^\top\nabla f(\boldsymbol x) \tag{6} \]

方向导数和梯度

  首先明确,导数是一个值,表明切线的斜率,而梯度是一个向量最大方向导数的方向就是梯度表明的方向

  梯度\(f(\bm x)\) 对各个自变量\(\bm x = [x_1, x_2, ..., x_m]^\top\) 每一维分别求偏导数获得的向量。

  从式(5)和(6)中咱们也能够知道,当 \(\bm d = \frac{\nabla f(\bm x)}{\|\nabla f(\bm x)\|}\),方向导数最大。 最大方向导数的方向就是梯度,最大的方向导数就是梯度的欧几里德范数

References

如何直观形象的理解方向导数与梯度以及它们之间的关系?-- 马同窗
方向导数与梯度——学习笔记 -- Reclusiveman
[机器学习] ML重要概念:梯度(Gradient)与梯度降低法(Gradient Descent)-- WangBo_NLPR
Edwin K. P. Chong, Stanislaw H. Zak-An Introduction to Optimization, 4th Edition

相关博客

【机器学习之数学】01 导数、偏导数、方向导数、梯度
【机器学习之数学】02 梯度降低法、最速降低法、牛顿法、共轭方向法、拟牛顿法
【机器学习之数学】03 有约束的非线性优化问题——拉格朗日乘子法、KKT条件、投影法