梯度下降法

导数

考虑一元函数$y=f(x)$，它的导数$f’(x)$或$\frac{dy}{dx}$代表了$f(x)$在点$x$处的斜率。对于一个很小的$\epsilon$，我们可以进行近似估计$f(x+\epsilon)=f(x)+\epsilon{f}’(x)$

因此导数对于最小化一个函数很有用，他告诉我们如何更改$x$来略微的改善$y$。

当$f’(x)=0$时，导数无法提供往哪个方向移动的信息。$f’(x)=0$的点称为临界点或驻点。又有三种类型：
极小点（Minimum）、极大点（Maximum）和鞍点（Saddle point）

临界点

梯度

对于多维输入的函数，我们需要用到偏导数的概念。

偏导数$\frac{\partial}{\partial{x}_i}f(\boldsymbol{x})$衡量的是，在点$\boldsymbol{x}$处只有$x_i$增加时$f(\boldsymbol{x})$是如何变化的。

梯度是包含所有偏导数的向量，记为$
\nabla_{\boldsymbol{x}}f(\boldsymbol{x})$

$\nabla_{\boldsymbol{x}}f(\boldsymbol{x})=(\frac{\partial{f}}{\partial{x}_1},\frac{\partial{f}}{\partial{x}_2},...,\frac{\partial{f}}{\partial{x}_n})$

多维的情况下，临界点是梯度中所有元素都为零的点。

证明梯度是下降最快的方向：

引入方向导数这一概念。

在$\boldsymbol{\mu}$方向的方向导数是函数$f$在$\boldsymbol{\mu}$方向的斜率，即$f(\boldsymbol{x}+\alpha\boldsymbol{\mu})$关于$\alpha$的导数。
$\frac{\partial}{\partial{\alpha}}f(\boldsymbol{x}+\alpha\boldsymbol{\mu})=\boldsymbol{\mu}^T\nabla_{\boldsymbol{x}}f(\boldsymbol{x})$
越大的方向导数，表示在这一方向的斜率越大，下降越快。（三维视觉上的体现也越陡）
$\underset{\boldsymbol{\mu},\boldsymbol{\mu}^T\boldsymbol{\mu}=1}{\min}\boldsymbol{\mu}^T\nabla_{\boldsymbol{x}}f(\boldsymbol{x})\\ =\underset{\boldsymbol{\mu},\boldsymbol{\mu}^T\boldsymbol{\mu}=1}{\min}||\boldsymbol{\mu}||_2||\nabla_{\boldsymbol{x}}f(\boldsymbol{x})||_2\cos\theta$
其中$||\boldsymbol{\mu}||_2=1$，梯度大小不与$\boldsymbol{\mu}$有关，所以等价于$\underset{\boldsymbol{\mu}}{\min}cos\theta$
这在$\boldsymbol{\mu}$和梯度方向相反时取得最小。

梯度下降建议更新的点为：

$\boldsymbol{x}'=\boldsymbol{x}-\epsilon\nabla_{\boldsymbol{x}}f(\boldsymbol{x})$

其中$\epsilon$被称为学习率