最大似然估计
最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值。
有一组含有$m$个样本的数据集$X= \{ \boldsymbol{x^{(1)}},\boldsymbol{x^{(2)}}, …,\boldsymbol{x^{(m)}}\}$,独立的由未知的真实数据分布$P_{data}(\boldsymbol{X})$产生。由于我们无法直接知道这个分布,由样本集上的经验分布$\hat{P}_{data}$近似。
令$P_{model}(\boldsymbol{x};\boldsymbol{\theta})$是我们在模型中假设数据应该满足的,由参数$\boldsymbol{\theta}$确定的概率模型。
对$\boldsymbol{\theta}$的最大似然估计被定义为
m个样本集对应的m个独立事件,假设它们的分布满足$P_{model}$,目标是求使得模型拟合最好的那个参数向量$\boldsymbol{\theta}$。即m个事件在模型中同时发生,使得概率最大的那个向量。
多个概率的乘积会因很多原因不便于计算。例如,产生数值下溢。对上式取对数,得到对数似然。
因为放缩代价函数时argmax不会改变,可以除以m得到期望,平均对数似然。
另一种解释!
将最大似然估计看作最小化训练集上的经验分布$\hat{P}_{data}$和模型分布$P_{model}$之间的差异(用KL散度度量)
左边一项仅涉及数据生成过程,和模型无关。这意味着当训练模型最小化KL散度时,我们只需要最小化
即交叉熵。