统计学习三要素

参考:统计学习方法 李航 ;这一小节可谓是整本书的核心吧

  • FOR 监督学习 *

方法 = 模型 + 策略 + 算法

notes:可以说构建一种统计学习方法就是确定具体的统计学习三要素

1.模型

学习怎样的模型是统计学习首要考虑的问题。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
模型的假设空间(hypothesis space):包含所有可能的条件概率分布或决策函数。

2.策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型

引入损失函数和风险函数的概念:

损失函数

损失函数(loss function):度量模型一次预测的好坏(度量预测错误的程度)。记 $ L(Y,f(X)) $

常用的损失函数有:
1. 0-1损失函数(0-1 loss function)
$$ L(X,f(x)) = \left\{\begin{matrix} 1 \ ,Y \neq f(X) \ 0 \ , Y = f(X) \end{matrix}\right. $$
2. 平方损失函数(quadratic loss function)
$$ L(X,f(x)) = (Y - f(x))^2 $$
3. 绝对损失函数(absolute loss function)
$$ L(X,f(x)) = |Y - f(x)| $$
4. 对数损失函数(logarithmic loss function)
$$ L(X,P(Y|X)) = -log P(Y|X) $$

风险函数

风险函数(risk function)或 期望损失(expected loss):度量平均意义下模型预测的好坏。

损失函数的期望:
$$ R_{exp}(f) = Ep [ L(Y,f(X)) ] = \int{X*Y} L(y,f(x))P(x,y)dxdy $$
这是理论上模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失,称为风险函数。

学习的目标就是选择期望风险最小的模型。

经验风险:
给定一个训练数据集
$$ T= {(x_1,y_1),(x_2,y_2), ... ,(x_N,yN)} $$
模型 $f(X)$ 关于训练数据集的平均损失称为经验风险(empirical risk)或 经验损失(empirical loss),记为 $R
{emp}$ :
$$ R{emp}(f) = \frac{1}{N} \sum{i=1}^{N} L(y_i , f(x_i)) $$

期望风险 $ R{exp}(f) $ 是模型关于联合分布的期望损失,经验风险 $ R{emp}(f) $是模型关于训练样本集的平均损失。
根据大数定律,当样本容量N趋近于无穷时,$ R{emp}(f) $ 趋近于 $ R{exp}(f) $ 。
所以一个自然的想法是用经验风险估计期望风险,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险往往不是太理想,需要对经验风险进行一定的矫正。这就关系到监督学习的两个策略:经验风险最小化和结构风险最小化。

经验风险最小化

$$ \min{f \in F} \frac{1}{N} \sum{i=1}^{N} L(y_i,f(x_i)) $$
其中,F是假设空间。
极大似然估计(maximum likelihood estimation)就是经验风险最小化的例子。

当样本容量较小时易产生“过拟合”现象。

结构风险最小化

结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。
$$ R{srm}(f) = \frac{1}{N} \sum{i=1}^{N} L(y_i,f(xi)) + \lambda J(f) $$
其中,$ J(f) $ 为模型的复杂度,是定义在假设空间上的泛函。
贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation)
$$ \min
{f \in F } \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) + \lambda J(f) $$

这样监督学习问题就变成了经验风险或结构风险的最优问题。这时经验风险或结构风险是最优化的目标函数。

3.算法

算法是指学习模型的具体计算方法。
统计学习的基本方法步骤:统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
统计学习可用使用已有的优化算法,但有时也需要开发独自的优化算法。

总结

虽说整篇都在总结吧,但是想自己总结一下:
0. 问题
1. 模型,称其为目标函数,可能有多个,目标函数组成的集合称其为“假设空间”。
2. 策略,如何从假设空间中选取最优模型?这就是策略需要干的事。定义损失函数,计算经验风险最小或结构风险最小。
3. 算法,最优化风险最小或结构风险最小。