2.6 统计模型、监督学习和函数逼近

统计学习的根本目标可以理解为寻找一个用输入变量来预测输出变量的隐含关系函数 $f(x)$ 的一个合理的近似。在第 2.4 节，从平方误差损失函数出发，我们推导出了量化输出变量的回归方程 $f(x)=\operatorname{E}(Y|X=x)$。最近邻域类型的方法可以视为在直接地估计这个条件期望，但我们也看到了它存在下面两方面缺陷：

如果输入变量空间的维度高，那么最近邻域有可能距离目标点不够集中，从而产生较大误差；
如果对关系函数存在已知的结构假设，则这个信息可以用来降低估计中的偏差和方差。

本书中有很多关于 $f(x)$ 的不同模型，其中的很多都是为了解决维数灾难问题。本节中我们会介绍一个适用于这些预测模型的基础理论框架。

2.6.1 联合概率分布 $\operatorname{Pr}(X,Y)$ 的统计模型

假设真实的数据生成模型为：

$$ Y = f(X) + \varepsilon \tag{2.29}$$

这里的随机误差项 $\varepsilon$ 满足 $\operatorname{E}(\varepsilon)=0$、与 $X$ 独立。注意到在这个模型中¹， $f(x)=\operatorname{E}(Y|X=x)$，事实上，$X$ 对条件概率 $\operatorname{Pr}(Y|X)$ 的影响完全体现在对条件均值 $f(x)$ 的影响。

加性误差模型²是对现实一个有用的近似。在大多数场景中，输入输出变量 $(X,Y)$ 基本不会维持一个确定的函数关系 $Y=f(X)$。通常 $Y$ 中会包含未捕捉到的变量，比如测量误差。加性误差模型假设式 2.29 中的误差项 $\varepsilon$ 包含了所有导致隐含确定关系 $f(X)$ 与实际观测值 $Y$ 之间差异的因素。

某些场景中也确实存在确定关系的情况。在机器学习领域中的一些分类问题即如此，例如有些模型的任务可以想象为在 $\mathbb{R}^p$ 空间的上色。训练集为空间上已经上过色的点 $(x_i,g_i)$，目标为给空间上的任意点上色。这个例子中每个空间上的点对应的颜色是确定的，训练集中的有限样本 $x$ 的位置是模型结果随机性的来源。我们不会深入讨论，但我们稍后会证明包含误差的模型也同样可以处理这类问题。

严格来说，等式 2.29 中的误差项的独立同分布的假设并不是必须的，但在我们对平法误差取平均获得 EPE 准则时，实际上默认了独立同分布的假设。若数据的生成模型如此，则最小化平法误差是很自然的模型拟合标准，例如式 2.1 所采用的方法。另外，对函数形式做一些简单的修改可以放松误差项独立同分布的假设。例如，我们可以定义 $\operatorname{Var}(Y|X=x)=\sigma(x)$，使得 $Y$ 的条件期望和方差均依赖于 $X$。一般来说，条件概率分布 $\operatorname{Pr}(Y|X)$ 可以以很复杂的方式依赖于 $X$，只是在加性误差模型不存在这种情况。

以上的讨论集中在量化输出变量的模型。在分类输出变量的模型中一般不采用加性误差模型，这时的目标方程 $p(X)$ 为条件概率 $\operatorname{Pr}(G|X)$，常常会直接对这个密度函数建立模型。例如对于一个二分类的样本，通常会假设真实的数据生成过程为很多独立的伯努利分布，其某个结果发生的概率为 $p(X)$，另一个结果发生的概率为 $1-p(X)$。因此，若将 $G$ 按照 0-1 编码后得到量化的输出变量 $Y$，则 $\operatorname{E}(Y|X=x)=p(x)$。而且条件方差也同样会依赖于 $x$：$\operatorname{Var}(Y|X=x)=p(x)[1−p(x)]$。

2.6.2 监督学习

在引入更多来自统计学的理论术语前，我们先从机器学习的视角来描述一下函数拟合的范式。简单起见，假设加性误差模型，$Y=f(X)+\varepsilon$，为一个合理的假设。监督学习尝试通过一个“老师”从实例来习得 $f$。具体来说，首先观测输入输出变量空间，获得一个观测的训练样本集 $\mathcal{T}=\{(x_i,y_i),i=1,\dots,N\}$。然后将输入变量的值 $x_i$ 输入到一个设计的程序中，即一个“学习算法”中，会返回一个对应的输出结果 $\hat{f}(x_i)$。学习算法有根据真实的输出变量和算法返回的输出变量的差异 $y_i-\hat{f}(x_i)$ 而自我修正的机制。这样的过程即为 照猫画虎（learning by example）。我们希望设计的学习算法，可以在这个过程结束后能够足够准确地拟合出数据生成过程，而且在面对新的样本时也仍然有预测能力。

2.6.3 函数逼近

上文中的学习范式启发了监督学习问题中的机器学习领域（类比人类的推理过程）和神经网络领域（类比人脑的工作流程）的研究。而从应用数学和统计学出发，是用函数逼近和估计的角度来理解这个过程的。假设观测值 $\{(x_i,y_i)\}$ 为 $(p+1)$ 维度欧式空间中的点。函数 $f(x)$ 的定义域为 $p$ 维度的输入向量空间，观测值存在这样的模型关系 $y_i=f(x_i)+\varepsilon_i$。这里以方便起见，假设定义域为 $\mathbb{R}^p$，$p$ 维度的欧式空间，然而通常这个输入向量可以是很多类型的变量的混杂。我们的目标是利用观测样本集合 $\mathcal{T}$，在 $\mathbb{R}^p$ 的某个区域中的任意点 $x$ 上得到一个合理的 $f(x)$ 的近似值。虽然没有学习范式听起来那样高大上，但以函数逼近来处理监督学习问题可以让我们利用欧式空间上的几何概念和概率推断中的数学思想。本书采取的也是这种思路。

我们遇到的很多近似都有一组参数 $\theta$，可以根据样本数据集而调整。例如线性模型中 $f(x)=x^T\beta$ 的参数为 $\theta=\beta$。另一类有效的近似方法可写为线性基函数拓展：

$$ f_\theta(x) = \sum_{k=1}^K h_k(x)\theta_k \tag{2.30}$$

其中 $h_k$ 为一组对输入向量 $x$ 的函数或转换。多项式拓展和三角函数拓展是两个经典的例子，其基函数 $h_k$ 为 $x_1^2$，$x_1x_2^2$，$cos(x_1)$，等等。我们也会见到非线性的拓展，例如神经网络模型中常见的“S 函数”（sigmoid function）。

$$ h_k(x) = \frac{1}{1 + \exp(-x^T\beta)} \tag{2.31}$$

我们可以使用最小二乘法来估计 $f_\theta$ 中的参数 $\theta$，类似于线性模型，对残差平方和做最小化：

$$\operatorname{RSS}(\theta) = \sum_{i=1}^N (y_i - f_\theta(x_i))^2 \tag{2.32}$$

其中 $\operatorname{RSS}$ 为关于 $\theta$ 的函数。对于加性误差模型，这看起来是一个合理的拟合标准。以函数逼近的角度，参数化的函数可被看作是 $p+1$ 维度空间上的一个曲面，观测到的样本是被随机扰动后离散在这个曲面周围的点。输入空间维度为 $p=2$ 时比较容易从图形上理解，如图 2.10 所示，纵向的坐标系为输出变量 $y$，扰动也体现在纵坐标方向。以样本点与曲面之间纵向距离的平方和 $\operatorname{RSS}(\theta)$ 来衡量曲面与训练集的距离，我们将使得曲面与训练集之间距离最小的向量 $\hat{\theta}$ 作为参数的估计值。

**图 2.10**：二元输入变量函数的最小二乘拟合，通过最小化纵向误差平方和来选取 $f_\theta(x)$ 的参数。

对线性模型，这个最小化问题存在简单的解析解（closed form solution）。如果基函数本身没有其他隐含参数，则基函数拓展方法也存在解析解。在其他模型中，这个解通常要通过迭代过程（interative methods）或数值优化（numerical optimization）。

最小二乘法非常便利，但它并不是唯一的计算标准，在某些场景下甚至不适合使用。一个适用性更广泛的方法为 最大似然（maximum likelihood） 估计。假设一个随机样本 $y_i,i=1,\dots,N$ 服从参数为 $\theta$ 的密度函数 $\operatorname{Pr}_\theta(y)$。观测样本的对数概率（log-probability）为

$$L(\theta) = \sum_{i=1}^N \log \operatorname{Pr}_\theta(y_i) \tag{2.33}$$

最大似然方法的原理是认为使得观测样本的概率最大的参数值是合理的 $\theta$ 估计值。加性误差模型 $Y=f_\theta(X)+\varepsilon$，$\varepsilon\sim\mathcal{N}(0,\sigma^2)$ 的最小二乘法估计等价于建立在下面这个条件似然函数上的最大似然法：

$$\operatorname{Pr}(Y|X, \theta) = \mathcal{N}(f_\theta(X), \sigma^2) \tag{2.34}$$

尽管附加的正态分布假设看似限制更强，但结果是一致的。样本的对数概率函数为：

$$L(\theta) = -\frac{N}{2} \log(2\pi) - N \log \sigma - \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i - f_\theta(x_i))^2 \tag{2.35}$$

其中唯一与 $\theta$ 有关的为最后一项，其与 $\operatorname{RSS}(\theta)$ 的表达式只多了一个负值的乘子。

一个更有趣的例子是分类输出变量 $G$ 的回归方程 $\operatorname{Pr}(G|X)$ 的多项分布似然函数。假设给定 $X$，不同分类的条件概率有函数形式 $\operatorname{Pr}(G=\mathcal{G}_k|X=x)=p_{k,\theta}(x)$，$k=1,\dots,K$，函数的参数向量为 $\theta$。则对数似然函数为：

$$L(\theta) = \sum_{i=1}^N \log p_{g_i, \theta} (x_i) \tag{2.36}$$

这也是交叉熵（cross-entropy）的定义式。最大化这个目标函数所得到的 $\theta$，是使得训练样本最符合这个概率分布模型的参数估计。

$$\begin{align} \operatorname{E}[Y|X=x] &=\operatorname{E}(f(X)+\varepsilon|X=x)\\ &=\operatorname{E}(f(x)|X=x)+\operatorname{E}(\varepsilon|X=x)\\ &=f(x) \end{align}$$ ↩︎
加性误差模型（additive error model)，即误差与隐含生成方程为相加的关系，如等式 2.29。 ↩︎