2.7 有结构的回归模型

从之前的章节中可见,最近邻域和其他局部方法在直接对某个点处估计输出变量的做法中,总会遇到高维度的问题。在低维度的问题中,如果我们已知关于输入输出变量关系的某些假设,那么也存在更好的结构化的方法可以更有效地利用所知道的信息。本节会深入讨论这类方法的优势。

某个函数 $f$ 的 RSS 可写为:

$$\operatorname{RSS}(f) = \sum_{i=1}^N (y_i - f(x_i))^2 \tag{2.37}$$

使式 2.37 最小化的函数解有无穷多个1:只要一个函数 $\hat{f}$ 包含所有的训练样本点 $(x_i,y_i)$,就可以使 RSS 达到最小值 0。然而这样的函数可能在对训练样本之外的点没有任何预测能力2。如果对于空间中任意一点,都有多个对应的观测值 $(x_i,y_{i\ell})$,$\ell=1,\dots,N$,就不会有之前对预测能力的担心。此时,某个点 $x_i$ 上的拟合/预测值为所有相应的 $y_{i\ell}$ 的平均值(练习 2.6)。这与第 2.4 节 所讨论的类似,事实上,式 2.37 即为 18 页中的式 2.11 在有限样本上的写法。如果训练样本在空间中的分布足够密集而且每个输入变量点上都有重复的观测样本,则最近邻域或类似的局部方法会趋向于条件期望。

实际操作中的训练样本往往不会有那么充足,为了从式 2.37 的最小化得到可用的函数解,我们需要缩小可选函数的范围。训练样本可能并不决定如何对函数的形态做限制。一般会以引入参数 $f_\theta$ 的形式或在学习模型本身的设计中,直接或间接地加入约束。本书的重心即为这类有约束的函数解。但需要说明的是,即使对函数范围的约束可能使式 2.37 存在唯一解,这并没有真正解决了这个最小化的无穷多解的问题。因为可使得式 2.37 有唯一解的约束条件有无穷多个,只是从无法唯一确定函数解变成了无法唯一确定约束条件。

大多学习方法中的约束条件一般可以被描述为某种对“复杂度”的限制。通常意味着要求在输入变量空间上的小邻域中,函数有比较常规的形态。或者说,在一簇某种距离度量下彼此足够接近的输入变量点中,$\hat{f}$ 符合某类函数结构,比如为一个常数、呈线性关系或为一个低阶多项式。这样可以用取平均或线性/多项式拟合的方式在这个邻域中得到函数的估计值。

约束的强弱与约束的适用区域大小有关。适用区域越大,约束越强,函数解对约束条件的依赖程度越强。例如,在一个无穷小(infinitesimally small)的邻域上的约束等同于没有约束;在一个近乎于全局大小的邻域上的线性约束,几乎等同于一个全局的严格线性约束。

适用邻域的距离度量方法也是约束的一个特征。有些方法直接制定了距离度量和邻域的大小,比如核方法、局部回归和树类型模型。最近邻域方法基于函数在输入变量空间的局部为常数的假设,即在目标点 $x_0$ 附近函数的值为常数,所以可以用邻近样本输出变量的平均值来预测 $\hat{f}(x_0)$。有些方法隐含地定义了邻域的范围,比如样条(spline)方法、神经网络和基函数方法。第 5.4.1 节介绍的 等价核函数(equivalent kernel) 的概念(157 页,图 5.8),可用来说明任意输出变量为某种线性组合形式的方法所依赖的局部假设。在很多方法中,其等价核函数的形态与一些明确定义的加权核函数类似,在目标点达到最高峰,远离目标点后平滑地衰减。

最后要明确的是,任何在一个“各方同性的”(isotropic)小邻域上拟合局部函数的方法都会在高维度空间上遭遇维数灾难。从另一个方面说,所有解决高维度问题的方法都存在通常隐含或自适应的邻域大小的度量,使得邻域无法同时在所有的维度上都维持小边长。


本节练习

练习 2.6

Consider a regression problem with inputs x i and outputs y i , and a parameterized model f θ (x) to be fit by least squares. Show that if there are observations with tied or identical values of x, then the fit can be obtained from a reduced weighted least squares problem.


  1. 当对函数的类型不做任何限制时。 ↩︎

  2. 这是一个非常极端的过拟合的例子。 ↩︎

上一页
下一页