本章介绍一类回归方法,通过在每个输入点 $x_0$ 处分别拟合不同但简单的模型,灵活地估计定义在 $\mathbb{R}^p$ 上的回归函数 $f(X)$。具体做法为只使用目标点 $x_0$ 附近的观测样本拟合简单模型,这样也使得到的估计函数 $\hat{f}(X)$ 在 $\mathbb{R}^p$ 上是平滑的。而这种局部化是通过一个权重函数或 核函数(kernel) $K_\lambda(x_0,x_i)$ 实现的,根据与 $x_0$ 点的距离给 $x_i$ 分配权重。核函数 $K_\lambda$ 通常由控制了邻域宽度的参数 $\lambda$ 索引。这种 基于记忆(memory-based) 的方法理论上只需要很少甚至不需要训练;所有的计算都在求值(拟合或预测)时进行。唯一需要从训练集中确定的参数为 $\lambda$。然而另一方面,此模型本身即为全部训练数据集。
本章同时会讨论更普适的基于核函数的方法类别,它们与其他章节中的结构化方法有紧密联系,同时也对密度函数估计和分类问题有帮助。
另外,不要将本章的方法与最近常见的“核方法(kernel methods)”混淆。本章中的核函数大多被用于局部化的工具。相对比,第 5.8、14.5.4、18.5 节和第 12 章中介绍了核方法,在那些场景中的核函数在高维(隐含)特征空间上计算内积,用于正则化非线性模型。在第 6.7 节的最后会介绍两种方法之间的联系。
内容概要
-
6.1 一维的核平滑器
第 192-198 页。利用核函数在局部的加权平均,可以得到一个平滑的函数拟合,但在边界附近会有较大偏差。局部回归可解决这种由于样本分布不均产生的偏差。回归的多项式级数越高,消除的偏差级数越大,但产生的方差越高。
-
6.2 核函数窗宽的选择
第 198-199 页。窗宽的选择背后是偏差方差权衡,选择方法与第五章中对平滑样条惩罚参数类似(交叉验证)。
-
6.3 ℝᵖ 上的局部回归
第 200-201 页。虽然从方法上很容易将局部回归推广到高维空间,但由于维数灾难,边界问题变得更严重。局部多项式回归可以自动消除边界上的偏差,但高于三维的数据也很难可视化,而可视化是平滑方法的主要目的。
-
6.4 ℝᵖ 上的结构化局部线性回归
第 201-205 页。对模型的结构加以限制,是处理维数灾难的一个方式。
-
6.5 局部似然和其他模型
第 205-208 页。只要可以对样本加权,任意的参数模型都可以用在局部模型中。局部拟合可以比较有效地探测到数据中的非线性关系。
-
6.6 核密度估计与分类问题
第 208-211 页。核密度估计是一种无参数估计方法,其思路与局部回归类似。基于密度函数的估计,以及极其简化的假设,朴素贝叶斯分类器却通常可以达到很好的效果。
-
6.7 径向基函数与核函数
第 212-214 页。基函数展开的方法的灵活性在于大量的基函数,核函数方法的灵活性在于局部性,径向基函数则结合了上述两者。
-
6.8 密度估计的混合模型
第 214-215 页。高斯混合模型也可被看作核方法的一种,可以得到单个样本服从每个成分分布的概率。虽然算法本身没有用到分类标签信息,但用阈值将样本根据其分布分组,所产生的分类错误率与线性对数几率回归一致。
-
6.9 关于计算量
第 216 页。