6.2 核函数窗宽的选择

在每个核函数 $K_\lambda$ 中,$\lambda$ 为控制窗宽的参数:

  • 对于使用距离窗宽的 Epanechnikov 或三次核函数,$\lambda$ 为其支撑集的半径。
  • 对高斯核函数,$\lambda$ 为其标准差。
  • $k$-近邻中,$\lambda$ 为最近邻域中的样本个数 $k$,通常也被表达为一个对整体训练样本大小的比例 $k/N$。

在选择局部的窗宽时存在偏差方差权衡,这在局部平均中显而易见:

  • 若窗宽较小,$\hat{f}(x_0)$ 为离 $x_0$ 很近的少数几个点的 $y_i$ 平均,其方差相对较大,几乎接近于单个观测值 $y_i$ 的方差。其偏差相对较小,这是由于在这个小邻域上每个点 $\operatorname{E}(y_i)=f(x_i)$ 都接近于 $f(x_0)$。
  • 若窗宽较大,相对于任意 $y_i$,$\hat{f}(x_0)$ 的方差会小很多,这是由于它是更多样本的平均。但在平均中用到了距离 $x_0$ 更远的 $x_i$,无法保证 $f(x_i)$ 与 $f(x_0)$ 足够解近,故偏差会比较高。

以上逻辑也适用于局部回归估计,以局部线性为例:随着窗宽缩小至零,估计结果趋近于一个对训练样本数据进行内插的分段线性函数1;随着窗宽无限变大,估计结果趋近于一个训练样本数据的全局的线性最小二乘拟合。

第五章中对选择平滑样条正则化参数的讨论,在这里同样适用,因此不再复述。局部回归平滑器是线性的估计;$\hat{\mathbf{f}}=\mathbf{S}_\lambda\mathbf{y}$ 中的平滑矩阵通过等价核(式 6.8)构建,其第 ij 个元素为 $\{\mathbf{S}_\lambda\}_{ij}=l_i(x_j)$。留一法的交叉验证非常容易实施(练习 6.7),类似地也可用一般性的交叉验证 $C_p$(练习 6.10),以及 $k$ 次交叉验证。有效自由度也是被定义为 $\operatorname{trace}(\mathbf{S}_\lambda)$,可被用来校准平滑程度。图 6.7 中比较了平滑样条和局部线性回归的等价核。局部回归平滑器的窗宽(比例)为 40%,对应的自由度 $\text{df}=\operatorname{trace}(\mathbf{S}_\lambda)=5.86$ 平滑样条被校准到相似的自由度,它们的等价核从数值上分成相似。

**图 6.7**:局部线性回归平滑器(三次核函数;橙色)和平滑样条(蓝色)的等价核,两者有相同的有效自由度。突起的位置即为目标点。
图 6.7:局部线性回归平滑器(三次核函数;橙色)和平滑样条(蓝色)的等价核,两者有相同的有效自由度。突起的位置即为目标点。

本节练习

练习 6.7

Derive an expression for the leave-one-out cross-validated residual sum-of-squares for local polynomial regression.

练习 6.10


  1. 原文脚注 1:这是针对均匀分布的 $x_i$;不规则分布的 $x_i$ 会产生更差的结果。 ↩︎

上一页
下一页