在每个核函数
- 对于使用距离窗宽的 Epanechnikov 或三次核函数,
为其支撑集的半径。 - 对高斯核函数,
为其标准差。 -近邻中, 为最近邻域中的样本个数 ,通常也被表达为一个对整体训练样本大小的比例 。
在选择局部的窗宽时存在偏差方差权衡,这在局部平均中显而易见:
- 若窗宽较小,
为离 很近的少数几个点的 平均,其方差相对较大,几乎接近于单个观测值 的方差。其偏差相对较小,这是由于在这个小邻域上每个点 都接近于 。 - 若窗宽较大,相对于任意
, 的方差会小很多,这是由于它是更多样本的平均。但在平均中用到了距离 更远的 ,无法保证 与 足够解近,故偏差会比较高。
以上逻辑也适用于局部回归估计,以局部线性为例:随着窗宽缩小至零,估计结果趋近于一个对训练样本数据进行内插的分段线性函数1;随着窗宽无限变大,估计结果趋近于一个训练样本数据的全局的线性最小二乘拟合。
第五章中对选择平滑样条正则化参数的讨论,在这里同样适用,因此不再复述。局部回归平滑器是线性的估计;

本节练习
练习 6.7
Derive an expression for the leave-one-out cross-validated residual sum-of-squares for local polynomial regression.
练习 6.10
-
原文脚注 1:这是针对均匀分布的
;不规则分布的 会产生更差的结果。 ↩︎