在第二章中,简单介绍了 k 最近邻的平均作为回归函数
其中的
![**图 6.1**:图中的 100 对 $x_i$ 和 $y_i$ 是根据蓝色曲线和高斯噪声随机生成的:$Y=\sin(4X)+\varepsilon$,$X\sim U[0,1]$,$\varepsilon\sim\mathcal{N}(0,1/3)$。左图的绿色曲线为 30-近邻的移动平均平滑结果。红色实心点为拟合值 $\hat{f}(x_0)$,红色圆圈为计算 $x_0$ 点所用到的样本点。黄色高亮区域为赋予样本点的权重。右图中绿色曲线为核函数加权平均,核函数为 Epanechnikov 函数,(半)窗宽 $\lambda=0.2$。](https://public.guansong.wang/eslii/ch06/eslii_fig_06_01.png)
在此例中使用了 30 个近邻点,即在
这种不连续性不美观也不必要。与其给邻域中的所有点赋予相同的权重,可以使权重随着点与目标点距离的增加而平滑地衰减至零。图 6.1 的右边展示了用 Nadaraya-Watson 加权平均的一个例子:
其中 Epanechnikov 二次核函数为:
其中
图 6.1 右边可见拟合函数是连续的并且非常平滑。当目标点从左向右移动,新的近邻点在刚进入邻域时的权重为零,然后再缓慢地增加(练习 6.1)。
在上面的例子中核函数拟合使用的是距离的窗宽(window size)
在式 6.3 中,
在实际操作中,需要注意几个细节:
- 需要确定平滑参数
,从而确定局部邻域的宽度。较大的 会产生较小的方差(用更多的样本计算平均数),但会有较大的偏差(因为隐含的假设是真实函数在邻域上是个常数)。 - 距离的窗宽(
为常数)趋向于保持估计值的偏差为常数,但方差与局部样本密度成反比。最近邻域的窗宽与之相反,其方差保持为常数,而偏差绝对值与局部样本密度成反比。 - 在最近邻域中需要处理在
值上有多个样本点的情况。多于大多数平滑方法,可以简单地将输入变量相同的多个样本点缩减为一个平均样本,然后将新的样本附加上权重 (用来与核函数权重相乘)。 - 这就引入了另一个更一般性的问题:样本权重
。在计算加权平均的实际操作中,简单地将样本权重与核函数权重相乘。在最近邻域中,现可自然地限制邻域中的样本权重总和( )为 。在出现权重溢出的情况时(即当邻域中边界点的权重 会使权重总和大于 ),可只纳入这个样本点的一部分。 - 在边界会存在问题。在边界附近,距离定义的邻域趋向于包含更少的点,而最近邻域趋向于变得更大。
- Epanechnikov 核函数的支撑集1(support)是紧致的(compact)2,这对最近邻域的窗宽是必要的条件。另一个常用的紧致的核函数基于三次函数:
这个函数在顶端比较平(类似于最近邻域的等权重)并且在其支撑集的边界是可微的。高斯密度函数 是一个常见的非紧致核函数,其标准差控制着窗宽大小。图 6.2 中对比了三个核函数。

6.1.1 局部线性回归
上述中从基础的移动平均(最近邻域)进展到利用核函数的平滑变动的加权平均。但如图 6.3 的左边所示,平滑的核函数拟合仍存在问题。在定义域的边界处,由于核函数的不对称性,局部加权平均可能偏差很大。在局部用线性拟合代替常数,可以确切地去除一阶的偏差,如图 6.3 的右边所示。如果

在每个目标点
则估计值为
定义一个取值为向量的函数
式 6.8 是一个局部线性回归估计的显式表达式;式 6.9 强调了一个性质,即其估计对

图 6.4 演示了局部线性回归对等价核的作用。历史上是通过修改核函数来修正 Nadaraya-Watson 和其他局部平均核函数方法中的偏差。基于渐进均方差的理论做出的这种修正,不仅难以实施,并且在有限样本上只是一个近似。局部线性回归自动地调整核权重以恰好修正一阶的偏差,这种性质也被称为 核函数木工(kernel carpentry)。利用局部回归的线性性质和真实函数
其中的余项
6.1.2 局部多项式回归
那么没有理由止于局部线性拟合,可以在局部进行任意级数
其估计值为

伴随着消除偏差的代价,是方差的增加。图 6.5 中右边的拟合曲线,尤其在尾部,略微更加扭动。假设模型为

关于这个问题的一些经验总结如下:
- 局部线性拟合可以很大程度地减少边界附近的偏差,而方差的增加不太大。局部二次拟合在边界附近的偏差修正有限,但方差的增加较大。
- 局部二次拟合在降低定义域内部的弯曲区间上的偏差更有效。
- 渐进分析表明奇数级数的局部多项式回归优于偶数级数。这很大程度上是由于边界效应在渐进中主宰了均方差(MSE)。
一个可能的改进是在边界区域使用局部线性拟合而在内部使用局部二次拟合,但我们并不推荐这种做法。通常应让具体应用场景来决定拟合的阶数。例如,如果实际应用中更关心外插(预测)的效果,则边界区域更重要,因此局部线性拟合可能会更可靠。
本节练习
练习 6.1
Show that the Nadaraya–Watson kernel smooth with fixed metric bandwidth λ and a Gaussian kernel is differentiable. What can be said for the Epanechnikov kernel? What can be said for the Epanechnikov kernel with adaptive nearest-neighbor bandwidth λ(x0 )?
练习 6.2
Show that
练习 6.3
Show that ||l(x)|| (Section 6.1.2) increases with the degree of the local polynomial