6.3 ℝᵖ 上的局部回归

核函数平滑和局部回归可以很自然地推广到二维或更高的空间。Nadaraya-Watson 核函数平滑器使用一个 $p$ 维的核函数在局部进行加权平均拟合常数。局部线性回归使用一个 $p$ 维的核函数,在 $X$ 的局部用加权最小二乘拟合一个超平面。它很容易实现,同时在边界区域表现更好,所以相较局部常数拟合大家更偏向于使用局部线性回归。

令 $b(X)$ 为 $X$ 上最大级数为 $d$ 的多项式向量。例如,当 $d=1$ 和 $p=2$ 时,$b(X)^T=(1,X_1,X_2)$;当 $d=2$ 时,$b(X)^T=(1,X_1,X_2,X_1^2,X_2^2,X_1X_2)$;当 $d=0$ 时,$b(X) = 1$。在每个点 $x_0\in\mathbb{R}^p$,需要解:

$$\min_{\beta(x_0)} \sum_{i=1}^N K_\lambda(x_0, x_i)(y_i-b(x_i)^T\beta(x_0))^2 \tag{6.12}$$

得到的拟合为 $\hat{f}(x_0)=b(x_0)^T\hat{\beta}(x_0)$。核函数通常是一个径向函数,比如径向 Epanechnikov 或三次核函数。

$$K_\lambda(x_0, x) = D \left( \frac{\|x-x_0\|}{\lambda} \right)\tag{6.13}$$

其中 $\|\cdot\|$ 为欧式范式。由于欧式范式依赖于每个坐标上的单位,所以应该在做平滑之前,对每个特征变量标准化,例如到单位标准差。

边界效应在一维平滑中就是一个问题,然而在二维或更高空间中,由于落在边界区域的点所占比例更大,它带来的问题更严重。实际上,维数灾难的一个表现形式就是随着维数的增长更大比例的点接近边界。为适应二维边界而直接修改核函数的方法会非常复杂,尤其是当边界不规则时。局部多项式回归可自动地修正任意维度上任意级数的边界偏差。图 6.8 演示了在一个天文学研究中一些测度上的局部线性回归,其自变量的分布比较独特(星状)。这里的边界极度不规则,越接近边界数据越稀疏,拟合平面则需要在这些区域上插值。

**图 6.8**:左图展示了三维的数据,输出变量是一个星系上的速度测量,两个自变量为天球上的位置坐标。测量的方法导致了样本呈现出独特的“星星”形状的分布,这导致了极不规则的边界。右图展示了在 $\mathbb{R}^2$ 上局部线性回归平滑的结果,其使用了最近邻域,窗宽为样本的 15%。
图 6.8:左图展示了三维的数据,输出变量是一个星系上的速度测量,两个自变量为天球上的位置坐标。测量的方法导致了样本呈现出独特的“星星”形状的分布,这导致了极不规则的边界。右图展示了在 $\mathbb{R}^2$ 上局部线性回归平滑的结果,其使用了最近邻域,窗宽为样本的 15%。

局部回归在高于二维或三维的空间上不太可用。在前文,例如第二章,讨论过维数问题的一些细节。随着维数上升,除非总样本量以 $p$ 的指数级增长,不可能同时保证局部性(低偏差)和局部的足够样本量(低方差)。作为平滑方法的主要目标之一,高维度上 $\hat{f}(X)$ 的可视化也比较困难。尽管图 6.8 中的散点云(scatter cloud)和线框图(wire frame)看起来不错,但只能从整体的层次理解,很难解释其中的关系。而从数据分析的角度,变量之间的条件图更有意义。

**图 6.9**:三维空间的平滑示例。输出变量是(三次方根的)臭氧浓度,三个自变量为温度、风速、和辐射水平。格架图展示的是条件于温度和风速的区间上的臭氧浓度对辐射水平的函数(条件区间标记为深绿色和橙色的阴影条)。每个图中包含了每个条件变量的大概 40% 的样本范围。每个图中的曲线为该图中的样本拟合出的单变量局部线性回归。
图 6.9:三维空间的平滑示例。输出变量是(三次方根的)臭氧浓度,三个自变量为温度、风速、和辐射水平。格架图展示的是条件于温度和风速的区间上的臭氧浓度对辐射水平的函数(条件区间标记为深绿色和橙色的阴影条)。每个图中包含了每个条件变量的大概 40% 的样本范围。每个图中的曲线为该图中的样本拟合出的单变量局部线性回归。

图 6.9 展示了对三个自变量的环境数据的分析。其中的格架(trellis)图,条件于温度和风速两个变量,描绘臭氧水平作为辐射水平的函数。然而条件于一个变量的取值实际上已经隐含了是在这个值的局部区域进行分析。图 6.9 中每个图的顶端标记了此图中条件变量的取值范围。在每个图中展示了样本子集的散点分布(输出变量和一个输入变量),以及一维的局部线性回归拟合。尽管并不是在三维空间上绘出一个等值的平面,但对于理解数据的联合分布关系上,这种方式可能会更有用。

上一页
下一页