核函数平滑和局部回归可以很自然地推广到二维或更高的空间。Nadaraya-Watson 核函数平滑器使用一个 $p$ 维的核函数在局部进行加权平均拟合常数。局部线性回归使用一个 $p$ 维的核函数,在 $X$ 的局部用加权最小二乘拟合一个超平面。它很容易实现,同时在边界区域表现更好,所以相较局部常数拟合大家更偏向于使用局部线性回归。
令 $b(X)$ 为 $X$ 上最大级数为 $d$ 的多项式向量。例如,当 $d=1$ 和 $p=2$ 时,$b(X)^T=(1,X_1,X_2)$;当 $d=2$ 时,$b(X)^T=(1,X_1,X_2,X_1^2,X_2^2,X_1X_2)$;当 $d=0$ 时,$b(X) = 1$。在每个点 $x_0\in\mathbb{R}^p$,需要解:
$$\min_{\beta(x_0)} \sum_{i=1}^N K_\lambda(x_0, x_i)(y_i-b(x_i)^T\beta(x_0))^2 \tag{6.12}$$得到的拟合为 $\hat{f}(x_0)=b(x_0)^T\hat{\beta}(x_0)$。核函数通常是一个径向函数,比如径向 Epanechnikov 或三次核函数。
$$K_\lambda(x_0, x) = D \left( \frac{\|x-x_0\|}{\lambda} \right)\tag{6.13}$$其中 $\|\cdot\|$ 为欧式范式。由于欧式范式依赖于每个坐标上的单位,所以应该在做平滑之前,对每个特征变量标准化,例如到单位标准差。
边界效应在一维平滑中就是一个问题,然而在二维或更高空间中,由于落在边界区域的点所占比例更大,它带来的问题更严重。实际上,维数灾难的一个表现形式就是随着维数的增长更大比例的点接近边界。为适应二维边界而直接修改核函数的方法会非常复杂,尤其是当边界不规则时。局部多项式回归可自动地修正任意维度上任意级数的边界偏差。图 6.8 演示了在一个天文学研究中一些测度上的局部线性回归,其自变量的分布比较独特(星状)。这里的边界极度不规则,越接近边界数据越稀疏,拟合平面则需要在这些区域上插值。
局部回归在高于二维或三维的空间上不太可用。在前文,例如第二章,讨论过维数问题的一些细节。随着维数上升,除非总样本量以 $p$ 的指数级增长,不可能同时保证局部性(低偏差)和局部的足够样本量(低方差)。作为平滑方法的主要目标之一,高维度上 $\hat{f}(X)$ 的可视化也比较困难。尽管图 6.8 中的散点云(scatter cloud)和线框图(wire frame)看起来不错,但只能从整体的层次理解,很难解释其中的关系。而从数据分析的角度,变量之间的条件图更有意义。
图 6.9 展示了对三个自变量的环境数据的分析。其中的格架(trellis)图,条件于温度和风速两个变量,描绘臭氧水平作为辐射水平的函数。然而条件于一个变量的取值实际上已经隐含了是在这个值的局部区域进行分析。图 6.9 中每个图的顶端标记了此图中条件变量的取值范围。在每个图中展示了样本子集的散点分布(输出变量和一个输入变量),以及一维的局部线性回归拟合。尽管并不是在三维空间上绘出一个等值的平面,但对于理解数据的联合分布关系上,这种方式可能会更有用。