面对不理想的维数-样本量比例,局部回归起不到太大作用,除非可以对模型做某些结构上的假设。本书中的大部分内容都是关于结构化的回归和分类模型。本节着重与一些和核函数方法直接相关的方法。
6.4.1 结构化核函数
一种方法是修改核函数。默认的球体(径向)和函数(式 6.13)给每个坐标方向赋予相同的权重,所以一个自然的处理方法是将每个变量标准化为单位标准差。一个更普遍的方法是一个半正定矩阵 $\mathbb{A}$ 给不同的坐标加权:
$$K_{\lambda, \mathbf{A}} = D \left( \frac{(x-x_0)^T \mathbf{A} (x-x_0)}{\lambda} \right) \tag{6.14}$$通过对 $\mathbb{A}$ 的恰当假设,可以削弱甚至消除某些坐标或方向。例如,若 $\mathbb{A}$ 为对角矩阵,则可以通过提高或降低 $A_{jj}$ 来增强或减弱对应的自变量 $X_j$ 的作用。自变量之间有很多且很大的相关性,比如从数字化模拟信号和图像中产生的数据。可以基于自变量的协方差函数设计出 $\mathbb{A}$,使其降低高频率对比度的影响(练习 6.4)。同时也有一些从数据中习得高维核函数参数的方案。例如第十一章中的投影寻踪(projection pursuit)回归模型就是这样的做法,通过降秩版本的 $\mathbb{A}$ 获得 $\hat{f}(X)$ 的岭回归函数。$\mathbb{A}$ 更广义的模型比较复杂,一般更倾向于使用下面介绍的回归函数的结构化形式。
6.4.2 结构化回归函数
拟合 $\mathbb{R}^p$ 上的某个回归函数 $E(Y|X)=f(X_1,X_2,\dots,X_p)$,其中可能在各种相互作用。自然地会考虑到方差分析(analysis-of-variance, ANOVA)分解如下:
$$f(X_1, X_2, \dots, X_p) = \alpha + \sum_j g_j(X_j) + \sum_{k结构化模型的一个重要特殊案例是变参数模型(varying coefficient models)。例如,假设将 $X$ 中的 $p$ 个自变量分为两组,其中一部分为 $(X_1,X_2,\dots,X_q)$,$q<p$;剩余的部分组成了向量 $Z$。则假设条件线性模型为:
$$f(X) = \alpha(Z) + \beta_1(Z)X_1 + \cdots + \beta_q(Z)X_q \tag{6.16}$$给定 $Z$,则上式是一个线性模型,只是其系数都是 $Z$ 的函数。自然地,可以通过局部加权最小二乘来拟合这个模型:
$$\min_{\substack{\alpha(z_0)\\\beta(z_0)}} \sum_{i=1}^N K_\lambda(z_0, z_i) (y_i - \alpha(z_0) - x_{1i}\beta_1(z_0) - \cdots - x_{qi}\beta_q(z_0))^2$$ $$\tag{6.17}$$图 6.10 用人体主动脉的测量数据演示了这种模型。一个流传已久的说法认为主动脉随年龄增长而变厚。在此建立主动脉的直径对年龄的线性函数模型,但允许其系数依赖于性别和主动脉深度。对男性和女性的样本分别使用局部回归模型。尽管在主动脉的较高区域,主动脉明显随年龄增长而变厚,但这种现象随着主动脉的深度增加而减弱。图 6.11 展示了作为深度函数的线性拟合的截距和斜率。