6.4 ℝᵖ 上的结构化局部线性回归模型

面对不理想的维数-样本量比例,局部回归起不到太大作用,除非可以对模型做某些结构上的假设。本书中的大部分内容都是关于结构化的回归和分类模型。本节着重与一些和核函数方法直接相关的方法。

6.4.1 结构化核函数

一种方法是修改核函数。默认的球体(径向)和函数(式 6.13)给每个坐标方向赋予相同的权重,所以一个自然的处理方法是将每个变量标准化为单位标准差。一个更普遍的方法是一个半正定矩阵 $\mathbb{A}$ 给不同的坐标加权:

$$K_{\lambda, \mathbf{A}} = D \left( \frac{(x-x_0)^T \mathbf{A} (x-x_0)}{\lambda} \right) \tag{6.14}$$

通过对 $\mathbb{A}$ 的恰当假设,可以削弱甚至消除某些坐标或方向。例如,若 $\mathbb{A}$ 为对角矩阵,则可以通过提高或降低 $A_{jj}$ 来增强或减弱对应的自变量 $X_j$ 的作用。自变量之间有很多且很大的相关性,比如从数字化模拟信号和图像中产生的数据。可以基于自变量的协方差函数设计出 $\mathbb{A}$,使其降低高频率对比度的影响(练习 6.4)。同时也有一些从数据中习得高维核函数参数的方案。例如第十一章中的投影寻踪(projection pursuit)回归模型就是这样的做法,通过降秩版本的 $\mathbb{A}$ 获得 $\hat{f}(X)$ 的岭回归函数。$\mathbb{A}$ 更广义的模型比较复杂,一般更倾向于使用下面介绍的回归函数的结构化形式。

6.4.2 结构化回归函数

拟合 $\mathbb{R}^p$ 上的某个回归函数 $E(Y|X)=f(X_1,X_2,\dots,X_p)$,其中可能在各种相互作用。自然地会考虑到方差分析(analysis-of-variance, ANOVA)分解如下:

$$f(X_1, X_2, \dots, X_p) = \alpha + \sum_j g_j(X_j) + \sum_{k再消除高阶项从而引入某种函数结构假设。加性模型只保留了最主要的一阶项:$f(X)=\alpha+\sum_{j=1}^pg(X_j)$;二阶模型则会除此之外还保留两个变量之间的相互作用;以此类推。第九章会介绍拟合这种低阶相互作用模型的迭代 backfitting 算法。例如对加性模型,若已知除第 k 项以外的所有项,则可以用 $Y-\sum_{j\ne k}g_j(X_j)$ 对 $X_k$ 的局部回归来估计 $g_k$。对回归函数各个项如此操作,并迭代到结果收敛。其中重要的一点是在每一步操作中,只涉及了一维的局部回归。在低维的 ANOVA 分解的拟合中也可用同样的思路。

结构化模型的一个重要特殊案例是变参数模型(varying coefficient models)。例如,假设将 $X$ 中的 $p$ 个自变量分为两组,其中一部分为 $(X_1,X_2,\dots,X_q)$,$q<p$;剩余的部分组成了向量 $Z$。则假设条件线性模型为:

$$f(X) = \alpha(Z) + \beta_1(Z)X_1 + \cdots + \beta_q(Z)X_q \tag{6.16}$$

给定 $Z$,则上式是一个线性模型,只是其系数都是 $Z$ 的函数。自然地,可以通过局部加权最小二乘来拟合这个模型:

$$\min_{\substack{\alpha(z_0)\\\beta(z_0)}} \sum_{i=1}^N K_\lambda(z_0, z_i) (y_i - \alpha(z_0) - x_{1i}\beta_1(z_0) - \cdots - x_{qi}\beta_q(z_0))^2$$ $$\tag{6.17}$$
**图 6.10**:每个图都是主动脉直径作为年龄的线性函数模型。模型的系数根据年龄和主动脉深度(左侧为向上方向,右侧为向下方向)而变化。线性模型的系数存在明显的变化趋势。
图 6.10:每个图都是主动脉直径作为年龄的线性函数模型。模型的系数根据年龄和主动脉深度(左侧为向上方向,右侧为向下方向)而变化。线性模型的系数存在明显的变化趋势。

图 6.10 用人体主动脉的测量数据演示了这种模型。一个流传已久的说法认为主动脉随年龄增长而变厚。在此建立主动脉的直径对年龄的线性函数模型,但允许其系数依赖于性别和主动脉深度。对男性和女性的样本分别使用局部回归模型。尽管在主动脉的较高区域,主动脉明显随年龄增长而变厚,但这种现象随着主动脉的深度增加而减弱。图 6.11 展示了作为深度函数的线性拟合的截距和斜率。

**图 6.11**:区分男性和女性样本,线性模型中年龄变量(age)的截距和斜率,作为主动脉深度的函数。黄色带代表了一个标准差。
图 6.11:区分男性和女性样本,线性模型中年龄变量(age)的截距和斜率,作为主动脉深度的函数。黄色带代表了一个标准差。

本节练习

练习 6.4

上一页
下一页