面对不理想的维数-样本量比例,局部回归起不到太大作用,除非可以对模型做某些结构上的假设。本书中的大部分内容都是关于结构化的回归和分类模型。本节着重与一些和核函数方法直接相关的方法。
6.4.1 结构化核函数
一种方法是修改核函数。默认的球体(径向)和函数(式 6.13)给每个坐标方向赋予相同的权重,所以一个自然的处理方法是将每个变量标准化为单位标准差。一个更普遍的方法是一个半正定矩阵 给不同的坐标加权:
通过对 的恰当假设,可以削弱甚至消除某些坐标或方向。例如,若 为对角矩阵,则可以通过提高或降低 来增强或减弱对应的自变量 的作用。自变量之间有很多且很大的相关性,比如从数字化模拟信号和图像中产生的数据。可以基于自变量的协方差函数设计出 ,使其降低高频率对比度的影响(练习 6.4)。同时也有一些从数据中习得高维核函数参数的方案。例如第十一章中的投影寻踪(projection pursuit)回归模型就是这样的做法,通过降秩版本的 获得 的岭回归函数。 更广义的模型比较复杂,一般更倾向于使用下面介绍的回归函数的结构化形式。
6.4.2 结构化回归函数
拟合 上的某个回归函数 ,其中可能在各种相互作用。自然地会考虑到方差分析(analysis-of-variance, ANOVA)分解如下:
$$f(X_1, X_2, \dots, X_p) =
\alpha + \sum_j g_j(X_j) + \sum_{k再消除高阶项从而引入某种函数结构假设。加性模型只保留了最主要的一阶项:;二阶模型则会除此之外还保留两个变量之间的相互作用;以此类推。第九章会介绍拟合这种低阶相互作用模型的迭代 backfitting 算法。例如对加性模型,若已知除第 k 项以外的所有项,则可以用 对 的局部回归来估计 。对回归函数各个项如此操作,并迭代到结果收敛。其中重要的一点是在每一步操作中,只涉及了一维的局部回归。在低维的 ANOVA 分解的拟合中也可用同样的思路。
结构化模型的一个重要特殊案例是变参数模型(varying coefficient models)。例如,假设将 中的 个自变量分为两组,其中一部分为 ,;剩余的部分组成了向量 。则假设条件线性模型为:
给定 ,则上式是一个线性模型,只是其系数都是 的函数。自然地,可以通过局部加权最小二乘来拟合这个模型:
图 6.10:每个图都是主动脉直径作为年龄的线性函数模型。模型的系数根据年龄和主动脉深度(左侧为向上方向,右侧为向下方向)而变化。线性模型的系数存在明显的变化趋势。
图 6.10 用人体主动脉的测量数据演示了这种模型。一个流传已久的说法认为主动脉随年龄增长而变厚。在此建立主动脉的直径对年龄的线性函数模型,但允许其系数依赖于性别和主动脉深度。对男性和女性的样本分别使用局部回归模型。尽管在主动脉的较高区域,主动脉明显随年龄增长而变厚,但这种现象随着主动脉的深度增加而减弱。图 6.11 展示了作为深度函数的线性拟合的截距和斜率。
图 6.11:区分男性和女性样本,线性模型中年龄变量(age)的截距和斜率,作为主动脉深度的函数。黄色带代表了一个标准差。
本节练习
练习 6.4