很多应用场景会包含大量通常相关性很大的输入变量。本节介绍的方法利用原始的输入变量
3.5.1 主成分回归
一种方法是可以用第 3.4.1 节中的主成分来构成线性组合
主成分回归先通过线性转换
其中
类似于岭回归,主成分的结果依赖于输入变量的度量,所以通常会先将其标准化。注意当

从图 3.7 中可见,经过交叉验证选中的主成分个数为 7;最终的主成分回归在表 3.3 中的几个模型中,测试误差最低。

Term | LS | Best Subset | Ridge | Lasso | PCR | PLS |
---|---|---|---|---|---|---|
Intercept | 2.465 | 2.477 | 2.452 | 2.468 | 2.497 | 2.452 |
lcavol | 0.680 | 0.740 | 0.420 | 0.533 | 0.543 | 0.419 |
lweight | 0.263 | 0.316 | 0.238 | 0.169 | 0.289 | 0.344 |
age | −0.141 | −0.046 | −0.152 | −0.026 | ||
lbph | 0.210 | 0.162 | 0.002 | 0.214 | 0.220 | |
svi | 0.305 | 0.227 | 0.094 | 0.315 | 0.243 | |
lcp | −0.288 | 0.000 | −0.051 | 0.079 | ||
gleason | −0.021 | 0.040 | 0.232 | 0.011 | ||
pgg45 | 0.267 | 0.133 | −0.056 | 0.084 | ||
____________ | ________ | _____________ | ________ | ______ | ________ | ________ |
Test Error | 0.521 | 0.492 | 0.492 | 0.479 | 0.449 | 0.528 |
Std Error | 0.179 | 0.143 | 0.165 | 0.164 | 0.105 | 0.152 |
表 3.3:各种子集选择和收缩方法在前列腺癌症数据集上的估计系数和测试集误差结果。空白项意味这该变量被模型排除。
3.5.2 偏最小二乘
偏最小二乘(partial least squares) 同样是在回归中使用一组输入变量的线性组合构建的变量,与主成分回归不同的是,在构建的过程中也用到了输出变量
算法 3.3 偏最小二乘
- 将所有输入变量
标准化为均值 0 方差 1。初始化 ,并且 。 - 对所有的
,循环过程: ,其中 。 。- 将
对 正则化: 。
- 输出拟合向量序列
。衍生方向 为原输入变量 的线性组合,故拟合值也可写为原输入变量的线性函数 。其中的线性系数可从偏最小二乘的变换中推导出。
在前列腺癌症的例子中,如图 3.7 所示,交叉验证确定的最终偏最小二乘方向个数为
偏最小二乘内在的最优问题是什么呢?由于在构建衍生方向时用到了输出变量
具体来说,第 m 个主成分方向
其中
而第 m 个偏最小回归的方向
更深入分析发现其中的方差项会占主导地位,因此偏最小二乘回归与岭回归和主成分回归的表现相似。下一节中会更深入对比不同的方法。
当输入变量矩阵
本节练习
练习 3.13
Derive the expression (3.62), and show that
练习 3.14
Show that in the orthogonal case, PLS stops after m = 1 steps, because subsequent ϕ̂ mj in step 2 in Algorithm 3.3 are zero.
练习 3.15
Verify expression (3.64), and hence show that the partial least squares directions are a compromise between the ordinary regression coefficient and the principal component directions.
练习 3.17
Repeat the analysis of Table 3.3 on the spam data discussed in Chapter 1.
练习 3.18
Read about conjugate gradient algorithms (Murray et al., 1981, for example), and establish a connection between these algorithms and partial least squares.
练习 3.18
Show that
-
原文脚注3:输入变量
已标准化,故第一个衍生方向的系数 即为单变量回归的系数(或包含一个常数);对后续的衍生方向并不如此。 ↩︎