3.6 讨论:子集选择和收缩方法的比较

用一个简单的例子可以帮助理解本章之前已介绍的各种模型和方法。假设有两个输入变量 $X_1$ 和 $X_2$,两者的相关系数为 $\rho$,真实的线性模型的系数为 $\beta_1=4$ 和 $\beta_2=2$。

**图 3.18**:在一个简单例子中的不同方法的系数估计值曲线:两个输入变量,其相关系数为 $\pm 0.5$,真实的线性模型系数为 $\beta=(4,2)$。
图 3.18:在一个简单例子中的不同方法的系数估计值曲线:两个输入变量,其相关系数为 $\pm 0.5$,真实的线性模型系数为 $\beta=(4,2)$。

图 3.18 展示了不同模型的系数估计值随着调节参数的变化曲线。上图为 $\rho=0.5$,下图为 $\rho=-0.5$。岭回归和套索回归的调节参数在一个范围内连续地变动,而最优子集、部分最小二乘、和主成分回归在两步1之后就达到了最小二乘的解。在上图中,岭回归同时对两个系数收缩,随着约束的减弱,逐渐收敛到最小二乘的解。部分最小二乘和主成分回归与岭回归的表现类似,但在收敛的后期呈离散的跳跃。最优子集选择先偏离2了最小二乘解,但在第二步返回到这个解。套索回归的表现介于其他方法之间。在下图中,两个输入变量负相关,部分最小二乘和主成分回归的表现仍然与岭回归相似,但实际上这几种方法的曲线相差不大。

值得注意的是不同方法的收缩方式的区别。岭回归在所有的方向上收缩,在样本方差低的方向上收缩程度更大。主成分回归只保留 M 个高方差的方向,直接舍弃掉其他的方向。而部分最小二乘不仅倾向于在低方差的方向上收缩,实际上还会在高方差的方向上放大。这种性质使部分最小二乘有一点不稳定,比岭回归的预测误差稍高。详细的研究可见(Frank and Friedman, 1993),论文的作者认为就最小而预测误差方面,岭回归通常是比变量子集选择、主成分回归、和部分最小二乘更好的选择,但对后两者的优势微乎其微。

综上,部分最小二乘、主成分回归和岭回归的表现相似。应用中可能倾向于岭回归,因为其平滑的收缩性质,不存在跳跃。套索回归介于岭回归和最优子集选择之间,同时包含了两者的部分性质。


  1. 因为此例中 $p=2$。 ↩︎

  2. 在使用一个输入变量时,选择了 $\beta_1$,其系数的估计大于最小二乘的解。 ↩︎

上一页
下一页