3 线性回归方法

线性回归模型假设回归函数 $\operatorname{E}(Y|X)$ 对输入变量 $X_1,\dots,X_p$ 呈线性。在计算机时代之前,统学计中就已建立起了线性模型的理论,然而在今天的计算机时代,它仍然值得学习和应用。线性模型算法简单,却通常可以满足实际需求并提供输入变量如何影响输出变量的解释性的说明。线性模型有时会在预测表现中优于更高深的非线性模型,特别是在训练样本小、样本信噪比低或数据样本采样稀疏的情况下。最后,应用在输入变量的某种变换的线性模型,可以很大地拓展其能力范围。这种推广方法就是第五章会介绍的基函数方法。

本章的内容是回归问题的线性方法,下一章的内容是分类问题的线性方法。我们深信对线性方法的理解是进一步理解非线性方法的关键,所以本章的讨论会比较细致。事实上,很多非线性方法是本章中线性方法的直接推广。


内容概要

  • 3.2 线性回归模型和最小二乘

    第 44-56 页。系统介绍线性回归模型的最小二乘解及其在向量空间上的含义,在附加的分布假设下,可以建立假设检验和置信区。高斯-马尔可夫定理说明了最小二乘法在无偏估计中的最优性,但也同时引入了估计量的偏差和方差权衡问题。对输入变量空间的正交化,为最小二乘法的计算和直观理解提供了新的角度。

  • 3.3 变量子集选择

    第 57-61 页。为了控制方差,在高维问题中通常在模型中只包含一小部分强有效的输入变量。本节介绍了以线性模型为基础的几种分步式的变量选择方法。

  • 3.4 收缩方法

    第 61-79 页。收缩方法在模型拟合的最小化问题中加入了惩罚项,从而对不稳定系数的估计值进行“收缩”,从而控制预测的方差。不同的惩罚项便对应了不同但相似的回归方法:岭回归、套索回归等等。最小角回归与套索回归的内涵极其相似,并提供了一种高效率的计算方法。

  • 3.5 衍生输入变量

    第 79-82 页。利用原输入变量(以及输出变量),衍生出一组维度低但信息含量大的“方向”,使用衍生出的变量进行回归。本节的两个方法主成分回归和偏最小二乘,其原理和表现均与岭回归相似。

  • 3.6 子集选择 vs 收缩方法

    第 82-83 页。通过简单的二维线性回归例子,对目前为止出现的收缩方法的性质进行总结和比较。总的来说,岭回归可作为默认推荐的选择。

  • 3.7 多输出变量 😱

    第 84-86 页,本节难理解,可选择跳过。在多输出变量的回归模型中,降秩回归利用典型相关分析的思路合并输出变量中的信息,从而降低输出变量空间的维度。

  • 3.8 套索回归相关的路径算法

    第 86-93 页。关于套索回归和类似算法的近期研究成果,例如分组套索回归,可对系数按组进行同时的收缩;自适应套索回归,在保持最优化问题的凸函数性质的同时,得到系数的一致估计量;坐标下降算法可以快速求解套索回归以及后续章节的很多方法。

  • 3.9 关于计算量

    第 93 页。最小二乘拟合通常通过矩阵的分解来计算;最小角回归的计算量与最小二乘拟合相当。


本章练习


参考文献

统计学教科书:

  • Seber (1984)

  • Weisberg (1980)

  • Mardia et al. (1979)

  • Furnival, G. and Wilson, R. (1974). Regression by leaps and bounds, Technometrics 16: 499–511. [pdf]

  • Efron, B., Hastie, T., Johnstone, I. and Tibshirani, R. (2004). Least angle regression (with discussion), Annals of Statistics 32(2): 407–499. [pdf]

Linear regression is discussed in many statistics books, for example, Seber (1984), Weisberg (1980) and Mardia et al. (1979). Ridge regression was introduced by Hoerl and Kennard (1970), while the lasso was proposed by Tibshirani (1996). Around the same time, lasso-type penalties were pro- posed in the basis pursuit method for signal processing (Chen et al., 1998). The least angle regression procedure was proposed in Efron et al. (2004); related to this is the earlier homotopy procedure of Osborne et al. (2000a) and Osborne et al. (2000b). Their algorithm also exploits the piecewise linearity used in the LAR/lasso algorithm, but lacks its transparency. The criterion for the forward stagewise criterion is discussed in Hastie et al. (2007). Park and Hastie (2007) develop a path algorithm similar to least angle regression for generalized regression models. Partial least squares was introduced by Wold (1975). Comparisons of shrinkage methods may be found in Copas (1983) and Frank and Friedman (1993).