3.2 线性回归模型和最小二乘

如第二章所介绍,我们有一个输入变量向量 $X^T=(X_1,X_2,\dots,X_p)$,目的是预测一个实数取值的输出变量 $Y$。线性模型的表达式为:

$$f(X) = \beta_0 + \sum_{j=1}^p X_j\beta_j \tag{3.1}$$

线性模型假设回归函数 $\operatorname{E}(Y|X)$ 是线性的,或者至少足够近似于线性的。式中 $\beta_j$ 是未知的参数或系数,输入变量 $X_j$ 可以有多种类型:

  • 数值类型的输入变量;
  • 数值输入变量的某种变换,比如取对数、平方根、平方;
  • 构建多项式表达式的基函数展开,比如 $X_2=X_1^2$,$X_3=X_1^3$。
  • 分类输入变量的哑变量(dummy)或数值编码。例如,对一个有五种类别的分类变量 $G$,可构建五个变量 $X_j,j=1,\dots,5$,满足 $X_j=I(G=j)$。在 $\sum_{j=1}^5X_j\beta_j$ 中只能有一个 $X_j$ 为 1,其他都为 0,因此这组变量 $X_j$ 通过一组分类别常数就可表达 $G$ 变量的影响。
  • 输入变量之间的交叉项,例如 $X_3=X_1\cdot X_2$。

不管 $X_j$ 的形式如何,模型对参数(的形式)是线性的。

我们通常有一组用来估计参数 $\beta$ 的训练数据 $(x_1,y_1),\dots,(x_N,y_N)$。每个 $x_i=(x_{i1},x_{i2},\dots,x_{ip})^T$ 是样本 $i$ 的输入向量的取值。最常见的估计方法是 最小二乘(least squares) 法,通过对残差平方和(residual sum of squares)最小化来确定系数 $\beta=(\beta_0,\beta_1,\dots,\beta_p)^T$:

$$\begin{align} \operatorname{RSS}(\beta) &= \sum_{i=1}^N (y_i - f(x_i))^2 \\ &= \sum_{i=1}^N (y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 \tag{3.2}\end{align}$$

从统计学的角度看,如果训练样本 $(x_i,y_i)$ 是从样本空间中独立的随机采样,那么这个目标函数的选择是合理的。既使 $x_i$ 并不是完全随机采样的,只要输出变量 $y_i$ 在条件于输入变量 $x_i$ 下相互独立,这仍是个合理的目标函数。

**图 3.1**:$X\in\mathbb{R}^2$ 空间上的最小二乘拟合,寻找最小化与 $Y$ 的残差的平方和的 $X$ 的线性函数。
图 3.1:$X\in\mathbb{R}^2$ 空间上的最小二乘拟合,寻找最小化与 $Y$ 的残差的平方和的 $X$ 的线性函数。

图 3.1 在训练样本点 $(X,Y)$ 所在的 $\mathbb{R}^{p+1}$ 空间上,演示了最小二乘法拟合的几何含义。注意式 3.2 没有任何关于模型 3.1 正确与否的假设,只是寻找训练样本数据的最佳线性拟合。不管真实的数据是怎样的,最小二乘的拟合从直觉上也是合理的;目标函数(式 3.2)衡量了(拟合线与样本的)平均欠拟合程度。

那么如何对式 3.2 最小化?记 $\mathbf{X}$ 为代表训练样本的 $N\times(p+1)$ 的矩阵,其每行对应着一个输入向量(向量第一个元素为常数 1),记 $\mathbf{y}$ 为代表训练样本输出变量的长度为 $N$ 的向量。则残差平方和可写为:

$$\operatorname{RSS}(\beta) = (\mathbf{y} - \mathbf{X}\beta)^T (\mathbf{y} - \mathbf{X}\beta) \tag{3.3}$$

这是 $p+1$ 个参数的二次函数。对 $\beta$ 求导:

$$\begin{align} \frac{\partial\text{RSS}}{\partial\beta} &= -2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\beta) \\ \frac{\partial^2\text{RSS}}{\partial\beta\partial\beta^T} &= 2\mathbf{X}^T\mathbf{X} \end{align}\tag{3.4}$$

先(暂时)假设 $\mathbf{X}$ 为列满秩矩阵,则 $\mathbf{X}^T\mathbf{X}$ 是正定矩阵1(positive definite),将一阶导数设置为 0:

$$\mathbf{X}^T(\mathbf{y} - \mathbf{X}\beta) = 0 \tag{3.5}$$

可得到唯一解:

$$\hat{\beta} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T\mathbf{y} \tag{3.6}$$

在一个变量向量 $x_0$ 点的预测值则为 $\hat{f}(x_0)=(1,x_0)^T\hat{\beta}$;训练样本的拟合值为:

$$\hat{y} = \mathbf{X}\hat{\beta} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{3.7}$$

或者 $\hat{y_i}=\hat{f}(x_i)$。式 3.7 中,$\mathbf{y}$ 与矩阵 $\mathbf{H}=\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$ 相乘后就戴上了“帽子”($\hat{\mathbf{y}}$),所以这个矩阵也称为“帽子”矩阵。

**图 3.2**:两个输入变量的最小二乘法在样本 $N$ 维空间上的几何含义。输出变量样本向量 $\mathbf{y}$ 在输出变量样本向量 $\mathbf{x}_1$ 和 $\mathbf{x}_2$ 生成的超平面上的投影 $\hat{\mathbf{y}}$ 即为最小二乘法的拟合值的样本向量。
图 3.2:两个输入变量的最小二乘法在样本 $N$ 维空间上的几何含义。输出变量样本向量 $\mathbf{y}$ 在输出变量样本向量 $\mathbf{x}_1$ 和 $\mathbf{x}_2$ 生成的超平面上的投影 $\hat{\mathbf{y}}$ 即为最小二乘法的拟合值的样本向量。

图 3.2 在 $\mathbb{R}^N$ 空间上用另一个方式展示最小二乘估计的几何表现。将 $\mathbf{X}$ 的列向量记为 $\mathbf{x}_0,\mathbf{x}_1,\dots,\mathbf{x}_p$,其中 $\mathbf{x}_0\equiv 1$。在下面的推导中,第一个常数向量的处理方式会与其他变量相同。这些向量会生成一个 $\mathbb{R}^N$ 上的子空间,也被称为 $\mathbf{X}$ 的列空间。对 $\operatorname{RSS}(\beta)=|\mathbf{y}-\mathbf{X}\beta|^2$ 的最小化过程,等价于寻找使残差向量 $\mathbf{y}-\hat{\mathbf{y}}$ 与这个列空间正交2的 $\hat{\beta}$。式 3.5 体现了这个正交的关系,因此拟合的结果 $\hat{\mathbf{y}}$ 是 $\mathbf{y}$ 在这个列空间上的 正交投影(orthogonal projection)。帽子矩阵 $\mathbf{H}$ 实现了这个正交投影的转换计算,因此也被称为 投影矩阵

$\mathbf{X}$ 的列向量有可能不是线性独立,那么 $\mathbf{X}$ 便不是列满秩矩阵。两个完全相关的输入变量(比如 $\mathbf{x}_2=3\mathbf{x}_1$)就是一个例子。这时 $\mathbf{X}^T\mathbf{X}$ 是个奇异(singular)矩阵,最小二乘无法得到唯一解 $\hat{\beta}$。然而拟合值 $\hat{\mathbf{y}}=\mathbf{X}\hat{\beta}$ 仍然是 $\mathbf{y}$ 在 $\mathbf{X}$ 列空间上的正交投影。只是这时有不止一种可表达这个投影的 $\mathbf{X}$ 列向量的组合方式。出现非满秩输入变量矩阵的一个最常见原因是一个或多个分类变量的编码方式出现了冗余。因此对无唯一解的自然解决方案是重新编码或者去掉 $\mathbf{X}$ 中冗余的列。大多数回归软件程序会检测 $\mathbf{X}$ 中的冗余列,并自动地采用某些去除这些冗余的策略。另一个可造成非满秩的原因是输入变量个数 $p$ 大于训练样本个数 $N$,这在信号和图像识别领域常出现。通常解决方法是过滤掉一些输入变量,或者用正则化来控制拟合(见第 5.2.3 节第十八章)。

上述讨论没有对数据的真实概率分布做太多假设。然而为了进一推导 $\hat{\beta}$ 的性质,现假设输出变量观测样本 $y_i$ 互不相关,有固定的方差 $\sigma^2$,并且将 $x_i$ 视为非随机的常量。从式 3.6 可推导出最小二乘参数估计量的协方差矩阵为:

$$\operatorname{Var}(\hat{\beta}) = (\mathbf{X}^T\mathbf{X})^{-1} \sigma^2 \tag{3.8}$$

通常用下式来估计方差 $\sigma^2$:

$$\hat{\sigma}^2 = \frac{1}{N-p-1} \sum_{i=1}^N (y_i-\hat{y_i})^2$$

注意其中的除数为 $N-p-1$ 而不是 $N$,这使得估计量 $\hat{\sigma}^2$ 是无偏估计量:$\operatorname{E}(\hat{\sigma}^2)=\sigma^2$。

为了对模型和参数做统计推断,需要做额外的假设。首先,假设式 3.1 为输出变量期望的正确模型,即 $Y$ 的条件期望对 $X_1$,……,$X_p$ 呈线性关系。其次,假设 $Y$ 与其期望的偏离是加性的(additive)且服从高斯分布(Gaussian)。因此:

$$\begin{align} Y &= \operatorname{E}(Y | X_1, \dots, X_p) + \varepsilon \\ &= \beta_0 + \sum_{j=1}^p X_j \beta_j + \varepsilon \tag{3.9}\end{align}$$

其中误差项 $\varepsilon$ 为高斯随机变量,期望为 0 方差为 $\sigma^2$,即 $\varepsilon\sim\mathcal{N}(0,\sigma^2)$。

从式 3.9 可推导出:

$$\hat{\beta} \sim \mathcal{N} (\beta, (\mathbf{X}^T\mathbf{X})^{-1} \sigma^2) \tag{3.10}$$

这是一个多元正态分布,期望向量和协方差矩阵如上式所示。并且:

$$(N-p-1)\hat{\sigma}^2 \sim \sigma^2\chi^2_{N-p-1} \tag{3.11}$$

即自由度为 $N-p-1$ 的卡方分布。此外,$\hat{\beta}$ 与 $\hat{\sigma}^2$ 统计意义上相互独立。根据以上的概率分布,可对参数 $\beta_j$ 进行假设检验和建立置信区间。

我们构造 标准(回归)系数(standardized (regression) coefficients)Z 分数(Z-score) 来检验某个系数为零的假设 $\beta_j=0$:

$$z_j = \frac{\hat{\beta_j}}{\hat{\sigma}\sqrt{v_j}}\tag{3.12}$$

式中的 $v_j$ 为矩阵 $(\mathbf{X}^T\mathbf{X})^{-1}$ 的第 j 个对角线元素。在原假设下,即 $\beta_j=0$,统计量 $z_j$ 的概率分布为 $t_{N-p-1}$(自由度为 $N-p-1$ 的 $t$ 分布)。因此,如果计算得出的 $z_j$ 绝对值过大,则会拒绝原假设。若用已知真实的 $\sigma^2$ 替换等式中的估计量 $\hat{\sigma}^2$,则 $z_j$ 服从标准正态分布。当样本量足够大时,t 分布与标准正态分布的尾部百分位非常接近,所以在实践中一般会直接使用正态分布(见图 3.3)。

**图 3.3**:三个概率分布的密度函数尾部 $\operatorname{Pr}(|Z|>z)$,分别为 $t_{30}$、$t_{100}$、和标准正态。图中同时标记了三个分布在显著性水平 0.05 和 0.01 下相应的分位数。当 N 大于 100 后,t 分布与标准正态分布之间的区别可以忽略不计。
图 3.3:三个概率分布的密度函数尾部 $\operatorname{Pr}(|Z|>z)$,分别为 $t_{30}$、$t_{100}$、和标准正态。图中同时标记了三个分布在显著性水平 0.05 和 0.01 下相应的分位数。当 N 大于 100 后,t 分布与标准正态分布之间的区别可以忽略不计。

我们通常会需要检验一组系数是否同时显著。例如,一个有 $k$ 个类别取值的分类变量会在模型中引入多个哑变量,为了验证这个分类变量是否可从模型中去除,需要检验所有哑变量的系数同时为 0 的假设。这可使用 $F$ 统计量:

$$F = \frac{(\text{RSS}_0 - \text{RSS}_1) / (p_1 - p_0)} {\text{RSS}_1 / (N-p_1-1)}\tag{3.13}$$

计算这个统计量需要进行两次最小二乘拟合。首先使用所有的输入变量进行最小二乘拟合,称之为模型 1,有 $p_1+1$ 个参数;然后排除掉其中一部分输入变量,或也可视为将对应的参数值固定为 0,再次进行最小二乘拟合,称之为模型 0,参数个数为 $p_0+1$。将原模型中的 $p_1-p_0$ 个输入变量的参数固定为 0,即从模型 1 得到了 模型 0,模型 0 是模型 1 的嵌套模型。上式中的脚标 1 即为模型 1,脚标 0 即为模型 0,RSS 为相应最小二乘拟合的残差平方和。$F$ 统计量衡量的是被 $\sigma^2$ 估计量标准化之后,每多增加一个输入参数可减少的拟合残差平方和。若延续之前的高斯分布假设,并且参数数量少的模型 0 为真实模型的原假设成立,则 $F$ 统计量服从概率分布 $F_{p_1-p_0,N-p_1-1}$。可证明(练习 3.1)当原假设只涉及一个参数时,等式 3.12 中的 $z_j$ 与 F 统计量的检验结果是完全等价的。当样本量 $N$ 足够大时,概率分布 $F_{p_1-p_0,N-p_1-1}$ 的分位数逼近于概率分布 $\chi^2_{p_1-p_0}$ 的分位数。

通过等式 3.10 可推导出 $\beta_j$ 的 $1-2\alpha$ 置信区间:

$$(\hat{\beta_j} - z^{(1-\alpha)} v_j^{\frac{1}{2}} \hat{\sigma}, \hat{\beta_j} + z^{(1-\alpha)} v_j^{\frac{1}{2}} \hat{\sigma}) \tag{3.14}$$

其中 $z^{(1-\alpha)}$ 为标准正态分布的 $1-\alpha$ 分位数:

$$\begin{align} z^{1-0.025} &= 1.96 \\ z^{1-0.05} &= 1.645 \end{align}$$

所以标准化的实践中默认输出 $\hat{\beta}\pm2\cdot\operatorname{se}(\hat{\beta})$ 就是源自大约 95% 水平的置信区间。即使高斯分布的假设不成立,在样本量足够大的情况下 $N\rightarrow\infty$,这个区间的范围也大致是正确的,即 $1-2\alpha$ 的置信水平。

用类似的方法可得到一组输入变量参数向量 $\beta$ 在大样本下的近似置信集合:

$$C_\beta = \{\beta | (\hat{\beta}-\beta)^T \mathbf{X}^T\mathbf{X} (\hat{\beta}-\beta) \leq \hat{\sigma}^2 {\chi^2_{p+1}}^{(1-\alpha)} \}\tag{3.15}$$

其中 ${\chi^2_\ell}^{(1-\alpha)}$ 为 $\ell$ 个自由度的卡方分布的 $1-\alpha$ 分位数,例如 ${\chi^2_5}^{(1-0.05)}=11.1$,${\chi^2_5}^{(1-0.1)}=9.2$。而通过这个 $\beta$ 的置信集合可以得到真实函数 $f(x)=x^T\beta$ 相应的置信区间 $\{x^T\beta|\beta\in C_\beta\}$。(练习 3.2;函数的置信区域的例子另见第 5.2.2 节的图 5.4。)

3.2.1 实例:前列腺癌症

本例子中的数据来自于 Stamey et al. (1989) 的研究。其中考察了一些即将根治前列腺切除的男性病人的前列腺特异抗原(prostate-specific antigen,PSA)水平以及一些临床指标之间的相关性。特征变量有:

  • 癌肿瘤体积的对数(log cancer volume,lcavol)
  • 前列腺重量的对数(log prostate weight,lweight)
  • 年龄(age)
  • 良性前列腺增生数量的对数(log of benign prostatic hyperplasia,lbph)
  • 是否存在精囊侵袭(seminal vesicle invasion,svi)
  • 囊穿透的对数(log of capsular penetration,lcp)
  • 格里森评分(gleason)
  • 格里森评分 4 和 5 所占百分比(pgg45)
lcavol lweight age lbph svi lcp gleason
lcavol 0.300
lweight 0.286 0.317
age 0.063 0.437 0.287
lbph 0.593 0.181 0.129 −0.139
svi 0.692 0.157 0.173 −0.089 0.671
lcp 0.426 0.024 0.366 0.033 0.307 0.476
gleason 0.483 0.074 0.276 −0.030 0.481 0.663 0.757

表 3.1:前列腺癌症数据集中的自变量之间的相关性矩阵。

表 3.1 为这些自变量的相关系数矩阵,可见它们之间存在着一些强相关性。第一章中图 1.1(书中第 3 页)为这些变量的两两散点图矩阵。其中 svi 为二元分类变量,gleason 为有序分类变量。从图中可看出变量 lcavol 和 lcp 都与输出变量 lpsa 有强相关性,同时两者之间也存在强相关性。通过利用这些自变量的最小二乘拟合,可以独立出每个自变量对因变量的影响。

我们将自变量的方差标准化为 1 后,对输出变量 lpsa(PSA 水平的对数) 拟合线性模型。数据集被随机分为两部分,训练集包含 67 个样本,测试集包含 30 个样本。表 3.2 为最小二乘法拟合出的参数估计值、标准误差和 Z 分数。

输入变量 系数估计 标准误差 Z 分数
Intercept 2.46 0.09 27.60
lcavol 0.68 0.13 5.37
lweight 0.26 0.10 2.75
age −0.14 0.10 −1.40
lbph 0.21 0.10 2.06
svi 0.31 0.12 2.47
lcp −0.29 0.15 −1.87
gleason −0.02 0.15 −0.15
pgg45 0.27 0.15 1.74

表 3.2:前列腺数据集的线性模型拟合结果。Z 分数按照式 3.12 计算,即参数的估计值除以其标准误差。大致上绝对值大于 2 的 Z 分数代表着这个参数在 $p=0.05$ 的置信水平下显著不为 0。

Z 分数如式 3.12 中所定义,代表着对应输入变量的显著性水平,或可理解为去掉这个变量对拟合的影响大小。大于 2 的 Z 分数即代表着大致 5% 置信水平下的显著性。(在这个数据集中,拟合中有 9 个参数,$t_{67-9}$ 分布的 1-0.025 分位数为 2.002,非常接近于 2。)自变量中 lcavol 的显著性最强,另外 lweight 和 svi 也有比较大的 Z 分数绝对值。值得注意,当 lcavol 与 lcp 同时在模型中时,lcp 并不显著。(但模型中若只有 lcp 而没有 lcavol,则 lcp 有强显著性。)

用 $F$ 统计量(式 3.13)来检验同时排除一组输入变量的假设。假如要检验是否可以排除表 3.2 中所有不显著的变量,即 age,lcp,gleason,和 pgg45,相应的 $F$ 统计量为:

$$F = \frac{(32.81 - 29.43) / (9 - 5)}{29.43 / (67 - 9)} \tag{3.16}$$

其对应的 p 值为 0.17($\operatorname{Pr}(F_{4,58}>1.67) = 0.17$),因此不显著。结论是不能拒绝这几个变量的参数同时为 0 的假设。

在测试集上的平均预测误差为 0.521。在用训练集的输出变量 lpsa 的均值作为测试集的预测时,相应的平均预测误差为 1.057,这也被称为“基础误差率(base error rate)”。因此,线性模型的误差率比基础误差率降低了超 50%。稍后章节我们会回到这个实例来对比不同的特征选择和 收缩(shrinkage) 方法。

3.2.2 高斯-马尔可夫定理

在参数 $\beta$ 的所有线性无偏估计中,最小二乘估计的方差是最小的,这是统计学中最著名的结论之一。我们将明确地表述这个结论,同时也会指出将估计量限制在无偏的条件内可能不是最优的。这引出了在本章后续会介绍的有偏估计,比如岭回归。

现在考虑对参数任意线性组合 $\theta=a^T\beta$ 的估计;例如线性模型的预测 $f(x_0)=x_0^T\beta$ 即为这样的一个线性组合。那么 $a^T\beta$ 的最小二乘估计量为:

$$\hat{\theta} = a^T\hat{\beta} = a^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{3.17}$$

假设 $\mathbf{X}$ 可视为常数,那么上式为输出变量向量 $\mathbf{y}$ 的一个线性函数 $\mathbf{c}^T_0\mathbf{y}$。若线性模型的假设是正确的,那么 $a^T\hat{\beta}$ 为无偏估计:

$$\begin{align} E[a^T\hat{\beta}] &= E(a^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}) \\ &= E(a^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{X}\beta) \\ &= a^T\beta \tag{3.18} \end{align}$$

高斯-马尔可夫定理(Gauss-Markov theorem) 的内容是,其他任意一个对 $a^T\beta$ 的无偏线性估计量 $\tilde{\theta}=\mathbf{c}^T\mathbf{y}$,即 $\operatorname{E}(\mathbf{c}^T\mathbf{y})=a^T\beta$,都会满足:

$$\operatorname{Var}(a^T\hat{\beta}) \leq \operatorname{Var}(a^T\mathbf{y}) \tag{3.19}$$

上式的证明(练习 3.3)利用了三角不等式。简单起见,上述过程只考虑了对单一数值 $a^T\beta$ 的估计,在一些附加的定义后,同样的结论可扩展到针对参数向量 $\beta$(练习 3.3)。

下面考虑 $\theta$ 的估计 $\tilde{\theta}$ 的均方误差:

$$\begin{align} \operatorname{MSE}(\tilde{\theta}) &= \operatorname{E}(\tilde{\theta} - \theta)^2 \\ &= \operatorname{Var}(\tilde{\theta}) + [\operatorname{E}(\tilde{\theta} - \theta)]^2 \tag{3.20} \end{align}$$

式中第一项为方差,第二项为平方偏差。高斯-马尔可夫定理说明在所有的线性无偏估计量中,最小二乘估计量的均方误差是最小的。然而根据上式,如果能够以较小偏差的代价带来较大的方差降低,则有可能存在一个均方误差更小的有偏的估计。有偏估计是很常用的。所有将最小二乘法中的部分参数向零缩减(shrink)或直接设为零的方法都可产生有偏估计。本章稍后介绍的变量选择和岭回归方法都是有偏估计的例子。在实际应用场景中,模型都是对现实的简化,因此得到的都是有偏估计;模型选择就是在偏差和方差之间寻找合适的平衡点。第七章会更详细讨论相关内容。

在第二章提到过,均方误差是与预测的准确程度紧密关联的指标。假设要对在输入变量 $x_0$ 处的值做预测:

$$Y_0 = f(x_0) + \varepsilon_0 \tag{3.21}$$

则某个估计量 $\tilde{f}(x_0) = x_0^T\beta$ 的期望预测误差为

$$\begin{align} E(Y_0 - \tilde{f}(x_0))^2 &= \sigma^2 + E(x_0^T\tilde{\beta} - f(x_0))^2 \\ &= \sigma^2 + \operatorname{MSE}(\tilde{f}(x_0)) \tag{3.22} \end{align}$$

因此期望预测误差与均方误差仅相差一个代表观测本身的随机性的方差常数 $\sigma^2$。

3.2.3 从简单一元回归到多元回归

当 $p>1$ 时,式 3.1 中的线性模型称为多元线性回归模型。本节从单变量线性模型($p=1$)入手,以此能够更好地理解多元的最小二乘解(式 3.6)。

先假设一个无常数项的单变量模型:

$$Y = X\beta + \varepsilon \tag{3.23}$$

则最小二乘的估计和残差为:

$$\begin{align} \hat{\beta} &= \frac{\sum_{i=1}^N x_i y_i}{\sum_{i=1}^N x_i^2 } \\ r_i &= y_i - x_i\hat{\beta} \end{align}\tag{3.24}$$

定义 $\mathbf{y}=(y_1,\dots,y_N)^T$,$\mathbf{x}=(x_1,\dots,x_N)^T$,以及两个向量的内积3为:

$$\begin{align} \langle \mathbf{x}, \mathbf{y} \rangle &= \sum_{i=1}^N x_i, y_i \\ &= \mathbf{x}^T \mathbf{y} \tag{3.25} \end{align}$$

则式 3.24 可用向量和内积来表达:

$$\begin{align} \hat{\beta} &= \frac{\langle \mathbf{x}, \mathbf{y} \rangle} {\langle \mathbf{x}, \mathbf{y} \rangle} \\ \mathbf{r} &= \mathbf{y} - \mathbf{x}\hat{\beta} \end{align}\tag{3.24}$$

这个简单的单变量回归是多元线性回归的基础。下面假设多元线性回归的多个输入变量向量 $\mathbf{x}_1$,$\mathbf{x}_2$,……,$\mathbf{x}_p$(矩阵 $\mathbf{X}$ 的列向量)彼此正交;即对于任意的 $j\neq k$,有 $\langle\mathbf{x}_j,\mathbf{x}_k\rangle=0$。则不难推导出多元最小二乘的估计 $\hat{\beta}_j$ 为 $\langle\mathbf{x}_j,\mathbf{y}\rangle/\langle\mathbf{x}_j,\mathbf{x}_j\rangle$,即这个变量的单变量回归估计。也就是说当输入变量彼此正交时,它们在模型参数的估计中彼此没有影响4

通常在精心设计的实验中可以得到正交的输入变量,但在观测数据集中几乎不可能存在。因此我们需要通过对输入变量的正交化才可使用上述的结果。接下来考虑一个常数项和一个变量 $\mathbf{x}$ 作为输入变量的模型。则 $\mathbf{x}$ 的最小二乘系数估计为:

$$\hat{\beta}_1 = \frac {\langle \mathbf{x} - \bar{x}\mathbf{1}, \mathbf{y}\rangle} {\langle \mathbf{x} - \bar{x}\mathbf{1}, \mathbf{x} - \bar{x}\mathbf{1}\rangle} \tag{3.27}$$

其中的 $\bar{x}=\sum_ix_i/N$,$\mathbf{1}=\mathbf{x}_0$ 为一个长度为 $N$ 每个元素为 1 的向量。式 3.27 中的估计可被分解为使用了两次简单回归(式 3.26):

  1. $\mathbf{x}$ 对常数向量 $\mathbf{1}$ 做回归,生成残差 $\mathbf{z}=\mathbf{x}-\bar{x}\mathbf{1}$。
  2. $\mathbf{y}$ 对残差向量 $\mathbf{z}$ 做回归,得到系数的估计 $\hat{\beta_1}$。

其中的“$\mathbf{b}$ 对 $\mathbf{a}$ 做回归(regress $\mathbf{b}$ on $\mathbf{a}$)”指的是以 $\mathbf{b}$ 为因变量 $\mathbf{a}$ 为自变量的无截距项的单变量回归,其斜率的估计为 $\hat{\gamma}=\langle\mathbf{a},\mathbf{b}\rangle/\langle\mathbf{a},\mathbf{a}\rangle$,残差向量为 $\mathbf{b}-\hat{\gamma}\mathbf{a}$。这个过程称之为用 $\mathbf{a}$ 对 $\mathbf{b}$ 进行调整、或正交化(orthogonalize)。

第一步中用常数向量 $\mathbf{x}_0=\mathbf{1}$ 正交化 $\mathbf{x}$。第二步中用第一步的残差 $\mathbf{z}$ 为输入变量进行简单单变量回归5图 3.4 以两个输入变量为例演示了这个过程,正交化不会改变输入向量 $\mathbf{x}_1$ 和 $\mathbf{x}_2$ 生成的子空间,而是生成了这个子空间的一组正交基。

**图 3.4**:通过输入变量的正交化求解最小二乘回归。$\mathbf{z}$ 为向量 $\mathbf{x}_2$ 对 $\mathbf{x}\_1$ 回归的残差,$\mathbf{y}$ 对 $\mathbf{z}$ 的回归得到多元回归中 $\mathbf{x}\_2$ 的系数估计。最小二乘拟合 $\hat{\mathbf{y}}$ 可以分解为 $\mathbf{y}$ 在 $\mathbf{x}\_1$ 和 $\mathbf{z}$ 方向上的投影的和。
图 3.4:通过输入变量的正交化求解最小二乘回归。$\mathbf{z}$ 为向量 $\mathbf{x}_2$ 对 $\mathbf{x}_1$ 回归的残差,$\mathbf{y}$ 对 $\mathbf{z}$ 的回归得到多元回归中 $\mathbf{x}_2$ 的系数估计。最小二乘拟合 $\hat{\mathbf{y}}$ 可以分解为 $\mathbf{y}$ 在 $\mathbf{x}_1$ 和 $\mathbf{z}$ 方向上的投影的和。

算法 3.1 将上述流程推广至 $p$ 个输入变量的回归中。注意其中第二步中生成的残差向量$\mathbf{z}_0$,……,$\mathbf{z}_{j-1}$ 彼此正交,所以其中计算出的单变量回归的系数($\hat{\gamma_{lj}}$)实际上也是多元回归的系数。


算法 3.1:逐步正交化(successive orthogonalization)回归

  1. 初始化常数向量 $\mathbf{z}_0=\mathbf{x}_0=\mathbf{1}$.
  2. 对 $j=1,2,\dots,p$ 依次进行:
    通过 $\mathbf{x}_j$ 对 $\mathbf{z}_0$,$\mathbf{z}_1$,……,$\mathbf{z}_{j-1}$ 的回归,得到系数估计 $$\hat{\gamma}_{\ell j} = \frac {\langle \mathbf{z}_\ell, \mathbf{x}_j \rangle} {\langle \mathbf{z}_\ell, \mathbf{z}_\ell \rangle}, \ell = 0, \dots, j−1$$ 以及回归的残差 $$\mathbf{z}_j = \mathbf{x}_j - \sum_{k=0}^{j-1} \hat{\gamma}_{kj}\mathbf{z}_k$$
  3. 通过 $\mathbf{y}$ 对残差 $\mathbf{z}_p$ 的回归得到参数估计 $\hat{\beta}_p$。

算法最终的结果为多元回归中的第 $p$ 个参数的估计:

$$\hat{\beta}_p = \frac {\langle \mathbf{z}_p, \mathbf{y} \rangle} {\langle \mathbf{z}_p, \mathbf{z}_p \rangle}\tag{3.28}$$

算法第二步中的逐步正交过程,使得每个向量 $\mathbf{x}_j$ 均为一组向量 $\mathbf{z}_k$($k\leq j$)的线性组合。所有的 $\mathbf{z}_j$ 彼此正交,因此它们构成了 $\mathbf{X}$ 的列空间的一组基(basis)。最小二乘拟合 $\hat{\mathbf{y}}$ 是输出变量向量在这个空间上的投影,所以它也是这组基的线性组合。由于基中只有 $\mathbf{z}_p$ 中包含 $\mathbf{x}_p$(并且系数为 1),其在投影的正交基线性组合中系数为式 3.28,因此这个系数也是原多元回归中 $\mathbf{x}_p$ 的最小二乘系数。通过改变输入变量的脚标顺序,将不同的输入变量放在最后一位,则重复算法 3.1 就可以得到所有参数估计。

算法 3.1 不仅提供了另一个计算最小二乘的方法,同时也揭示了多元回归中存在相关性的输入变量之间的影响。这个过程说明了多元回归中的第 j 个回归系数,等价于 $\mathbf{y}$ 对 $\mathbf{x}_{j\cdot012\dots(j-1)(j+1)\dots p}$($\mathbf{x}_j$ 对所有其他输入变量 $\mathbf{x}_0$,$\mathbf{x}_1$,……,$\mathbf{x}_{j-1}$,$\mathbf{x}_{j+1}$,……,$\mathbf{x}_p$ 回归的残差)的单变量回归系数。

直观的来说:多元回归系数 $\hat{\beta}_j$ 体现的是排除了其他变量的影响后,$\mathbf{x}_j$ 对 $\mathbf{y}$ 的影响。

若 $\mathbf{x}_p$ 与其他一个或几个输入变量有强相关性,那么最终的残差向量 $\mathbf{z}_p$ 会十分接近于 0,通过式 3.28 可知其系数估计 $\hat{\beta}_p$ 不稳定。与之强相关的其他输入变量也同样如此。此时可能出现的是,这组变量的 Z 评分都不大(如图 3.2),其中每个变量都可以被排除,然而我们却无法将这组变量全部排除。从式 3.28 也可得到方差估计(式 3.8)的另一个表达式:

$$\operatorname{Var}(\hat{\beta}_p) = \frac{\sigma^2}{\langle \mathbf{z}_p, \mathbf{z}_p \rangle} = \frac{\sigma^2}{\|\mathbf{z}_p\|^2} \tag{3.29}$$

也就是说,对 $\hat{\beta}_p$ 估计的准确度取决于残差向量 $\mathbf{z}_p$ 的长度,即在 $\mathbf{x}_p$ 的信息中有多少是无法被其他输入变量解释的。

算法 3.1 也被称为多元回归的 格拉姆-施密特正交化(Gram–Schmidt procedure),它也是一个实践中最小二乘估计的数值计算方法。算法最终可获得参数估计 $\hat{\beta}_p$,以及最小二乘的拟合结果(练习 3.4)。

算法 3.1 中的第二步可以用矩阵的形式表达:

$$\mathbf{X} = \mathbf{Z} \mathbf{\Gamma} \tag{3.30}$$

其中 $\mathbf{Z}$ 的列(依次)为 $\mathbf{z}_j$,$\mathbf{\Gamma}$ 为上三角矩阵,矩阵中的元素为 $\hat{\gamma}_{kj}$。定义对角矩阵 $\mathbf{D}$,其第 j 个对角线元素为 $\mathbf{D}_{jj}=|\mathbf{z}_j|$,则:

$$\begin{align} \mathbf{X} &= \mathbf{Z}\mathbf{D}^{-1}\mathbf{D}\mathbf{\Gamma} \\ &= \mathbf{Q}\mathbf{R} \tag{3.31} \end{align}$$

便是所谓的矩阵 $\mathbf{X}$ 的 QR 分解(QR decomposition)。其中的 $\mathbf{Q}$ 为 $N\times(p+1)$ 的正交矩阵,且 $\mathbf{Q}^T\mathbf{Q}=\mathbf{I}$,$\mathbf{R}$ 为 $(p+1)\times(p+1)$ 的上三角矩阵。QR 分解为矩阵 $\mathbf{X}$ 的列向量空间提供了一个方便的正交基。例如,最小二乘的解可以很方便的写为:

$$\begin{align} \hat{\beta} &= \mathbf{R}^{-1}\mathbf{Q}^T\mathbf{y}\tag{3.32} \\ \hat{\mathbf{y}} &= \mathbf{Q}\mathbf{Q}^T\mathbf{y}\tag{3.33} \end{align}$$

由于 $\mathbf{R}$ 为上三角矩阵,其逆矩阵很容易获得(练习 3.4)。

3.2.4 多输出变量回归

假设有多个输出变量 $Y_1$,$Y_2$,……,$Y_K$,都用 $p$ 个输入变量 $X_0$,$X_1$,$X_2$,……,$X_p$ 来预测。则对每一个输出变量,都有线性模型:

$$\begin{align} Y_k &= \beta_{0k} + \sum_{j=1}^p X_j\beta_{jk} + \varepsilon_k \tag{3.34} \\ &= f_k(X) + \varepsilon_k \tag{3.35} \end{align}$$

假设样本大小为 $N$,可以将模型写成矩阵形式:

$$\mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{E} \tag{3.36}$$

其中 $\mathbf{Y}$ 为一个 $N\times K$ 的因变量矩阵,其中第 $ik$ 位置的元素为 $y_{ik}$;$\mathbf{X}$ 为 $N \times(p+1)$ 的输入变量矩阵;$\mathbf{B}$ 为 $(p+1)\times K$ 的参数矩阵;$\mathbf{E}$ 为 $N\times K$ 的误差项矩阵。对单输出变量的损失函数(式 3.2)的简单推广可得到:

$$\begin{align} \operatorname{RSS}(\mathbf{B}) &= \sum_{k=1}^K\sum_{i=1}^N (y_{ik} - f_k(x_i))^2 \tag{3.37} \\ &= \operatorname{tr}[(\mathbf{Y}-\mathbf{X}\mathbf{B})^T (\mathbf{Y}-\mathbf{X}\mathbf{B})] \tag{3.38} \end{align}$$

最小二乘法的估计量和单输出变量时的解一致,但其中的矩阵维度不同:

$$\hat{\mathbf{B}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}\mathbf{Y} \tag{3.39}$$

因此第 k 个输出变量的系数估计等同于 $\mathbf{x}_0$,$\mathbf{x}_1$,……,$\mathbf{x}_p$ 对 $\mathbf{y}_k$ 的最小二乘回归。多个输出变量不会影响彼此的最小二乘估计。

但如果式 3.34 中的误差项 $\varepsilon=(\varepsilon_1,\dots,\varepsilon_K)$ 彼此存在相关,则可能需要将式 3.37 的定义针对多输出变量做调整。假设 $\operatorname{Cov}(\varepsilon)=\mathbf{\Sigma}$,则多元加权判别标准为:

$$\operatorname{RSS}(\mathbf{B}; \mathbf{\Sigma}) = \sum_{i=1}^N (y_i-f(x_i))^T \mathbf{\Sigma}^{-1} (y_i-f(x_i)) \tag{3.40}$$

其与多元高斯分布的等式比较相像。$f(x)$ 的取值为一个向量 $(f_1(x),\dots,f_K(x))^T$,$y_i$ 为观测样本 i 的长度为 K 的向量。然而推导得出的解与式 3.39 一致,即误差无相关性时的分别进行的 K 个回归解(练习 3.11)。在样本间有不同的协方差矩阵 $\mathbf{\Sigma}_i$ 时,以上结论不再成立,输出变量之间会有相互影响。

第 3.7 节会继续讨论多个输出变量的问题,以及一些联合回归可改善预测结果的场景。


本节练习

练习 3.1

证明在检验是否可从模型中排除单个系数时,$F$ 统计量(式 3.13)等于相应的 $Z$ 分数(式 3.12)的平方。

解 3.1

单个系数的 Z 分数,或 t 统计量,的定义是这个系数的估计值与这个系数标准差的估计值的比值:

$$ t_j = \frac {\hat{\beta}_j} {\sqrt{\widehat{\operatorname{Var}(\hat{\beta})}}} = \frac{\hat{\beta}_j}{\hat{\sigma}\sqrt{v_j}}$$

其中 $\hat{\beta}$ 的方差见式 3.8,上式中的 $v_j$ 也来自于式 3.8 中矩阵 $(\mathbf{X}^T\mathbf{X})^{-1}$ 对角线上的第 $j$ 个元素。

假设 $\mathbf{z}_j$ 为 $x_j$ 对所有其他输入变量回归后的残差,则根据对算法 3.1 的讨论可知,

$$\begin{align} \hat{\beta}_j &= \frac {\langle \mathbf{z}_j, \mathbf{y} \rangle} {\langle \mathbf{z}_j, \mathbf{z}_j \rangle} \tag{参考等式 3.28} \\ \widehat{\text{Var}(\hat{\beta}_j)} &= \frac{\hat{\sigma}^2}{\langle \mathbf{z}_j, \mathbf{z}_j \rangle} = \frac{\hat{\sigma}^2}{\|\mathbf{z}_j\|^2} \tag{参考等式 3.29} \end{align}$$

借鉴计量经济学中常用的定义:

  • 总(离差)平方和(total sum of squares, TSS): $\text{TSS}=\sum_{i=1}^N(y_i-\bar{y})^2$
  • 解释平方和(explained sum of squares, ESS): $\text{ESS}=\sum_{i=1}^N(\hat{y}_i-\bar{y})^2$
  • 残差平方和(residual sum of squares, RSS): $\text{RSS}=\sum_{i=1}^N(y_i-\hat{y}_i)^2$

当回归中存在常数项时,$\text{TSS}=\text{ESS}+\text{RSS}$。因此变量 $X_j$ 带来的 RSS 降低从数值上等于其带来的 ESS 增加。而由于 $z_j$ 与所有其他变量的空间正交:

$$\begin{align} \text{ESS} &= \sum_{i=1}^N (\hat{y}_i - \bar{y})^2 \\ &= \sum_{i=1}^N (x_{-j}^T\hat{\beta}_{-j} + z_{ji}\hat{\beta}_j - \bar{y})^2 \\ &= \sum_{i=1}^N (x_{-j}^T\hat{\beta}_{-j} - \bar{y})^2 + \sum_{i=1}^N (z_{ji}\hat{\beta}_j)^2 \\ &= \text{ESS}_{-j} + \hat{\beta}_j^2 \|\mathbf{z}_j\|^2 \end{align}$$

其中的下标 $\cdot_{-j}$ 表示去掉变量 $X_j$ 后相应的值:$x_{-j}$ 为去掉 $x_{j}$ 后的输入变量向量,长度为 $p-1+1=p$;$\hat{\beta}_{-j}$ 为去掉 $X_j$ 后的最小二乘估计系数,长度为 $p$;$\text{ESS}_{-j}$ 为去掉 $X_j$ 后的 $p$ 个变量的模型的 ESS。第三步拆分平方项时,利用了 $\mathbf{z}_j$ 与其他变量的正交,以及 $\mathbf{z}_j$ 本身是一个回归的残差。

由此可见,模型中加入变量 $X_j$ 后使 RSS 降低了 $\hat{\beta}_j^2 \|z_j\|$。代入到 $F$ 统计量的定义式 3.13 中:

$$\begin{align} F_j &= \frac{(\text{RSS}_{-j} - \text{RSS}) / 1}{\text{RSS} / (N - p - 1)} \\ &= \frac{\text{ESS}_j}{\hat{\sigma}^2} = \frac{\hat{\beta}_j^2 \|z_j\|^2}{\hat{\sigma}^2} = \frac{\hat{\beta}_j^2}{\hat{\sigma}^2 / \|z_j\|^2} = \frac{\hat{\beta}_j^2}{\widehat{\operatorname{Var}(\hat{\beta})}} \\ &= t_j^2 \end{align}$$

证毕。

练习 3.2

给定两个变量 $X$ 和 $Y$ 的数据样本,拟合一个三次多项式回归模型 $f(X)=\sum_{j=0}^3\beta_j X^j$。除拟合曲线外,你需要围绕曲线的 95% 水平置信区间带。考虑以下两种方法:

  1. 在每个点 $x_0$,为线性函数 $a^T\beta=\sum_{j=0}^3\beta_jX^j$ 构建 95% 置信区间。
  2. 先如式 3.15 构建 $\beta$ 的 95% 置信区间,再从中生成函数 $f(x_0)$ 的置信区间。

这两种方法有何区别?哪个更可能得出更宽的置信区间带?通过一个小模拟试验来比较两种方法。

解 3.2

首先对这两种置信区间的生成方法加以说明。方便起见,下面假设 $\sigma$ 已知,$\varepsilon\sim\mathcal{N}(0,\sigma^2)$。则 $\hat{\beta}$ 的分布见式 3.10。

方法一,由于 $\hat{\beta}$ 为正态分布,其线性组合 $x_0^T\hat{\beta}$ 也为正态分布。根据这个分布,构建 $x_0^T\hat{\beta}$ 的 95% 置信区间 $CI_1$:

$$\begin{gather} x_0^T\hat{\beta} \sim \mathcal{N} \left( x_0^T\beta, x_0^T(\mathbf{X}^T\mathbf{X})^{-1}x_0 \sigma^2 \right) \\ CI_1 = ( x_0^T\hat{\beta} - 1.96\sigma(x_0^T(\mathbf{X}^T\mathbf{X})^{-1}x_0)^{\frac{1}{2}}, x_0^T\hat{\beta} + 1.96\sigma(x_0^T(\mathbf{X}^T\mathbf{X})^{-1}x_0)^{\frac{1}{2}}) \end{gather}$$

方法二,先构建 $\beta$ 在 $p$ 维空间上的 95% 置信区间,然后由这个集合中的点与 $x_0$ 内积的范围确定 $x_0^T\beta$ 对应的区间。注意到 $CI_\beta$ 是某种以 $\hat{\beta}$ 为中心的椭球体,$CI_2$ 是这个椭球体在 $x_0$ 方向上的投影长度区间乘以 $\|x_0\|$。因此,$CI_2$ 以 $x_0^T\hat{\beta}$ 为中心,并且两端的极值发生在椭球体的边缘上。

$$\begin{gather} CI_\beta = \left \{ \beta | (\hat{\beta}-\beta)^T(\mathbf{X}^T\mathbf{X})^{-1}(\hat{\beta}-\beta) \leq \sigma^2 {\chi^2_p}^{0.95} \right \} \\ CI_2 = \{ x_0^T\beta | \beta \in CI_\beta \} \end{gather}$$

这两个区间在概率空间上实际对应着不同的集合。若考虑在 $\beta$ 的空间上,$CI_\beta$ 是一个以 $\hat{\beta}$ 为中心的椭球体,而 $\{\beta|x_0^T\beta\in(a, b)\}$ 对应的是可沿着与 $x_0$ 正交方向无限延伸的立方体(因为 $x_0$ 与其正交方向的向量的内积为零)。所以 $CI_\beta$ 实际上是 $\{\beta|x_0^T\beta\in CI_2\}$ 的子集。因此:

$$\begin{align} \operatorname{Pr}_{x_0^T\beta}(CI_2) &= \operatorname{Pr}_\beta(\{\beta|x_0^T\beta \in CI_2\}) \\ &> \operatorname{Pr}_\beta(CI_\beta) = 0.95 = \operatorname{Pr}_{x_0^T\beta}(CI_1)\end{align}$$

故 $CI_2$ 要比 $CI_1$ 更宽。注意到上式中用下标强调了对不同空间上集合的概率测度是不同的。在两个方法的中各有一个概率为 95% 的集合,但这两个概率测度并不是同一个,方法一中是变量 $x_0^T\hat{\beta}$ 的概率分布(一维正态),方法二中是变量 $\hat{\beta}$ 的概率分布(p 维正态)。p 维空间上的集合 $CI_\beta$ 的概率测度与将其经过线性转换后在一维上的 $CI_2$ 的概率测度不相等。

另外,可以用不等式约束的拉格朗日乘子法解出 $CI_2$ 的最大最小值。方便期间,定义 $\Delta \beta = \beta - \hat{\beta}$,则 $x_0^T\beta=x_0^T\hat{\beta}+x_0^T \Delta\beta$。最优化问题为:

$$\begin{gather} \min_{\Delta\beta} x_0^T\Delta\beta \\ \text{s.t. } \Delta\beta^T \mathbf{X}^T\mathbf{X} \Delta\beta \leq \sigma^2 {\chi_p^2}^{0.95} \end{gather}$$

拉格朗日函数为:

$$L(\Delta\beta, \gamma) = x_0^T\beta + \lambda(\Delta\beta^T \mathbf{X}^T\mathbf{X} \Delta\beta - \sigma^2 {\chi_p^2}^{0.95})$$

最优解的 KKT 条件:

$$\begin{gather} \frac{\partial L}{\partial \Delta\beta} = x_0 + 2\gamma(X^TX)\Delta\beta = 0 \\ \Delta\beta^T \mathbf{X}^T\mathbf{X} \Delta\beta - \sigma^2 {\chi_p^2}^{0.95} \leq 0 \\ \lambda \geq 0 \\ \lambda (\Delta\beta^T \mathbf{X}^T\mathbf{X} \Delta\beta - \sigma^2 {\chi_p^2}^{0.95}) = 0 \end{gather}$$

若 $\lambda=0$,一阶导数($x_0$)无法为零,得不出最优解。故 $\lambda>0$,从而:

$$\begin{gather} \Delta\beta = -\frac{1}{2\lambda} (\mathbf{X}^T\mathbf{X})^{-1} x_0 \\ \Delta\beta^T \mathbf{X}^T\mathbf{X} \Delta\beta = \sigma^2 {\chi_p^2}^{0.95} \end{gather}$$

从中可解出:

$$\begin{gather} \lambda^* = \frac {\sqrt{x_0^T(\mathbf{X}^T\mathbf{X})^{-1}x_0}} {2\sigma\sqrt{{\chi_p^2}^{0.95}}} \\ \Delta\beta^* = -\frac {\sigma\sqrt{{\chi_p^2}^{0.95}}(\mathbf{X}^T\mathbf{X})^{-1}x_0} {\sqrt{x_0^T(\mathbf{X}^T\mathbf{X})^{-1}x_0}} \end{gather}$$

区间 $CI_2$ 的左右边界为:

$$x_0^T\hat{\beta} \pm x_0^T\Delta\beta^* = x_0^T\hat{\beta} \pm ({\chi_p^2}^{0.95})^{\frac{1}{2}}\sigma (x_0^T(\mathbf{X}^T\mathbf{X})^{-1}x_0)^{\frac{1}{2}} $$

只有当 $p=1$ 时,$({\chi_1^2}^{0.95})^{\frac{1}{2}}=1.96 $,两个区间相等。${\chi_1^p}^{0.95}$ 随着 $p$ 增长,所以当 $p>1$,$CI_1\subset CI_2$。

练习 3.3

高斯-马尔可夫定理(Gauss-Markov theorem):

  1. 证明高斯-马尔可夫定理:一个参数 $a^T\beta$ 的最小二乘估计的方差不大于任意其他 $a^T\beta$ 的线性无偏估计的方差。
  2. 矩阵不等式 $\mathbf{B}\preceq\mathbf{A}$ 的定义为 $\mathbf{A}-\mathbf{B}$ 是半正定矩阵。若 $\hat{\mathbf{V}}$ 为 $\beta$ 最小二乘估计的协方差矩阵,$\tilde{\mathbf{V}}$ 为任意其他线性无偏估计的协方差矩阵,则 $\hat{\mathbf{V}}\preceq\tilde{\mathbf{V}}$。
解 3.3.1

$a^T\beta$ 的最小二乘估计为

$$a^T\hat{\beta} = a^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$$

这是一个 $\mathbf{y}$ 的线性组合,并且 $\operatorname{E}(a^T\hat{\beta})=a^T\beta$。假设有另一个 $a^T\beta$ 的无偏线性估计,其线性组合权重与最小二乘的权重区别是一个不为零的向量 $\gamma$,则有:

$$\begin{gather} \operatorname{E}[(\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}a + \gamma)^T\mathbf{y}] = a^T\beta \\ \Rightarrow \operatorname{E}[\gamma^T\mathbf{y}] = \gamma^T X\beta = 0 \end{gather}$$

上式需要对任意的 $\beta$ 都成立,所以 $\gamma^TX=\mathbf{0}$。新的线性无偏估计的方差为:

$$\begin{align} & \operatorname{Var}((\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}a + \gamma)^T\mathbf{y}) \\ =& (\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}a + \gamma)^T \operatorname{Var}(\mathbf{y}) (\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}a + \gamma) \\ =& \sigma^2 \left( a^T(\mathbf{X}^T\mathbf{X})^{-1}a + \gamma^T\gamma + 2a^T(\mathbf{X}^T\mathbf{X})^{-1}\underbrace{\mathbf{X}\gamma}_{=\mathbf{0}} \right) \\ =& \operatorname{Var}(a^T\hat{\beta}) + \sigma^2\|\gamma\|^2 \end{align}$$

由于 $\gamma\neq 0$,所以新的线性无偏估计的方差大于最小二乘估计的方差。

证毕。

解 3.3.2

假设 $\tilde{\beta}$ 为与最小二乘估计 $\hat{\beta}$ 不同的线性无偏估计,则存在非零 $N\times p$ 矩阵 $\Gamma$:

$$\tilde{\beta} = (\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}+\Gamma)^T\mathbf{y}$$

$\tilde{\beta}$ 无偏:

$$\begin{gather} \operatorname{E}(\tilde{\beta}) = (\mathbf{I} + \Gamma^T\mathbf{X})\beta = \beta,\forall \beta \\ \Rightarrow \Gamma^T\mathbf{X} = \mathbf{0} \end{gather}$$

$\tilde{\beta}$ 的协方差矩阵:

$$\begin{align} \tilde{\mathbf{V}} =& \operatorname{Var} ((\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}+\Gamma)^T\mathbf{y}) \\ =& \sigma^2 ((\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}+\Gamma)^T ((\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}+\Gamma) \\ =& \sigma^2 \left( (\mathbf{X}^T\mathbf{X})^{-1} + \Gamma^T\Gamma + 2\underbrace{\Gamma^T\mathbf{X}}_{=\mathbf{0}}(\mathbf{X}^T\mathbf{X})^{-1} \right) \\ =& \hat{\mathbf{V}} + \sigma^2\Gamma^T\Gamma \end{align}$$

$\Gamma^T\Gamma$ 为半正定矩阵, 故 $\hat{\mathbf{V}} \preceq \tilde{\mathbf{V}}$

证毕。

练习 3.4

利用 $\mathbf{X}$ 的 QR 分解,试说明在一轮格拉姆-施密特(Gram-Schmidt)正交化流程(算法 3.1)后即可得到最小二乘系数向量的估计。

解 3.4

将 QR 分解 $\mathbf{X}=\mathbf{Q}\mathbf{R}$ 代入最小二乘解中:

$$\begin{align}\hat{\beta} &= (\mathbf{R}^T\mathbf{Q}^T\mathbf{Q}\mathbf{R})^{-1} \mathbf{R}^T\mathbf{Q}^T \mathbf{y} \\ &= (\mathbf{R}^T\mathbf{R})^{-1} \mathbf{R}^T\mathbf{Q}^T \mathbf{y} \\ &= \mathbf{R}^{-1}(\mathbf{R}^T)^{-1} \mathbf{R}^T\mathbf{Q}^T \mathbf{y} \\ \Rightarrow \mathbf{R}\hat{\beta} &= \mathbf{Q}^T \mathbf{y} \end{align}$$

QR 分解可通过正交化计算。$\mathbf{Q}=\mathbf{Z}\mathbf{D}^{-1}$ 是一个规范正交基,$\mathbf{R}=\mathbf{D}\mathbf{\Gamma}$ 是一个上三角矩阵。其中 $\mathbf{Z}=[\mathbf{z}_0,\mathbf{z}_1,\dots,\mathbf{z}_p]$ 的列向量为正交化过程中产生的正交残差向量;$\mathbf{R}$ 的元素为正交化过程(算法 3.1)中的参数 $R_{ij}=\hat{\gamma}_{ij}$,当 $i=j$ 时,$R_{ij}=1$,当 $i>j$ 时,$R_{ij}=0$;$\mathbf{D}$ 为 $\|\mathbf{z}_j\|$ 组成的对角矩阵;以上的 $i,j=0,1,\dots,p$。最小二乘解满足:

$$\begin{gather} \mathbf{D}\mathbf{\Gamma}\hat{\beta} = \mathbf{D}^{-1}\mathbf{Z}^T \mathbf{y} \\ \Rightarrow \mathbf{\Gamma}\hat{\beta} = \mathbf{D}^{-2}\mathbf{Z}^T \mathbf{y} \end{gather}$$

$$ \begin{bmatrix} 1 & \hat{\gamma}_{01} & \hat{\gamma}_{02} & \dots & \hat{\gamma}_{0p} \\ 0 & 1 & \hat{\gamma}_{12} & \dots & \hat{\gamma}_{1p} \\ 0 & 0 & 1 & \dots & \hat{\gamma}_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \dots & 1 \end{bmatrix} \begin{bmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \\ \hat{\beta}_2 \\ \vdots \\ \hat{\beta}_p \end{bmatrix} = \begin{bmatrix} \frac{\mathbf{z}_0^T}{\|\mathbf{z}_0\|^2} \\ \frac{\mathbf{z}_1^T}{\|\mathbf{z}_1\|^2} \\ \frac{\mathbf{z}_2^T}{\|\mathbf{z}_2\|^2} \\ \vdots \\ \frac{\mathbf{z}_p^T}{\|\mathbf{z}_p\|^2} \end{bmatrix} \mathbf{y} = \begin{bmatrix} \frac{\langle \mathbf{z}_0, \mathbf{y} \rangle} {\langle \mathbf{z}_0, \mathbf{z}_0 \rangle} \\ \frac{\langle \mathbf{z}_1, \mathbf{y} \rangle} {\langle \mathbf{z}_1, \mathbf{z}_1 \rangle} \\ \frac{\langle \mathbf{z}_2, \mathbf{y} \rangle} {\langle \mathbf{z}_2, \mathbf{z}_2 \rangle} \\ \vdots \\ \frac{\langle \mathbf{z}_p, \mathbf{y} \rangle} {\langle \mathbf{z}_p, \mathbf{z}_p \rangle} \end{bmatrix} = \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ \vdots \\ b_p \end{bmatrix} $$

正交化的过程会得到上式左侧的线性变换矩阵 $\mathbf{\Gamma}$ 以及右侧的向量 $\mathbf{b}$,这是 $\hat{\beta}$ 的一次方程组。高斯消元(Gaussian elimination)是解一次方程组的方法,通过对行的初等变换将左边的矩阵成为单位矩阵,此时右边经过同样变换后的向量即为方程组的解。

可以将高斯消元的初等行变换嵌入到正则化的流程中。在正则化的流程中,从左到右地生成左边矩阵,从上到下地生成右边向量,并且生成的矩阵已经是上三角矩阵,且对角线为 1。比如在正则化的一步流程中,得到了当前的 $\mathbf{z}_j$,左边矩阵第 $j+1$ 列中的非零元素 $\hat{\gamma}_{lj}$,$l=0,1,\dots,j$, 以及当前的 $b_j=\langle\mathbf{z}_j,\mathbf{y}\rangle/\langle\mathbf{z}_j,\mathbf{z}_j\rangle$。此时可以通过初等行变换将左边矩阵的第 $j+1$ 列中前 $j$ 个元素变为 0, 右侧的向量也会相应更新。如此进行下去,在正则化流程后,左边矩阵变为单位矩阵,右边不断更新后的向量就等于 $\hat{\beta}$。

$$\begin{gather} \begin{bmatrix} b_0 \\ \cdot \\ \cdot \\ \vdots \\ \cdot \end{bmatrix} \rightarrow \begin{bmatrix} b_0 - \hat{\gamma}_{01}b_1 \\ b_1 \\ \cdot \\ \vdots \\ \cdot \end{bmatrix} \rightarrow \begin{bmatrix} b_0 - \hat{\gamma}_{01}b_1 - \hat{\gamma}_{02}b_2 \\ b_1 - \hat{\gamma}_{12}b_2 \\ b_2 \\ \vdots \\ \cdot \end{bmatrix} \rightarrow \\ \cdots \rightarrow \hat{\beta} = \begin{bmatrix} b_0 - \sum_{l=1}^p \hat{\gamma}_{0l}b_l \\ b_1 - \sum_{l=2}^p \hat{\gamma}_{1l}b_l \\ b_2 - \sum_{l=3}^p \hat{\gamma}_{2l}b_l \\ \vdots \\ b_p \end{bmatrix} \end{gather}$$

练习 3.11

证明多输出变量线性回归问题(式 3.40)的解为式 3.39。如果每个观测样本的协方差矩阵 $\mathbf{\Sigma}_i$ 不同,会发生什么变化?


  1. 二阶导数矩阵为正定矩阵,故在一阶导数为 0 的点,为函数的极小值点。 ↩︎

  2. 注意图 3.2 与图 3.1 的想要表达的维度是不同的,前者是 $N$ 维,后者是 $p+1$ 维,只是为了理解都画成了三维的图形。图 3.2 中黄色的平面即代表着列空间,上面的点均为某个线性模型的实现,拟合的过程即寻找这个平面上与训练样本的输出实现向量最近的点。用三维图像中的直觉来说,最近的点即为向量 $\mathbf{y}$ 在这个平面上的投影点。 ↩︎

  3. 原文脚注 1:使用向量和内积的写法,把线性回归与多维空间和概率空间联系了起来。 ↩︎

  4. 比如 $\hat{\beta}_j$ 的表达式中只涉及这个输入变量 $\mathbf{x}_j$ 本身,不包含其他输入变量。 ↩︎

  5. 此处原文为“第二步为以 $\mathbf{1}$ 和 $\mathbf{z}$ 为输入变量的简单的单变量回归。”译者觉得原文可能有混淆,但正交化后 $\mathbf{z}$ 的参数估计并不会被是否存在常数项影响,只是加入常数项后可以得到最小二乘的拟合值 $\hat{y}$。 ↩︎

下一页