3.7 多输出变量 😱

如第 3.2.4 节所述，多个输出变量线性模型的最小二乘估计，即为简单地对每个输出变量进行独立的最小二乘估计。

在多输出变量的情况下，变量选择和收缩方法可以应用在每个输出变量单独的回归中，也可以对所有的输出变量同时进行。以岭回归为例，可以对输出变量矩阵 $\mathbf{Y}$ 的 K 个列向量逐个带入等式 3.44 中，并在不同的参数 $\lambda$ 下求解；或者可以对所有的列向量采用统一的参数 $\lambda$。前者可允许对不同的输出变量采取不同程度的正则化（约束），但需要确定 K 个独立的正则参数 $\lambda_1$、……、$\lambda_K$；后者使用所有的 K 个输出变量来决定统一的一个正则参数 $\lambda$。

也有些更复杂的收缩和变量选择方法会利用输出变量之间的相关关系来提高整体模型的效果。假设一个多输出变量的例子，其中：

$$\begin{align} Y_k &= f(X) + \varepsilon_k \tag{3.65} \\ Y_\ell &= f(X) + \varepsilon_\ell \tag{3.66} \end{align}$$

即两个输出变量的模型中都包含同样的 $f(X)$ 函数结构。显然此时应该将 $Y_k$ 和 $Y_\ell$ 的样本合并后来估计其中的 $f$。

这种合并输出变量的做法即为 典型相关分析（canonical correlation analysis, CCA） 的核心思想，这种方法降低了多输出变量模型的数据维度。与主成分分析（PCA）类似，典型相关分析构建输入变量 $\mathbf{x}_j$ 的一个不相关的线性组合序列 $\mathbf{X}v_m,m=1,\dots,M$，以及相应的输出变量 $\mathbf{y}_k$ 的一个不相关的线性组合序列 $\mathbf{Y}u_m$，使得：

$$\operatorname{Corr}^2(\mathbf{Y}u_m, \mathbf{X}v_m) \tag{3.67}$$

为依次最大化¹。注意至多可以构建 $M=\min(K,p)$ 个方向。第一个典型相关输出变量为在所有原输出变量的线性组合中，最好地被输入变量 $\mathbf{x}_j$ 所预测的一个；相反地，最后一个典型相关输出变量为所有线性组合中，模型解释力最弱的一个，可以考虑从最终模型中排除。典型相关分析方法的解可利用在样本协方差矩阵 $\mathbf{Y}^T\mathbf{X}/N$ 的广义奇异值分解（SVD）来计算（假设 $\mathbf{Y}$ 和 $\mathbf{X}$ 均已中心化；练习 3.20）。

降秩回归（reduced-rank regression）（Izenman, 1975; van der Merwe and Zidek, 1980）根据这种方法构建了一个直接综合不同输出变量信息的回归模型。给定一个误差协方差矩阵 $\operatorname{Cov}(\varepsilon)=\mathbf{\Sigma}$，对下式的有约束的多元回归问题求解²：

$$\hat{\mathbf{B}}^{\text{rr}}(m) = \underset{\operatorname{rank}(\mathbf{B})=m}{\arg\min} \sum_{i=1}^N (y_i - \mathbf{B}^T x_i)^T \mathbf{\Sigma}^{-1} (y_i - \mathbf{B}^T x_i) \tag{3.68}$$

将其中的 $\mathbf{\Sigma}$ 用样本估计 $\mathbf{Y}^T\mathbf{Y}/N$ 代替，可证明（练习 3.21）上式的解可用 $\mathbf{Y}$ 和 $\mathbf{X}$ 的典型相关分析序列表达：

$$ \hat{\mathbf{B}}^{\text{rr}}(m) = \hat{\mathbf{B}} \mathbf{U}_m \mathbf{U}_m^- \tag{3.69}$$

假设 $\mathbf{U}$ 为左典型向量 $u_1$、$u_2$、……、$u_M$ 组成的 $K\times M$ 矩阵，则上式中的 $\mathbf{U}_m$ 为矩阵 $\mathbf{U}$ 的左边 $m$ 列组成的 $K\times m$ 矩阵。$\mathbf{U}_m^-$ 为这个矩阵的广义逆矩阵。这个解可写为³：

$$ \hat{\mathbf{B}}^{\text{rr}}(m) = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T(\mathbf{Y}\mathbf{U}_m)\mathbf{U}_m^- \tag{3.70}$$

可见降秩回归相当于在对合并的输出变量矩阵 $\mathbf{Y}\mathbf{U}_m$ 进行线性回归，再将其系数（以及拟合值）映射到原始的输出变量空间上。降秩回归的拟合为：

$$\begin{align} \hat{\mathbf{Y}}^{\text{rr}}(m) &= \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \mathbf{Y}\mathbf{U}_m\mathbf{U}_m^- \\ &= \mathbf{H}\mathbf{Y}\mathbf{P}_m \end{align}\tag{3.71}$$

这里的 $\mathbf{H}$ 即为普通的线性回归的投影矩阵，$\mathbf{P}_m$ 为 m 秩的典型相关分析输出变量投影矩阵。对于 $\mathbf{\Sigma}$ 的估计，$(\mathbf{Y}-\mathbf{X}\hat{\mathbf{B}})^T(\mathbf{Y}-\mathbf{X}\hat{\mathbf{B}})/(N-pK)$ 比使用输出变量的样本协方差矩阵更准确，但可证明使用这两种估计对最终的解没有影响（练习 3.22）。

降秩回归通过截选典型相关分析矩阵来合并输出变量中的信息。（Breiman and Friedman，1997）提出了一个平滑版本的降秩回归，对 $\mathbf{X}$ 和 $\mathbf{Y}$ 的典型相关变量进行缩减。这个方法的解可写为：

$$\hat{\mathbf{B}}^{\text{c+w}} = \hat{\mathbf{B}}\mathbf{U}\mathbf{\Lambda}\mathbf{U}^{-1} \tag{3.72}$$

其中的 $\mathbf{\Lambda}$ 为一个对角线收缩矩阵。上脚标“C+W”的为“Curds and Whey”的缩写，是论文中对这个方法的命名⁴。以下的对角线元素可以得到最优的总体预测：

$$\lambda_m = \frac{c_m^2}{c_m^2 + \frac{p}{N}(1-c_m^2)}, m = 1, \dots, M \tag{3.73}$$

其中 $c_m$ 为第 m 个典型相关系数。注意随着输入变量个数与样本大小的比例 $p/N$ 变小，收缩因子趋向于 1。（Breiman and Friedman，1997）给出了根据训练集和交叉验证调整的 $\mathbf{\Lambda}$ 矩阵，但大致的形式与上式相同。输出变量的拟合值可写为：

$$\mathbf{Y}^{\text{c+w}} = \mathbf{H}\mathbf{Y}\mathbf{S}^{\text{c+w}} \tag{3.74}$$

其中 $\mathbf{S}^{\text{c+w}} = \mathbf{U}\mathbf{\Lambda}\mathbf{U}^{-1}$ 为输出变量收缩算子。

Breiman and Friedman (1997) 建议同时对输出和输入变量空间收缩。其引出的混合收缩模型可写为：

$$\hat{\mathbf{Y}}^{\text{ridge, c+w}} = \mathbf{A}_\lambda \mathbf{Y} \mathbf{S}^{\text{c+w}} \tag{3.75}$$

其中的 $\mathbf{A}_\lambda=\mathbf{X}(\mathbf{X}^T\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^T$ 为岭回归收缩算子，如同式 3.47 中一样⁵。更深入的细节和讨论可阅读他们的论文。

本节练习

练习 3.20

练习 3.21

练习 3.22

Show that the solution in Exercise 3.21 does not change if Σ is estimated by the more natural quantity $(\mathbf{Y}-\mathbf{X}\hat{\mathbf{B}})^T(\mathbf{Y}-\mathbf{X}\hat{\mathbf{B}})/(N-pK)$

译者理解，即当 $m=1$ 时，选取使等式 3.67 最大化的向量 $u_1$ 和 $v_1$；当 $m>1$ 时，从所有使得 $\mathbf{Y}u_m$ 和 $\mathbf{X}v_m$ 分别与之前得到的线性组合不相关的向量 $u_m$ 和 $v_m$ 中，选取使等式 3.67 最大化的一对。 ↩︎
等式 3.68 中的符号指代不太明确。译者理解，其中的 $y_i$ 应为 $K\times 1$ 的输出变量观测值，$x_i$ 为 $p\times 1$ 的输入变量观测值，系数矩阵 $\mathbf{B}$ 的维度为 $p\times K$，协方差矩阵 $\mathbf{\Sigma}$ 的维度为 $K\times K$。 ↩︎
原文中等式左边为 $M$，译者理解应该为 $m$。 ↩︎
其原因译者不明，可阅读论文。 ↩︎
原文指向等式 3.46，译者理解应为等式 3.47。 ↩︎