7.5 样本内预测误差的估计

样本内估计的一般形式是：

$$\widehat{\text{Err}}_\text{in}= \overline{\text{err}} + \hat{w} \tag{7.25}$$

其中 $\hat{w}$ 是平均乐观值（optimism）的估计。

当用平方误差损失函数拟合 $d$ 个参数时，根据式 7.24，可得到被称为 $C_p$ 统计量的一个版本：

$$C_p = \overline{\text{err}} + 2 \cdot \frac{d}{N} \hat{\sigma}^2_\varepsilon \tag{7.26}$$

其中 $\hat{\sigma}^2_\varepsilon$ 为噪声方差的估计，在低偏差的模型中通常可使用均方误差。这个准则对训练误差补充了一项，其与使用的参数或基函数个数成正比。

赤池信息量准则（Akaike information criterion，AIC） 是一个类似的但适用更广泛的对 $\text{Err}_\text{in}$ 的估计，它可用于使用了对数似然损失函数的问题中。它基于一个在渐进条件 $N\rightarrow\infty$ 下的与式 7.24 类似的关系：

$$ -2 \cdot \operatorname{E}[\log\operatorname{Pr}_{\hat{\theta}}(Y)] \approx - \frac{2}{N} \cdot \operatorname{E}[\text{loglik}] + 2 \cdot \frac{d}{N} \tag{7.27}$$

其中 $\operatorname{Pr}_{\theta}(Y)$ 是 $Y$ 的一族密度函数（其中包含了真实的密度函数），$\hat{\theta}$ 是 $\theta$ 的最大似然估计，“loglik” 是最大化的对数似然度：

$$\text{loglik} = \sum_{i=1}^N \log\operatorname{Pr}_{\hat{\theta}}(y_i) \tag{7.28}$$

例如，在对数几率回归模型中，使用二项分布的对数似然函数时可得出：

$$\text{AIC}=-\frac{2}{N}\cdot\text{loglik}+2\cdot\frac{d}{N} \tag{7.29}$$

在高斯模型中（假设已知方差 $\sigma^2_\varepsilon=\hat{\sigma}^2_\varepsilon$，则 AIC 统计量与 $C_p$ 等价，因此将它们统称为 AIC。

AIC 可用于模型选择，即从备选模型集合中选择 AIC 最小的模型。对非线性和其他复杂模型，需要将 $d$ 替换为模型复杂度的某种度量，这在第 7.6 节会介绍。

给定一个由调节参数 $\alpha$ 索引的模型 $f_\alpha(x)$ 的集合，记 $\overline{err}(\alpha)$ 和 $d(\alpha)$ 分别为每个模型的训练误差和参数个数。那么在这个模型的集合上，定义：

$$\text{AIC}(\alpha) = \overline{\text{err}}(\alpha) + 2 \cdot \frac{d(\alpha)}{N} \hat{\sigma}^2_\varepsilon \tag{7.30}$$

函数 $\text{AIC}(\alpha)$ 是测试误差曲线的估计，通过对其最小化可找到对应的调节参数 $\hat{\alpha}$。最终选择的模型就是 $f_\hat{\alpha}(x)$。需要注意如果以自适应的方式选择基函数，那么式 7.23 不再成立。例如，如果共有 $p$ 个输入变量，选择的模型是 $d$ 个输入变量的最优子集线性模型，那么乐观值会高于 $(2d/N)\sigma^2_\varepsilon$。换句话说，如果从输入变量中选取 $d$ 个变量的最优拟合模型，拟合的有效参数个数大于 $d$。

**图 7.4**：用于第 5.2.3 节中元音识别例子中使用 AIC 选择模型。对数几率回归系数函数的模型为 $M$ 个样条基函数的展开 $\beta(f) = \sum_{m=1}^M h_m(f)\theta_m$。左图为使用对数似然函数的估计 $\text{Err}\_\text{in}$ 的 AIC 统计量。图中包括了基于独立测试样本的 $\text{Err}$ 的估计。除了在极端过参数化的情况外（$M=256$ 个参数，$N=1000$ 个样本），AIC 的估计比较准确。右图使用 0-1 损失的结果。虽然严格来说 AIC 表达式并不成立，但它的估计仍然比较合理。 — **图 7.4**：用于第 5.2.3 节中元音识别例子中使用 AIC 选择模型。对数几率回归系数函数的模型为 $M$ 个样条基函数的展开 $\beta(f) = \sum_{m=1}^M h_m(f)\theta_m$。左图为使用对数似然函数的估计 $\text{Err}_\text{in}$ 的 AIC 统计量。图中包括了基于独立测试样本的 $\text{Err}$ 的估计。除了在极端过参数化的情况外（$M=256$ 个参数，$N=1000$ 个样本），AIC 的估计比较准确。右图使用 0-1 损失的结果。虽然严格来说 AIC 表达式并不成立，但它的估计仍然比较合理。

图 7.4 以第 148 页的第 5.2.3 节中的元音识别为例展示了 AIC 的实际应用。输入向量为在均匀分布的 256 个频率上量化的元音发音的对数周期律。用线性对数几率回归模型（逻辑回归）来预测元音分类，系数函数是 $M$ 个样条基函数的展开 $\beta(f) = \sum_{m=1}^M h_m(f)\theta_m$。对任意给定的 $M$，用自然三次样条基函数作为 $h_m$，选择的节点均匀分布在频率的范围上（故$d(\alpha) = d(M) = M$）。利用 AIC 选择基函数的个数，也会近似地对熵损失和 0-1 损失下的 $\text{Err}(M)$ 最小化。

$$\frac{2}{N} \sum_{i=1}^N \operatorname{Cov}(\hat{y}_i, y_i) = \frac{2d}{N} \sigma^2_\varepsilon$$

上式对加性误差项以及平方误差损失的线性模型严格成立，对线性模型和对数似然函数近似成立。尽管它在 0-1 损失中并不一定成立（Efron, 1986），但很多作者仍会在那些场景中使用这个关系式（图 7.4 的右图）。