8 模型的推断和平均

在本书中大部分模型的拟合（学习），回归问题是通过最小化一个平方和目标函数，分类问题是通过最小化交叉熵。实际上这两个最小化都可以视为最大似然拟合方法的具体实例。

本章一般性地阐述了最大似然方法，和贝叶斯方法下的推断。在此背景下再引入第七章介绍的自助法，并描述其与最大似然和贝叶斯方法的联系。最后会介绍一些模型平均和改进的相关方法，包括委员会（committee）方法、自助聚合（bagging）、堆叠（stacking）和 bumping。

内容概要

8.2 自助法和最大似然方法

第 261-267 页。自助法本质上是非参数或参数最大似然的计算机实现，而且可以在难以解出表达式的场景中，比如涉及到自适应参数选择，计算标准误差和其他量值的最大似然估计。
8.3 贝叶斯方法

第 267-270 页。如果使用无信息先验分布，则贝叶斯方法会得到与最大似然和自助法一样的结果。
8.4 自助法与贝叶斯推断 😱

第 271-272 页。自助法得到的分布近似于非参数无信息后验分布，可看作是“山寨版”的贝叶斯后验分布。而且它很容易计算，不需要指定先验函数也不需要从后验分布抽样。
8.5 最大期望（EM）算法

第 272-279 页。引入隐变量后，将对似然函数的最大化分解为期望（E)和最大化（M）两个步骤交替进行。
8.6 后验分布的 MCMC

第 279-282 页。吉布斯采样基于条件分布进行抽样，最终稳定后样本服从联合分布。其流程与最大期望算法比较相似。
8.7 自助聚合

第 282-288 页。自助聚合通过对自助样本上的预测取平均，保持偏差的同时降低了方差，从而改善了模型。自助聚合需要自助抽样彼此之间相对独立。
8.8 模型平均和堆叠

第 288-290 页。在对模型的平均中，委员会方法赋予各个模型相同的权重，堆叠方法赋予各个模型（估计）最优权重。
8.9 随机搜索

第 290-292 页。Bumping 方法在自助样本上拟合模型，然后在原始的训练集上根据某个准则来选择模型。它适用于会遇到很多局部解或选取准则不易最优化的问题中。

本章练习

练习 8.1：第 8.5 节
练习 8.2：第 8.5 节
练习 8.3：第 8.6 节
练习 8.4：第 8.7 节
练习 8.5
练习 8.6
练习 8.7：第 8.5 节

参考文献

There are many books on classical statistical inference: Cox and Hinkley (1974) and Silvey (1975) give nontechnical accounts. The bootstrap is due to Efron (1979) and is described more fully in Efron and Tibshirani (1993) and Hall (1992). A good modern book on Bayesian inference is Gelman et al. (1995). A lucid account of the application of Bayesian methods to neural networks is given in Neal (1996). The statistical application of Gibbs sampling is due to Geman and Geman (1984), and Gelfand and Smith (1990), with related work by Tanner and Wong (1987). Markov chain Monte Carlo methods, including Gibbs sampling and the Metropolis-Hastings algorithm, are discussed in Spiegelhalter et al. (1996). The EM algorithm is due to Dempster et al. (1977); as the discussants in that paper make clear, there was much related, earlier work. The view of EM as a joint maximization scheme for a penalized complete-data log-likelihood was elucidated by Neal and Hinton (1998); they credit Csiszar and Tusnády (1984) and Hathaway (1986) as having noticed this connection earlier. Bagging was proposed by Breiman (1996a). Stacking is due to Wolpert (1992);