第 8.4 节从非参数贝叶斯分析的角度,将一个估计的自助抽样视为对应参数的近似后验分布抽样。从这个角度理解,自助聚合估计(表达式 8.51)是近似的后验贝叶斯均值。相比之下,训练样本估计
本节讨论更广义的贝叶斯模型平均。在训练集
假设
后验均值为:
这个贝叶斯预测是各个预测的加权平均,权重与每个模型的后验概率成比例。
从这个表达式可引出几个不同的模型平均的策略。**委员会(committee)**方法对每个模型的预测进行简单的不加权平均,本质上是给每个模型赋予相同的概率。更进一步,第 7.7 节中说明了 BIC 准则可被用于估计后验模型概率。这适用于由同参数模型产生但参数取值不同的模型的场景中。BIC 根据模型的拟合程度和使用的参数个数来给每个模型赋予权重。现也可以进行完整的贝叶斯方法。若每个模型
原则上,可以指定先验概率
那么如何从频率学派(frequentist)的角度理解模型平均?给定预测值
其中将输入变量
现在完整的回归比任意单独的模型有更小的平方误差:
所以从样本总体分布上看,模型的组合总会对结果有所帮助。
当然,样本总体线性回归(表达式 8.57)并不可得,自然地可以用训练集上的线性回归作为替代。但可用一些简单的例子说明这效果并不好。例如,假设
堆叠泛化(stacked generalization) 或 堆叠(stacking) 即是一个如此的方法。另
最终的预测值为
堆叠和通过留一法(leave-one-out)交叉验证(第 7.10 节)之间存在紧密的联系。如果给表达式 8.59 中最小化约束在只有一个位置为一其他位置为零的权重向量
堆叠的思想实际上要比上述的更广泛。可以使用任意的学习方法,而不只是线性回归,计算表达式 8.59 中的权重来结合模型;这个权重也可以依赖于输入变量