8.4 自助法与贝叶斯推断的关系 😱

首先考虑一个非常简单的例子，只有一个来自正态分布的观测样本 $z$：

$$z \sim \mathcal{N}(\theta, 1) \tag{8.29}$$

要进行贝叶斯分析，需要指定先验分布。最方便和常用的分布是 $\theta\sim\mathcal{N}(0,\tau)$，得到的后验分布为：

$$\theta | z \sim \mathcal{N} \left( \frac{z}{1+1/\tau}, \frac{1}{1+1/\tau} \right) \tag{8.30}$$

$\tau$ 的值越大，后验分布越集中于最大似然估计 $\hat{\theta}=z$ 的周围。在极限 $\tau\rightarrow\infty$ 下会得到无信息（常数）先验分布，并且后验分布为：

$$\theta | z \sim \mathcal{N}(z,1) \tag{8.31}$$

这与从样本密度最大似然估计 $\mathcal{N}(z,1)$ 生成自助样本 $z^*$ 的参数自助分布结果一样。

要使这个对应关系成立，有三个条件：

选择 $\theta$ 的无信息先验分布。
数据 $\mathbf{Z}$ 只通过最大似然估计 $\hat{\theta}$ 来影响对数似然函数 $\ell(\theta;\mathbf{Z})$。因此也可将对数似然函数写为 $\ell(\theta;\hat{\theta})$。
对数似然函数对 $\theta$ 和 $\hat{\theta}$ 有对称性，即 $\ell(\theta;\hat{\theta})=\ell(\hat{\theta},\theta)+\text{constant}$。

条件（2）和（3）本质上只对高斯分布成立。然而两者对多项分布也近似成立，这使得非参数自助法与贝叶斯推断之间存在对应关系，下面进行简要介绍。

假设在一个离散的样本空间上，共有 $L$ 个类别。令 $w_j$ 为一个样本点属于类别 $j$ 的概率，$\hat{w}_j$ 为类别 $j$ 在观测样本中的比例。记 $w=(w_1,w_2,\dots,w_L)$，$\hat{w}=(\hat{w}_1,\hat{w}_2,\dots,\hat{w}_L)$。用 $S(\hat{w})$ 代表估计量，并用参数为 $a$ 的对称狄利克雷（Dirichlet）分布¹作为 $w$ 的先验分布：

$$w \sim \operatorname{Di}_L(a) \tag{8.32}$$

即先验概率质量函数与 $\prod_{l=1}^Lw_l^{a-1}$ 成比例。则 $w$ 的后验密度为：

$$w \sim \operatorname{Di}_L(a + N\hat{w}) \tag{8.33}$$

其中 $N$ 为样本量。随着 $a\rightarrow 0$ 可得到无信息先验分布：

$$w \sim \operatorname{Di}_L(N\hat{w}) \tag{8.34}$$

自助分布，即从数据中有放回的抽样，现在可视为从一个多项分布的类别比例进行抽样。具体来说：

$$N \hat{w} \sim \operatorname{Mult}(N, \hat{w}) \tag{8.35}$$

其中 $\operatorname{Mult}(N,\hat{w})$ 表示一个多项分布，概率质量函数为 $\binom{N}{N\hat{w}_1^*,\dots,N\hat{w}_L^*}\prod\hat{w}_l^{N\hat{w_l}^*}$。这个分布与上面的后验分布很相似，两者有一样的支撑集、一样的均值和几乎一样的协方差矩阵。因此 $S(\hat{w}^*)$ 的自助分布是对 $S(w)$ 的后验分布的较好近似。

这样看来，自助分布相当于参数的（近似）非参数无信息后验分布。然而要得到自助分布很容易，不需要正式地指定先验函数也不需要从后验分布抽样。因此，可以认为自助分布是“山寨版”的贝叶斯后验分布。自助法通过对数据加入随机性来达到贝叶斯方法中参数随机性的效果，并且通常非常容易实现。

原文的表达式 8.32 和 8.33 中的分布参数写为 $a1$。因为在别处没有出现过 $a1$，译者将其改为了 $a$。 ↩︎