混合模型是概率密度估计的一个有效手段,也可被视为一种核方法。高斯混合模型可写为:
$$f(x) = \sum_{m=1}^M \alpha_m \phi(x; \mu_m, \mathbf{\Sigma}_m) \tag{6.32}$$其中 $\alpha_m$ 为混合比例,$\sum_m\alpha_m=1$,高斯密度函数的均值为 $\mu_m$ 协方差矩阵为 $\mathbf{\Sigma}_m$。广义上的混合模型可以用任意的密度函数替代 6.32 中的高斯分布,但高斯混合模型是目前最常用的。
参数通常通过最大似然法估计,利用第八章介绍的 EM 算法。有下面两个特例:
- 若协方差矩阵是一个简单的常数对角矩阵 $\mathbf{\Sigma}_m=\sigma_m\mathbf{I}$,则 6.32 可写为径向基函数展开的形式。
- 若额外有固定的方差 $\sigma_m=\sigma>0$,并且1 $M\uparrow N$,则 6.32 的最大似然估计逼近于 6.22 的核密度估计,其中 $\hat{\alpha}_m=1/N$ 和 $\hat{\mu}_m=x_m$。
利用贝叶斯定理,每个类别分别的混合概率密度可引入 $\operatorname{Pr}(G|X)$ 的一类灵活的模型,在第十二章会详细介绍。
图 6.17 展示了混合模型在心脏病风险因子研究上的应用。顶部一行分别是无 CHD 和有 CHD 群体的年龄直方图,然后右侧是两者整体的直方图。在混合的整体样本上,拟合如 6.32 的两个成分的混合模型,使用的两个可以不相等的(数值)方差 $\Sigma_1$ 和 $\Sigma_2$。拟合使用了 EM 算法(第八章):注意到在计算过程中没有用到 CHD 标签的任何信息。估计结果为:
$$\begin{matrix} \hat{\mu}_1 = 36.4 & \hat{\Sigma}_1 = 157.7 & \hat{\alpha}_1 = 0.7 \\ \hat{\mu}_2 = 58.0 & \hat{\Sigma}_2 = 15.6 & \hat{\alpha}_2 = 0.3 \end{matrix}$$底部一行展示了成分密度函数 $\phi(\hat{\mu}_1,\hat{\Sigma}_1)$ 和 $\phi(\hat{\mu}_2,\hat{\Sigma}_2)$。右侧叠加地展示了两个成分密度函数(橙色和蓝色),同时还有估计混合密度函数(绿色)。
混合模型同时也得到了样本 i 服从于 m 成分分布的概率估计:
$$\hat{r}_{im} = \frac {\hat{\alpha}_m \phi(x_i; \hat{\mu}_m, \hat{\Sigma}_m)} {\sum_{k=1}^M \hat{\alpha}_k \phi(x_i; \hat{\mu}_k, \hat{\Sigma}_k)} \tag{6.33}$$在上面的例子中 $x_i$ 是年龄变量。假设对 $\hat{r}_{i2}$ 设定阈值,因而定义 $\hat{\delta}_i=I(\hat{r}_{i2}>0.5)$。则可以对比混合模型对样本的分类和样本的 CHD 分组:
混合模型 | |||
---|---|---|---|
$\hat{\delta}=0$ | $\hat{\delta}=1$ | ||
CHD | No | 232 | 70 |
Yes | 76 | 84 |
尽管混合模型没有使用 CHD 的标签,它仍然对按 CHD 区分的两个子样本产生了不错的区分。使用 CHD 作为输出变量的线性对数几率回归,在这个样本上的最大似然拟合(第 4.4 节)得出了一样的分类错误率(32%)。
本节练习
练习 6.11
Show that for the Gaussian mixture model (6.32) the likelihood is maximized at +∞, and describe how.
-
不知道这个符号什么意思。 ↩︎