6.8 密度估计的混合模型与分类问题

混合模型是概率密度估计的一个有效手段，也可被视为一种核方法。高斯混合模型可写为：

$$f(x) = \sum_{m=1}^M \alpha_m \phi(x; \mu_m, \mathbf{\Sigma}_m) \tag{6.32}$$

其中 $\alpha_m$ 为混合比例，$\sum_m\alpha_m=1$，高斯密度函数的均值为 $\mu_m$ 协方差矩阵为 $\mathbf{\Sigma}_m$。广义上的混合模型可以用任意的密度函数替代 6.32 中的高斯分布，但高斯混合模型是目前最常用的。

参数通常通过最大似然法估计，利用第八章介绍的 EM 算法。有下面两个特例：

若协方差矩阵是一个简单的常数对角矩阵 $\mathbf{\Sigma}_m=\sigma_m\mathbf{I}$，则 6.32 可写为径向基函数展开的形式。
若额外有固定的方差 $\sigma_m=\sigma>0$，并且¹ $M\uparrow N$，则 6.32 的最大似然估计逼近于 6.22 的核密度估计，其中 $\hat{\alpha}_m=1/N$ 和 $\hat{\mu}_m=x_m$。

利用贝叶斯定理，每个类别分别的混合概率密度可引入 $\operatorname{Pr}(G|X)$ 的一类灵活的模型，在第十二章会详细介绍。

**图 6.17**：应用于心脏病风险因子研究的混合模型。顶部一行：分别为非 CHD、有 CHD、和两者混合样本的年龄直方图。底部一行：左图和中图为高斯混合模型两个成分的估计密度函数；右图叠加地展示了估计成分密度函数（蓝色和橙色），以及估计混合密度函数（绿色）。橙色的密度函数有较大的标准差，并近似于一个均匀密度函数。

图 6.17 展示了混合模型在心脏病风险因子研究上的应用。顶部一行分别是无 CHD 和有 CHD 群体的年龄直方图，然后右侧是两者整体的直方图。在混合的整体样本上，拟合如 6.32 的两个成分的混合模型，使用的两个可以不相等的（数值）方差 $\Sigma_1$ 和 $\Sigma_2$。拟合使用了 EM 算法（第八章）：注意到在计算过程中没有用到 CHD 标签的任何信息。估计结果为：

$$\begin{matrix} \hat{\mu}_1 = 36.4 & \hat{\Sigma}_1 = 157.7 & \hat{\alpha}_1 = 0.7 \\ \hat{\mu}_2 = 58.0 & \hat{\Sigma}_2 = 15.6 & \hat{\alpha}_2 = 0.3 \end{matrix}$$

底部一行展示了成分密度函数 $\phi(\hat{\mu}_1,\hat{\Sigma}_1)$ 和 $\phi(\hat{\mu}_2,\hat{\Sigma}_2)$。右侧叠加地展示了两个成分密度函数（橙色和蓝色），同时还有估计混合密度函数（绿色）。

混合模型同时也得到了样本 i 服从于 m 成分分布的概率估计：

$$\hat{r}_{im} = \frac {\hat{\alpha}_m \phi(x_i; \hat{\mu}_m, \hat{\Sigma}_m)} {\sum_{k=1}^M \hat{\alpha}_k \phi(x_i; \hat{\mu}_k, \hat{\Sigma}_k)} \tag{6.33}$$

在上面的例子中 $x_i$ 是年龄变量。假设对 $\hat{r}_{i2}$ 设定阈值，因而定义 $\hat{\delta}_i=I(\hat{r}_{i2}>0.5)$。则可以对比混合模型对样本的分类和样本的 CHD 分组：

		混合模型
		$\hat{\delta}=0$	$\hat{\delta}=1$
CHD	No	232	70
	Yes	76	84

尽管混合模型没有使用 CHD 的标签，它仍然对按 CHD 区分的两个子样本产生了不错的区分。使用 CHD 作为输出变量的线性对数几率回归，在这个样本上的最大似然拟合（第 4.4 节）得出了一样的分类错误率（32%）。

本节练习

练习 6.11

Show that for the Gaussian mixture model (6.32) the likelihood is maximized at +∞, and describe how.

不知道这个符号什么意思。 ↩︎