第 4.3 节介绍了线性判别分析(LDA)方法,它是分类问题的一个基本工具。本章接下来的内容将介绍一系列通过对 LDA 的直接扩展而构造出的表现更好的分类模型。
LDA 的优势有以下:
- 它是一个简单的原型分类器(prototype classifier)。新的观测样本会被分类到距离最近的中心点对应的类别。也可以将距离的度量调整为使用混合样本协方差估计的马氏距离(Mahalanobis)。
- 如果样本中类别中的特征变量符合固定协方差矩阵的多元高斯分布,则 LDA 是贝叶斯分类器的估计。不过这个假设一般不会成立,因此这似乎也并不算一个优势。
- LDA 构造的决策边界是线性的,使得决策规则容易解释和实现。
- LDA 自然地可提供数据的低维视角。例如图 12.12 就是一组十个类别 256 个维度的数据的一个易于阅读的二维视图。
- 由于它的简洁性和低方差,LDA 经常会得到最佳的分类结果。在 STARLOG 项目(Michie et al., 19941)研究的 22 个数据集中的 11 个,LDA 都位于表现最好的三个分类器中。
不过 LDA 的简洁性也使其在很多场景下效果不佳:
- 线性决策边界通常并不足以分离类别。当样本 $N$ 足够大时,可以估计一些更复杂的决策边界。二次决策分析(quadratic discriminant analysis,QDA)通常可应用于此,可得到二次决策边界。而更一般地,我们希望可以对不规则的决策边界建模。
- 另一个之前提到过的 LDA 的不足,简单地说就是每个类别只有一个原型是不够的。LDA 用一个单独的原型(类别中心点)和一个固定的协方差矩阵来描述每个类别在样本数据中的分布情况。在很多场景中,多个原型是更合适的。
- 另一方面,在例如数字模拟信号和图片的场景中,我们可能会有过多的(互相关联的)自变量。这里 LDA 使用了过多的参数,对它们的估计有较高的方差,影响了模型的效果。在这种情况下我们需要对 LDA 加以更多的约束或正则化。
本章剩余的篇幅将介绍通过推广 LDA 模型来应对这些问题的一组方法。主要有三个不同的思路。
第一个思路是将 LDA 问题改造为一个线性回归问题。已经有很多方法可以将线性回归模型扩展为更灵活的、非参数形式的回归模型。这样就可以得到形式更灵活的判别分析,我们称之为 灵活判别分析(flexible discriminant analysis, FDA)。在大多数应用场景中,(灵活)回归的过程可以理解为是在通过基扩展构造更大的自变量集合。与 SVM 使用的方法相同,FDA 就是在扩大的空间上的 LDA。
在自变量过多的时候,例如数字化图片的像素点,我们不能扩展自变量集,因为它已经过大了。第二个思路是在拟合 LDA 模型时,添加系数的惩罚项或者符合(图片)在空间上的一致性约束(coherent in the spatial domain)。我们将这种方法称为 惩罚判别分析(penalized discriminant analysis,PDA)。另外在 FDA 模型中,扩展的基函数集合也通常会很大,需要进行正则化(这也与 SVM 中相同)。这两个方法都是在 FDA 模型的基础上添加一个恰当的正则项得到的回归模型。
第三个思路是将每个类别按两个或多个中心点不同的高斯分布混合进行建模;但其中的每个高斯分布,包括相同类别中的不同分布和不同类别的分布,都有相同的协方差矩阵。这样可以有更灵活的决策边界,同时也可以和 LDA 中一样实现子空间缩减。我们将这个扩展称为 混合判别分析(mixture discriminant analysis,MDA)。
这三个方法都是从 LDA 扩展而来,因此有共同的结构。
-
这个研究是在 SVM 出现之前。 ↩︎