本章介绍一些简单而且基本无模型的分类问题和模式识别方法。它们是高度无结构化的,所以它们对理解样本的特征变量与其类别的内在关系上一般没有什么帮助。不过作为一个“黑盒”预测模型而言,它们可能非常高效,而且在真实数据中通常是表现最好的模型之一。最近邻方法也可用在回归问题中,这在第二章有所介绍,它在低维度的问题中表现基本良好。然而当特征空间维度比较高,偏差方差的均衡(bias-variance tradeoff)会使最近邻方法在回归中的效果不如它在分类问题中的效果。
内容概要
-
13.2 原型方法
第 459-463 页。基于训练样本中的信息为每个类别确定一些点作为原型,分类规则即为最近距离原型的类别。介绍了三个方法:K 均值、学习向量量化(LVQ)、和高斯混合模型。
-
13.3 k 最近邻分类器
第 463-475 页。最近邻的算法简单,尤其适合处理决策边界不规则的分类问题。
-
13.4 自适应最近邻方法
第 475-480 页。在某个点处,可能只在某些方向上存在类别的区分。所以在选择最近邻点时可根据局部的特性调整距离测度,从而可降低估计的偏差。
-
13.5 计算量考量
第 480-481 页。最近邻所需要的计算量比较大。一些算法可以加速最近邻的计算;一些方法可缩减所需的训练集从而降低储存量。
本章练习
- 练习 13.1:第 13.2 节
- 练习 13.2:第 13.4 节
- 练习 13.3:第 13.3 节
- 练习 13.4:第 13.3 节
- 练习 13.5:第 13.4 节
- 练习 13.6:
- 练习 13.7:
- 练习 13.8:
参考文献
The nearest-neighbor method goes back at least to Fix and Hodges (1951). The extensive literature on the topic is reviewed by Dasarathy (1991); Chapter 6 of Ripley (1996) contains a good summary. K-means clustering is due to Lloyd (1957) and MacQueen (1967). Kohonen (1989) introduced learning vector quantization. The tangent distance method is due to Simard et al. (1993). Hastie and Tibshirani (1996a) proposed the discriminant adaptive nearest-neighbor technique.