本章开始讨论监督学习的一些特定方法。这些方法都会对未知的回归函数做出(不同的)结构形式上的假设,也以此来应对维数灾难。当然这也有可能带来模型误设(misspecification)的代价,所以在每个问题中都需要进行取舍。这些方法延续了第 3-6 章的内容。本章描述了五个相关方法:广义加性模型、树模型、多元自适应回归样条(MARS)、耐心规则归纳方法(PRIM)和层级混合专家(HME)。
内容概要
-
9.1 广义加性模型
第 295-304 页。广义加性模型是对线性模型的一个有效的推广,在保持了可解释性的同时,可纳入一些非线性的效果。
-
9.2 树结构模型
第 305-317 页。介绍了回归树和决策树的 CART 实现,以及树模型的优点和缺点。
-
9.3 PRIM:凸块搜索
第 317-321 页。PRIM 是类比二叉树的另一种在特征空间上产生区域分割的方法,它摆脱了二叉树结构的约束,并且在分割中更有“耐心”,因此可能会得到更好的分割。
-
9.4 多元自适应回归样条
第 321-329 页。MARS 方法从自变量生成的分段常数的基函数空间中,以前向分段的形式添加新的模型项,非常适用于高维问题。MARS 可以看成是舍弃了 CART 模型的树结构约束,也因此可以捕捉到加性效应。
-
9.5 层级混合专家
第 329-332 页。HME 与 CART 的主要差别是用软性的概率分割代替了硬性的决策分割,并且在终节点中使用了回归模型而不是一个常数。HME 对一个平滑的函数求解最优化,但结果不像 CART 可清楚地表达成树结构。
-
9.6 缺失数据
第 332-333 页。如果缺失值不多,可舍弃存在缺失值的样本。一些模型,如树结构模型(CART、MARS 和 PRIM)以及广义加性模型,在拟合过程中可以适应存在缺失值的训练集。另外,一般的方法是用某种模型的预测来填充缺失的特征变量。
-
9.7 关于计算量
第 334 页。
本章练习
参考文献
The most comprehensive source for generalized additive models is the text of that name by Hastie and Tibshirani (1990). Different applications of this work in medical problems are discussed in Hastie et al. (1989) and Hastie and Herman (1990), and the software implementation in Splus is described in Chambers and Hastie (1991). Green and Silverman (1994) discuss penalization and spline models in a variety of settings. Efron and Tibshirani (1991) give an exposition of modern developments in statistics (including generalized additive models), for a nonmathematical audience. Classification and regression trees date back at least as far as Morgan and Sonquist (1963). We have followed the modern approaches of Breiman et al. (1984) and Quinlan (1993). The PRIM method is due to Friedman and Fisher (1999), while MARS is introduced in Friedman (1991), with an additive precursor in Friedman and Silverman (1989). Hierarchical mixtures of experts were proposed in Jordan and Jacobs (1994); see also Jacobs et al. (1991).