2 监督学习概述

第一章中提到的前三个例子有一些类似之处。每个都有一组可视为已知或固定的变量,作为输入变量。这些变量会对一个或多个输出结果产生影响。例子中的目标都是用输入变量来预测输出变量的值。这类问题被称为 监督学习(supervised learning)

以上我们用到了现代机器学习的术语。在统计学领域中,输入变量通常被称为 预测变量(predictors),或更经典文献中会称为 自变量(independent variables),另外模式识别领域更倾向于称之为 特征(features),这几个术语在本书中的含义是一样的。输出变量被称为 响应(responses),经典文献中也称为 因变量(dependent variables)


内容概要

  • 2.2 变量类型和术语

    第 9-11 页。模型中的一般性术语和符号使用惯例。

  • 2.3 最小二乘和最近邻

    第 11-18 页。最小二乘法和最近邻是两个简单而典型的统计学习方法,前者强假设低参数维度,后者弱假设高参数维度。目前大部分复杂的方法都可以追溯到这两种简单的方法。

  • 2.4 统计决策理论

    第 18-22 页。从统计理论的角度,以平方误差衡量,条件于 X 的 Y 期望是最优的预测。线性回归或最近邻域都是在寻找条件期望的合理近似方法,只是采取的近似手段不同。

  • 2.5 局部方法中的高维度问题

    第 22-27 页。通过几个例子,说明维数灾难如何导致理论上完美的模型却在实际应用中会失效。

  • 2.6 统计模型和函数逼近

    第 28-32 页。一些关于模型的统计学角度的基础框架,将时髦的机器学习回归到经典数学中的函数逼近问题和统计学中的概率模型。

  • 2.7 有结构的回归模型

    第 32-33 页。在实际有限训练样本中,不加限制地对回归函数进行逼近必然会产生过拟合。所以会根据某些假设约束函数的形态,或者以机器学习的语言来说约束模型的自由度。

  • 2.8 有约束的估计模型类型

    第 33-36 页。简略地介绍了三种约束了函数特征的模型类型:类似于贝叶斯方法的对函数的粗糙程度添加惩罚项;使用核函数对局部进行加权平均或拟合的方法;以及从字典中选取基函数构建的模型。

  • 2.9 模型选择和偏差方差权衡

    第 37-38 页。模型过于复杂,则预测的偏差小方差大;模型不够复杂,则预测的偏差大方差小。


本章练习


参考文献

Some good general books on the learning problem are Duda et al. (2000), Bishop (1995),(Bishop, 2006), Ripley (1996), Cherkassky and Mulier (2007) and Vapnik (1996). Parts of this chapter are based on Friedman (1994b).