输出变量在不同的场景中会有不同的类型。在预测血糖的例子中,输出变量是一个量化的指标,彼此之间有大小关系,而且数值相近也代表着结果相近。在著名的费雪辨别鸢尾花1的例子中,输出变量为定性的(鸢尾花的种类),取值在一个有限集合中(取值集合
统计学习的目的即是用一些输入变量来预测输出变量。比如,利用一些昨天和今天的特定气象指标,我们希望预测明天的臭氧浓度;利用数字化后手写数字图片中每个像素点的灰度值,我们希望预测这个手写数字是几。
输出变量的两种类型给予了预测模型的两个习惯术语:当预测的为量化输出变量时,称之为 回归(regression);当预测的为分类输出变量时,称之为 分类(classification)。当两者其实有很多共通,并且都可以被看成函数逼近问题。
输入变量同样有不同的类型,模型中可能同时有量化输入变量和分类输入变量。根据输入变量的类型也可以将预测方法分成不同的类型:有些方法偏向使用量化输入变量,有些方法偏向使用分类变量,也有些方法可以同时使用量化和分类变量。
另外一种变量类型是有序分类变量,例如取值为小、中、和大,其不同的值之间存在大小关系,但并之间并没有量化的距离度量(即“小”与“中”的区别程度和“中”与“大”的区别程度是未知的)。在第四章会进一步讨论这种变量类型。
分类变量常常用数字编码来标示。最简单的分类变量是只有两个类别,比如“成功”或“失败”、“存活”或“死亡”。通常会使用类似于一位二进制数字来表达,即 0 或 1;或者,也可以用 -1 或 1 来表达。有时会将这种数字编码称为 目标变量。当分类变量的取值有多于两个类别时,存在不同的处理方法。最有效和常用的方法是通过 哑变量(dummy variables)。比如一个
通常用符号
在这里我们可以很笼统地理解统计学习的目标为:通过输入变量的向量
对于预测二分类变量
为了建立预测模型,我们通常需要大量的数据。样本的观测写为