2.2 变量类型和术语

输出变量在不同的场景中会有不同的类型。在预测血糖的例子中,输出变量是一个量化的指标,彼此之间有大小关系,而且数值相近也代表着结果相近。在著名的费雪辨别鸢尾花1的例子中,输出变量为定性的(鸢尾花的种类),取值在一个有限集合中(取值集合 G 为 {维吉尼亚鸢尾, 山鸢尾, 变色鸢尾})。在手写数字识别的例子中,输出变量是十个数字中的一个(取值集合 G 为 {0, 1, …, 9})。在上面两个例子中,定性输出变量的不同取值之间没有大小的关系,事实上这类变量也通常用解释性的标签而不是数字来标记取值。定性变量也通常被称为 分类(categorical)离散(discrete)、或 因子(factors) 变量。

统计学习的目的即是用一些输入变量来预测输出变量。比如,利用一些昨天和今天的特定气象指标,我们希望预测明天的臭氧浓度;利用数字化后手写数字图片中每个像素点的灰度值,我们希望预测这个手写数字是几。

输出变量的两种类型给予了预测模型的两个习惯术语:当预测的为量化输出变量时,称之为 回归(regression);当预测的为分类输出变量时,称之为 分类(classification)。当两者其实有很多共通,并且都可以被看成函数逼近问题。

输入变量同样有不同的类型,模型中可能同时有量化输入变量和分类输入变量。根据输入变量的类型也可以将预测方法分成不同的类型:有些方法偏向使用量化输入变量,有些方法偏向使用分类变量,也有些方法可以同时使用量化和分类变量。

另外一种变量类型是有序分类变量,例如取值为小、中、和大,其不同的值之间存在大小关系,但并之间并没有量化的距离度量(即“小”与“中”的区别程度和“中”与“大”的区别程度是未知的)。在第四章会进一步讨论这种变量类型。

分类变量常常用数字编码来标示。最简单的分类变量是只有两个类别,比如“成功”或“失败”、“存活”或“死亡”。通常会使用类似于一位二进制数字来表达,即 0 或 1;或者,也可以用 -1 或 1 来表达。有时会将这种数字编码称为 目标变量。当分类变量的取值有多于两个类别时,存在不同的处理方法。最有效和常用的方法是通过 哑变量(dummy variables)。比如一个 K 类别的分类变量可以表达为一个长度为 K 的二进制数字向量,向量中的每一位取值为 0 或 1,并且只能有一位取值为 1。尽管可能有更简洁的编码方式,但哑变量的好处是对因子的取值是对称的。

通常用符号 X 代表一个输入变量。当 X 代表输入变量向量时,其中的单个变量可以使用脚标表示 Xj。用 Y 代表量化的输出变量,G 代表分类的输出变量。在讨论通用的变量时,使用大写字母比如 XYG。具体的取值用小写字母,比如变量 X 的第 i 个观测样本记为 xixi 可以是一个数值或一个向量)。用加粗的大写字母表示矩阵,例如一组大小为 N 的样本,每个样本为 p 维的向量 xi,i=1,,N 可以写为 XN×p 的矩阵。向量通常不用粗体表示,但当其长度为样本量 N 时除外。这是为了区分以下两者:N 个样本中的某个观测 xi(一个 p 维的向量),和某个输入变量 Xj 在样本中的所有取值 xj(一个 N 维的向量)。所有的向量默认为列向量,所以 X 的第 i 行即为 xiTxi的转置。

在这里我们可以很笼统地理解统计学习的目标为:通过输入变量的向量 X 的取值,来准确地预测输出变量 Y 的取值,即 Y^2 若输出变量为取值在 R 上的数值,那么 Y^ 也同样;对分类输出变量同理,G^ 的取值集合应与 G 一致。

对于预测二分类变量 G 的问题,一种处理方法是用 0 和 1 代表不同的类别,然后将其按预测量化输出变量 Y 来预测。通常预测值 Y^ 会取值在 [0,1] 区间上,最终根据是否 y^>0.5 来生成二分类的预测 G^。这种方法也可推广到 K 类的分类输出变量上。

为了建立预测模型,我们通常需要大量的数据。样本的观测写为 (xi,yi)(xi,gi)i=1,,N。用于训练模型的数据,称为 训练集(training set)


  1. 作为分类问题经典案例的鸢尾花卉数据集。它最初是 Edgar Anderson 从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据,后由 Ronald Fisher 作为判別分析的一个例子,运用到统计学中。wikipedia数据集。 ↩︎

  2. Y^ 英文读作 y-hat,直译为“y 帽子”。国内的叫法五花八门,例如“y 尖”,“y 估计值”。 ↩︎

下一页