2.2 变量类型和术语

输出变量在不同的场景中会有不同的类型。在预测血糖的例子中,输出变量是一个量化的指标,彼此之间有大小关系,而且数值相近也代表着结果相近。在著名的费雪辨别鸢尾花1的例子中,输出变量为定性的(鸢尾花的种类),取值在一个有限集合中(取值集合 $\mathcal{G}$ 为 {维吉尼亚鸢尾, 山鸢尾, 变色鸢尾})。在手写数字识别的例子中,输出变量是十个数字中的一个(取值集合 $\mathcal{G}$ 为 {0, 1, …, 9})。在上面两个例子中,定性输出变量的不同取值之间没有大小的关系,事实上这类变量也通常用解释性的标签而不是数字来标记取值。定性变量也通常被称为 分类(categorical)离散(discrete)、或 因子(factors) 变量。

统计学习的目的即是用一些输入变量来预测输出变量。比如,利用一些昨天和今天的特定气象指标,我们希望预测明天的臭氧浓度;利用数字化后手写数字图片中每个像素点的灰度值,我们希望预测这个手写数字是几。

输出变量的两种类型给予了预测模型的两个习惯术语:当预测的为量化输出变量时,称之为 回归(regression);当预测的为分类输出变量时,称之为 分类(classification)。当两者其实有很多共通,并且都可以被看成函数逼近问题。

输入变量同样有不同的类型,模型中可能同时有量化输入变量和分类输入变量。根据输入变量的类型也可以将预测方法分成不同的类型:有些方法偏向使用量化输入变量,有些方法偏向使用分类变量,也有些方法可以同时使用量化和分类变量。

另外一种变量类型是有序分类变量,例如取值为小、中、和大,其不同的值之间存在大小关系,但并之间并没有量化的距离度量(即“小”与“中”的区别程度和“中”与“大”的区别程度是未知的)。在第四章会进一步讨论这种变量类型。

分类变量常常用数字编码来标示。最简单的分类变量是只有两个类别,比如“成功”或“失败”、“存活”或“死亡”。通常会使用类似于一位二进制数字来表达,即 0 或 1;或者,也可以用 -1 或 1 来表达。有时会将这种数字编码称为 目标变量。当分类变量的取值有多于两个类别时,存在不同的处理方法。最有效和常用的方法是通过 哑变量(dummy variables)。比如一个 $K$ 类别的分类变量可以表达为一个长度为 $K$ 的二进制数字向量,向量中的每一位取值为 0 或 1,并且只能有一位取值为 1。尽管可能有更简洁的编码方式,但哑变量的好处是对因子的取值是对称的。

通常用符号 $X$ 代表一个输入变量。当 $X$ 代表输入变量向量时,其中的单个变量可以使用脚标表示 $X_j$。用 $Y$ 代表量化的输出变量,$G$ 代表分类的输出变量。在讨论通用的变量时,使用大写字母比如 $X$,$Y$ 和 $G$。具体的取值用小写字母,比如变量 $X$ 的第 i 个观测样本记为 $x_i$($x_i$ 可以是一个数值或一个向量)。用加粗的大写字母表示矩阵,例如一组大小为 $N$ 的样本,每个样本为 $p$ 维的向量 $x_i,i=1,\dots,N$ 可以写为 $\mathbf{X}$,$N\times p$ 的矩阵。向量通常不用粗体表示,但当其长度为样本量 $N$ 时除外。这是为了区分以下两者:$N$ 个样本中的某个观测 $x_i$(一个 $p$ 维的向量),和某个输入变量 $X_j$ 在样本中的所有取值 $\mathbf{x}_j$(一个 $N$ 维的向量)。所有的向量默认为列向量,所以 $\mathbf{X}$ 的第 i 行即为 $x^T_i$,$x_i$的转置。

在这里我们可以很笼统地理解统计学习的目标为:通过输入变量的向量 $X$ 的取值,来准确地预测输出变量 $Y$ 的取值,即 $\hat{Y}$。2 若输出变量为取值在 $\mathbb{R}$ 上的数值,那么 $\hat{Y}$ 也同样;对分类输出变量同理,$\hat{G}$ 的取值集合应与 $G$ 一致。

对于预测二分类变量 $G$ 的问题,一种处理方法是用 0 和 1 代表不同的类别,然后将其按预测量化输出变量 $Y$ 来预测。通常预测值 $\hat{Y}$ 会取值在 $[0, 1]$ 区间上,最终根据是否 $\hat{y} > 0.5$ 来生成二分类的预测 $\hat{G}$。这种方法也可推广到 $K$ 类的分类输出变量上。

为了建立预测模型,我们通常需要大量的数据。样本的观测写为 $(x_i,y_i)$ 或 $(x_i,g_i)$,$i=1,\dots,N$。用于训练模型的数据,称为 训练集(training set)


  1. 作为分类问题经典案例的鸢尾花卉数据集。它最初是 Edgar Anderson 从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据,后由 Ronald Fisher 作为判別分析的一个例子,运用到统计学中。wikipedia数据集。 ↩︎

  2. $\hat{Y}$ 英文读作 y-hat,直译为“y 帽子”。国内的叫法五花八门,例如“y 尖”,“y 估计值”。 ↩︎

下一页