2.2 变量类型和术语

输出变量在不同的场景中会有不同的类型。在预测血糖的例子中，输出变量是一个量化的指标，彼此之间有大小关系，而且数值相近也代表着结果相近。在著名的费雪辨别鸢尾花¹的例子中，输出变量为定性的（鸢尾花的种类），取值在一个有限集合中（取值集合 $\mathcal{G}$ 为 {维吉尼亚鸢尾, 山鸢尾, 变色鸢尾}）。在手写数字识别的例子中，输出变量是十个数字中的一个（取值集合 $\mathcal{G}$ 为 {0, 1, …, 9}）。在上面两个例子中，定性输出变量的不同取值之间没有大小的关系，事实上这类变量也通常用解释性的标签而不是数字来标记取值。定性变量也通常被称为 分类（categorical）、离散（discrete）、或 因子（factors） 变量。

统计学习的目的即是用一些输入变量来预测输出变量。比如，利用一些昨天和今天的特定气象指标，我们希望预测明天的臭氧浓度；利用数字化后手写数字图片中每个像素点的灰度值，我们希望预测这个手写数字是几。

输出变量的两种类型给予了预测模型的两个习惯术语：当预测的为量化输出变量时，称之为 回归（regression）；当预测的为分类输出变量时，称之为 分类（classification）。当两者其实有很多共通，并且都可以被看成函数逼近问题。

输入变量同样有不同的类型，模型中可能同时有量化输入变量和分类输入变量。根据输入变量的类型也可以将预测方法分成不同的类型：有些方法偏向使用量化输入变量，有些方法偏向使用分类变量，也有些方法可以同时使用量化和分类变量。

另外一种变量类型是有序分类变量，例如取值为小、中、和大，其不同的值之间存在大小关系，但并之间并没有量化的距离度量（即“小”与“中”的区别程度和“中”与“大”的区别程度是未知的）。在第四章会进一步讨论这种变量类型。

分类变量常常用数字编码来标示。最简单的分类变量是只有两个类别，比如“成功”或“失败”、“存活”或“死亡”。通常会使用类似于一位二进制数字来表达，即 0 或 1；或者，也可以用 -1 或 1 来表达。有时会将这种数字编码称为 目标变量。当分类变量的取值有多于两个类别时，存在不同的处理方法。最有效和常用的方法是通过 哑变量（dummy variables）。比如一个 $K$ 类别的分类变量可以表达为一个长度为 $K$ 的二进制数字向量，向量中的每一位取值为 0 或 1，并且只能有一位取值为 1。尽管可能有更简洁的编码方式，但哑变量的好处是对因子的取值是对称的。

通常用符号 $X$ 代表一个输入变量。当 $X$ 代表输入变量向量时，其中的单个变量可以使用脚标表示 $X_j$。用 $Y$ 代表量化的输出变量，$G$ 代表分类的输出变量。在讨论通用的变量时，使用大写字母比如 $X$，$Y$ 和 $G$。具体的取值用小写字母，比如变量 $X$ 的第 i 个观测样本记为 $x_i$（$x_i$ 可以是一个数值或一个向量）。用加粗的大写字母表示矩阵，例如一组大小为 $N$ 的样本，每个样本为 $p$ 维的向量 $x_i,i=1,\dots,N$ 可以写为 $\mathbf{X}$，$N\times p$ 的矩阵。向量通常不用粗体表示，但当其长度为样本量 $N$ 时除外。这是为了区分以下两者：$N$ 个样本中的某个观测 $x_i$（一个 $p$ 维的向量），和某个输入变量 $X_j$ 在样本中的所有取值 $\mathbf{x}_j$（一个 $N$ 维的向量）。所有的向量默认为列向量，所以 $\mathbf{X}$ 的第 i 行即为 $x^T_i$，$x_i$的转置。

在这里我们可以很笼统地理解统计学习的目标为：通过输入变量的向量 $X$ 的取值，来准确地预测输出变量 $Y$ 的取值，即 $\hat{Y}$。² 若输出变量为取值在 $\mathbb{R}$ 上的数值，那么 $\hat{Y}$ 也同样；对分类输出变量同理，$\hat{G}$ 的取值集合应与 $G$ 一致。

对于预测二分类变量 $G$ 的问题，一种处理方法是用 0 和 1 代表不同的类别，然后将其按预测量化输出变量 $Y$ 来预测。通常预测值 $\hat{Y}$ 会取值在 $[0, 1]$ 区间上，最终根据是否 $\hat{y} > 0.5$ 来生成二分类的预测 $\hat{G}$。这种方法也可推广到 $K$ 类的分类输出变量上。

为了建立预测模型，我们通常需要大量的数据。样本的观测写为 $(x_i,y_i)$ 或 $(x_i,g_i)$，$i=1,\dots,N$。用于训练模型的数据，称为 训练集（training set）。

作为分类问题经典案例的鸢尾花卉数据集。它最初是 Edgar Anderson 从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据，后由 Ronald Fisher 作为判別分析的一个例子，运用到统计学中。wikipedia，数据集。 ↩︎
$\hat{Y}$ 英文读作 y-hat，直译为“y 帽子”。国内的叫法五花八门，例如“y 尖”，“y 估计值”。 ↩︎