在之前的实例中1,我们构建了 $p\times M$ 的基函数矩阵 $\mathbf{H}$,然后将特征变量 $x$ 转化为新的特征变量 $x^*=\mathbf{H}^Tx$。然后将滤波后的特征变量作为某个学习算法的输入变量:在之前的那个例子中,使用的是线性对数几率回归。
高维度特征变量的预处理(preprocessing)是提高学习算法表现的非常普遍和有效的方法。上述的预处理是一个线性转换,但也可以用更广泛的(非线性)转换函数 $x^*=g(x)$。然后可以在衍生出的特征变量 $x^*$ 上使用任意的(线性或非线性)学习算法。
例如,信号或图像识别中一个常见的方法是先将原始的特征变量进行小波转换 $x^*=\mathbf{H}^Tx$(第 5.9 节)2,然后使用 $x^*$ 作为神经网络(第十一章)的输入变量。小波函数可以有效地捕捉离散的跳跃和边缘,而神经网络是利用这类特征来预测目标变量的强大非线性模型。通过对特定领域的了解来构建有意义的特征变量,通常要比直接使用原始特征变量的学习方法效果更好。