6.7 径向基函数与核函数

第五章中,函数被表述为基函数的扩展:$f(x)=\sum_{j=1}^M\beta_jh_j(x)$。使用基函数展开建模的灵活性在于选择合适的基函数族, 然后再通过筛选、正则化、或两者并举来控制函数表达式的复杂度。有些类型的基函数存在着定义在局部的元素;例如,B-样条即定义在 $\mathbb{R}$ 的局部。若想要在特定的局部获得更灵活的模型,则需要在该区域上的表达式增加更多的基函数(在 B-样条例子中则是增加更多结点)。$\mathbb{R}$ 的局部基函数的张量积可生成 $\mathbb{R}^p$ 上的局部基函数。并不是所有基函数都是局部的。例如,样条中的截断幂次基函数,或神经网络(第十一章)中的 S 形基函数 $\sigma(\alpha_0+\alpha x)$。尽管如此,由于系数的特定的符号和取值可能会彼此消除某些全局效应,其组成的函数 $f(x)$ 仍可表现出局部性。例如,对截断幂次基函数,存在着等价的 B-样条基函数,使得两者生成的函数空间是一样的;在这种场景中,全局效应被完全消除。

核函数方法的灵活性在于在目标点 $x_0$ 的局部区域拟合简单的模型。局部性是通过一个加权核函数 $K_\lambda$ 实现的,每个样本被赋予权重 $K_\lambda(x_0,x_i)$。

径向基函数则结合了上述两种思想,将核函数 $K_\lambda(\xi,x)$ 作为一个基函数。这引入了模型:

$$\begin{align} f(x) &= \sum_{j=1}^M K_{\lambda_j}(\xi_j, x) \beta_j \\ &= \sum_{j=1}^M D\left(\frac{\|x-\xi_j\|}{\lambda_j}\right) \beta_j \tag{6.28}\end{align}$$

其中的每个基函数成分被一个位置或 原型(prototype) 参数 $\xi_j$ 和一个尺度参数 $\lambda_j$ 索引。$D$ 的常见选择为标准高斯密度函数。有很多种获得参数 $\{\lambda_j,\xi_j,\beta_j\},j=1,\dots,M$ 的方法。简单起见,这里对回归问题着重于最小二乘方法,并使用高斯核函数。

  • 对所有的参数进行平方和的最优化: $$\begin{align} \min_{\{\lambda_j, \xi_j, \beta_j\}_1^M} \sum_{i=1}^N \Bigg( & y_i - \beta_0 - \\ & \sum_{j=1}^M \beta_j \exp\bigg\{ -\frac{(x_i-\xi_j)^T(x_i-\xi_j)}{\lambda_j^2} \bigg\} \Bigg) \tag{6.29}\end{align}$$ 这个模型一般被称为径向基(RBF)网络,可视为是第十一章中的 S 状神经网络的一个替代方法;参数 $\xi_j$ 和 $\lambda_j$ 起到了权重的作用。这个准则函数是非凸的,有多个局部最小点,其最优化的算法与神经网络中使用的类似。

  • 对不同 $\beta_j$ 分别估计 $\{\lambda_j,\xi_j\}$。给定后者,则前者的估计是一个简单的最小二乘问题。通常会通过一个无监督的方式只从 $X$ 的分布来选择核函数的参数 $\lambda_j$ 和 $\xi_j$。其中一种方法是对训练样本 $x_i$ 拟合一个高斯混合密度模型,同时得到多个中心 $\xi_j$ 和尺度 $\lambda_j$。另一个更特殊的方法是通过聚类方法来定位原型 $\xi_j$,并将 $\lambda_j=\lambda$ 作为一个超(hyper)参数。这类方法明显的问题是条件分布 $\operatorname{Pr}(Y|X)$ 和特别是 $\operatorname{E}(Y|X)$ 对选择集中的位置没有任何影响。相应地,其好处是比较容易实现。

**图 6.16**:$\mathbb{R}$ 上的固定宽度的高斯径向基函数可能造成空洞(上图)。重标准化的高斯径向基函数可避免这个问题,其产生的基函数在某些方面与 B-样条类似。
图 6.16:$\mathbb{R}$ 上的固定宽度的高斯径向基函数可能造成空洞(上图)。重标准化的高斯径向基函数可避免这个问题,其产生的基函数在某些方面与 B-样条类似。

尽管常数 $\lambda_j=\lambda$ 的假设可缩减参数集的大小,但这可能会在空间上形成 空洞(holes)。如图 6.16 中上图所示,在 $\mathbb{R}^p$ 中的一些区域上,没有任一核函数有相应的支撑集。使用 重标准化(renormalized) 的径向基函数可解决这个问题(下图):

$$h_j(x) = \frac{D(\|x-\xi_j\|/\lambda)} {\sum_{k=1}^M D(\|x-\xi_k\|/\lambda)} \tag{6.30}$$

式 6.2 中的 $\mathbb{R}^p$ 上的 Nadaraya-Watson 核函数回归估计可被视为用重标准化径向基函数的展开:

$$\begin{align} \hat{f}(x_0) &= \sum_{i=1}^N y_i \frac{K_\lambda(x_0, x_i)} {\sum_{i=1}^N K_\lambda(x_0, x_i)} \\ &= \sum_{i=1}^N y_i h_i(x_0) \tag{6.31}\end{align}$$

其中的基函数 $h_i$ 位置在每个样本处,系数为 $y_i$;即 $\xi_i=x_i$,$\hat{\beta}_i=y_i$,$i=1,\dots,N$。

注意展开式 6.31 与径向基函数引入的正则化问题解 5.50(第 5.8 节,第 169 页)之间的相似之处,将现代的“核方法”与局部拟合方法关联了起来。

上一页
下一页