6.7 径向基函数与核函数

第五章中,函数被表述为基函数的扩展:f(x)=j=1Mβjhj(x)。使用基函数展开建模的灵活性在于选择合适的基函数族, 然后再通过筛选、正则化、或两者并举来控制函数表达式的复杂度。有些类型的基函数存在着定义在局部的元素;例如,B-样条即定义在 R 的局部。若想要在特定的局部获得更灵活的模型,则需要在该区域上的表达式增加更多的基函数(在 B-样条例子中则是增加更多结点)。R 的局部基函数的张量积可生成 Rp 上的局部基函数。并不是所有基函数都是局部的。例如,样条中的截断幂次基函数,或神经网络(第十一章)中的 S 形基函数 σ(α0+αx)。尽管如此,由于系数的特定的符号和取值可能会彼此消除某些全局效应,其组成的函数 f(x) 仍可表现出局部性。例如,对截断幂次基函数,存在着等价的 B-样条基函数,使得两者生成的函数空间是一样的;在这种场景中,全局效应被完全消除。

核函数方法的灵活性在于在目标点 x0 的局部区域拟合简单的模型。局部性是通过一个加权核函数 Kλ 实现的,每个样本被赋予权重 Kλ(x0,xi)

径向基函数则结合了上述两种思想,将核函数 Kλ(ξ,x) 作为一个基函数。这引入了模型:

f(x)=j=1MKλj(ξj,x)βj(6.28)=j=1MD(xξjλj)βj

其中的每个基函数成分被一个位置或 原型(prototype) 参数 ξj 和一个尺度参数 λj 索引。D 的常见选择为标准高斯密度函数。有很多种获得参数 {λj,ξj,βj},j=1,,M 的方法。简单起见,这里对回归问题着重于最小二乘方法,并使用高斯核函数。

  • 对所有的参数进行平方和的最优化: min{λj,ξj,βj}1Mi=1N(yiβ0(6.29)j=1Mβjexp{(xiξj)T(xiξj)λj2}) 这个模型一般被称为径向基(RBF)网络,可视为是第十一章中的 S 状神经网络的一个替代方法;参数 ξjλj 起到了权重的作用。这个准则函数是非凸的,有多个局部最小点,其最优化的算法与神经网络中使用的类似。

  • 对不同 βj 分别估计 {λj,ξj}。给定后者,则前者的估计是一个简单的最小二乘问题。通常会通过一个无监督的方式只从 X 的分布来选择核函数的参数 λjξj。其中一种方法是对训练样本 xi 拟合一个高斯混合密度模型,同时得到多个中心 ξj 和尺度 λj。另一个更特殊的方法是通过聚类方法来定位原型 ξj,并将 λj=λ 作为一个超(hyper)参数。这类方法明显的问题是条件分布 Pr(Y|X) 和特别是 E(Y|X) 对选择集中的位置没有任何影响。相应地,其好处是比较容易实现。

**图 6.16**:$\mathbb{R}$ 上的固定宽度的高斯径向基函数可能造成空洞(上图)。重标准化的高斯径向基函数可避免这个问题,其产生的基函数在某些方面与 B-样条类似。
图 6.16R 上的固定宽度的高斯径向基函数可能造成空洞(上图)。重标准化的高斯径向基函数可避免这个问题,其产生的基函数在某些方面与 B-样条类似。

尽管常数 λj=λ 的假设可缩减参数集的大小,但这可能会在空间上形成 空洞(holes)。如图 6.16 中上图所示,在 Rp 中的一些区域上,没有任一核函数有相应的支撑集。使用 重标准化(renormalized) 的径向基函数可解决这个问题(下图):

(6.30)hj(x)=D(xξj/λ)k=1MD(xξk/λ)

式 6.2 中的 Rp 上的 Nadaraya-Watson 核函数回归估计可被视为用重标准化径向基函数的展开:

f^(x0)=i=1NyiKλ(x0,xi)i=1NKλ(x0,xi)(6.31)=i=1Nyihi(x0)

其中的基函数 hi 位置在每个样本处,系数为 yi;即 ξi=xiβ^i=yii=1,,N

注意展开式 6.31 与径向基函数引入的正则化问题解 5.50(第 5.8 节,第 169 页)之间的相似之处,将现代的“核方法”与局部拟合方法关联了起来。

上一页
下一页