5.6 非参数对数几率回归

第 5.4 节中平滑样条问题(式 5.9)是在回归场景中推导的。这个方法也通常可以直接用在其他场景中。本节介绍在单个量化输入变量 $X的 对数几率回归场景。模型为:

$$\log \frac{\operatorname{Pr}(Y=1|X=x)}{\operatorname{Pr}(Y=0|X=x)} = f(x) \tag{5.28}$$

可推出:

$$\operatorname{Pr}(Y=1|X=x) = \frac{e^{f(x)}}{1+e^{f(x)}} \tag{5.29}$$

对 $f(x)$ 函数的平滑方法拟合,即为条件概率 $\operatorname{Pr}(Y=1|x)$ 的一个平滑估计,可被用于分类或制定风险评分。

惩罚(penalized)对数似然度准则为:

$$\begin{align} l(f;\lambda) =& \sum_{i=1}^N [y_i \log p(x_i) + (1-y_i) \log (1-p(x_i))] \\ & -\frac{1}{2} \lambda \int\{ f^{\prime\prime}(t)\}^2 dt \\ =& \sum_{i=1}^N \left [ y_i f(x_i) - \log(1 + e^{f(x_i)})\right ] - \frac{1}{2} \lambda \int\{ f^{\prime\prime}(t)\}^2 dt \end{align}$$ $$\tag{5.30}$$

其中的 $p(x)=\operatorname{Pr}(Y=1|x)$。式中第一项为基于二项分布的对数似然度(见第四章,第 120 页)。类似于第 5.4 节,可证明最优解 $f$ 为一个有限维度的以所有 $x$ 唯一值为结点的自然样条函数。这使得其可以被表达为 $f(x)=\sum_{j=1}^NN_j(x)\theta_j$。对数似然度的一阶和二阶导数为:

$$\begin{align} \frac{\partial \ell(\theta)}{\partial \theta} &= \mathbf{N}^T(\mathbf{y} - \mathbf{p}) - \lambda \mathbf{\Omega}\theta \tag{5.31} \\ \frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta^T} &= - \mathbf{N}^T\mathbf{W}\mathbf{N} - \lambda\mathbf{\Omega} \tag{5.32} \end{align}$$

其中 $\mathbf{p}$ 为 $p(x_i)$ 组成的 $N$ 长度向量,$\mathbf{W}$ 为权重 $p(x_i)(1-p(x_i))$ 组成的对角矩阵。一阶导数(等式 5.31)为 $\theta$ 的非线性函数,故需要通过一个如第 4.4.1 节中的迭代算法来计算。类比线性对数几率回归的牛顿-拉弗森(Newton-Raphson)方法(式 4.23 和 4.26),更新方程可写为:

$$\begin{align} \theta^{\text{new}} &= (\mathbf{N}^T\mathbf{W}\mathbf{N} + \lambda\mathbf{\Omega})^{-1} \mathbf{N}^T\mathbf{W} (\mathbf{N}\theta^{\text{old}} + \mathbf{W}^{-1}(\mathbf{y} - \mathbf{p})) \\ &= (\mathbf{N}^T\mathbf{W}\mathbf{N} + \lambda\mathbf{\Omega})^{-1} \mathbf{N}^T\mathbf{W}\mathbf{z} \tag{5.33}\end{align}$$

也可将其表述为拟合值的更新:

$$\begin{align} \mathbf{f}^{\text{new}} &= \mathbf{N}(\mathbf{N}^T\mathbf{W}\mathbf{N} + \lambda\mathbf{\Omega})^{-1} \mathbf{N}^T\mathbf{W} (\mathbf{f}^{\text{old}} + \mathbf{W}^{-1}(\mathbf{y} - \mathbf{p})) \\ &= \mathbf{S}_{\lambda,w}\mathbf{z} \tag{5.34}\end{align}$$

与式 5.12 和 5.14 对比,可见更新过程是在对一个衍生输出变量 $\mathbf{z}$ 进行的加权平滑样条拟合(练习 5.12)。

式 5.34 的形式很有启发性。可以用其他的非参数(加权)回归算子替换 $\mathbf{S}_{\lambda,w}$,这样就成为一个非参数对数几率回归模型的通用框架。本节中 $x$ 为一维变量,但这个方法可以很自然地拓展到高维的 $x$ 中。这种拓展即为第九章要介绍的 广义加性模型(generalized additive model) 的核心思想。


本节练习

练习 5.12

Characterize the solution to the following problem,

$$\min_f \operatorname{RSS}(f, \lambda) = \sum_{i=1}^N w_i \{ y_i - f(x_i) \}^2 + \lambda \int \{f''(t)\}^2 dt \tag{5.73}$$

where the wi ≥ 0 are observation weights. Characterize the solution to the smoothing spline problem (5.9) when the training data have ties in X.

上一页
下一页