在第 3.4.1 节曾介绍过主成分,是为了阐释岭回归的收缩原理。主成分是数据的相互不相关、按方差排序的一系列投影。在下一节中我们将主成分表述为对
14.5.1 主成分
记观测样本为
其中
图 14.20 和图 14.21 分别演示了
我们可对参数
这样我们就只需要再对正交矩阵
为了计算简便,我们可以假设
这是数值分析中一个常见的的分解,已有一些计算这个分解的算法(例如 Golub and Van Loan, 1983)。其中的

图 14.20 在

类似地,图 14.21 展示了半球数据在二维主成分平面上的拟合(左图)。右图展示了数据样本在前两个主成分空间上的投影。这个投影是上一节中的自组织映射方法中初始化配置的基础。这个方法比较成功地分隔了聚类簇。由于半球是非线性的,所以非线性的投影可能效果会更好,这会在下一节展开介绍。
主成分也有很多其他良好的性质,例如在所有的特征线型组合中
例:手写数字
主成分在降维和压缩中是一个很有用的工具。我们在第一章中介绍过的手写数据数别问题中演示下它的作用。

图 14.22 展示了共 658 个样本中的 130 个手写数字“3”,每个图片是一个数字化的

图 14.23 展示了这些数据的前两个主成分。为这前两个主成分

这里将前两个主成分方向

将
例:普洛克路斯忒斯变换和形状平均

图 14.25 中同时展示了橙色和绿色两组数据点。在这个例子中,这些点代表了两个手写字母“S”的数字化版本,它们是从一位“Suresh”的签名中抽取出的。图 14.26 展示了提取这两个字母“S”的整体签名图片(第三和第四图)。这些签名是通过触摸屏设备动态地捕捉的,这在现代的超市中很常见1。每个“S”由
右图(图 14.25)对绿色的点使用了一个形变和旋转,使其尽可能地与橙色点匹配,即所谓的 普洛克路斯忒斯变换(Procrustes transformation)2(可参考 Mardia et al., 1979)。
考虑下面这个问题:
其中
令
而这个最小距离被称为 普洛克路斯忒斯距离(Procrustes distance)。从解的形式可见,我们可以将每个矩阵对它的列中心向量进行去中心化,然后可完全地忽略掉位置向量。以下部分将遵照这样的假设。
普洛克路斯忒斯尺度距离(Procrustes distance with scaling) 是求解一个稍微更一般性的问题:
其中
与普洛克路斯忒斯距离相关联的是
也就是寻找一个与所有的形状以平方普洛克路斯忒斯距离最接近的形状
- 进行初始化(例如):
。 - 固定
,求解 个普洛克路斯忒斯旋转问题,得到 。 - 令
重复进行步骤 1 和 2,直到准则函数(式 14.59)收敛。

图 14.26 展示了三个形状的简单示例。注意我们仅能够找到对旋转变化下等价的解;或者可以通过一个约束来达到唯一性,例如要求
更一般地,可以通过下式定义一组形状的 仿射不变平均(affine-invariant average):
其中
- 令
是被 所定义的秩为 的投影矩阵。 则是由 的 个最大的特征向量组成的 矩阵。
14.5.2 主曲线和主曲面
主曲线(principal curve) 是主成分(直)线的一般化,为
我们先定义一些随机变量
也就是说

主点(principal point) 是一个重要的相关概念。假设有一组
为得出一个随机分布的主曲线
第一步固定
主曲面与主曲线的形式完全一样,不过只是有更高的维度。最常用的是二维主曲面,坐标函数为:
则上述步骤(a)中的估计需要使用二维曲面平滑器得出。很少会使用高于二维的主曲面,因为在可视化上没有多少帮助,并且高维上的平滑器也比较难处理。

图 14.28 展示了半球数据拟合的主曲面的结果。右图中为数据点对估计出的非线性坐标
主曲面与自组织映射非常相似。如果在估计每个坐标函数
两者也存在一个概念上的差异。主曲面以坐标函数的方式给出了对整个流形的平滑的参数化,而自组织映射是离散的,只给出了用于近似数据的原型点估计。 主曲面的平滑参数化保留了局部距离:在图 14.28 中可见,红色的簇要比绿色的和蓝色的更紧凑。在简单的示例中可看出估计的坐标函数本身包含了这些信息,参考练习 14.13。
14.5.3 谱聚类
传统的聚类方法,例如 K 均值,使用了圆形的或椭圆的度量来为数据点分组。因此当聚类簇是非凸集合时,例如 图 14.29 左上图中的同心环,这些方法不再有效。谱聚类(spectral cluster) 是这些标准聚类方法的一个推广,专为这些场景而设计。它与推广了多维尺度分析的局部多维尺度方法(第 14.9 节)有紧密的联系。

首先,有一个所有观测样本点之间两两相似度
为了更明确的表述,令
有很多可以定义相似度矩阵以及体现了局部性质的相似度图的方法。最普遍使用的是 互 K 近邻图(mutual K-nearest-neighbor graph)。定义
或者也可以使用包含了所有点对之间的边
相似度图中的边的权重的矩阵
最后,图的 拉普拉斯矩阵(graph Laplacian) 的定义为:
这被称为 非标准化拉普拉斯矩阵(unnormalized graph Laplacian);已有一些标准化的拉普拉斯矩阵,它们是针对节点度
谱聚类是要找出
图 14.29 展示了一个例子。左上图是用不同颜色标记三个环形簇的共 450 个模拟数据点。很明显,K 均值聚类会难以识别外层的簇。我们使用了 10 个最近邻相似度图,并且在左下图中展示了图的拉普拉斯矩阵的第二和第三最小特征值对应的特征向量。右上图展示了最小的 15 个特征值。(左下图)展示出的那两个特征向量就已经可以识别出三个簇了,右下图中的特征向量矩阵
谱聚类为什么在这里有效?对每个向量
式 14.64 说明了如果邻近的一对样本点,它们的坐标
由于任意图都满足
谱聚类是寻找非凸簇的一个重要的方法。如果使用了标准化的拉普拉斯矩阵,那么可以从另一个角度来理解这个方法。定义矩阵
在实践中应用谱聚类时,会有一些待解决的问题。首先是要选择相似度图的类型,例如是全连通的图还是 K 最近邻的图,以及相对应的参数,例如最近邻的数量
14.5.4 核主成分
谱聚类可与 核主成分(kernel principal component) 相关联,后者是线型主成分的一个非线性的版本。标准的线型主成分(PCA)是从协方差矩阵的特征向量得出的,并且可给出数据样本中方差最大的方向。核主成分(Schölkopf et al., 1999)扩展了 PCA 的范畴,模仿出假设对特征进行非线性转换的扩展后可能得到的特征,然后在这个转换过的特征空间上适用 PCA。
第 18.5.2 节中说明了一个数据样本矩阵
其中
核主成分就是对这个过程的模拟,将核矩阵
通过将
其中的
Schölkopf et al. (1999) 在手写数字分类问题中演示了用核主成分作为分类的特征变量,并且说明了当用这些特征变量取代线型主成分后可提升分类模型的表现。
请注意如果使用了下式的径向核函数:
则核矩阵
核主成分要找出
这与拉普拉斯矩阵(式 14.63)几乎相同,区别在于

图 14.30 演示了在图 14.29 的例子中核主成分方法的表现结果。左上图中使用了
从这个例子中可看出核主成分对尺度和核的性质非常敏感。同时也可见核函数的最近邻截取对谱聚类也非常重要。
14.5.5 稀疏主成分
我们通常通过方向向量
首先我们有一个
绝对值形式的约束条件使得一部分载荷倾向等于零,因此
Zou et al. (2006) 从另一方面主成分的回归/重构性质入手,这与第 14.5.1 节 中的方法类似。令
从这个表达式的细节可见:
- 如果
和 都为零,并且 ,易证明出 而且就是最大的主成分的方向向量。 - 如果
,除非 ,否则解不一定唯一。给定任意的 和 , 的解与最大的主成分方向向量成比例。 - 对
的第二个惩罚项导致了载荷中的稀疏性。
对于多个主成分,稀疏主成分方法对下式求解:
使得
准则函数 14.71 在


图 14.31 展示了来自 Sjöstrand et al. (2007) 的一个稀疏主成分(式 14.71)的示例。这项研究的样本是 569 位老年人,其中有胼胝体(corpus callosum,CC)的正中矢状面(mid-sagittal)的剖面图形状,以及一些与之相关的临床指标7。在这个例子中,对形状(shape)数据使用了主成分分析,这在形态测量学(morphometrics)中是一个常用的工具。在这种应用中,会沿着形状(shape)的周界(circumference)生成一些地标(landmark)点;图 14.32 展示出了一个例子。再用普洛克路斯忒斯(Procrustes)分析来校准(align)这些地标点,从而允许形状中存在旋转和缩放的形变(参考第 14.5.1 节)。主成分中使用的特征变量向量,就是把每个地标点的一系列坐标对放到同一个向量中。
在这个例子的分析中同时计算了标准主成分和稀疏主成分,并且分辨出了与不同临床指标有显著关联的对应成分。在图中同时叠加了对应着显著的主成分的形状变化(红色曲线),和胼胝体(CC)平均的形状(黑色曲线)。与行走速度缓慢相关联的胼胝体,会在连接着运动控制和大脑认知中心的区域比较狭窄(出现了萎缩)。与语言表达不流畅相关联的胼胝体,会在连接着声音、视觉和认知中心的区域比较狭窄。图中的稀疏主成分形状与样本均值形状的差异更微小,而且可能更突出了关键区分的位置。
本节练习
练习 14.7
推导第 14.5.1 节 中的式 14.51 和 14.52。并说明
练习 14.8
Derive the solution (14.57) to the Procrustes problem (14.56). Derive also the solution to the Procrustes problem with scaling (14.58).
练习 14.9
Write an algorithm to solve
Apply it to the three S’s, and compare the results to those shown in Fig- ure 14.26.
练习 14.10
Derive the solution to the affine-invariant average problem (14.60). Apply it to the three S’s, and compare the results to those computed in Exercise 14.9.
练习 14.12
Consider the sparse PCA criterion (14.71).
- Show that with
fixed, solving for amounts to K separate elastic-net regression problems, with responses the K elements of - Show that with V fixed, solving for Θ amounts to a reduced-rank
version of the Procrustes problem, which reduces to
其中的 和 都是 的矩阵, 。如果 是矩阵 的奇异值分解(SVD),请证明最优解 。
练习 14.13
Generate 200 data points with three features, lying close to a helix. In detail, define X 1 = cos(s) + 0.1 · Z 1 , X 2 = sin(s) + 0.1 · Z 2 , X 3 = s + 0.1 · Z 3 where s takes on 200 equally spaced values between 0 and 2π, and Z 1 , Z 2 , Z 3 are independent and have standard Gaussian distributions.
- Fit a principal curve to the data and plot the estimated coordinate functions. Compare them to the underlying functions cos(s), sin(s) and s.
- Fit a self-organizing map to the same data, and see if you can discover the helical shape of the original point cloud.
练习 14.16
Consider the kernel principal component procedure outlined in
Section 14.5.4. Argue that the number M of principal components is equal
to the rank of K, which is the number of non-zero elements in D. Show
that the mth component z m (mth column of Z) can be written (up to
centering) as z im = j=1 α jm K(x i , x j ), where α jm = u jm /d m .
Show that the mapping of a new observation
练习 14.17
Show that with
练习 14.21
Consider an undirected graph with non-negative edge weights w ii ′ and graph Laplacian L. Suppose there are m connected components A 1 , A 2 , . . . , A m in the graph. Show that there are m eigenvectors of L corresponding to eigenvalue zero, and the indicator vectors of these components I A 1 , I A 2 , . . . , I A m span the zero eigenspace.
-
超市中使用信用卡结帐,需要在刷卡机的屏幕上签字。 ↩︎
-
原文脚注 3:普洛克路斯忒斯(Procrustes)是希腊神话中的一名强盗。他是海神波塞冬的儿子,在从雅典到埃莱夫西纳的路上开设黑店,拦截行人。店内设有一张铁床,旅客投宿时,将身高者截断,身矮者则强行拉长,使与床的长短相等。而由于普洛克路斯忒斯秘密地拥有两张长度不同的床,所以无人能因身高恰好与床相等而幸免。后来英雄忒修斯前往雅典时,路过此地,将其杀死。 ↩︎
-
原文脚注 4:为了简化问题,只考虑了正交矩阵,这会包括了反射(reflection)以及旋转(rotation)变换(
,正交群);不过在这里不太可能有反射的情况,所以可进一步地将这些方法限制在只允许旋转操作( ,特殊正交群)。 ↩︎ -
原文脚注 5:如果一个图中任意两个节点都可通过相互连接的节点路径连通起来,就称这个图是连通的(connected)。 ↩︎
-
原文脚注 6:这部分内容受益于与 Jonathan Taylor 的讨论。 ↩︎
-
原文脚注 7:请注意一般的主成分准则中,例如式 14.50,也不是对所有参数联合凸性的。但这个解是有严格定义的并且已存在一个高效率的求解算法。 ↩︎
-
原文脚注 8:作者感谢 Rasmus Larsen 和 Karl Sjöstrand 所建议的这个应用案例,并且提供了这里所使用的图片。 ↩︎