14.8 多维尺度分析

自组织映射和主曲线曲面都是将 $\mathbb{R}^p$ 中的数据点映射到一个低维的流形。多维尺度分析(multidimensional scaling,MDS) 的目的也是相似的,但以一个有些不同的方式来处理这个问题。

假设有观测点 $x_1,x_2,\dots,x_N\in\mathbb{R}^p$,并且 $d_{ij}$ 为观测点 $i$ 和 $j$ 之间的距离。通常会使用欧式距离 $d_{ij}=\|x_i-x_j\|$,不过也可以使用其他的距离。此外,在一些应用中可能具体的数据点 $x_i$ 可能是不可得的,而只存在某个差异性测度 $d_{ij}$(参考第 14.3.10 节)。例如在一个红酒品尝实验中,$d_{ij}$ 可能是一个人对红酒 $i$ 和 $j$ 之间差异测度判断,这个人会对所有的红酒 $i$ 和 $j$ 两两之间都做这样的测度判断。多维尺度分析只需要差异性测度 $d_{ij}$,而与之相比自组织映射和主曲线曲面则需要具体的数据点 $x_i$。多维尺度分析通过对所谓的 压力函数(stress function)1 最小化而寻找一组 $z_1,z_2,\dots,z_N\in\mathbb{R}^k$。

$$S_M(z_1, z_2, \dots, z_N) = \sum_{i \neq i'}(d_{ii'} - \|z_i - z_{i'}\|)^2 \tag{14.98}$$

这被称为 最小二乘(least squares)Kruskal-Shephard 尺度。这个思想是去寻找一个尽可能保留两两距离信息的一个在低维上的数据再现。注意式中使用的是对距离的近似,而不是对距离平方的近似(可能会导致稍微复杂的代数推导)。可以使用剃度下降算法对 $S_M$ 最小化。

一个对最小二乘尺度的改动是所谓的 Sammon 映射,它对下式最小化:

$$S_{S_M}(z_1, z_2, \dots, z_N) = \sum_{i \neq i'} \frac{(d_{ii'} - \|z_i-z_{i'}\|)^2}{d_{ii'}} \tag{14.99}$$

这里会更看重对两两之间的较小距离进行保留。

在经典尺度分析中,我们反而从相似性 $s_{ii’}$ 出发:通常会使用中心化的内积 $s_{ii’}=\langle x_i-\bar{x},x_{i’}-\bar{x} \rangle$。然后问题就成为了下式对 $z_1,z_2,\dots,z_N\in\mathbb{R}^k$ 的最小化:

$$S_C(z_1, z_2, \dots, z_N) = \sum_{i,i'} (s_{ii'} - \langle z_i-\bar{z}, z_{i'}-\bar{z} \rangle)^2 \tag{14.100}$$

这个形式比较吸引人,因为它有一个基于特征向量的显式解;参考练习 14.11。如果我们只有距离数据而无法计算内积,那么当距离是欧式时2可以将它们转化为中心化的内积。实际上如果相似性是来自中心化的内积,经典尺度分析完全等价于主成分分析,一个从根本上来说是线性的降维方法。经典尺度分析不等价于最小二乘尺度分析,因为损失函数不同,而且映射可能是非线性的。

最小二乘和经典尺度分析,被称为是 计量(metric) 尺度分析方法,因为其中会对实际的差异性或相似性做近似。Shephard-Kruskal 非计量(nonmetric) 尺度分析则实际上只使用了排序。非计量尺度分析是对 $z_i$ 和一个递增函数 $\theta$ 求这个压力函数最小化:

$$S_{NM}(z_1, z_2, \dots, z_N) = \frac {\sum_{i \neq i'} [\|z_i-z_{i'}\|^2 - \theta(d_{ii'})]^2} {\sum_{i \neq i'} \|z_i-z_{i'}\|^2} \tag{14.101}$$

在固定 $\theta$ 时,可以通过梯度下降对 $z_i$ 求最小化解。在固定 $z_i$ 时,可以使用 保序回归(isotonic regression) 来寻找对 $\|z_i-z_{i’}\|$ 的最优单调近似 $\theta(d_{ii’})$。迭代进行这些步骤,直到解收敛到稳定值。

与自组织映射和主曲线曲面一样,多维尺度分析在低维坐标系中重现高维的数据。主曲线曲面和自组织映射会更进一步,用一个在低维度坐标系中参数化的低维流形来近似原始数据。在主曲线曲面和自组织映射中,原始特征空间上接近的点应该在流形中的映射也接近,不过特征空间上远离的点也可能有接近的映射。这在多维尺度分析中不太可能出现,因为它明确地试图保留所有两两之间距离信息。

图 14.43 展示了半球示例中的经典尺度分析得出的前两个 MDS 坐标。簇之间的分隔清晰,而且可明显看出红色簇更紧凑。

**图 14.43**:半球数据上经典多维尺度分析得出的前两个坐标。
图 14.43:半球数据上经典多维尺度分析得出的前两个坐标。

本节练习

练习 14.11

经典多维尺度分析。

Let $\mathbf{S}$ be the centered inner product matrix with elements $\langle x_ī-\bar{x},x_j-\bar{x}\rangle$. Let $\lambda_1>\lambda_2>\dots>\lambda_k$ be the $k$ largest eigenvalues of $\mathbf{S}$, with associated eigenvectors $\mathbf{E}_k=(\mathbf{e}_1,\mathbf{e}_2,\dots,\mathbf{e}_k)$. Let $\mathbf{D}_k$ be a diagonal matrix with diagonal entries $\sqrt{\lambda_1},\sqrt{\lambda_2},\dots,\sqrt{\lambda_k}$. Show that the solutions $z_i$ to the classical scaling problem (14.100) are the rows of $\mathbf{E}_k\mathbf{D}_k$.


  1. 原文脚注 13:一些作者将压力定义为 $S_M$ 的评分根。由于这并不影响最优化计算,我们使用了平方的版本使其更容易与其他准则进行比较。 ↩︎

  2. 原文脚注 14:一个 $N\times N$ 的距离矩阵,如果其元素可表达在某个维度的空间上 $N$ 个点两两之间的欧式距离,那么就可称之为欧式距离矩阵。 ↩︎

上一页
下一页