观测值聚类输入数据

统计 > 多变量 > 观测值聚类

为您的分析指定数据,选择联结法和距离法,说明是否标准化变量,指定最终分割,并且选择图形选项。

输入数据

变量或距离矩阵中,输入包含测量数据的列或包含所有变量对之间距离的存储距离矩阵。

注意

如果您输入的是存储距离矩阵,那么 Minitab 不会计算最终分割的统计量。

对于测量数据,必须有两个或更多数字列,且每列代表不同的测量值。使用此分析之前,从工作表中删除含缺失数据的行。如果您有很多数据行,可能要将您的工作表子集化,以排除包含缺失值的行。有关更多信息,请转到子集化工作表概述

对于此分析,不能输入类别变量。如果您有类别变量,必须先将文本值转换为数字尺度,或者必须针对每个类别变量水平执行单独的分析。有关更多信息,请转到数据注意事项观测值聚类

对于存储距离矩阵,距离矩阵 D 的行 i 和列 j 中的条目是观测值 i 和 j 之间的距离。有关在 Minitab 中创建和使用存储矩阵的信息,请转到矩阵概述

在此工作表中,每个列包含针对运动员的不同测量结果。
C1 C2 C3 C4
性别 高度 体重 用手习惯
2 67 155 1
1 74 193 1
2 68 152 1
1 70 172 0
1 72 169 1
2 66 134 0

选择联结法

联结法中,选择指定如何定义两个聚类之间距离的方法。您可能想要尝试几种联结法,来查看哪种方法可为您的数据提供最有用的结果。

注意

对于观测值聚类,距离指的是观测值之间的距离,联结指的是观测值聚类之间的距离。对于变量聚类,距离指的是变量之间的距离,联结指的是变量聚类之间的距离。

平均
两个聚类之间的距离等于一个聚类中的观测值(或变量)与另一个聚类中的观测值(或变量)之间的平均距离。尽管最短距离法和最长距离法是根据单对距离将聚类分组,但类平均法使用的是更集中的位置测量。
质心
两个聚类之间的距离等于聚类质心或均值之间的距离。与类平均法一样,此方法也是一种平均方法。
最长距离
两个聚类之间的距离等于一个聚类中的观测值(变量)与另一个聚类中的观测值(变量)之间的最大距离。此方法(亦称为最远邻接法)可确保聚类中的所有观测值(或变量)都在最大距离范围内,并且往往会生成直径相似的聚类。但是,异常值会对结果造成巨大影响。
简单平均
新聚类到任何其他聚类的距离将计算为即将合并的聚类与另一个聚类之间距离的平均值。例如,如果聚类 1 和 3 将合并成新的聚类,比如说 1*,则聚类 1* 到聚类 4 的距离等于 1 到 4 的距离和 3 到 4 的距离的平均值。对于这种方法,距离取决于聚类组合而不是聚类中的单个观测值(变量)。
中间距离
两个聚类之间的距离等于一个聚类中的观测值(或变量)与另一个聚类中的观测值(或变量)之间的中位数距离。由于此平均法使用中位值,而不是均值,它会减少异常值的影响。
最短距离
两个聚类之间的距离等于一个聚类中的观测值(或变量)与另一个聚类中的观测值(或变量)之间的最小距离。这种方法,亦称为最近邻接法,适合在聚类明显分隔时使用。当观测值(或变量)之间靠得很近时,最短距离法往往会将它们识别为类似长链的聚类,这种聚类可以使用相对较大的距离来分隔链端处的观测值。
离差平方和
两个聚类之间的距离等于从点到质心的平方差之和。Ward 联结法的目的是使聚类内平方和最小。该方法趋向于生成具有相似观测值(或变量)数的聚类,但是对于异常值很敏感。而且,两个聚类之间的距离有时会大于 dmax(原始距离矩阵中的最大值)。如果发生这种情况,则相似性将为负值。

指定距离度量

距离度量中,选择计算观测值对之间距离的方法。
Euclidean
最常用的距离度量,其计算平方差之和的平方根。
Euclidean 平方
使用 Euclidean 法计算的距离平方。这种方法为异常值提供更大权重。
Pearson
平方距离之和除以方差后的平方根。这种方法使方差相同,可用于标准化。
Pearson 平方
使用 Pearson 法计算的距离平方。这种方法为异常值提供更大权重,且使方差相同。
Manhattan
绝对距离之和。这种方法为异常值提供更大权重。
提示

如果您选择了平均质心中间距离离差平方和作为联结法,通常应使用平方距离度量之一。

标准化变量

选择标准化变量可以让 Minitab 为所有变量分配均等的权重。在大多数情况下,标准化是一种良好的做法,在变量使用不同尺度时尤其重要。假定变量 A 处于 $0 到 $10,000,000 的尺度范围,且变量 B 是处于 0.0 到 1.0 尺度范围的比值。如果这些变量未标准化,则观测值聚类过程将因尺度值更大为变量 A 分配比变量 B 更大的权重,这可能不是预期结果。因此,这些变量应标准化。

当您标准化这些变量时,Minitab 会让所有均值等于 0、所有方差等于 1。如果只要方差相等,请勿选择标准化选项,而是选择距离度量下的PearsonPearson 平方

指定最终分割

说明您要用于确定最终分组的标准。
  • 点群数:选择此项可输入最终分割的聚类数。
  • 相似性水平:选择此项可输入最终分割中聚类的相似性水平。

为取得最佳结果,您应灵活选择标准。例如,如果您使用聚类数定义最终分割,则还应考虑相似性水平的变化。如果添加特定聚类时相似性急剧降低,则这可能提示您执行该分组操作之前先指定最终分割。相反地,如果您使用相似性水平定义最终分割,则可能要确定相似性水平在一定聚类范围中不会出现太大变化,并且为了保证过程简单,您应选择以最少的聚类进行这一步。

注意

如果不知道输入什么值来指定最终分割,请先使用默认设置(最终分割中 1 个聚类)执行分析。Minitab 会显示所有可能聚类数的结果。请使用这些结果来确定要为最终分割输入的值。然后,重新执行分析并指定您确定的最终分割。有关更多信息,请转至确定聚类的最终分组

显示树状图

选择此项可显示树状图,该图显示聚类在合并过程的每一步是如何形成的。该树状图可让您查看聚类在每一步中的相似性(或距离)值。

要更改树状图的默认显示,请单击自定义