变量聚类输入数据

统计 > 多变量 > 变量聚类

输入数据

变量或距离矩阵中,输入包含测量数据的列或包含所有变量对之间距离的存储距离矩阵。

注意

如果您输入的是存储距离矩阵,那么 Minitab 不会计算最终分割的统计量。

对于测量数据,必须有两个或更多数字列,且每列代表不同的测量值。使用此分析之前,从工作表中删除含缺失数据的行。如果您有很多数据行,可能要将您的工作表子集化,以排除包含缺失值的行。有关更多信息,请转到子集化工作表概述

对于此分析,不能输入类别变量。如果您有类别变量,必须先将文本值转换为数字尺度,或者必须针对每个类别变量水平执行单独的分析。有关更多信息,请转到数据注意事项变量聚类

对于存储距离矩阵,距离矩阵 D 的行 i 和列 j 中的条目是变量 i 和 j 之间的距离。有关在 Minitab 中创建和使用存储矩阵的信息,请转到矩阵概述

在该工作表中,每一列都包含在全世界不同城市针对不同变量的测量值,这些变量可能与大学的录取率相关联。这些变量包括不同城市中每 1,000 人中的报纸数、收音机数和电视机数,以及文化程度和是否有大学。调查员希望通过根据相似特征合并变量来减少变量数。
C1 C2 C3 C4 C5
报纸 广播 电视数量 文化程度 大学
279 267 227 .98 1
143 112 332 .94 1
9 113 7 .25 0
391 314 566 .99 1
112 48 423 .82 1
67 66 134 .45 0

选择联结法

联结法中,选择指定如何定义两个聚类之间距离的方法。您可能想要尝试几种联结法,来查看哪种方法可为您的数据提供最有用的结果。

注意

对于观测值聚类,距离指的是观测值之间的距离,联结指的是观测值聚类之间的距离。对于变量聚类,距离指的是变量之间的距离,联结指的是变量聚类之间的距离。

平均
两个聚类之间的距离等于一个聚类中的观测值(或变量)与另一个聚类中的观测值(或变量)之间的平均距离。尽管最短距离法和最长距离法是根据单对距离将聚类分组,但类平均法使用的是更集中的位置测量。
质心
两个聚类之间的距离等于聚类质心或均值之间的距离。与类平均法一样,此方法也是一种平均方法。
最长距离
两个聚类之间的距离等于一个聚类中的观测值(变量)与另一个聚类中的观测值(变量)之间的最大距离。此方法(亦称为最远邻接法)可确保聚类中的所有观测值(或变量)都在最大距离范围内,并且往往会生成直径相似的聚类。但是,异常值会对结果造成巨大影响。
简单平均
新聚类到任何其他聚类的距离将计算为即将合并的聚类与另一个聚类之间距离的平均值。例如,如果聚类 1 和 3 将合并成新的聚类,比如说 1*,则聚类 1* 到聚类 4 的距离等于 1 到 4 的距离和 3 到 4 的距离的平均值。对于这种方法,距离取决于聚类组合而不是聚类中的单个观测值(变量)。
中间距离
两个聚类之间的距离等于一个聚类中的观测值(或变量)与另一个聚类中的观测值(或变量)之间的中位数距离。由于此平均法使用中位值,而不是均值,它会减少异常值的影响。
最短距离
两个聚类之间的距离等于一个聚类中的观测值(或变量)与另一个聚类中的观测值(或变量)之间的最小距离。这种方法,亦称为最近邻接法,适合在聚类明显分隔时使用。当观测值(或变量)之间靠得很近时,最短距离法往往会将它们识别为类似长链的聚类,这种聚类可以使用相对较大的距离来分隔链端处的观测值。
离差平方和
两个聚类之间的距离等于从点到质心的平方差之和。Ward 联结法的目的是使聚类内平方和最小。该方法趋向于生成具有相似观测值(或变量)数的聚类,但是对于异常值很敏感。而且,两个聚类之间的距离有时会大于 dmax(原始距离矩阵中的最大值)。如果发生这种情况,则相似性将为负值。

指定距离度量

距离度量中,选择计算变量之间距离的方法。
  • 相关性:相关法将为正相关提供 0 到 1 之间的距离值,为负相关提供 1 到 2 之间的距离值。如果认为负相关数据比正相关数据相隔距离更远有意义,则使用相关法。
  • 绝对相关性:绝对相关法提供 0 和 1 之间的距离。如果认为关系强度对于考虑距离(而非符号)非常重要,则使用绝对相关法。

指定最终分割

说明您要用于确定最终分组的标准。
  • 点群数:选择此项可输入最终分割的聚类数。
  • 相似性水平:选择此项可输入最终分割中聚类的相似性水平。

为取得最佳结果,您应灵活选择标准。例如,如果您使用聚类数定义最终分割,则还应考虑相似性水平的变化。如果添加特定聚类时相似性急剧降低,则这可能提示您执行该分组操作之前先指定最终分割。相反地,如果您使用相似性水平定义最终分割,则可能要确定相似性水平在一定聚类范围中不会出现太大变化,并且为了保证过程简单,您应选择以最少的聚类进行这一步。

注意

如果不知道输入什么值来指定最终分割,请先使用默认设置(最终分割中 1 个聚类)执行分析。Minitab 会显示所有可能聚类数的结果。请使用这些结果来确定要为最终分割输入的值。然后,重新执行分析并指定您确定的最终分割。有关更多信息,请转至确定聚类的最终分组

显示树状图

选择此项可显示树状图,该图显示聚类在合并过程的每一步是如何形成的。该树状图可让您查看聚类在每一步中的相似性(或距离)值。

要更改树状图的默认显示,请单击自定义