为您的分析指定数据,选择联结法和距离法,说明是否标准化变量,指定最终分割,并且选择图形选项。
在变量或距离矩阵中,输入包含测量数据的列或包含所有变量对之间距离的存储距离矩阵。
如果您输入的是存储距离矩阵,那么 Minitab 不会计算最终分割的统计量。
对于测量数据,必须有两个或更多数字列,且每列代表不同的测量值。使用此分析之前,从工作表中删除含缺失数据的行。如果您有很多数据行,可能要将您的工作表子集化,以排除包含缺失值的行。有关更多信息,请转到子集化工作表概述。
对于此分析,不能输入类别变量。如果您有类别变量,必须先将文本值转换为数字尺度,或者必须针对每个类别变量水平执行单独的分析。有关更多信息,请转到数据注意事项观测值聚类。
对于存储距离矩阵,距离矩阵 D 的行 i 和列 j 中的条目是观测值 i 和 j 之间的距离。有关在 Minitab 中创建和使用存储矩阵的信息,请转到矩阵概述。
C1 | C2 | C3 | C4 |
---|---|---|---|
性别 | 高度 | 体重 | 用手习惯 |
2 | 67 | 155 | 1 |
1 | 74 | 193 | 1 |
2 | 68 | 152 | 1 |
1 | 70 | 172 | 0 |
1 | 72 | 169 | 1 |
2 | 66 | 134 | 0 |
从联结法中,选择指定如何定义两个聚类之间距离的方法。您可能想要尝试几种联结法,来查看哪种方法可为您的数据提供最有用的结果。
对于观测值聚类,距离指的是观测值之间的距离,联结指的是观测值聚类之间的距离。对于变量聚类,距离指的是变量之间的距离,联结指的是变量聚类之间的距离。
如果您选择了平均、质心、中间距离或离差平方和作为联结法,通常应使用平方距离度量之一。
选择标准化变量可以让 Minitab 为所有变量分配均等的权重。在大多数情况下,标准化是一种良好的做法,在变量使用不同尺度时尤其重要。假定变量 A 处于 $0 到 $10,000,000 的尺度范围,且变量 B 是处于 0.0 到 1.0 尺度范围的比值。如果这些变量未标准化,则观测值聚类过程将因尺度值更大为变量 A 分配比变量 B 更大的权重,这可能不是预期结果。因此,这些变量应标准化。
当您标准化这些变量时,Minitab 会让所有均值等于 0、所有方差等于 1。如果只要方差相等,请勿选择标准化选项,而是选择距离度量下的Pearson或Pearson 平方。
为取得最佳结果,您应灵活选择标准。例如,如果您使用聚类数定义最终分割,则还应考虑相似性水平的变化。如果添加特定聚类时相似性急剧降低,则这可能提示您执行该分组操作之前先指定最终分割。相反地,如果您使用相似性水平定义最终分割,则可能要确定相似性水平在一定聚类范围中不会出现太大变化,并且为了保证过程简单,您应选择以最少的聚类进行这一步。
如果不知道输入什么值来指定最终分割,请先使用默认设置(最终分割中 1 个聚类)执行分析。Minitab 会显示所有可能聚类数的结果。请使用这些结果来确定要为最终分割输入的值。然后,重新执行分析并指定您确定的最终分割。有关更多信息,请转至确定聚类的最终分组。
选择此项可显示树状图,该图显示聚类在合并过程的每一步是如何形成的。该树状图可让您查看聚类在每一步中的相似性(或距离)值。
要更改树状图的默认显示,请单击自定义。