联结聚类的合并过程中的步骤数。在每个步骤,新聚类与现有聚类联结,并且会计算它们的相似性水平和距离水平。
在合并过程中的每步形成的聚类数。开始第一步前,聚类数等于观测值(观测值聚类)总数或变量(变量聚类)总数。在第一步中,两个聚类合并形成一个新聚类。在后续每步,另一个聚类与现有聚类合并形成一个新聚类。在最后一步,所有观测值或变量合并成一个聚类。
可以在主对话框中输入聚类数,以指定数据的最终分割。所选的联结法和距离度量将显著影响聚类结果。
每个合并步骤的聚类之间最小距离相对于数据中最大观测值内距离的百分比。两个聚类 i 和 j 之间的相似性 s(ij) 计算公式为:s(ij) = 100 * [1 - d(ij)) / d(max)],其中 d(max) 是原始距离矩阵 D 中的最大值,条目 d(ij) 是 i 和 j 之间的距离。
使用在每一步合并的聚类的相似性水平可帮助确定数据的最终分组。注意步骤之间相似性水平出现的突变。在相似性发生突变之前的步骤可为最终分割提供良好的分界点。对于最终分割,聚类应保持相对较高的相似性水平。您还应运用自己的实践性数据知识来确定对于您的应用最有意义的最终分组。
例如,以下合并表显示到步骤 15 为止,相似性水平以大约 3 或更少的增量下降。当聚类数从 4 变为 3 时,相似性水平在步骤 16 和 17 的减少量超过 20(从 62.0036 到 41.0474)。这些结果表明 4 个聚类对于最终分割可能已足够。如果此分组具有直观意义,则这可能是个不错的选择。
步骤 | 点群数 | 相似性水平 | 距离水平 | 已合并的点群号 | 新聚类号 | 新聚类号中的观测值个数 | |
---|---|---|---|---|---|---|---|
1 | 19 | 96.6005 | 0.16275 | 13 | 16 | 13 | 2 |
2 | 18 | 95.4642 | 0.21715 | 17 | 20 | 17 | 2 |
3 | 17 | 95.2648 | 0.22669 | 6 | 9 | 6 | 2 |
4 | 16 | 92.9178 | 0.33905 | 17 | 18 | 17 | 3 |
5 | 15 | 90.5296 | 0.45339 | 11 | 15 | 11 | 2 |
6 | 14 | 90.3124 | 0.46378 | 12 | 19 | 12 | 2 |
7 | 13 | 88.2431 | 0.56285 | 2 | 14 | 2 | 2 |
8 | 12 | 88.2431 | 0.56285 | 5 | 8 | 5 | 2 |
9 | 11 | 85.9744 | 0.67146 | 6 | 10 | 6 | 3 |
10 | 10 | 83.0639 | 0.81080 | 7 | 13 | 7 | 3 |
11 | 9 | 83.0639 | 0.81080 | 1 | 3 | 1 | 2 |
12 | 8 | 81.4039 | 0.89027 | 2 | 17 | 2 | 5 |
13 | 7 | 79.8185 | 0.96617 | 6 | 11 | 6 | 5 |
14 | 6 | 78.7534 | 1.01716 | 4 | 12 | 4 | 3 |
15 | 5 | 66.2112 | 1.61760 | 2 | 5 | 2 | 7 |
16 | 4 | 62.0036 | 1.81904 | 1 | 6 | 1 | 7 |
17 | 3 | 41.0474 | 2.82229 | 1 | 4 | 1 | 10 |
18 | 2 | 40.1718 | 2.86421 | 2 | 7 | 2 | 10 |
19 | 1 | 0.0000 | 4.78739 | 1 | 2 | 1 | 20 |
要直观地评估每一步的相似性水平,请使用树状图。
在每步合并的聚类(使用所选的联结法)或变量(使用所选的距离度量)之间的距离。Minitab 会基于联结法和您在主对话框中选择的距离度量计算距离水平。
使用在每步合并的聚类的距离水平可帮助确定数据的最终分组。注意步骤之间距离水平出现的突变。在发生距离突变之前的步骤为最终分割提供良好的分界点。对于最终分割,聚类应保持相对小的距离水平。您还应运用自己的实践性数据知识来确定对于您的应用最有意义的最终分组。
例如,以下合并表显示距离水平约递增 0.6 或更少,直到步骤 15。但在步骤 16 和 17,当聚类数从 4 变为 3 时,距离水平增加超过 1(从 1.81904 到 2.82229)。这些结果表明 4 个聚类对于最终分割是足够的。如果此分组具有直观意义,则这可能是个不错的选择。
步骤 | 点群数 | 相似性水平 | 距离水平 | 已合并的点群号 | 新聚类号 | 新聚类号中的观测值个数 | |
---|---|---|---|---|---|---|---|
1 | 19 | 96.6005 | 0.16275 | 13 | 16 | 13 | 2 |
2 | 18 | 95.4642 | 0.21715 | 17 | 20 | 17 | 2 |
3 | 17 | 95.2648 | 0.22669 | 6 | 9 | 6 | 2 |
4 | 16 | 92.9178 | 0.33905 | 17 | 18 | 17 | 3 |
5 | 15 | 90.5296 | 0.45339 | 11 | 15 | 11 | 2 |
6 | 14 | 90.3124 | 0.46378 | 12 | 19 | 12 | 2 |
7 | 13 | 88.2431 | 0.56285 | 2 | 14 | 2 | 2 |
8 | 12 | 88.2431 | 0.56285 | 5 | 8 | 5 | 2 |
9 | 11 | 85.9744 | 0.67146 | 6 | 10 | 6 | 3 |
10 | 10 | 83.0639 | 0.81080 | 7 | 13 | 7 | 3 |
11 | 9 | 83.0639 | 0.81080 | 1 | 3 | 1 | 2 |
12 | 8 | 81.4039 | 0.89027 | 2 | 17 | 2 | 5 |
13 | 7 | 79.8185 | 0.96617 | 6 | 11 | 6 | 5 |
14 | 6 | 78.7534 | 1.01716 | 4 | 12 | 4 | 3 |
15 | 5 | 66.2112 | 1.61760 | 2 | 5 | 2 | 7 |
16 | 4 | 62.0036 | 1.81904 | 1 | 6 | 1 | 7 |
17 | 3 | 41.0474 | 2.82229 | 1 | 4 | 1 | 10 |
18 | 2 | 40.1718 | 2.86421 | 2 | 7 | 2 | 10 |
19 | 1 | 0.0000 | 4.78739 | 1 | 2 | 1 | 20 |
在合并过程中的每步通过合并形成新聚类的两个聚类。
在合并过程中的每步形成的新聚类的标识号。新聚类的标识号始终是已合并的两个聚类的标识号中较小的那个。例如,如果聚类 2 和聚类 9 合并,则形成的新聚类称为聚类 2。
在合并过程中的每一步形成的每个新聚类的观测值个数。在最后一步,所有观测值合并成一个聚类。因此,最后一步形成的新聚类中的观测值个数等于数据中的观测值总数。
对于变量聚类,观测值个数为新聚类中的变量数。