在合并过程的每一步,查看形成的聚类并检查其相似性水平和距离水平。相似性水平越高,每个聚类中的观测值越相似。距离水平越低,每个聚类中的观测值越接近。
理想情况下,聚类应具有相对较高的相似性水平和相对较低的距离水平。但是,必须设定合理且实际的聚类数,来平衡该目标。
步骤 | 点群数 | 相似性水平 | 距离水平 | 已合并的点群号 | 新聚类号 | 新聚类号中的观测值个数 | |
---|---|---|---|---|---|---|---|
1 | 19 | 96.6005 | 0.16275 | 13 | 16 | 13 | 2 |
2 | 18 | 95.4642 | 0.21715 | 17 | 20 | 17 | 2 |
3 | 17 | 95.2648 | 0.22669 | 6 | 9 | 6 | 2 |
4 | 16 | 92.9178 | 0.33905 | 17 | 18 | 17 | 3 |
5 | 15 | 90.5296 | 0.45339 | 11 | 15 | 11 | 2 |
6 | 14 | 90.3124 | 0.46378 | 12 | 19 | 12 | 2 |
7 | 13 | 88.2431 | 0.56285 | 2 | 14 | 2 | 2 |
8 | 12 | 88.2431 | 0.56285 | 5 | 8 | 5 | 2 |
9 | 11 | 85.9744 | 0.67146 | 6 | 10 | 6 | 3 |
10 | 10 | 83.0639 | 0.81080 | 7 | 13 | 7 | 3 |
11 | 9 | 83.0639 | 0.81080 | 1 | 3 | 1 | 2 |
12 | 8 | 81.4039 | 0.89027 | 2 | 17 | 2 | 5 |
13 | 7 | 79.8185 | 0.96617 | 6 | 11 | 6 | 5 |
14 | 6 | 78.7534 | 1.01716 | 4 | 12 | 4 | 3 |
15 | 5 | 66.2112 | 1.61760 | 2 | 5 | 2 | 7 |
16 | 4 | 62.0036 | 1.81904 | 1 | 6 | 1 | 7 |
17 | 3 | 41.0474 | 2.82229 | 1 | 4 | 1 | 10 |
18 | 2 | 40.1718 | 2.86421 | 2 | 7 | 2 | 10 |
19 | 1 | 0.0000 | 4.78739 | 1 | 2 | 1 | 20 |
在这些结果中,数据总共包含 20 个观测值。在步骤 1 中,两个聚类(工作表中的观测值 13 和 16)合并形成新聚类。此步骤在数据中创建 19 个聚类,其相似性水平为 96.6005、距离水平为 0.16275。尽管相似性水平较高、距离水平较低,聚类数还是过高,因此用处不大。在每个后续步骤,随着新聚类的形成,相似性水平会降低、距离水平增加。在最后一步,所有观测值合并成一个聚类。
使用在每一步合并的聚类的相似性水平可帮助确定数据的最终分组。注意步骤之间相似性水平出现的突变。在相似性发生突变之前的步骤可为最终分割提供良好的分界点。对于最终分割,聚类应保持相对较高的相似性水平。您还应运用自己的实践性数据知识来确定对于您的应用最有意义的最终分组。
例如,以下合并表显示到步骤 15 为止,相似性水平以大约 3 或更少的增量下降。当聚类数从 4 变为 3 时,相似性水平在步骤 16 和 17 的减少量超过 20(从 62.0036 到 41.0474)。这些结果表明 4 个聚类对于最终分割可能已足够。如果此分组具有直观意义,则这可能是个不错的选择。
步骤 | 点群数 | 相似性水平 | 距离水平 | 已合并的点群号 | 新聚类号 | 新聚类号中的观测值个数 | |
---|---|---|---|---|---|---|---|
1 | 19 | 96.6005 | 0.16275 | 13 | 16 | 13 | 2 |
2 | 18 | 95.4642 | 0.21715 | 17 | 20 | 17 | 2 |
3 | 17 | 95.2648 | 0.22669 | 6 | 9 | 6 | 2 |
4 | 16 | 92.9178 | 0.33905 | 17 | 18 | 17 | 3 |
5 | 15 | 90.5296 | 0.45339 | 11 | 15 | 11 | 2 |
6 | 14 | 90.3124 | 0.46378 | 12 | 19 | 12 | 2 |
7 | 13 | 88.2431 | 0.56285 | 2 | 14 | 2 | 2 |
8 | 12 | 88.2431 | 0.56285 | 5 | 8 | 5 | 2 |
9 | 11 | 85.9744 | 0.67146 | 6 | 10 | 6 | 3 |
10 | 10 | 83.0639 | 0.81080 | 7 | 13 | 7 | 3 |
11 | 9 | 83.0639 | 0.81080 | 1 | 3 | 1 | 2 |
12 | 8 | 81.4039 | 0.89027 | 2 | 17 | 2 | 5 |
13 | 7 | 79.8185 | 0.96617 | 6 | 11 | 6 | 5 |
14 | 6 | 78.7534 | 1.01716 | 4 | 12 | 4 | 3 |
15 | 5 | 66.2112 | 1.61760 | 2 | 5 | 2 | 7 |
16 | 4 | 62.0036 | 1.81904 | 1 | 6 | 1 | 7 |
17 | 3 | 41.0474 | 2.82229 | 1 | 4 | 1 | 10 |
18 | 2 | 40.1718 | 2.86421 | 2 | 7 | 2 | 10 |
19 | 1 | 0.0000 | 4.78739 | 1 | 2 | 1 | 20 |
在步骤 2 中确定最终分组后,重新运行分析并指定最终分割的聚类数(或相似性水平)。此时,Minitab 会显示最终分割表,其中显示最终分割中包含的每个聚类的特征。例如,到聚类质心的平均距离度量每个聚类内观测值的变异性。
有关这些统计量的更多信息,请转到最终分割。
观测值个数 | 类内平方和 | 到质心的平均距离 | 到质心的最大距离 | |
---|---|---|---|---|
聚类1 | 7 | 3.25713 | 0.612540 | 1.12081 |
聚类2 | 7 | 2.72247 | 0.581390 | 0.95186 |
聚类3 | 3 | 0.55977 | 0.398964 | 0.54907 |
聚类4 | 3 | 0.37116 | 0.326533 | 0.48848 |
变量 | 聚类1 | 聚类2 | 聚类3 | 聚类4 | 总质心 |
---|---|---|---|---|---|
性别 | 0.97468 | -0.97468 | 0.97468 | -0.97468 | -0.0000000 |
高度 | -1.00352 | 1.01283 | -0.37277 | 0.35105 | 0.0000000 |
重量 | -0.90672 | 0.93927 | -0.86797 | 0.79203 | -0.0000000 |
用手习惯 | 0.63808 | 0.63808 | -1.48885 | -1.48885 | 0.0000000 |
聚类1 | 聚类2 | 聚类3 | 聚类4 | |
---|---|---|---|---|
聚类1 | 0.00000 | 3.35759 | 2.21882 | 3.61171 |
聚类2 | 3.35759 | 0.00000 | 3.67557 | 2.23236 |
聚类3 | 2.21882 | 3.67557 | 0.00000 | 2.66074 |
聚类4 | 3.61171 | 2.23236 | 2.66074 | 0.00000 |