解释观测值聚类的主要结果

请完成以下步骤来解释观测值聚类分析。主要输出包括相似性和距离值、树状图和最终分割。

步骤 1:检查相似性水平和距离水平

在合并过程的每一步,查看形成的聚类并检查其相似性水平和距离水平。相似性水平越高,每个聚类中的观测值越相似。距离水平越低,每个聚类中的观测值越接近。

理想情况下,聚类应具有相对较高的相似性水平和相对较低的距离水平。但是,必须设定合理且实际的聚类数,来平衡该目标。

合并步骤

步骤点群数相似性水平距离水平已合并的点群号新聚类号新聚类号中的观测值个数
11996.60050.162751316132
21895.46420.217151720172
31795.26480.226696962
41692.91780.339051718173
51590.52960.453391115112
61490.31240.463781219122
71388.24310.5628521422
81288.24310.562855852
91185.97440.6714661063
101083.06390.8108071373
11983.06390.810801312
12881.40390.8902721725
13779.81850.9661761165
14678.75341.0171641243
15566.21121.617602527
16462.00361.819041617
17341.04742.8222914110
18240.17182.8642127210
1910.00004.7873912120
主要结果:相似性水平、距离水平

在这些结果中,数据总共包含 20 个观测值。在步骤 1 中,两个聚类(工作表中的观测值 13 和 16)合并形成新聚类。此步骤在数据中创建 19 个聚类,其相似性水平为 96.6005、距离水平为 0.16275。尽管相似性水平较高、距离水平较低,聚类数还是过高,因此用处不大。在每个后续步骤,随着新聚类的形成,相似性水平会降低、距离水平增加。在最后一步,所有观测值合并成一个聚类。

要查看树状图中的相似性水平,请将鼠标指针放在 Minitab 的树状图中的水平线上。

步骤 2:确定数据的最终分组

使用在每一步合并的聚类的相似性水平可帮助确定数据的最终分组。注意步骤之间相似性水平出现的突变。在相似性发生突变之前的步骤可为最终分割提供良好的分界点。对于最终分割,聚类应保持相对较高的相似性水平。您还应运用自己的实践性数据知识来确定对于您的应用最有意义的最终分组。

例如,以下合并表显示到步骤 15 为止,相似性水平以大约 3 或更少的增量下降。当聚类数从 4 变为 3 时,相似性水平在步骤 16 和 17 的减少量超过 20(从 62.0036 到 41.0474)。这些结果表明 4 个聚类对于最终分割可能已足够。如果此分组具有直观意义,则这可能是个不错的选择。

合并步骤

步骤点群数相似性水平距离水平已合并的点群号新聚类号新聚类号中的观测值个数
11996.60050.162751316132
21895.46420.217151720172
31795.26480.226696962
41692.91780.339051718173
51590.52960.453391115112
61490.31240.463781219122
71388.24310.5628521422
81288.24310.562855852
91185.97440.6714661063
101083.06390.8108071373
11983.06390.810801312
12881.40390.8902721725
13779.81850.9661761165
14678.75341.0171641243
15566.21121.617602527
16462.00361.819041617
17341.04742.8222914110
18240.17182.8642127210
1910.00004.7873912120
主要结果:相似性水平、聚类数

有关最终分组的决定又称为切割树状图。切割树状图类似于在树状图中画水平线指定最终分组。例如,要将树状图切割成四个聚类,想象在垂直轴的中间位置向下(正好在相似性水平约 41 之下)画一条水平线。

步骤 3:检查最终分割

在步骤 2 中确定最终分组后,重新运行分析并指定最终分割的聚类数(或相似性水平)。此时,Minitab 会显示最终分割表,其中显示最终分割中包含的每个聚类的特征。例如,到聚类质心的平均距离度量每个聚类内观测值的变异性。

检查最终分割中的聚类,以确定分组是否合乎您应用的逻辑。如果您仍不确定,请重复执行该分析,并且比较不同最终分组的树状图,以确定最合乎数据逻辑的最终分组。
注意

有关这些统计量的更多信息,请转到最终分割

最终分割

观测值个数类内平方和到质心的平均距离到质心的最大距离
聚类173.257130.6125401.12081
聚类272.722470.5813900.95186
聚类330.559770.3989640.54907
聚类430.371160.3265330.48848

聚类质心

变量聚类1聚类2聚类3聚类4总质心
性别0.97468-0.974680.97468-0.97468-0.0000000
高度-1.003521.01283-0.372770.351050.0000000
重量-0.906720.93927-0.867970.79203-0.0000000
用手习惯0.638080.63808-1.48885-1.488850.0000000

聚类质心之间的距离

聚类1聚类2聚类3聚类4
聚类10.000003.357592.218823.61171
聚类23.357590.000003.675572.23236
聚类32.218823.675570.000002.66074
聚类43.611712.232362.660740.00000
主要结果:最终分割、树状图

此树状图使用 4 个聚类的最终分割而创建,最终分割发生在大约 40 相似性水平处。第一个聚类(最左侧)由 7 个观测值(工作表的行 1、3、6、9、10、11 和 15 中的观测值)组成。第二个聚类(正右方)由 3 个观测值(工作表的行 4、12、19 中的观测值)组成。第三个聚类由 7 个观测值(行 2、14、17、20、18、5 和 8 中的观测值)组成。第四个聚类(最右侧)由 3 个观测值(行 7、13 和 16 中的观测值)组成。如果您切割树状图的高度越高,最终聚类将越少,但相似性水平将降低。如果您切割树状图的高度越低,相似性水平将越高,但最终聚类将越多。