解释观测值聚类的主要结果

请完成以下步骤来解释观测值聚类分析。主要输出包括相似性和距离值、树状图和最终分割。

步骤 1:检查相似性水平和距离水平

在合并过程的每一步,查看形成的聚类并检查其相似性水平和距离水平。相似性水平越高,每个聚类中的观测值越相似。距离水平越低,每个聚类中的观测值越接近。

理想情况下,聚类应具有相对较高的相似性水平和相对较低的距离水平。但是,必须设定合理且实际的聚类数,来平衡该目标。

合并步骤 已合并 新聚类号 的点群 新聚 中的观测 步骤 点群数 相似性水平 距离水平 号 类号 值个数 1 19 96.6005 0.16275 13 16 13 2 2 18 95.4642 0.21715 17 20 17 2 3 17 95.2648 0.22669 6 9 6 2 4 16 92.9178 0.33905 17 18 17 3 5 15 90.5296 0.45339 11 15 11 2 6 14 90.3124 0.46378 12 19 12 2 7 13 88.2431 0.56285 5 8 5 2 8 12 88.2431 0.56285 2 14 2 2 9 11 85.9744 0.67146 6 10 6 3 10 10 83.0639 0.81080 7 13 7 3 11 9 83.0639 0.81080 1 3 1 2 12 8 81.4039 0.89027 2 17 2 5 13 7 79.8185 0.96617 6 11 6 5 14 6 78.7534 1.01716 4 12 4 3 15 5 66.2112 1.61760 2 5 2 7 16 4 62.0036 1.81904 1 6 1 7 17 3 41.0474 2.82229 1 4 1 10 18 2 40.1718 2.86421 2 7 2 10 19 1 0.0000 4.78739 1 2 1 20
主要结果:相似性水平、距离水平

在这些结果中,数据总共包含 20 个观测值。在步骤 1 中,两个聚类(工作表中的观测值 13 和 16)合并形成新聚类。此步骤在数据中创建 19 个聚类,其相似性水平为 96.6005、距离水平为 0.16275。尽管相似性水平较高、距离水平较低,聚类数还是过高,因此用处不大。在每个后续步骤,随着新聚类的形成,相似性水平会降低、距离水平增加。在最后一步,所有观测值合并成一个聚类。

要查看树状图中的相似性水平,请将鼠标指针放在 Minitab 的树状图中的水平线上。

步骤 2:确定数据的最终分组

使用在每一步合并的聚类的相似性水平可帮助确定数据的最终分组。 注意步骤之间相似性水平出现的突变。在相似性发生突变之前的步骤可为最终分割提供良好的分界点。对于最终分割,聚类应保持相对较高的相似性水平。您还应运用自己的实践性数据知识来确定对于您的应用最有意义的最终分组。

例如,以下合并表显示到步骤 15 为止,相似性水平以大约 3 或更少的增量下降。当聚类数从 4 变为 3 时,相似性水平在步骤 16 和 17 的减少量超过 20(从 62.0036 到 41.0474)。这些结果表明 4 个聚类对于最终分割可能已足够。如果此分组具有直观意义,则这可能是个不错的选择。

合并步骤 已合并 新聚类号 的点群 新聚 中的观测 步骤 点群数 相似性水平 距离水平 号 类号 值个数 1 19 96.6005 0.16275 13 16 13 2 2 18 95.4642 0.21715 17 20 17 2 3 17 95.2648 0.22669 6 9 6 2 4 16 92.9178 0.33905 17 18 17 3 5 15 90.5296 0.45339 11 15 11 2 6 14 90.3124 0.46378 12 19 12 2 7 13 88.2431 0.56285 5 8 5 2 8 12 88.2431 0.56285 2 14 2 2 9 11 85.9744 0.67146 6 10 6 3 10 10 83.0639 0.81080 7 13 7 3 11 9 83.0639 0.81080 1 3 1 2 12 8 81.4039 0.89027 2 17 2 5 13 7 79.8185 0.96617 6 11 6 5 14 6 78.7534 1.01716 4 12 4 3 15 5 66.2112 1.61760 2 5 2 7 16 4 62.0036 1.81904 1 6 1 7 17 3 41.0474 2.82229 1 4 1 10 18 2 40.1718 2.86421 2 7 2 10 19 1 0.0000 4.78739 1 2 1 20
主要结果:相似性水平、聚类数

有关最终分组的决定又称为切割树状图。切割树状图类似于在树状图中画水平线指定最终分组。例如,要将树状图切割成四个聚类,想象在垂直轴的中间位置向下(正好在相似性水平约 41 之下)画一条水平线。

步骤 3:检查最终分割

在步骤 2 中确定最终分组后,重新运行分析并指定最终分割的聚类数(或相似性水平)。此时,Minitab 会显示最终分割表,其中显示最终分割中包含的每个聚类的特征。例如,到聚类质心的平均距离度量每个聚类内观测值的变异性。

检查最终分割中的聚类,以确定分组是否合乎您应用的逻辑。如果您仍不确定,请重复执行该分析,并且比较不同最终分组的树状图,以确定最合乎数据逻辑的最终分组。
注意

有关这些统计量的更多信息,请转到最终分割

最终分割 观测值 到质心的 到质心的 个数 类内平方和 平均距离 最大距离 聚类1 7 3.25713 0.612540 1.12081 聚类2 7 2.72247 0.581390 0.95186 聚类3 3 0.55977 0.398964 0.54907 聚类4 3 0.37116 0.326533 0.48848
聚类质心 变量 聚类1 聚类2 聚类3 聚类4 总质心 性别 0.97468 -0.97468 0.97468 -0.97468 -0.0000000 高度 -1.00352 1.01283 -0.37277 0.35105 0.0000000 重量 -0.90672 0.93927 -0.86797 0.79203 -0.0000000 用手习惯 0.63808 0.63808 -1.48885 -1.48885 0.0000000
聚类质心之间的距离 聚类1 聚类2 聚类3 聚类4 聚类1 0.00000 3.35759 2.21882 3.61171 聚类2 3.35759 0.00000 3.67557 2.23236 聚类3 2.21882 3.67557 0.00000 2.66074 聚类4 3.61171 2.23236 2.66074 0.00000

树状图

主要结果:最终分割、树状图

此树状图使用 4 个聚类的最终分割而创建,最终分割发生在大约 40 相似性水平处。第一个聚类(最左侧)由 7 个观测值(工作表的行 1、3、6、9、10、11 和 15 中的观测值)组成。第二个聚类(正右方)由 3 个观测值(工作表的行 4、12、19 中的观测值)组成。第三个聚类由 7 个观测值(行 2、14、17、20、18、5 和 8 中的观测值)组成。第四个聚类(最右侧)由 3 个观测值(行 7、13 和 16 中的观测值)组成。如果您切割树状图的高度越高,最终聚类将越少,但相似性水平将降低。如果您切割树状图的高度越低,相似性水平将越高,但最终聚类将越多。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策