K 均值聚类过程如何开始

K 均值聚类首先将观测值分组为预定义数量的聚类。
  1. Minitab 会评估每个观测值,并将其移到最近的聚类中。最近的聚类是指观测值与聚类质心之间的 Euclidean 距离最小的聚类。
  2. 聚类发生变化(丢失或获得观测值)时,Minitab 会重新计算聚类质心。
  3. 此过程将重复进行,直至无法再将更多的观测值移到其他聚类中。此时,根据此前的标准,所有观测值都位于最近的聚类中。

与创建观测值的分层聚类不同的是,将两个观测值合并到一起后,还可以将它们分割到不同的聚类内。

K 均值过程最适合为聚类提供有效起始点的情况。有两种开始聚类过程的方式:指定聚类数或提供包含组代码的初始分割列。

当没有完整的信息用于对数据进行初始分割时,也可能能够初始化该过程。假定您知道最终分割应该包含三个组,且观测值 2、5 和 9 分别属于这三个组。是否从此处继续取决于您是指定聚类数还是提供初始分割列。
  • 如果指定聚类数,必须在工作表中重新排列数据以将观测值 2、5 和 9 移至工作表的顶部,然后将“聚类数”指定为 3。
  • 如果输入初始分割列,则不需要在工作表中重新排列数据。在初始分割工作表列中,分别为观测值 2、5 和 9 输入组编号 1、2 和 3,为其他观测值输入 0。

最终分割在一定程度上取决于 Minitab 使用的初始分割。您可以尝试不同的初始分割。根据 Milligan 的观点,如果随意进行初始化,也有可能不执行 K 均值过程。但是,如果提供有效的初始点,K 均值聚类会相当稳健。