K 均值聚类的数据注意事项

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

必须使用原始数据
每一行都包含单个项或对象的测量值。必须有两个或更多数字列,且每列代表不同的测量值。使用此分析之前,必须从工作表中删除含缺失数据的行。
当您以实践性知识和/或工程学知识作为初始聚类的基础时,聚类过程效果最佳。
但是,如果您没有初始聚类先验知识,可通过仅指定要形成的聚类数,而不初始化该过程,来执行分析。有关更多信息,请转至为K 均值聚类输入数据
要使用数据列初始化聚类过程,必须具有表示聚类成员的值列。
初始化列必须包含正的连续整数或零(它不能只包含零)。最初,会将每个观测值指定给由此列中的对应值标识的聚类。初始为零表示最初未将观测值指定给组。初始分割列中的不同正整数的数量等于最终分割中的聚类数量。
异常值会对结果产生巨大影响
如果数据中存在异常值(通常较大或较小的值),则会影响聚类结果。删除异常值时,聚类通常更大,且所得到的解看上去似乎不合逻辑。调查异常值,并删除因测量或记录错误产生的任何值。极端异常值还可能说明因某些特殊原因存在与数据集中所有其他观测值从根本上不同的特定观测值。如果具有在分析中不包括极端异常值的实际原因,请考虑在没有这些异常值的情况下重新运行分析,来查看这些异常值如何对结果产生影响。