数据注意事项观测值聚类

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

可以使用原始数据或距离矩阵

通常,对于此分析使用原始数据。每一行都包含单个项或对象的测量值。必须有两个或更多数字列,且每列代表不同的测量值。使用此分析之前,必须从工作表中删除含缺失数据的行。

如果存储 n x n 距离矩阵(其中 n 是观测值个数),则可以将此矩阵用于分析。矩阵中的 (I, j) 条目是观测值 I 和 j 之间的距离。如果您使用的是距离矩阵,那么 Minitab 不会计算最终分割的统计量。

数据必须为数字
为形成聚类,此分析会计算观测值之间的距离,该距离不能在类别变量的不同水平之间测量。要在分析中使用类别变量,必须先将文本值转换为数字尺度。例如,分析师使用类别“非常满意”、“满意”、“不满意”、“非常不满意”度量客户满意度。要执行观测值聚类,分析师将这些类别重新编码为 +2、+1、−1、−2。观测值之间的距离现在可针对分析而计算。或者,您可以针对类别变量的每个水平将工作表分割成不同的工作表并在每个水平聚类观测值。有关分割工作表的更多信息,请转到分割工作表概述