在变量中,输入包含测量数据的列。
必须有两个或更多数字列,且每列代表不同的测量值。使用此过程之前,必须从工作表中删除含缺失数据的行。如果您有一个大型数据集,且含有很多缺失数据,将您的工作表子集化以排除包含缺失值(而不是手动删除每一行)的行可能更为方便。有关更多信息,请转到子集化工作表概述。
C1 | C2 | C3 | C4 | C5 |
---|---|---|---|---|
客户数 | 回报率 | 销售量 | 年限 | 初始 |
150 | 13.5 | 50400200 | 18 | 1 |
98 | 11.7 | 45665230 | 12 | 2 |
79 | 12.0 | 19800800 | 7 | 0 |
122 | 11.4 | 42560000 | 13 | 0 |
143 | 12.4 | 47635980 | 15 | 0 |
49 | 9.8 | 22342600 | 6 | 3 |
表示起始聚类指定。K 均值过程最适合为聚类提供有效起始点的情况。基于关于聚类的观测值的实践性知识和/或工程学知识。有关更多信息,请转至K 均值聚类过程如何开始。
选择标准化变量可以让 Minitab 为所有变量分配均等的权重。在大多数情况下,标准化是一种良好的做法,在变量使用不同尺度时尤其重要。假定变量 A 处于 $0 到 $10,000,000 的尺度范围,且变量 B 是处于 0.0 到 1.0 尺度范围的比值。如果这些变量未标准化,则聚类过程将因尺度值更大为变量 A 分配比变量 B 更大的权重,这可能不是预期结果。因此,这些变量应标准化。
Minitab 标准化所有变量的方法是,在计算距离矩阵之前,先减去均值并除以标准差。标准化变量时,所有聚类的总质心为 0。