K 均值聚类输入数据

统计 > 多变量 > K 均值聚类

输入数据

变量中,输入包含测量数据的列。

必须有两个或更多数字列,且每列代表不同的测量值。使用此过程之前,必须从工作表中删除含缺失数据的行。如果您有一个大型数据集,且含有很多缺失数据,将您的工作表子集化以排除包含缺失值(而不是手动删除每一行)的行可能更为方便。有关更多信息,请转到子集化工作表概述

在此工作表中,C1 到 C4 列包含描述公司特征的每个变量的测量值。初始值列表示观测值的初始聚类成员。注意,只有“初始”列中的非零值用于定义每个初始聚类(1、2 和 3)。初始值为 0 的剩余观测值不会分配给初始聚类,而是根据观测值最接近的聚类质心在聚类算法过程中分配给一个聚类。
C1 C2 C3 C4 C5
客户数 回报率 销售量 年限 初始
150 13.5 50400200 18 1
98 11.7 45665230 12 2
79 12.0 19800800 7 0
122 11.4 42560000 13 0
143 12.4 47635980 15 0
49 9.8 22342600 6 3

指定初始分割

表示起始聚类指定。K 均值过程最适合为聚类提供有效起始点的情况。基于关于聚类的观测值的实践性知识和/或工程学知识。有关更多信息,请转至K 均值聚类过程如何开始

  • 点群数:如果您没有初始聚类先验知识,则选择此项。输入指定要形成的聚类数的值。初始聚类是工作表中的前几个数据行。例如,如果输入 3,则前三个数据是初始聚类质心。
  • 初始分割列:选择此项可指定包含初始聚类成员的列。对于定义初始聚类的观测值,使用正整数;对于剩余观测值,使用零。

标准化变量

选择标准化变量可以让 Minitab 为所有变量分配均等的权重。在大多数情况下,标准化是一种良好的做法,在变量使用不同尺度时尤其重要。假定变量 A 处于 $0 到 $10,000,000 的尺度范围,且变量 B 是处于 0.0 到 1.0 尺度范围的比值。如果这些变量未标准化,则聚类过程将因尺度值更大为变量 A 分配比变量 B 更大的权重,这可能不是预期结果。因此,这些变量应标准化。

Minitab 标准化所有变量的方法是,在计算距离矩阵之前,先减去均值并除以标准差。标准化变量时,所有聚类的总质心为 0。