判别分析的数据注意事项

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

预测变量应定量
必须拥有一个或多个包含每个预测变量测量数据的数字列。Minitab 使用这些数据来定义预测变量和响应之间的关系。如果您有类别预测变量,则不能使用此分析,而应使用逻辑回归。
预测变量应高度相关
预测变量之间的相关性称为多重共线性。如果多重共线性严重,或者如果一个或多个预测变量基本为常量,那么 Minitab 无法执行判别分析,会显示一条消息。
响应变量应指明组
您应有一个分组列,其中包含最多 20 个组的标识符。组标识符可能是数字、文本或日期/时间。
预测变量的数据在各组呈正态
多变量正态性是判别分析的一种正式假定。线性判别函数足够稳健,可以偏离正态性,但二次判别函数对于正态性假定更为敏感。如果您的预测变量并非正态,则考虑使用逻辑回归。在这些情况下,使用逻辑回归得出的结果更准确。
在可行时,输入分析的先验概率
有时,在进行判别分析之前,您已知属于某个组的观测值的概率。例如,如果对特定车辆的买主进行分类,则可能已经知道 60% 的买主为男性,40% 的买主为女性。如果您知道或者可以估计先验概率,请为分析指定先验概率,以提高结果的准确性。