Kruskal-Wallis 检验的数据注意事项

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

注意

如果使用参数分析来替代 Kruskal-Wallis 检验,应该验证您的数据是否满足该分析的数据要求。参数分析的数据要求并不总是与诸如 Kruskal-Wallis 检验等非参数分析的要求相符。

数据应当仅包括一个作为固定因子的类别变量

有关因子的更多信息,请转到因子和因子水平固定和随机因子

响应变量应当是连续变量
如果响应变量是类别变量,则您的模型不太可能满足分析假定、准确描述数据或者进行有用的预测。
  • 如果您的响应变量有两个类别(如通过和失败),请使用拟合二元 Logistic 模型
  • 如果您的响应变量包含三个或更多采用一定自然顺序的类别(如非常不同意、不同意、中立、同意和非常同意),请使用顺序 Logistic 回归
  • 如果您的响应变量包含三个或更多不采用自然顺序的类别(如擦痕、凹陷和撕裂),请使用名义 Logistic 回归
  • 如果您的响应变量对发生次数(如缺陷数量)进行计数,请使用拟合 Poisson 模型
样本数据不必是正态分布的
各个组的分布应当具有相同的分布形状和散布,而且不包含异常值。
样本数量应当小于观测值个数(15 或 20),或者过程最好用中位数表示

非参数检验一般比参数检验的功效低。此外,如果样本数量足够大,则参数检验对非正态数据会非常有效。即使对于非正态数据,也请考虑使用参数检验,除非样本数量很小,或者对于您的研究而言中位数更有意义。

如果您的数据满足下面的样本数量准则,请考虑使用单因子方差,因为它对于偏斜的非正态分布非常有效,而且其功效更大。
  • 数据包含 2 到 9 个组,每个组的样本数量至少为 15。
  • 数据包含 10 到 12 个组,每个组的样本数量至少为 20。
每个组的样本数量应至少为五
如果一个样本包含的观测值少于五个,则 P 值可能不准确。
每个观测值都应当独立于所有其他观测值
如果您的观测值是相关的,则结果可能无效。请考虑以下几点来确定观测值是否为独立值:
  • 如果一个观测值不提供有关另一个观测值的信息,则说明这两个观测值是独立的。
  • 如果一个观测值提供有关另一个观测值的信息,则说明这两个观测值是相关的。

如果具有相关观测值,请转到分析重复测量设计。有关样本的更多信息,请转到相关样本和独立样本有何不同?

使用最佳做法收集数据
要确保结果有效,请考虑以下准则:
  • 确保数据代表您感兴趣的总体。
  • 收集足够多的数据以提供必要的精确度。
  • 尽可能准确和精确地测量变量。
  • 以数据的收集顺序记录数据。
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策