线性回归的方差分析 拟合回归模型

请查找定义和解释,了解方差分析表中的每个统计量。

自由度

总自由度 (DF) 是数据中的信息量。分析使用该信息来估计未知总体参数的值。总自由度由样本中的观测值个数确定。项的自由度显示了项所使用的信息量。增加样本数量可提供有关总体的更多信息,从而增加总自由度。增加模型中项的数量会使用更多信息,这会减少用于估计参数估计值变异性的可用自由度。

如果两个条件都满足,Minitab 会分割误差自由度。第一个条件是必须具有能够与当前模型中未包含的数据拟合的项。例如,如果具有 3 个或更多可区分值的连续变量,您可以估计该预测变量的二次项。如果模型不包含二次项,则数据可以拟合的项不会包含在模型中,且可以满足此条件。

第二个条件是数据包含仿行。仿行是每个预测变量都具有相同值的观测值。例如,如果您具有 3 个观测值,压强为 5,并且温度为 25,那么这 3 个观测值即为仿行。

如果两个条件都满足,那么误差自由度的两个部分均会失拟并且为纯误差。失拟自由度允许检验模型形式是否适用。失拟检验将使用失拟自由度。纯误差的自由度越高,失拟检验越有效。

Adj SS

调整的平方和是对模型的不同分量变异的度量。模型中各预测变量的顺序不会影响调整的平方和的计算。在方差分析表中,Minitab 会将平方和分成不同的分量,这些分量可描述不同来源导致的变异。

调整 SS 项
调整项平方和是与只具有其他项的模型相比,回归平方和的增加。它是响应数据中由模型的每个项解释的变异量的量化表现。
调整 SS 误差
误差平方和就是残差平方和。它可以量化预测变量无法解释的数据中的变异。
Adj SS 合计
总平方和是项平方和与误差平方和的总和。它是数据中总变异的量化表现。

解释

Minitab 使用调整的平方和来计算项的 p 值。Minitab 还使用平方和来计算 R2 统计量。通常,您需解释 p 值和 R2 统计量,而非平方和。

Adj MS

调整的均方度量一个项或模型解释的变异量,假定所有其他项都在模型中,而不论其输入顺序如何。与调整的平方和不同,调整的均方要考虑自由度。

调整的均方误(也称为 MSE 或 s2)是围绕拟合值的方差。

解释

Minitab 使用调整的均方来计算项的 p 值。Minitab 还使用调整的均方来计算调整的 R2 统计量。通常,您需解释 p 值和调整的 R2 统计量,而非调整的均方。

Seq SS

连续平方和是对模型不同分量的变异的度量。与调整的平方和不同,连续平方和取决于项输入模型的顺序。在方差分析表中,Minitab 会将连续平方和分成不同的分量,这些分量描述了不同来源导致的变异。

Seq SS 回归
The regression sum of squares is the sum of the squared deviations of the fitted response values from the mean response value. It quantifies the amount of variation in the response data that is explained by the model.
连续 SS 项
项的连续平方和是由项(该项未由前一个输入的项解释)解释的变异的特定部分。它是由连续添加到模型中的每个项解释的响应数据变异量的量化表现。
连续 SS 误差
误差平方和就是残差平方和。它可以量化预测变量无法解释的数据中的变异。
Seq SS 合计
总平方和是连续项平方和与误差平方和的总和。它可以量化数据中的总变异量。

解释

默认情况下,使用调整的平方和来计算项的 p 值。在适当时,可以根据连续平方和计算项的 p 值。通常情况下,您可以解释 p 值而不是平方和。

Seq MS

序贯均方可度量由项或模型解释的变异量。序贯均方取决于项输入到模型中的顺序。与连续平方和不同,序贯均方要考虑自由度。

序贯均方误(也称为 MSE 或 s2)是围绕拟合值的方差。

解释

Minitab 使用序贯均方计算项的 p 值。Minitab 还使用序贯均方计算调整的 R2 统计量。通常,您需解释 p 值和调整的 R2 统计量,而非序贯均方。

贡献

贡献显示的是方差分析表中每个来源对连续平方总和 (Seq SS) 贡献的百分比。

解释

百分比越高表明来源占响应变异的比例越多。

F 值

在方差分析表中,针对每个项显示 F 值:
模型或项的 F 值
此 F 值是用于确定项是否与响应相关联的检验统计量。
失拟检验的 F 值
F 值是用于确定模型是否缺少在当前模型中包含预测变量的高阶项的检验统计量。

解释

Minitab 使用 F 值计算 p 值,使用 p 值可以做出有关项和模型的统计显著性的决定。P 值是一个概率,用来测量否定原假设的证据。概率越低,否定原假设的证据越充分。

足够大的 F 值表明项或模型十分显著。

如果要使用 F 值来确定是否要否定原假设,请将 F 值与临界值进行比较。可以在 Minitab 中计算临界值,也可以在大多数统计书籍的 F 分布表中查找临界值。有关使用 Minitab 计算临界值的更多信息,请转到 使用逆累积分布函数 (ICDF),然后单击“使用 ICDF 计算临界值”。

P 值 – 回归

P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。

解释

要确定模型是否解释响应中的变异,请将模型的 p 值与显著性水平进行比较以评估原假设。整体回归的原假设声明模型不解释响应中的任何变异。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在模型不解释响应中的变异时得出模型对此进行解释的风险为 5%。
P 值 ≤ α:模型解释响应中的变异
如果 P 值小于或等于显著性水平,则可得出模型解释响应中变异的结论。
P 值 > α:证据不足,无法得出模型解释响应中变异的结论

如果 P 值大于显著性水平,则无法得出模型解释响应中变异的结论。您可能需要拟合新模型。

P 值 – 项

P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。

解释

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个连续预测变量显著,则可以得出该预测变量的系数不等于零的结论。
  • 如果一个类别预测变量显著,则可以断定并非所有水平均值都相等。
  • 如果一个交互作用项显著,则一个因子与响应之间的关系取决于该项中的其他因子。
  • 如果一个多项式项显著,则可以得出数据包含弯曲的结论。

P 值 – 失拟

P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。当数据中包含仿行(具有相同 x 值的多个观测值)时,Minitab 自动执行纯误差失拟检验。仿行表示“纯误差”,因为只有随机变异才能导致观测响应值之间出现差异。

解释

要确定模型是否正确地指定响应与预测变量之间的关系,请将失拟检验的 p 值与显著性水平进行比较以评估原假设。失拟检验的原假设声明模型正确指定了响应与预测变量之间的关系。通常,显著性水平(用 alpha 或 α 表示)为 0.05 即可。显著性水平 0.05 指示在模型正确指定响应与预测变量之间的关系时得出模型未正确指定此关系的风险为 5%。
P 值 ≤ α:失拟在统计意义上显著
如果 p 值小于或等于显著性水平,则得出模型未正确指定关系的结论。要改善模型,可能需要添加项或者变换数据。
P 值 > α:失拟在统计意义上不显著

如果 p 值大于显著性水平,则检验不检测任何失拟。