分析变异性的拟合值和诊断

请查找相关定义和解释指导,了解拟合值和诊断表中的每个统计量。

拟合值

拟合值又称拟合或 。拟合值是对于给定预测变量值的标准差响应的点估计值。预测变量的值也称为 x 值。

解释

拟合值是通过将数据集内每个观测值的特定 x 值输入到模型方程中来计算的。

例如,如果方程为 ln (y) = ln (5 + 10x),则 x 值 2 的拟合值为 3.21888 (ln(5 + 10(2)))。

其拟合值与观测值显著不相同的观测值可能是异常值。具有异常预测变量值的观测值可能是有影响的观测值。如果 Minitab 确定数据包含异常值或有影响的值,则输出中会包含“异常观测值的拟合值与诊断”表,此表可确定这些观测值。具有较大标准化残差的观测值未能很好地遵循建议的回归方程。但是,预计您将得到一些异常观测值。例如,基于较大标准化残差的标准,因为具有较大的标准化残差,预计将标记约 5% 的观测值。有关异常值的更多信息,请转到异常观测值

原始响应的置信区间(95% 置信区间)

这些置信区间 (CI) 是可能包含总体的标准差响应的值范围,该总体在模型中具有预测变量或因子的观测值。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果将样本重复许多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计
点估计是从样本数据计算得到的参数。
边际误差
边际误差定义了置信区间的宽度并由样本、样本数量和置信水平中的观测变异性确定。

解释

使用置信区间可以为变量的观测值评估拟合值的估计值。

例如,当置信水平为 95% 时,模型中包含预测变量或因子特定值的总体标准差的置信区间的置信度为 95%。该置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际意义的值。较宽的置信区间表明,有关未来值的标准差的置信度可能较低。如果区间因太宽而毫无用处,请考虑增加样本数量。

比值残差

比值残差是观测标准差与拟合值之比。

Ln(标准)

观测响应标准差的自然对数。

Ln(拟合值)

拟合标准差的自然对数。

SE Ln(拟合值)

拟合标准差的自然对数的标准误可估计指定变量设置的估计标准差的变异。将使用拟合值标准误来计算平均响应的置信区间。标准误始终为非负值。

解释

可使用拟合值的标准误来度量标准差的自然对数估计值的精确度。标准误越小,估计值越精确。

变换后响应的置信区间(95% 置信区间)

这些置信区间 (CI) 是可能包含总体的标准差的自然对数的值范围,该总体在模型中具有预测变量或因子的观测值。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果将样本重复许多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计
点估计是从样本数据计算得到的参数。
边际误差
边际误差定义了置信区间的宽度并由样本、样本数量和置信水平中的观测变异性确定。

解释

使用置信区间可以为变量的观测值评估拟合值的估计值。

例如,当置信水平为 95% 时,模型中包含预测变量或因子特定值的总体对数标准差的置信区间的置信度为 95%。该置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际意义的值。较宽的置信区间表明,有关未来值的标准差的置信度可能较低。如果区间因太宽而毫无用处,请考虑增加样本数量。

Ln(残差)

观测响应标准差的自然对数与拟合标准差的自然对数之间的差。它是比值残差的对数。

解释

对数残差表示观测到的响应中无法由模型解释的部分。作为 Minitab 在分析变异性中计算的几种残差之一,对数残差最接近于正规残差。

Std Ln(残差)

自然对数的标准化残差是对数残差除以其(渐近)标准误。

解释

使用自然对数的标准化残差可帮助您检测异常值。当 Std Ln(残差)的值介于 -2 和 2 之间时,数据中不存在异常观测值。

大于 2 和小于 −2 的标准化残差通常被视为较大值。Minitab 标记的观测值未能很好地遵循建议的回归方程。但是,预计您将得到一些异常观测值。例如,基于较大标准化残差的标准,因为具有较大的标准化残差,预计将标记约 5% 的观测值。有关更多信息,请转到异常观测值

标准化残差很有用,因为原始残差可能不是良好的异常值指示符。每个原始残差的变异因与其关联的 X 值而异。这一变异不等情况会造成难以评估原始残差的量级。标准化残差可以通过将不同的变异转换为公共尺度来解决此问题。

Hi(杠杆率)

Hi 也称为杠杆率,用于度量某个观测值的 x 值与数据集中所有观测值的 x 值的平均值之间的距离。

解释

Hi 值介于 0 和 1 之间。Minitab 会在异常观测值表的拟合值与诊断中用 X 标识杠杆率值大于 3p/n 或 0.99(以较小者为准)的观测值。在 3p/n 中,p 是模型中的系数数目,n 是观测值个数。由 Minitab 标记为“X”的观测值可能是有影响的观测值。

有影响的观测值对模型具有不成比例的影响,会产生误导性结果。例如,包含或不包含有影响的点可能会改变系数是否统计意义显著。有影响的观测值可以是杠杆率点、异常值或这两者。

如果看到有影响的观测值,请确定该观测值是否存在数据输入或测量错误。如果该观测值既不存在数据输入错误又不存在测量错误,请确定它会造成何种影响。首先,拟合带该观测值的模型和不带该观测值的模型。然后,比较系数、p 值、R2 和其他模型信息。如果在排除有影响的观测值后模型有显著变化,请进一步检查模型,确定在模型中是否指定了错误内容。您可能需要收集更多数据以解决此问题。

Cook 距离 (D)

Cook 距离 (D) 度量观测值对于线性模型中系数集的效应。Cook 距离会同时考虑每个观测值的杠杆率值和标准化残差,以便确定观测值的效应。

解释

具有较大 D 值的观测值可能被视为有影响的观测值。较大 D 值的常用标准为,当 D 大于 F 分布的中位数 F(0.5, p, n-p) 时,其中 p 是模型项数(包括常量),n 是观测值数。另一种检验 D 值的方法是使用图形(如单值控制图)将 D 值与另一个值相比较。相对于其他观测值,具有较大 D 值的观测值可能是有影响的观测值。

有影响的观测值对模型具有不成比例的影响,会产生误导性结果。例如,包含或不包含有影响的点可能会改变系数是否统计意义显著。有影响的观测值可以是杠杆率点、异常值或这两者。

如果看到有影响的观测值,请确定该观测值是否存在数据输入或测量错误。如果该观测值既不存在数据输入错误又不存在测量错误,请确定它会造成何种影响。首先,拟合带该观测值的模型和不带该观测值的模型。然后,比较系数、p 值、R2 和其他模型信息。如果在排除有影响的观测值后模型有显著变化,请进一步检查模型,确定在模型中是否指定了错误内容。您可能需要收集更多数据以解决此问题。

DFITS

DFITS 测量每个观测值对于线性模型中拟合值的效应。DFITS 大致表示从数据集中删除每个观测值并重新拟合模型时,拟合值改变的标准差的数量。

解释

具有较大 DFITS 值的观测值可能是有影响的观测值。较大 DFITS 值的常用标准是 DFITS 是否大于以下值:
说明
p模型项的数量
n观测值个数

如果看到有影响的观测值,请确定该观测值是否存在数据输入或测量错误。如果该观测值既不存在数据输入错误又不存在测量错误,请确定它会造成何种影响。首先,拟合带该观测值的模型和不带该观测值的模型。然后,比较系数、p 值、R2 和其他模型信息。如果在排除有影响的观测值后模型有显著变化,请进一步检查模型,确定在模型中是否指定了错误内容。您可能需要收集更多数据以解决此问题。