偏差 R2 通常被视为由模型解释的响应变量中的总偏差的比率。
偏差 R2 越高,模型拟合数据的优度越高。偏差 R2 始终在 0% 和 100%之间。
如果向模型添加其他项,则偏差 R2 会始终增加。 例如,最佳的 5 项模型的 R2 始终比最佳的 4 项模型的高(至少一样高)。 因此,比较相同大小的模型时,偏差 R2 最有用。
拟合优度统计量只是模型拟合数据优度的一种度量。即使模型具有合意的值,您也应当检查残差图和拟合优度检验,以评估模型拟合数据的优度。
您可以使用拟合线图演示不同的偏差 R2 值。第一张图演示的模型解释了响应变量中约 96% 的偏差。第二张图演示的模型解释了响应变量中约 60% 的偏差。模型解释的偏差越多,数据点坐落的位置越靠近曲线。从理论上讲,如果模型可以解释 100% 的偏差,则拟合值将始终等于观测值,并且所有数据点都将落于曲线上。
数据排列影响偏差 R2 值。每行多个试验的数据的偏差 R2 通常比每行单个试验的数据高。偏差 R2 值仅在使用相同数据格式的两个模型之间可比较。有关更多信息,请转到数据格式对二元 Logistic 回归中拟合优度的影响。
调整的偏差 R2 是由模型解释的响应中偏差的比率,相对于观测值数,已调整了模型中的预测变量数。
使用调整的偏差 R2 来比较具有不同项数的模型。如果向模型添加项,偏差 R2 也会始终增加。调整的偏差 R2 值在模型中包含了项数,以帮助您选择正确的模型。
步阶 | 马铃薯百分比 | 冷却速率 | 加工温度 | 偏差 R2 | 调整的偏差 R2 | P 值 |
---|---|---|---|---|---|---|
0 | X | 52% | 51% | 0.000 | ||
1 | X | X | 63% | 62% | 0.000 | |
3 | X | X | X | 65% | 62% | 0.000 |
第一步产生在统计意义上显著的回归模型。第二步向模型中添加冷却速率,它会增加调整的方差 R2,这表明冷却速率会改善模型。第三部向模型中添加烹饪温度,它会增加方差 R2,但不会增加调整的方差 R2。这些结果表明,加工温度不会改善模型。基于这些结果,您可以考虑从模型中删除烹饪温度。
数据格式会影响调整的偏差 R2 值。对于相同的数据,每行多个试验的数据的调整偏差 R2 通常比每行单个试验的数据高。仅使用调整的偏差 R2 比较具有相同数据格式的模型的拟合。有关详细信息,请转到数据格式对二元 Logistic 回归中拟合优度的影响。
使用检验偏差 R2 确定模型与新数据的拟合度。具有较大检验偏差 R2 值的模型往往对新数据的表现更好。您可以使用检验偏差 R2 来比较不同模型的性能。
明显小于偏差 R2 的检验偏差 R2 可能表示模型过度拟合。当您为在总体中不重要的效应添加项时,将出现过度拟合模型。该模型变为根据训练数据定制的模型,因此对于预测总体数据可能没有帮助。
例如,一家金融咨询公司的分析师开发了一个模型,用于预测未来的市场状况。该模型看似很理想,因为它的 R2 为 87%。但是,检验偏差 R2 为 52%,这表明模型可能过度拟合。
高检验偏差 R2 值本身并不表示模型满足模型假设。您应该检查残差图以验证假设。
K 折叠偏差 R2 通常被视为模型解释的验证数据响应变量中总偏差的比率。
使用 K 折叠偏差 R2 确定模型与新数据的拟合度。具有较大 K 折叠偏差 R2 值的模型往往对新数据的表现更好。您可以使用 K 折叠偏差 R2 值来比较不同模型的性能。
明显小于偏差 R2 的 K 折叠偏差 R2 可能表示模型过度拟合。当您为在总体中不重要的效应添加项时,将出现过度拟合模型。该模型变为根据训练数据集定制的模型,因此对于预测总体数据可能没有帮助。
例如,一家金融咨询公司的分析师开发了一个模型,用于预测未来的市场状况。该模型看似很理想,因为它的偏差 R2 为 87%。但是,K 折叠偏差 R2 为 52%,这表明模型可能过度拟合。
高 K 折叠偏差 R2 值本身并不表示模型满足模型假设。您应该检查残差图以验证假设。
Akaike 信息标准 (AIC)、更正的 Akaike 信息标准 (AICc) 和 Bayesian 信息标准 (BIC) 是针对模型相对质量的度量,说明模型中的拟合与项数。
ROC 曲线在 y 轴上绘制真阳性率 (TPR)(也称为功率),在 x 轴上绘制假阳性率 (FPR)(也称为 1 类误差)。 不同点表示案例为事件的概率的不同阈值。ROC 曲线下面积指示二元模型是否为良好的分类器。
当分析使用验证方法时,Minitab 会计算两条 ROC 曲线,一条用于训练数据,另一条用于验证数据。 如果验证方法是测试数据集,则 Minitab 将在 ROC 曲线下显示测试区域。如果验证方法是交叉验证,则 Minitab 会在 ROC 曲线下显示 k 折叠区域。例如,对于具有 10 折的交叉验证,Minitab 会在 ROC 曲线下显示 10 倍区域。
ROC 曲线下面积值通常介于 0.5 到 1 之间。 当二元模型可以完美地分隔类时,曲线下面积为 1。当二元模型不能比随机分配更好地分隔类时,曲线下面积为 0.5。
当分析使用验证方法时,使用验证方法的 ROC 曲线下的区域来确定模型是否可以充分预测新观测值的响应值,或正确汇总响应与预测变量之间的关系。训练结果通常比实际情况更理想,仅供参考。
如果验证方法的 ROC 曲线下的面积大大小于 ROC 曲线下的面积,则差值可能表示模型过拟。当模型包含总体中不重要的项时,就会发生过拟合模型。该模型会根据训练数据进行定制,因此对于预测总体可能没有用处。
偏差 R-Sq | 偏差 R-Sq (调整) | AIC | AICc | BIC | ROC 曲线下面积 | 10-折叠偏差 R 平方 | 10 折叠 ROC 曲线下面积 |
---|---|---|---|---|---|---|---|
50.86% | 42.43% | 276.02 | 286.11 | 409.48 | 0.9282 | 17.29% | 0.8519 |
这些结果显示了超拟模型的模型汇总表。与 ROC 曲线下的 10 倍区域,训练数据上的区域为模型的拟合新数据提供了更乐观的值。