解释最佳子集回归的主要结果

在最佳子集回归中,Minitab 会选择两个具有最大 R2 值且包含一个预测变量、两个预测变量(以此类推)的模型。您可以根据输出表格中标有“X”的列确定每个模型中包括哪些预测变量。

使用拟合优度统计量来确定哪个模型可以为数据提供最佳拟合。在选择最终模型前,您应当检查残差图及其他诊断度量标准,以确保该模型符合分析的假设。

R-sq

R2 值越高,模型拟合数据的优度越高。R2 始终介于 0% 和 100% 之间。

如果向模型添加其他预测变量,则 R2 会始终增加。例如,最佳的 5 预测变量模型的 R2 始终比最佳的 4 预测变量模型的高。因此,比较相同大小的模型时 R2 最有效。

R-Sq(调整)

在想要比较具有不同数量的预测变量的情况下,使用调整的 R2。如果向模型添加预测变量,即使模型没有实际改善,R2 也会始终增加。调整的 R2 值包含模型中的预测变量数,以便帮助您选择正确的模型。

R-Sq(预测)

使用预测的 R2 可确定模型对新观测值的响应进行预测的程度。具有较大预测 R2 值的模型的预测能力也较出色。

实质上小于 R2 的预测的 R2 可能表明模型过度拟合。在向总体中添加不太重要的影响项的情况下,可能会发生过度拟合模型。模型针对样本数据而定制,因此可能对于总体预测不太有效。

在比较模型方面,预测的 R2 还可能比调整的 R2 更有效,因为它是用模型计算中未包含的观测值计算得出的。

Mallows Cp
Mallows Cp 会将全模型的精确度和偏倚与具有最佳预测变量子集的模型进行比较。接近预测变量数加上常量数的 Mallows Cp 值表明模型可以生成相对精确且无偏倚的估计值。
S

使用 S 可评估模型描述响应值的程度。使用 S 替代 R2 统计量,以比较不具有常量的模型拟合。

S 以响应变量的单位进行度量,它表示数据值与拟合值的距离。S 值越低,模型描述响应的程度越高。但是,自身低 S 值并不表明模型符合模型假设。您应检查残差图来验证假设。

解释 R2 值时,请考虑以下几点:
  • 样本数量较小则不能提供对于响应变量和预测变量之间关系强度的精确估计。如果需要 R2 更为精确,则应当使用较大的样本(通常为 40 或更多)。

  • 拟合优度统计量只是模型拟合数据优度的一种度量。即使模型具有合意的值,您也应当检查残差图,以验证模型是否符合模型假设。

响应为 热通量

变量R-SqR-Sq (调整)R-Sq(预测)Mallows CpS



172.171.066.938.512.328      X 
139.437.126.3112.718.154X       
285.984.881.49.18.9321    XX 
282.080.674.217.810.076      XX
387.485.979.07.68.5978  XXX 
386.584.981.49.78.9110X  XX 
489.187.380.65.88.1698XXXX 
488.086.079.38.28.5550X  XXX
589.987.778.86.08.0390XXXXX
主要结果:R-sq、R-Sq(调整)、R-Sq(预测)、Mallows Cp、S

在这些结果中,有多个模型可以提供进一步检查。具有 5 个预测变量的模型具有最小的 S 值和最大的调整 R2,分别约为 8 和 88。具有 2 个预测变量的模型和具有 3 个预测变量的模型都具有最大的预测 R2 值,该值为 81.4%。在您选择最终模型前,您应当使用残差图及其他诊断度量标准检查这些模型是否违反回归假设。