模型简化是从模型中消除项,如预测变量项或预测变量之间的交互作用项。模型简化允许您简化模型并提高预测的精确度。您可以在 Minitab 的任何命令组中简化模型,包括回归、方差分析、DOE 以及可靠性。
模型简化的一个准则是项的统计显著性。消除在统计上不显著的项可以提高模型预测的精确度。要使用统计显著性准则,首先请选择显著性水平,如 0.05 或 0.15。然后尝试使用不同的项找到一个模型,该模型包含尽可能多的在统计上显著的项,但不包含在统计上不显著的项。要使用统计显著性准则,数据必须提供足够的自由度才能在您拟合模型后估计统计显著性。您可以使用算法过程(如逐步回归)手动或自动应用统计显著性准则。统计显著性的目的是找到符合您目标的模型。但是,统计显著性准则确实始终都能生成一个最佳模型。
除了统计显著性准则之外,Minitab 用于计算模型的其他统计准则包括 S、调整的 R2、预测的 R2、PRESS、Mallows Cp 以及 Akaike 信息准则 (AIC)。您在简化模型时可以考虑使用一个或多个准则。
与逐步回归相同,最佳子集回归是一个算法过程,可用于找到符合您目标的模型。最佳子集回归可以检查所有模型,并确定 R2 值最大的模型。在 Minitab 中,最佳子集回归还可以显示其他统计量,如调整的 R2 和预测的 R2。您在比较模型时可以考虑使用这些统计量。由于最佳子集使用 R2,因此被最佳子集回归确定为最佳模型的模型可能或不可能只包含在统计上显著的项。您简化模型时要考虑的其他统计准则包括多重共线性和层次结构。下面将详细讨论这两个概念。
度量模型对数据的拟合优度的统计量可以帮助您找到有用的模型。但是,您还应该利用过程知识和良好的判断力来决定要消除的项。某些项可能必不可少,而另一些项测量起来可能成本太高,或难以测量。
简化简单示例中的模型的示例
在执行太阳热能检验的过程中,技术人员测量了总热通量。某能源工程师想要确定如何通过其他变量(日照、东、南、北各方向焦点的位置以及一天中的时间)来预测总热通量。这位工程师使用全回归模型来确定热通量和变量之间存在的以下关系。
回归方程
热通量 = 325.4 + 2.55 东 + 3.80 南 - 22.95 北 + 0.0675 暴晒 + 2.42 当
日时间
系数
方差膨
项 系数 系数标准误 T 值 P 值 胀因子
常量 325.4 96.1 3.39 0.003
东 2.55 1.25 2.04 0.053 1.36
南 3.80 1.46 2.60 0.016 3.18
北 -22.95 2.70 -8.49 0.000 2.61
暴晒 0.0675 0.0290 2.33 0.029 2.32
当日时间 2.42 1.81 1.34 0.194 5.37
这位工程师想要消除尽可能多的不显著项,从而最大程度地提高预测精确度。工程师决定使用 0.05 作为统计显著性的阈值。一天中的时间的 p 值 (0.194) 是最大的 p 值,大于 0.05,因此工程师先排除了此项。工程师通过每次排除一个不显著项重复回归过程,直至只剩下在统计上显著的项。最终的简化模型如下所示:
回归方程
热通量 = 483.7 + 4.796 南 - 24.22 北
系数
系数标 方差膨
项 系数 准误 T 值 P 值 胀因子
常量 483.7 39.6 12.22 0.000
南 4.796 0.951 5.04 0.000 1.09
北 -24.22 1.94 -12.48 0.000 1.09
多重共线性
回归中的多重共线性是一个当模型中一些预测变量与其他预测变量相关时发生的条件。严重的多重共线性可能会产生问题,因为它可以增大回归系数的方差,使它们变得不稳定。当您排除多重共线性较高的项时,高度相关项的统计显著性和系数值的变化幅度较大。因此,存在多重共线性时,检查多个统计量和一次更改模型的一个项更为重要。通常情况下,您在简化模型前,应尽可能降低多重共线性。有关降低多重共线性的方法的更多信息,请转到回归中的多重共线性。
多重共线性对统计显著性准则的影响的示例
某医疗设备团队创建了一个模型来预测患者满意度评分。该模型有多个变量,包括患者与实践者在一起的时间和患者进行医学检验的时间。模型中包含这两个变量时,多重共线性较高,VIF(方差膨胀因子)值为 8.91。值大于 5 时,通常表示多重共线性较严重。患者与实践者在一起的时间量的 p 值为 0.105,表示在 0.05 水平下不显著。此模型的预测的 R2 值为 22.9%。
回归分析: 满意度 与 实践者时间, 检验时间
模型汇总
R-sq(调 R-sq(预
S R-sq 整) 测)
0.951953 28.68% 25.64% 22.91%
系数
方差膨
项 系数 系数标准误 T 值 P 值 胀因子
常量 -0.078 0.156 -0.50 0.618
实践者时间 0.1071 0.0648 1.65 0.105 8.91
检验时间 -0.516 0.178 -2.90 0.006 8.91
仅包含检验时间的模型的预测的 R2 值从 22.9% 降至 10.6%。虽然在 0.05 水平下患者与实践者在一起的时间在统计上不显著,但是包括该变量会使预测的 R2 值增加一倍以上。高多重共线性可能会掩盖预测变量的重要性。
回归分析: 满意度 与 检验时间
模型汇总
R-sq(调 R-sq(预
S R-sq 整) 测)
0.968936 24.54% 22.96% 10.61%
系数
方差膨
项 系数 系数标准误 T 值 P 值 胀因子
常量 -0.162 0.150 -1.08 0.285
检验时间 -0.2395 0.0606 -3.95 0.000 1.00
层次结构
分层模型包含其中每一项的所有低阶项。例如,假设一个模型具有以下四个因子:A、B、C 和 D。如果项 A*B*C 在模型中,则 A、B、C、A*B、A*C 和 B*C 必须也在模型中。任何带 D 的项无需在模型中,因为 D 不在项 A*B*C 中。分层结构也适用于嵌套。如果 B(A) 在模型中,则 A 也必须在模型中,以便模型可以分层。
层次结构是必要的,因为分层模型可以从标准化单位转变成非标准化单位。当模型包括交互作用等高阶项时,标准化单位较常见,因为标准化可以简化这些项导致的多重共线性。
由于层次结构是必要的,因此分层模型简化较常见。例如,其中一种策略就是使用 p 值准则简化分层模型。首先,排除在统计上不显著的最复杂的项。如果在统计上不显著的项是交互作用项或高阶项的一部分,则该项将保留在模型中。Minitab 的逐步模型选择可以使用层次结构准则和统计显著性准则。
分层模型简化示例
某家建材产品制造商的材料工程师正在开发一种全新的绝缘产品。该工程师设计了一个 2 水平全因子试验,以评估可能会影响绝缘的绝缘值的多个因子。工程师将多个交互作用项包括在模型中,以确定因子的效应是否相互依存。由于交互作用会产生多重共线性,因此工程师会对预测变量进行编码以降低多重共线性。
工程师检查的第一个模型的最大 p 值为 0.985,该模型包含注塑温度和材料之间的交互作用。根据编码系数表,工程师可以检查使用未编码单位的回归方程。回归方程可以帮助工程师了解与数据使用的单位相同的效应的大小。
回归分析: 绝缘产品 与 注塑压力, 注塑温度, 冷却温度, 材料
已编码系数
系数标 方差膨
项 系数 准误 T 值 P 值 胀因子
常量 17.463 0.203 86.13 0.007
注塑压力 1.835 0.203 9.05 0.070 2.00
注塑温度 1.276 0.203 6.29 0.100 2.00
冷却温度 2.173 0.203 10.72 0.059 2.00
材料
公式 2 5.192 0.287 18.11 0.035 1.00
注塑压力*注塑温度 -0.036 0.203 -0.18 0.887 2.00
注塑压力*冷却温度 0.238 0.203 1.17 0.449 2.00
注塑温度*冷却温度 1.154 0.203 5.69 0.111 2.00
注塑压力*材料
公式 2 -0.198 0.287 -0.69 0.615 2.00
注塑温度*材料
公式 2 -0.007 0.287 -0.02 0.985 2.00
冷却温度*材料
公式 2 -0.898 0.287 -3.13 0.197 2.00
注塑压力*注塑温度*冷却温度 0.100 0.143 0.70 0.611 1.00
注塑压力*注塑温度*材料
公式 2 0.181 0.287 0.63 0.642 2.00
注塑压力*冷却温度*材料
公式 2 -0.385 0.287 -1.34 0.408 2.00
注塑温度*冷却温度*材料
公式 2 -0.229 0.287 -0.80 0.570 2.00
以未编码单位表示的回归方程
材料
公式 1 绝缘产品 = 26.6 + 0.154 注塑压力 - 0.213 注塑温度 - 0.906 冷却温
度 - 0.00138 注塑压力*注塑温度 - 0.00267 注塑压力*冷却温
度 + 0.01137 注塑温度*冷却温度 + 0.000036 注塑压力*注塑
温度*冷却温度
公式 2 绝缘产品 = 28.3 + 0.125 注塑压力 - 0.179 注塑温度 - 0.597 冷却温
度 - 0.00073 注塑压力*注塑温度 - 0.00369 注塑压力*冷却温
度 + 0.00831 注塑温度*冷却温度 + 0.000036 注塑压力*注塑
温度*冷却温度
如果工程师只使用 p 值准则来简化模型,则下一个模型就是非分层模型,因为您排除了作为三因子交互作用一部分的双因子交互作用。由于该模型是非分层模型,因此不存在未编码系数。非分层模型的回归方程是编码单位。编码回归方程不会提供任何有关与数据使用的单位相同的效应的信息。
回归分析: 绝缘产品 与 注塑压力, 注塑温度, 冷却温度, 材料
已编码系数
系数标 方差膨
项 系数 准误 T 值 P 值 胀因子
常量 17.463 0.143 121.77 0.000
注塑压力 1.835 0.143 12.80 0.006 2.00
注塑温度 1.272 0.101 12.55 0.006 1.00
冷却温度 2.173 0.143 15.15 0.004 2.00
材料
公式 2 5.192 0.203 25.60 0.002 1.00
注塑压力*注塑温度 -0.036 0.143 -0.25 0.824 2.00
注塑压力*冷却温度 0.238 0.143 1.66 0.239 2.00
注塑温度*冷却温度 1.154 0.143 8.04 0.015 2.00
注塑压力*材料
公式 2 -0.198 0.203 -0.98 0.431 2.00
冷却温度*材料
公式 2 -0.898 0.203 -4.43 0.047 2.00
注塑压力*注塑温度*冷却温度 0.100 0.101 0.99 0.427 1.00
注塑压力*注塑温度*材料
公式 2 0.181 0.203 0.89 0.466 2.00
注塑压力*冷却温度*材料
公式 2 -0.385 0.203 -1.90 0.198 2.00
注塑温度*冷却温度*材料
公式 2 -0.229 0.203 -1.13 0.375 2.00
以编码单位表示的回归方程
材料
公式 1 绝缘产品 = 17.463 + 1.835 注塑压力 + 1.272 注塑温度 + 2.173 冷却
温度 - 0.036 注塑压力*注塑温度 + 0.238 注塑压力*冷却温度
+ 1.154 注塑温度*冷却温度 + 0.100 注塑压力*注塑温度*冷却
温度
公式 2 绝缘产品 = 22.655 + 1.637 注塑压力 + 1.272 注塑温度 + 1.275 冷却
温度 + 0.145 注塑压力*注塑温度 - 0.147 注塑压力*冷却温度
+ 0.924 注塑温度*冷却温度 + 0.100 注塑压力*注塑温度*冷却
温度
工程师决定先排除 p 值较大的最复杂的项,而不是只使用 p 值准则。在此模型中,工程师排除了 p 值最大的三因子交互作用,而不是排除 p 值最大的项。注塑压力、注塑温度和材料之间的三因子交互作用的最大 p 值为 0.466。