モデルの縮約化

モデルの縮約化とは、予測変数の項や予測変数間の交互作用などの項をモデルから削除することです。モデルの縮約化により、モデルを単純化して予測の精度を上げることができます。Minitabにある、回帰、ANOVA、DOEや信頼性などのコマンド群でモデルを縮約できます。

モデル縮約化の1つの基準は、項の統計的有意性です。統計的に有意な項の削除により、モデルの予測精度が上がります。統計的有意性の基準を使用するには、まず0.05や0.15などの有意水準を選択します。その後、できるだけ多くの統計的に有意な項を持ち、統計的に有意ではない項を持たないモデルを見つけるためにさまざまな項を試します。統計的有意性の基準を使用するには、モデルの適合後、データから統計的有意性を推定するのに十分な自由度を用意する必要があります。統計的有意性の基準は、手動で、またはステップワイズ回帰などのアルゴリズムプロシージャを使用して自動で適用できます。統計的有意性の水準の利用目的は、目標を満たすモデルを探すことにあります。ただし、統計的有意性の基準は、必ず1つだけ最適なモデルを生成します。

統計的な有意性基準に加え、Minitabがモデルに対して計算する他の統計的基準にS、調整済みR2、予想R2、予測残差平方和(PRESS)、マローズのCp、赤池情報量基準(AIC)が含まれます。モデルを縮約するとき、これらの基準の1つ以上を検討できます。

ステップワイズ回帰と同様、ベストサブセット回帰は、目標を満たすモデルを見つけるために使用できるアルゴリズムプロシージャです。ベストサブセット回帰はすべてのモデルを調べ、R2の値が最大となるモデルを特定します。Minitabでは、ベストサブセット回帰は調整済みR2と予測R2などの他の統計量も表示します。モデルを比較するときにこれらの統計量を検討できます。ベストサブセットにはR2を使用するので、ベストサブセット回帰が最適なモデルとして特定するモデルには、統計的に有意な項のみある場合とそうでない場合があります。モデルを縮約するときに検討する他の統計的基準には、多重共線性と階層が含まれます。これら2つの考え方は、以下の詳細に説明されています。

どの程度モデルがデータに適合するかを測定する統計量により、有用なモデルを見つけやすくなります。ただし、処理に関する知識や適切な判断を駆使して、削除する項を判断する必要もあります。項の中には必須な項もあれば、測定するには高価過ぎたり、難し過ぎたりするものもあります。

簡単なケースでモデルを縮約する例

技術者は、太陽熱エネルギー試験の一部として、合計熱流量を測定します。あるエネルギー技師は、対日照量、東、南、北の方向の焦点の位置、および時刻などの他の変数によって、合計熱流量を予測する方法を検討します。技師は、完全回帰モデルを使用して、熱流量と変数の以下の関係を判断します。

回帰式 熱流量 = 325.4 + 2.55 東 + 3.80 南 - 22.95 北 + 0.0675 対日照量 + 2.42 時刻
係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 325.4 96.1 3.39 0.003 東 2.55 1.25 2.04 0.053 1.36 南 3.80 1.46 2.60 0.016 3.18 北 -22.95 2.70 -8.49 0.000 2.61 対日照量 0.0675 0.0290 2.33 0.029 2.32 時刻 2.42 1.81 1.34 0.194 5.37

技師は、予測の精度を最大化するために、できるだけ多くの有意な項を削除したいと考えます。技師は、統計的有意性の閾値として0.05を使用することを決断します。時刻のp値(0.194)は、0.05よりも大きいp値の最大値であるので、技師はまずこの項を削除します。技師は回帰を繰り返し、統計的に有意な項が残るまで毎回有意でない項を1つずつ取り除きました。最終的に縮約されたモデルは次のとおりです。

回帰式 熱流量 = 483.7 + 4.796 南 - 24.22 北
係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 483.7 39.6 12.22 0.000 南 4.796 0.951 5.04 0.000 1.09 北 -24.22 1.94 -12.48 0.000 1.09

多重共線性

回帰での多重共線性とは、モデル内の一部の予測変数が他の予測変数と相関しているときに起こる状態です。重度の多重共線性は、回帰係数の分散を増加させて不安定にするため問題となります。多重共線性が高い項を削除する場合、統計的有意性と相関の高い項の係数値は大幅に変化します。このため、多重共線性がある状態で、複数の統計量を調べて1度に1つの項を変更するのはさらに重要になります。通常、できるかぎり多重共線性を縮約してからモデルを縮約します。多重共線性を縮約する方法の詳細は回帰での多重共線性を参照してください。

多重共線性が統計的な有意性基準に干渉する例

医療施設のチームはモデルを作成して、患者の満足度を予測します。モデルにはいくつかの変数があり、患者が開業医といる時間と患者が医学的検査を受けている時間などが含まれます。モデル内にこれらの変数の両方がある場合、多重共線性は高く、VIF(分散拡大係数)の値は8.91になります。5よりも大きい値は、通常、重度の多重共線性を示します。患者が開業医といる期間のp値は0.105であり、0.05の水準では有意になりません。このモデルの予測R2の値は22.9%です。

回帰分析: 満足度対開業医の時間, 検定時間

モデル要約 R二乗 (調 R二乗 S R二乗 整済み) (予測) 0.951953 28.68% 25.64% 22.91%
係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 -0.078 0.156 -0.50 0.618 開業医の時間 0.1071 0.0648 1.65 0.105 8.91 検定時間 -0.516 0.178 -2.90 0.006 8.91

検定時間しかないモデルの予測R2の値は22.9~10.6%になります。患者が開業医といる時間は、0.05の水準では統計的に有意になりませんが、予測R2の値の2倍よりも大きい変数を含みます。多重共線性が高い場合、予測変数の重要性がわかりづらくなることがあります。

回帰分析: 満足度対検定時間

モデル要約 R二乗 (調 R二乗 S R二乗 整済み) (予測) 0.968936 24.54% 22.96% 10.61%
係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 -0.162 0.150 -1.08 0.285 検定時間 -0.2395 0.0606 -3.95 0.000 1.00

階層

階層モデルは、モデル内の項ごとに、すべての低次の項も含まれているモデルです。たとえば、A、B、C、Dの4つの因子を持つモデルがあるとします。項A*B*Cがモデル内にある場合、項A、B、C、A*B、A*C、B*Cもモデル内に含める必要があります。Dを持つ項は、項A*B*Cにないので、モデル内に含める必要はありません。この階層構造は、枝分かれ因子にも適用されます。B(A)がモデル内にある場合、モデルを階層化するためにAもモデルに含める必要があります。

階層モデルは標準化された単位から非標準化単位にモデルを変換できるので、階層化されていることが望ましいです。標準化は、これらの項に起因する多重共線性を縮約するので、モデルに交互作用のような高次項が含まれているときには標準化単位がよく使われます。

階層化されることが望ましいので、階層モデル縮約化がよく使用されます。たとえば、1つの方法として、p値の基準を使用して、階層を組み合わせてモデルを縮約します。まず、統計的に有意ではない最も複雑な項を削除します。統計的に有意でない項が、交互作用項または高次項の一部である場合、項はモデル内に残します。Minitabのステップワイズモデル選択では、階層基準と統計的有意性基準を使用できます。

階層モデル縮約化の例

ある建築製品製造会社の材料技師が、新しい断熱材製品を開発しています。技師は、断熱材の断熱値に影響を与える可能性のあるいくつかの因子を評価するために2水準完全実施要因計画実験を計画します。技師は、モデルに交互作用を組み込み、因子の影響が互いに作用し合うかどうかを判断します。交互作用により多重共線性が生まれる場合、エンジニアは予測変数をコード化して、多重共線性を縮約します。

技師が調べる最初のモデルで最大のp値は、射出温度と材料の間の交互作用に対して0.985です。コード化された係数の表の下で、技師は非コード化単位の回帰式を調べることができます。回帰式により、技師は、データと同じ単位の影響の大きさを理解しやすくなります。

回帰分析: 断熱性対射出圧力, 射出温度, 冷却温度, 材料

コード化係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 17.463 0.203 86.13 0.007 射出圧力 1.835 0.203 9.05 0.070 2.00 射出温度 1.276 0.203 6.29 0.100 2.00 冷却温度 2.173 0.203 10.72 0.059 2.00 材料 製法2 5.192 0.287 18.11 0.035 1.00 射出圧力*射出温度 -0.036 0.203 -0.18 0.887 2.00 射出圧力*冷却温度 0.238 0.203 1.17 0.449 2.00 射出温度*冷却温度 1.154 0.203 5.69 0.111 2.00 射出圧力*材料 製法2 -0.198 0.287 -0.69 0.615 2.00 射出温度*材料 製法2 -0.007 0.287 -0.02 0.985 2.00 冷却温度*材料 製法2 -0.898 0.287 -3.13 0.197 2.00 射出圧力*射出温度*冷却温度 0.100 0.143 0.70 0.611 1.00 射出圧力*射出温度*材料 製法2 0.181 0.287 0.63 0.642 2.00 射出圧力*冷却温度*材料 製法2 -0.385 0.287 -1.34 0.408 2.00 射出温度*冷却温度*材料 製法2 -0.229 0.287 -0.80 0.570 2.00
非コード化単位の回帰式 材料 製法1 断熱性 = 26.6 + 0.154 射出圧力 - 0.213 射出温度 - 0.906 冷却温度 - 0.00138 射出圧力*射出温度 - 0.00267 射出圧力*冷却温度 + 0.01137 射出温度*冷却温度 + 0.000036 射出圧力*射出温度*冷却温 度 製法2 断熱性 = 28.3 + 0.125 射出圧力 - 0.179 射出温度 - 0.597 冷却温度 - 0.00073 射出圧力*射出温度 - 0.00369 射出圧力*冷却温度 + 0.00831 射出温度*冷却温度 + 0.000036 射出圧力*射出温度*冷却温 度

技師がモデル縮約にp値基準のみを使用する場合、3因子交互作用の一部である2因子交互作用を削除するので、次のモデルは非階層になります。モデルは非階層なので、コード化されていない係数は存在しません。このため、非階層モデルの回帰式はコード化単位になります。コード化された回帰式では、データと同じ単位の影響についての情報は提供されません。

回帰分析: 断熱性対射出圧力, 射出温度, 冷却温度, 材料

コード化係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 17.463 0.143 121.77 0.000 射出圧力 1.835 0.143 12.80 0.006 2.00 射出温度 1.272 0.101 12.55 0.006 1.00 冷却温度 2.173 0.143 15.15 0.004 2.00 材料 製法2 5.192 0.203 25.60 0.002 1.00 射出圧力*射出温度 -0.036 0.143 -0.25 0.824 2.00 射出圧力*冷却温度 0.238 0.143 1.66 0.239 2.00 射出温度*冷却温度 1.154 0.143 8.04 0.015 2.00 射出圧力*材料 製法2 -0.198 0.203 -0.98 0.431 2.00 冷却温度*材料 製法2 -0.898 0.203 -4.43 0.047 2.00 射出圧力*射出温度*冷却温度 0.100 0.101 0.99 0.427 1.00 射出圧力*射出温度*材料 製法2 0.181 0.203 0.89 0.466 2.00 射出圧力*冷却温度*材料 製法2 -0.385 0.203 -1.90 0.198 2.00 射出温度*冷却温度*材料 製法2 -0.229 0.203 -1.13 0.375 2.00
コード化単位の回帰式 材料 製法1 断熱性 = 17.463 + 1.835 射出圧力 + 1.272 射出温度 + 2.173 冷却温度 - 0.036 射出圧力*射出温度 + 0.238 射出圧力*冷却温度 + 1.154 射 出温度*冷却温度 + 0.100 射出圧力*射出温度*冷却温度 製法2 断熱性 = 22.655 + 1.637 射出圧力 + 1.272 射出温度 + 1.275 冷却温度 + 0.145 射出圧力*射出温度 - 0.147 射出圧力*冷却温度 + 0.924 射 出温度*冷却温度 + 0.100 射出圧力*射出温度*冷却温度

p値基準のみを使用する代わりに、技師は、p値が高く最も複雑な項をまず削除することを決断します。このモデルでは、技師は、p値が最大の項を削除する代わりに、p値が最大の3因子交互作用を削除します。3因子交互作用の最大のp値は、射出圧力、射出温度、材料の間の交互作用に対して0.466です。