適合回帰モデルの主要な結果を解釈する

回帰モデルを解釈するには、次の手順を実行します。出力されるものは主に、p値、係数、R2、残差プロットです。

ステップ1:応答と項の関連性が統計的に有意かどうか判断する

モデルにおける応答と各項の間の関係が統計的に有意かどうか判断するには、項のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、項と応答に関連性がないという仮定です。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には関連性がない場合でも、関連性が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α:関連性は統計的に有意です
p値が有意水準以下の場合は、応答変数と項の間に統計的に有意な関連性が存在すると結論付けることができます。
p値 > α:その関連性は統計的に有意ではありません
p値が有意水準より大きい場合は、応答変数と項の間に統計的に有意な関連性があると結論付けることはできません。項を持たないモデルを再適合したいと考えるかもしれません。
応答との間に統計的に有意な関連性がない予測変数が複数存在する場合は、一度に1つずつ項を削除することによってモデルを縮約できます。モデルからの項の削除の詳細は、モデルの縮約化を参照してください。
モデル項が統計的に有意な場合、解釈は項のタイプによって異なります。解釈は以下のとおりです。
  • 連続予測変数が有意な場合は、予測変数の係数は0ではないと結論付けることができます。
  • カテゴリ予測変数が有意な場合は、すべての水準平均が等しいとは限らないと結論できます。
  • 交互作用項が有意な場合は、予測変数と応答の間の関係がその項の他の予測変数に依存すると結論付けることができます。
  • 多項式項が有意な場合は、データに曲面性が含まれると結論付けることができます。
係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 -0.756 0.736 -1.03 0.314 濃度 0.1545 0.0633 2.44 0.022 1.03 触媒比 0.2171 0.0316 6.86 0.000 1.02 硬化温度 0.01081 0.00462 2.34 0.027 1.04 硬化時間 0.0946 0.0546 1.73 0.094 1.00
主な結果: p値、係数

予測変数であるホルムアルデヒド濃度、触媒比、温度には有意水準0.05未満のp値があります。この結果から、これらの予測変数が統計的に有意な防皺性と関連性があることがわかります。例えばホルムアルデヒド濃度の係数については、モデル内の他項が一定の状態でも、濃度が1単位上昇するごとに、防皺性の平均値が0.1545単位で増加すると考えられます。

時間のp値は0.05より大きく、これは時間と応答の関連性を結論づける十分な証拠がないことを示しています。化学者は、この予測変数を使用しないモデルの再適合をする場合があります。

ステップ2: データに対するモデルの適合度を判断する

データに対するモデルの適合度を判断するために、モデル要約表の適合度統計量を調査します。

S

Sを使い、モデルがどの程度良好に応答R2統計量の変わりにSを使い、定数を持たないモデルの適合を比較する

Sは応答変数の単位で測定され、データ値と適合値がどの程度離れているかを示す標準偏差を表しています。Sの値が小さければ小さいほど、モデルによる応答の記述が良好になります。しかし、Sの値が小さいことだけで、そのモデルが仮定を満たしているとはいえません。残差プロットを確認し、仮定を検証する必要があります。

R二乗

R2値が大きくなるほど、モデルのデータへの適合度は上がります。R2は常に0~100%の間の値になります。

R2は、モデルに予測変数を追加すると必ず大きくなります。たとえば、最適な5予測変数モデルのR2は必ず、最適な4予測変数モデルと少なくとも同じ大きさになります。したがって、R2値は同じ大きさのモデルを比較する際に最も有益です。

R二乗(調整済み)

予測変数の数が異なるモデルを比較する場合は、調整済みR2を使用します。モデルに予測変数を追加すると、そのモデルが実質的に改善されなかった場合でも、R2は常に大きくなります。調整済みR2値にはモデルに含まれる予測変数の数が組み入れられるため、正しいモデルの選択に役立ちます。

R二乗(予測)

予測R2を使用して、モデルが新しい観測値に対する応答をどの程度良好に予測するかを判断します 予測R2値が大きいモデルの予測能力は優れています。

R2よりも大幅に低い予測R2は、モデルの過剰適合を示している可能性があります。過剰適合モデルは、母集団において重要でない項を追加した場合に起こります。その結果モデルはサンプルデータに適合してしまい、母集団の予測に適さなくなる可能性があります。

予測R2は、モデル計算に含まれていない観測値によって計算されるため、モデルを比較する場合は調整済みR2より便利です。

R2の値を解釈するとき、以下の点を考慮してください。
  • サンプルサイズが小さい場合、応答と予測の関係の強さが正確に推定されません。より正確なR2が必要な場合、サンプルサイズを大きくする必要があります(40以上が一般的です)。

  • R2は、データに対するモデルの適合度をを測る1つの測度にすぎません。モデルのR2が大きい場合でも、残差プロットを確認し、モデルが仮定を満たしているか検証する必要があります。

モデル要約 R二乗 (調 R二乗 S R二乗 整済み) (予測) 0.811840 72.92% 68.90% 62.81%
主な結果: S、R二乗、R二乗(調整済み)、R二乗(予測)

この結果から、応答変動のおよそ73%をモデルで説明できます。このデータの場合、R2の値はモデルがデータに十分に適合することを示しています。異なる予測変数を追加モデルに適合させる場合、調整済みR2値と予測R2の値を使って、追加モデルがどの程度データに適合するかを比較します。

ステップ3:モデルが分析の仮説を満たすかどうか判断する

残差プロットを使用して、モデルが適切か、分析の仮定が満たされているかどうかを判断しやすくします。仮定を満たさない場合、そのモデルはデータにあまり適合しない可能性があり、結果の解釈は慎重に行う必要があります。

残差プロットのパターンを処理する方法の詳細は適合回帰モデルの残差プロットを参照し、ページ上部にある一覧の中から残差プロット名をクリックしてください。

残差対適合値プロット

残差対適合値プロットを使用して、残差はランダムに分布し、均一な分散が存在するという仮定を検証します。点に特徴的なパターンがなく、0の両側にランダムにくるのが理想的です。

以下の表にあるパターンは、このモデルが、モデルの仮説を満たさないことを示している可能性があります。
パターン パターンが示す意味
残差が適合値周辺に扇状または不均等に分散している 不均一分散
曲線 高次の項の欠損
ゼロから遠い点 外れ値
ある点が他の点からX軸方向に遠く離れている 影響力のある点
こうした残差対適合値プロットでは、点はゼロの周囲にランダムに分布していないようです。データ内の異なるグループを表す点群分布が見られるようです。そのグループを調査し、原因を特定する必要があります。

残差対順序プロット

残差対データ順序プロットを使用して、残差が互いから独立しているという仮定を検証します。独立している残差は、時間順で表示した場合にトレンドやパターンを示しません。点にパターンがある場合、互いに近い残差は相関している可能性があり、独立していないことを示しています。プロットの残差が中心線の周りにランダムに来るのが理想的です。
パターンがある場合は原因を調査します。パターンが次のタイプである場合、残差が従属している可能性を示しています。
トレンド
シフト
周期
この残差対順序プロットでは、残差はゼロの周囲にランダム分布していないようです。残差は、観測値の順序が大きくなるにつれて、規則的に小さくなるようです。傾向を調査し、その原因を判断する必要があります。

残差の正規確率プロット

残差の正規確率プロットを使用して、残差が正規分布に従うという仮定を検証します。残差の正規確率プロットは、ほぼ直線になります。

以下の表にあるパターンは、このモデルが、モデルの仮説を満たさないことを示している可能性があります。
パターン パターンが示す意味
直線ではない 非正規性
直線から離れた点 外れ値
変化する傾き 未確認の変数
この正規確率プロットでは、点がほぼ直線に沿っています。非正規性、外れ値、未確認の変数の証拠は存在しません。
本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください