適合線プロットの適合線プロット

適合線プロットの定義と解釈について解説します。

適合線プロット

適合線プロットは、応答と予測変数データを表示します。このプロットには、回帰式を表す回帰線が含まれます。プロット上の95%の信頼区間と予測区間を表示することを選択することもできます。

解釈

モデルの適合度と目的に合致するかどうかを評価します。適合線プロットを調べ、以下の基準を満たしているかを判断します。
  • 全予測値の範囲全体を通して、サンプルには十分な数の観測値が含まれています。
  • モデルがデータの曲面性に適切に適合します。線形モデルを適合してデータに曲面性を見つけた場合、分析を繰り返して2次または3次モデルを選択します。どちらのモデルが最適かを判断するには、プロットと適合度統計量を調べてください。モデル内の項のp値を確認し、それらが統計的に有意であることを確かめ、知識を基に実質的な有意性を評価してください。
  • 結果に大きな影響を与える可能性のある外れ値がないか探します。外れ値がある場合は、その原因を特定してください。データ入力や測定の誤差はすべて修正します。異常な1回だけの事象(特殊原因)に関連付けられたデータ値を除外することを検討してください。それから、分析を繰り返します。外れ値の検出に関する詳細は、異常な観測値を参照してください。

回帰式

回帰式を使用して、モデルにおける応答と項の関係を表します。回帰式は回帰線の代数で表現されます。線形モデルの回帰式は次の形式を取ります:Y= b0 + b1x1。回帰式では、Yが応答変数、b0が定数または切片、b1が線形項の推定係数(線の傾き)、x1が項の値を表します。

以下の形式を取る2つ以上の項を持つ回帰式。

y = b0 + b1X1 + b2X2 + ... + bkXk

回帰式では、各文字は以下を表します。
  • yは応答変数です
  • b0は定数です
  • b1, b2, ..., bkは係数です
  • X1, X2, ..., Xkは項の値です

式の係数

回帰係数は、予測変数と応答変数の関係の、サイズと方向を表します。係数とは、回帰式において項の値に乗じられる数です。

解釈

項の係数は、その項の1単位分の変化に対する平均応答の変化を表します。相関係数の符号は項と応答変数の関係の方向を示します。項が増えるにつれて係数が負値になる場合は、平均応答値は減少します。項が増えるにつれて係数が正値になる場合は、平均応答値は増加します。

例えば、あるマネージャーは従業員のスキルテストのスコアが回帰モデル y = 130 + 4.3x によって予測できると判断しました。この式でxは社内トレーニングの時間(0から20)、yはテストスコアです。係数、または傾きは4.3で、これはトレーニング1時間ごとにテストの平均スコアが4.3ポイントずつ上がることを示しています。

係数の大きさは、応答変数に対して項が持つ影響力の実質的な有意性を評価するのに役立ちます。ただし、係数の大きさは項の統計的な有意性は示しません。これは有意性の計算には応答データの変動も考慮されるためです。統計的な有意性を判断するには、項のp値を調べます。

95%信頼区間(CI)

適合値の信頼区間は、指定された予測を条件として、応答平均値になる可能性のある値の範囲を表します。

解釈

信頼区間を使用して、変数の観測値に関する適合値の推定値を評価します。

たとえば、信頼水準が95%の場合は、モデル内の指定された値の変数を持つ母集団が含まれる信頼区間を95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。専門知識を使って、信頼区間に実質的に有意な値が含まれているかどうかを状況に応じて判断します。信頼区間が広い場合、将来価値の平均値に対する信頼性が低くなります。信頼区間が広すぎて役に立たない場合、サンプルのサイズを大きくすることを検討します。

95%予測区間

予測区間は、予測変数の値に関する将来の応答が1つ含まれる可能性のある範囲です。

解釈

信頼帯が95%の場合、これから得られる観測値は、95%の信頼で紫色の線で示された区間に含まれます(ただし、これは分析に含まれた範囲内の密度の値だけについて言えることなので注意してください)。(ただし、これは分析に含まれた範囲内の密度値だけについて言えることなので注意してください)。

たとえば、家具メーカーの材料エンジニアが、基板の密度からパーティクルボードの剛性を予測する単純な回帰モデルを開発します。エンジニアは、モデルが分析の仮定を満たすかどうかを検証します。次に、アナリストはモデルを使用して剛性を予測します。

たとえば、回帰式は、新しい観測値に対して予測される剛性が、密度が20のとき12.70 – 1.517*20 + 0.1622*202、つまり47.24であることを予測します。このような観測値の剛性値が厳密に47.24になる可能性は低いと考えられますが、予測区間は実際の値が95%の信頼度でおよそ31~63になるであろうことを示します。

予測区間は、対応する信頼区間よりも必ず広くなります。この例では、平均剛性およそ43~50であるとエンジニアが95%信頼できることを、信頼区間が示しています。