混合効果モデルの当てはめの周辺適合値と診断の表

周辺適合値と診断の表のすべての統計量の定義と解釈について解説します。

このトピックの内容

周辺適合値
適合値の標準誤差（SE Fit）
周辺平均の自由度
周辺平均の信頼区間（95％の信頼区間）
周辺残差
標準化残差（Std Resid）
Hi（てこ比）

周辺適合値

周辺適合値は、さまざまな固定因子水準における平均応答値を表します。周辺適合値は周辺適合式により算出されます。

適合値の標準誤差（SE Fit）

適合値の標準誤差（SE Fit）は、特定の変数設定について推定される平均応答の変動を推定します。平均応答の信頼区間の計算には、適合値の標準誤差が使用されます。標準誤差は常に正数です。

周辺平均の自由度

自由度（DF）は、平均応答の信頼区間を推定するデータの情報量を表します。

解釈

自由度を使用して、異なる周辺平均に利用できる情報量を比較します。一般に、自由度が多いほど、平均の信頼区間は自由度が少ない場合よりも狭くなります。異なる観測値の平均の標準誤差には差があるので、自由度が多い平均の信頼区間は、自由度が少ない平均の信頼区間より狭くある必要はありません。

周辺平均の信頼区間（95％の信頼区間）

信頼区間（Cl）は、対応する周辺平均応答が含まれている可能性のある値の範囲です。

データのサンプルはランダムであるため、2つの母集団サンプルの信頼区間が同一である可能性は低くなります。しかし、サンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合（%）を区間の信頼水準と言います。

信頼区間は、次の2つの部分で構成されています。

解釈

信頼区間を使用して、周辺平均応答が特定の値と比較して統計的に大きいか同等か、あるいは小さいかを評価します。また、対応する未知の周辺平均応答が含まれる可能性のある値の範囲を特定することもできます。

周辺残差

残差（e_i）とは、観測値（y）とそれに対応する周辺適合値（).

解釈

残差をプロットし、モデルが適切であり、混合効果モデルの仮定が満たされているかどうかを確認できます。残差を調べることにより、データに対するモデルの適合度に関して有用な情報を得ることができます。一般に、残差は0付近にランダムに分布し、明確なパターンや異常値がありません。Minitabが、データに異常な観測値が含まれていると判断した場合は、これらの観測値が特定された、異常な観測値の周辺適合値と診断の表が出力されます。ラベルが付けられた異常な観測値は、提示された周辺式にしっかりと従っていません。ただし、いくつかの異常な観測値があることは予測されています。たとえば、大きな残差の基準に基づくと、観測値の約5%は大きな残差を持つとしてフラグが付けられることが予測されます。

標準化残差（Std Resid）

標準化周辺残差は、残差（e_i）をその標準偏差の推定値で割ったものです。

解釈

標準化周辺残差を使用すると、外れ値を検出しやすくなります。2より大きく、-2より小さい標準化周辺残差は、通常は大きなものであると見なされます。異常な観測値の周辺適合値と診断の表では、これらの観測値は「R」で示されます。ラベルがつけられた観測値は、提示された周辺適合式にしっかりと従っていません。ただし、いくつかの異常な観測値があることは予測されています。たとえば、大きな標準化周辺残差の基準に基づくと、観測値の約5%は大きな標準化残差を持つとしてフラグがつけられることが予測されます。

標準化周辺残差が役に立つのは、生の周辺残差が外れ値を識別するものとして許容されない場合があるためです。生の周辺残差の分散は、それに関連づけられたx値によって異なることがあります。この残差の不一致では、生の周辺残差の大きさを評価するのが難しくなります。周辺残差を標準化することで、異なる分散が共通の尺度に変換され、この問題は解消されます。

Hi（てこ比）

混合効果モデルのHiは、固定効果項に対しててこ比が高い値に設定されたデータ点の特定にのみ使用することができます。Hiの計算に使用される計画行列は固定効果項の計画行列です。

解釈

てこ比値は0から1の間の値で、Minitabの異常な観測値の周辺適合値と診断の表では、観測値のてこ比値が3p/nまたは0.99のいずれか小さい方を超えていることがXという文字によって示されます。3p/nでは、pはモデル内の係数の数で、nは観測値の数を表します。Minitabで「X」とラベル付けされる観測値は、影響力がある可能性があります。

影響力のある観測値は、モデルに対し不均衡な影響を与えるので、誤解を招く結果が生じる可能性があります。たとえば、影響力のある点を含める、または除外することにより、係数が統計的に有意かどうかが変わることがあります。影響力のある観測値は、てこ比点、外れ値またはその両方である可能性があります。

影響力のある観測値を確認する場合、観測値がデータ入力エラーまたは測定エラーでないかどうかを調べます。観測値がデータ入力エラーでも測定エラーでもない場合、観測値の影響度を調べます。まず、観測値のあるモデルとないモデルを適合します。その後、係数、p値、R²やその他のモデルの情報を比較します。影響力のある観測値を除外したときにモデルが大きく変化する場合は、モデルをさらに調べて、モデルの指定が誤っていないかどうかを確認します。問題を解決するには、さらに多くのデータを集めることが必要な場合もあります。