一般線形モデルの適合の方法表

方法表のすべての統計量の定義と解釈について解説します。

因子情報(F)

因子情報表には、計画の因子、因子の種類、水準の数、および水準の値が表示されます。

因子とは、実験において制御する変数のことを言います。独立変数、説明変数、予測変数とも呼ばれます。因子によって仮定できる有効値の数には限りがあり、因子水準として知られています。因子はテキスト値でも数値でも構いません。実験において、他にも数値はある中で数値因子はわずかな制御値を使用します。

解釈

因子情報表を使い、目的の分析が行われたかどうかを検証してください。

一般線形モデルにおいて、因子は固定にも変量にもなり得ます。一般に、因子の水準が実験者によって制御される場合、その因子は固定です。一方、因子の水準が母集団からランダムに抽出される場合、その因子は変量です。

たとえば、プラスチックの製造過程において、プラスチックの強度に影響を与える可能性のある要因を研究しているとします。アナリストは、添加物、温度、および作業者を実験に含めました。添加物はタイプAまたはタイプBのカテゴリ変数です。温度は連続変数ですが、アナリストは3つの温度設定(100℃、150℃、200℃)だけを実験に含めることにしました。アナリストがこの実験における2つの因子を制御するので、これらの因子はともに固定です。一方、作業者に関しては工場の中からランダムに選ぶことにしました。よって、作業者は変量因子となります。

因子 添加物 温度 作業者
種類 固定(F) 固定(F) ランダム
水準 A 低(100℃) A
水準 B 中(150℃) B
水準   高(200℃) C

因子には交差因子または枝分かれ因子を使用できます。2つの因子のうち、片方の因子の各水準が、他方の因子の各水準との組み合わせで出現している場合、これらの因子は交差しているといいます。2つの因子のうち、片方の因子の水準が類似しているが同一ではなく、それぞれが他方の因子の異なる水準との組み合わせで出現する場合、これらの因子は枝分かれしているといいます。

たとえば、計画に装置と作業者が含まれる場合、作業者が全員すべての装置を扱うとすると因子は交差していると言えます。しかし、各装置にそれぞれ異なる作業者が付く場合は、作業者は装置から枝分かれしているということになります。

因子情報表では、括弧で枝分かれ因子が示されます。たとえば、作業者(装置)という記載は、作業者が装置から枝分かれしていることを示しています。

因子の詳細は、因子と因子水準因子、交差因子、枝分かれ因子とは固定因子と変量因子の違いを参照してください。

因子のコード化

Minitabでは、(0, 1)または(−1, 0, +1)のコード化スキームでカテゴリ変数をモデルに含むことができます。回帰分析のデフォルトは(0, 1)で、分散分析とDOEのデフォルトは(−1, 0, +1)です。どちらを選択するかでカテゴリ変数の統計的な有意性は変わりませんが、係数とその解釈方法は変わります。

解釈

表示されているコード化スキームを検証し、目的の分析が行われたことを確認してください。カテゴリ変数の係数は以下のように解釈します:

  • (0, 1)のコード化スキームでは、各係数は各水準平均と参照水準平均間の差を表します。参照水準の係数は、係数表には表示されません。
  • (−1, 0,+1)のコード化スキームでは、各係数は各水準平均と全体平均間の差を表します。

共変量の標準化

モデルの共変量を標準化するよう指定した場合、共変量標準化表にその方法についての詳細が表示されます。

通常、標準化は変数のセンタリングかスケーリング、またはその両方の目的で行います。変数をセンタリングすると、多項式項や交互作用項によって起こる多重共線性を回避して、係数の推定の正確性を向上させることができます。ほとんどの場合、変数をスケーリングすると、変数のさまざまな尺度が共通の尺度に変換され、係数のサイズを比較できるようになります。

解釈

標準化方法の表を使い、目的の分析が行われたかどうかを検証してください。選択した方法によっては、次に示すように係数の解釈を変更する必要があるかもしれません。
最低水準と最高水準を指定して、-1および+1としてコード化
この方法では、変数はセンタリングおよびスケーリングされます。Minitabではこの方法は実験計画(DOE)で使用されます。係数は、指定した最高値と最低値に関連付けられた応答の変化の平均を表します。
平均を引き、標準偏差で割る
この方法では、変数はセンタリングおよびスケーリングされます。各係数は変数の標準偏差が1つ変化した場合に期待される応答の変化を表します。
平均を引く
この方法では、変数がセンタリングされます。各係数は、元の測度で測られる、変数が1単位分変化した場合に期待される応答の変化を表します。平均を引くと、全ての予測変数がそれぞれ平均値にある場合、定数係数は平均応答を推定します。
標準偏差で割る
この方法では、変数がスケーリングされます。各係数は変数の標準偏差が1つ変化した場合に期待される応答の変化を表します。
指定した値を引き、別の値で割る
この方法における効果および解釈は、入力する値により異なります。

推定値 λ

Box-Cox変換を使う場合、推定値λ(ラムダ)は正規に分布された変換済み応答値を生成する最適値となります。Minitabのデフォルトでは、四捨五入したλ値が使用されます。

解釈

λは、Minitabで応答値を変換する際に使う指数です。たとえば、λ=-1の場合、すべての応答値(Y)は、Y-1 = −1/Yと変換されます。λ=0の場合、これはY0ではなYの自然対数を表します。

λの95%信頼区間

λ(ラムダ)の信頼区間は、サンプルを抽出した母集団全体の真のλ値を含む可能性が高い値の幅です。

データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。

解釈

信頼区間を使用して、サンプルのλ値の推定値を評価します。

たとえば、信頼水準が95%の場合、信頼区間に母集団のλ値が含まれていることが95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて有用でない場合は、サンプルサイズを増やすことを検討します。

四捨五入したλ

デフォルトでは、より直観的な変換のために最適なλ(ラムダ)値は四捨五入されます。変換に最適値を使用したい場合は、ファイル > オプション > 線形モデル > 結果の表示を選択します。

解釈

以下は、一般的な四捨五入されたλ値で、その値がどのように応答変数を変換するかを表しています。
λ 変換
-2 −Y-2 = −1 / Y2
-1 −Y-1 = −1 / Y
-0.5 −Y-0.5 = −1 / (Yの平方根)
0 対数(Y)
0.5 Y-0.5 =Yの平方根
1 Y
2 Y2