Minitabでは(0, 1)または(−1, 0, +1)のコード化スキームでカテゴリ変数をモデルに含むことができます。回帰分析のデフォルトは(0, 1)で、分散分析とDOEのデフォルトは(−1, 0, +1)です。これら 2 つのスキームの間で選択しても、カテゴリ変数の統計的有意性は変わりません。ただし、符号化スキームは係数とそれらの解釈方法を変更します。
表示されているコード化スキームを検証し、目的の分析が行われたことを確認してください。カテゴリ変数の係数は以下のように解釈します:
モデルの連続予測変数を標準化するよう指定した場合、連続予測変数の標準化表にその方法についての詳細が表示されます。
通常、標準化は変数のセンタリングかスケーリング、またはその両方の目的で行います。変数をセンタリングすると、多項式項や交互作用項によって起こる多重共線性を回避して、係数の推定の正確性を向上させることができます。ほとんどの場合、変数をスケーリングすると、変数のさまざまな尺度が共通の尺度に変換され、係数のサイズを比較できるようになります。
Box-Cox変換を使う場合、推定値λ(ラムダ)は正規に分布された変換済み応答値を生成する最適値となります。Minitabのデフォルトでは、四捨五入したλ値が使用されます。
λは、Minitabで応答値を変換する際に使う指数です。たとえば、λ=-1の場合、すべての応答値(Y)は、Y-1 = −1/Yと変換されます。λ=0の場合、これはY0ではなYの自然対数を表します。
λ(ラムダ)の信頼区間は、サンプルを抽出した母集団全体の真のλ値を含む可能性が高い値の幅です。
データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。
信頼区間を使用して、サンプルのλ値の推定値を評価します。
たとえば、信頼水準が95%の場合、信頼区間に母集団のλ値が含まれていることが95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて有用でない場合は、サンプルサイズを増やすことを検討します。
デフォルトでは、より直観的な変換のために最適なλ(ラムダ)値は四捨五入されます。変換に最適値を使用したい場合は、を選択します。
λ | 変換 |
---|---|
-2 | −Y-2 = −1 / Y2 |
-1 | −Y-1 = −1 / Y |
-0.5 | −Y-0.5 = −1 / (Yの平方根) |
0 | 対数(Y) |
0.5 | Y-0.5 =Yの平方根 |
1 | Y |
2 | Y2 |
テストデータセットを使用する場合、表にはテストデータセット内のデータのパーセントが示されます。クロス検証を使用すると、分割数が表に表示されます。検定データセット内の観測値または各フォールドにある観測値を指定する列を指定すると、表に列のタイトルが表示されます。
結果に含まれる検証方法を検証し、目的の分析が行われたことを確認してください。