関連性のカイ二乗検定のすべての統計量を解釈する

関連性のカイ二乗検定で使用されるすべての統計量の定義と解釈について解説します。

観測度数と期待度数

観測値数は、カテゴリに属するサンプル内の観測実数です。

観測度数は変数が独立している場合に、平均的に、セルで期待される頻度です。Minitabでは、行と列の合計の製品を観測値の総数で割って、期待度数を計算します。

解釈

出力表の各セルで観測値と期待値を比較することができます。これらの結果では、観測セル度数が各セルの最初の数、期待度数が各セルの2番目の数です。

2つの変数が関連している場合、第1の変数に対する観測値の分布は、第2の変数のカテゴリに応じて異なります。2つの変数が互いに独立である場合、第1の変数に対する観測値の分布は、第2の変数の全カテゴリについて類似します。この例では、表の列1、行2より、観測度数は76、期待度数は60.78です。観測度数は、変数が独立である場合に期待される度数よりも、はるかに大きいように見えます。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -1.07880.00501.2726 
         
2764732155
  60.7850.9143.31 
  1.9516-0.5476-1.7184 
         
3364034110
  43.1436.1330.74 
  -1.08670.64430.5889 
         
すべて160134114408
セルの内容
      計数
      期待度数
      標準化残差

すべての行と列の度数

Minitabは行と列の周辺度数を表示します。
行度数
各表の行全体の度数の和。
列度数
各表の列全体の度数の和。
合計
度数の和はすべてのセルに対するものです。すべての行度数の和は、すべての列度数の和と等しいです。

解釈

周辺度数を用いて、度数がカテゴリ間でどう分布しているのかを理解します。

これらの結果では、行1の合計は143、行2の合計は155、行3の合計は110です。すべての行の和は408です。列1の合計は160、列2の合計は134、列3の合計は114です。すべての列の和は408です。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -1.07880.00501.2726 
         
2764732155
  60.7850.9143.31 
  1.9516-0.5476-1.7184 
         
3364034110
  43.1436.1330.74 
  -1.08670.64430.5889 
         
すべて160134114408
セルの内容
      計数
      期待度数
      標準化残差

カイ二乗への寄与度

Minitabでは、各セルのカイ二乗統計量への寄与度が表示され、各セルの相違に起因している合計カイ二乗統計量の割合が定量化されます。

Minitabでは、各セルのカイ二乗統計量への寄与度が、そのセルの期待値で割った、セルの観測値と期待値の間の差の平方として計算されます。カイ二乗統計量はすべてのセルに対するこれらの値の和です。

解釈

これらの結果では、各セルのカイ二乗の和は、ピアソンカイ二乗統計量で11.788です。最大の寄与度は、最初のシフトと3番目のシフトの際の機械2であらわれます。最小の寄与度は、2番目のシフトの際の機械1と2であらわれます。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  1.16370.00001.6195 
         
2764732155
  60.7850.9143.31 
  3.80880.29982.9530 
         
3364034110
  43.1436.1330.74 
  1.18090.41510.3468 
         
すべて160134114408
セルの内容
      計数
      期待度数
      カイ二乗への寄与度

カイ二乗検定

カイ二乗自由度p値
Pearson11.78840.019
尤度比11.81640.019

ピアソンのカイ二乗と尤度比のカイ二乗

Minitabではピアソンのカイ二乗検定と尤度比カイ二乗検定が実行されます。変数に関連性があるか(依存しているか)どうかを判断するには、それぞれのカイ二乗検定を使用します。
ピアソンのカイ二乗検定

ピアソンのカイ二乗統計量(χ2)は、観測度数と期待度数の差の二乗を示します。

尤度比のカイ二乗検定

尤度比カイ二乗統計量(G2)は、観測度数の期待度数に対する比率に基づいています。

解釈

変数に関連性があるかどうかをテストするには、カイ二乗統計量を使用します。

これらの結果では、両方のカイ二乗統計量がとても似ています。p値を用いて、カイ二乗統計量の有意性を評価します。

カイ二乗検定

カイ二乗自由度p値
Pearson11.78840.019
尤度比11.81640.019

期待度数が小さい時、結果は誤解を招く可能性があります。詳細は、関連性のカイ二乗検定のデータに関する考慮事項を参照します。

自由度(DF)

自由度(DF)は統計内で独立している情報の数です。表の自由度は(列数 – 1)に(行数 – 1)を乗じます。

解釈

Minitabでは、自由度を使用して、検定統計量と関連性のあるp値を判定します。

これらの結果では、自由度(DF)は4です。

カイ二乗検定

カイ二乗自由度p値
Pearson11.78840.019
尤度比11.81640.019

p値

p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。

p値を用いて、帰無仮説を却下するか却下できないかを判断し、2つのカテゴリ変数の間に関連性がないことを示します。

Minitabでは、カイ二乗統計量を使用してp値を決定します。

期待度数が1未満の場合は結果が無効の可能性があるため、Minitabではp値が表示されません。

解釈

変数が独立しているかどうかを判断するには、p値を有意水準と比較します。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には関連性が存在しない場合に、変数の間の関連性が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α: 変数には統計的に有意な関連性がある(H0却下)
p値が有意水準以下の場合は、帰無仮説を棄却し、変数の間に統計的に有意な関連性が存在すると結論付けます。
P値 > α: 変数に関連性があると結論付けることができない(H0却下失敗)
p値が有意水準より大きい場合は、変数は関連していると結論付けるのに十分な証拠を得られず、帰無仮説を棄却できません。

これらの結果では、p値は0.019です。p値はαより小さいため、帰無仮説を棄却します。変数に関連性があると結論付けることができます

カイ二乗検定

カイ二乗自由度p値
Pearson11.78840.019
尤度比11.81640.019

生残差(R)

生残差は、観測度数と期待度数の差です。
観測度数
観測値数は、カテゴリに属するサンプル内の観測実数です。
期待度数

観測度数は、変数が互いに独立している場合の、期待されるセル内の度数です。Minitabでは、期待度数を、行の合計と列の合計を掛け合わせて、観測値の合計数で割って計算します。

解釈

出力表の観測値と期待値を比べることができます。

これらの結果では、セル度数が各セルの最初の数、期待度数が各セルの2番目の数、生残差が各セルの3番目の数です。機械2、第1シフトの生残差が最大であり、機械2の第1シフト中に見られる期待される欠陥と実際の欠陥の差が大きいことを示しています。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -8.0780.0348.044 
         
2764732155
  60.7850.9143.31 
  15.216-3.907-11.309 
         
3364034110
  43.1436.1330.74 
  -7.1373.8733.265 
         
すべて160134114408
セルの内容
      計数
      期待度数
      残差
観測度数と期待度数を標準化残差と比較するのが、より良い方法です。

標準化残差

標準化残差は、生残差(または観測度数と期待度数の差)を期待度数の平方根で割ったものです。

解釈

出力表の標準化残差を比較して、どのカテゴリ変数で期待度数とサンプルサイズに関連する実度数の差が一番大きいか、また依存しているように見えるかを確認します。たとえば、出力表の標準化残差を評価して、不良品を生み出す機械とシフトの間の関連性を見ることができます。

これらの結果では、セル度数が各セルの最初の数、期待度数が各セルの2番目の数で、標準化残差が各セルの3番目の数です。正の標準化残差は、予測以上に不良の柄があったことを示しています。不の標準化残差は、予測よりも不良の柄が少なかったことを示しています。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -1.07880.00501.2726 
         
2764732155
  60.7850.9143.31 
  1.9516-0.5476-1.7184 
         
3364034110
  43.1436.1330.74 
  -1.08670.64430.5889 
         
すべて160134114408
セルの内容
      計数
      期待度数
      標準化残差

調整済み残差(A)

調整済み残差は、生残差(または観測度数と期待度数の差)を標準誤差の推定値で割ったものです。調整済み残差を用いて、サンプルサイズによるばらつきを考慮に入れます。

解釈

出力表の調整済み残差を比較して、どのカテゴリで期待度数とサンプルサイズに関連する実度数の差が一番大きいかを確認します。たとえば、どの機械、どのシフトで、不良品の期待数と不良品の実数の差が一番大きいのかを確認できます。

これらの結果では、セル度数は各セルの最初の数であり、期待度数は各セルの2番目の数であり、調整済み残差は各セルの3番目の数です。正の調整済み残差は、サンプルサイズで調整された期待よりも不良品の柄が多かったことを示しています。負の調整済み残差は、サンプルサイズで調整された期待よりも不良品の柄が少なかったことを示しています。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -1.71690.00761.8602 
         
2764732155
  60.7850.9143.31 
  3.1788-0.8485-2.5707 
         
3364034110
  43.1436.1330.74 
  -1.63090.91990.8117 
         
すべて160134114408
セルの内容
      計数
      期待度数
      調整済み残差