クロス集計とカイニ乗の集計統計量

カテゴリ変数のクロス集計で使用されるすべての統計量の定義と解釈について解説します。

観測度数と期待度数

観測値数は、カテゴリに属するサンプル内の観測実数です。

観測度数は変数が独立している場合に、平均的に、セルで期待される頻度です。Minitabでは、行と列の合計の製品を観測値の総数で割って、期待度数を計算します。

解釈

出力表の各セルで観測値と期待値を比較することができます。これらの結果では、観測セル度数が各セルの最初の数、期待度数が各セルの2番目の数です。

2つの変数が関連している場合、第1の変数に対する観測値の分布は、第2の変数のカテゴリに応じて異なります。2つの変数が互いに独立である場合、第1の変数に対する観測値の分布は、第2の変数の全カテゴリについて類似します。この例では、表の列1、行2より、観測度数は76、期待度数は60.78です。観測度数は、変数が独立である場合に期待される度数よりも、はるかに大きいように見えます。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
         
2764732155
  60.7850.9143.31 
         
3364034110
  43.1436.1330.74 
         
すべて160134114408
セルの内容
      計数
      期待度数
観測度数と期待度数を標準化残差と比較するのが、より良い方法です。

表百分率(行の%、列の%、総%)

各セルで、選択する表百分率が表示されます。
行の%
各セルが表の行内で占める百分率です。各セルの行百分率は、セル度数を行の合計で割って求めます。
列の%
各セルが表の列内で占める百分率です。各セルの列百分率は、セル度数を列の合計で割って求めます。
合計の%
各セルが観測値の合計で占める百分率です。各セルの総百分率は、セル度数を全体の合計で割って求めます。

解釈

表百分率を用いて、度数がカテゴリ間でどう分布しているのかを理解します。

これらの結果では、セル度数が各セルの最初の数です。次に、行百分率、列百分率、全体の百分率と、セルの次の番号順になっていきます。表示するこれらの百分率を一つ以上選択できます。

たとえば、最初のシフトの機械1のデータについてです。
  • セル度数は48です。
  • 行百分率は33.57%で、48を143で割っています。
  • 列百分率は30.00%で、48を160で割っています。
  • 全体の百分率は11.76%で、48を408で割っています。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  33.5732.8733.57100.00
  30.0035.0742.1135.05
  11.7611.5211.7635.05
         
2764732155
  49.0330.3220.65100.00
  47.5035.0728.0737.99
  18.6311.527.8437.99
         
3364034110
  32.7336.3630.91100.00
  22.5029.8529.8226.96
  8.829.808.3326.96
         
すべて160134114408
  39.2232.8427.94100.00
  100.00100.00100.00100.00
  39.2232.8427.94100.00
セルの内容
      計数
      行の%
      列の%
      合計の%

生残差(R)

生残差は、観測度数と期待度数の差です。
観測度数
観測値数は、カテゴリに属するサンプル内の観測実数です。
期待度数

観測度数は、変数が互いに独立している場合の、期待されるセル内の度数です。Minitabでは、期待度数を、行の合計と列の合計を掛け合わせて、観測値の合計数で割って計算します。

解釈

出力表の観測値と期待値を比べることができます。

これらの結果では、セル度数が各セルの最初の数、期待度数が各セルの2番目の数、生残差が各セルの3番目の数です。機械2、第1シフトの生残差が最大であり、機械2の第1シフト中に見られる期待される欠陥と実際の欠陥の差が大きいことを示しています。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -8.0780.0348.044 
         
2764732155
  60.7850.9143.31 
  15.216-3.907-11.309 
         
3364034110
  43.1436.1330.74 
  -7.1373.8733.265 
         
すべて160134114408
セルの内容
      計数
      期待度数
      残差
観測度数と期待度数を標準化残差と比較するのが、より良い方法です。

標準化残差

標準化残差は、生残差(または観測度数と期待度数の差)を期待度数の平方根で割ったものです。

解釈

出力表の標準化残差を比較して、どのカテゴリ変数で期待度数とサンプルサイズに関連する実度数の差が一番大きいか、また依存しているように見えるかを確認します。たとえば、出力表の標準化残差を評価して、不良品を生み出す機械とシフトの間の関連性を見ることができます。

これらの結果では、セル度数が各セルの最初の数、期待度数が各セルの2番目の数で、標準化残差が各セルの3番目の数です。正の標準化残差は、予測以上に不良の柄があったことを示しています。不の標準化残差は、予測よりも不良の柄が少なかったことを示しています。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -1.07880.00501.2726 
         
2764732155
  60.7850.9143.31 
  1.9516-0.5476-1.7184 
         
3364034110
  43.1436.1330.74 
  -1.08670.64430.5889 
         
すべて160134114408
セルの内容
      計数
      期待度数
      標準化残差

調整済み残差(A)

調整済み残差は、生残差(または観測度数と期待度数の差)を標準誤差の推定値で割ったものです。調整済み残差を用いて、サンプルサイズによるばらつきを考慮に入れます。

解釈

出力表の調整済み残差を比較して、どのカテゴリで期待度数とサンプルサイズに関連する実度数の差が一番大きいかを確認します。たとえば、どの機械、どのシフトで、不良品の期待数と不良品の実数の差が一番大きいのかを確認できます。

これらの結果では、セル度数は各セルの最初の数であり、期待度数は各セルの2番目の数であり、調整済み残差は各セルの3番目の数です。正の調整済み残差は、サンプルサイズで調整された期待よりも不良品の柄が多かったことを示しています。負の調整済み残差は、サンプルサイズで調整された期待よりも不良品の柄が少なかったことを示しています。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  -1.71690.00761.8602 
         
2764732155
  60.7850.9143.31 
  3.1788-0.8485-2.5707 
         
3364034110
  43.1436.1330.74 
  -1.63090.91990.8117 
         
すべて160134114408
セルの内容
      計数
      期待度数
      調整済み残差

カイ二乗への寄与度

Minitabでは、各セルのカイ二乗統計量への寄与度が表示され、各セルの相違に起因している合計カイ二乗統計量の割合が定量化されます。

Minitabでは、各セルのカイ二乗統計量への寄与度が、そのセルの期待値で割った、セルの観測値と期待値の間の差の平方として計算されます。カイ二乗統計量はすべてのセルのこれらの値の和です。

解釈

これらの結果では、各セルのカイ二乗の和は、ピアソンカイ二乗統計量で11.788です。最大の寄与度は、最初のシフトと3番目のシフトの際の機械2であらわれます。最小の寄与度は、2番目のシフトの際の機械1と2であらわれます。

行: 機械ID   列: ワークシート列

第1シフト第2シフト第3シフトすべて
         
1484748143
  56.0846.9739.96 
  1.16370.00001.6195 
         
2764732155
  60.7850.9143.31 
  3.80880.29982.9530 
         
3364034110
  43.1436.1330.74 
  1.18090.41510.3468 
         
すべて160134114408
セルの内容
      計数
      期待度数
      カイ二乗への寄与度