クロス集計とカイニ乗の集計統計量

カテゴリ変数のクロス集計で使用されるすべての統計量の定義と解釈について解説します。

観測度数と期待度数

観測値数は、カテゴリに属するサンプル内の観測実数です。

観測度数は変数が独立している場合に、平均的に、セルで期待される頻度です。Minitabでは、行と列の合計の製品を観測値の総数で割って、期待度数を計算します。

解釈

出力表の各セルで観測値と期待値を比較することができます。これらの結果では、観測セル度数が各セルの最初の数、期待度数が各セルの2番目の数です。

2つの変数が関連している場合、第1の変数に対する観測値の分布は、第2の変数のカテゴリに応じて異なります。2つの変数が互いに独立である場合、第1の変数に対する観測値の分布は、第2の変数の全カテゴリについて類似します。この例では、表の列1、行2より、観測度数は76、期待度数は60.78です。観測度数は、変数が独立である場合に期待される度数よりも、はるかに大きいように見えます。

行: 機械ID 列: ワークシート列 第1シフト 第2シフト 第3シフト すべて 1 48 47 48 143 56.08 46.97 39.96 2 76 47 32 155 60.78 50.91 43.31 3 36 40 34 110 43.14 36.13 30.74 すべて 160 134 114 408 セルの内容 計数 期待度数
観測度数と期待度数を標準化残差と比較するのが、より良い方法です。

表百分率(行の%、列の%、総%)

各セルで、選択する表百分率が表示されます。
行の%
各セルが表の行内で占める百分率です。各セルの行百分率は、セル度数を行の合計で割って求めます。
列の%
各セルが表の列内で占める百分率です。各セルの列百分率は、セル度数を列の合計で割って求めます。
合計の%
各セルが観測値の合計で占める百分率です。各セルの総百分率は、セル度数を全体の合計で割って求めます。

解釈

表百分率を用いて、度数がカテゴリ間でどう分布しているのかを理解します。

これらの結果では、セル度数が各セルの最初の数です。次に、行百分率、列百分率、全体の百分率と、セルの次の番号順になっていきます。表示するこれらの百分率を一つ以上選択できます。

たとえば、最初のシフトの機械1のデータについてです。
  • セル度数は48です。
  • 行百分率は33.57%で、48を143で割っています。
  • 列百分率は30.00%で、48を160で割っています。
  • 全体の百分率は11.76%で、48を408で割っています。
行: 機械ID 列: ワークシート列 第1シフト 第2シフト 第3シフト すべて 1 48 47 48 143 33.57 32.87 33.57 100.00 30.00 35.07 42.11 35.05 11.76 11.52 11.76 35.05 2 76 47 32 155 49.03 30.32 20.65 100.00 47.50 35.07 28.07 37.99 18.63 11.52 7.84 37.99 3 36 40 34 110 32.73 36.36 30.91 100.00 22.50 29.85 29.82 26.96 8.82 9.80 8.33 26.96 すべて 160 134 114 408 39.22 32.84 27.94 100.00 100.00 100.00 100.00 100.00 39.22 32.84 27.94 100.00 セルの内容 計数 行の% 列の% 合計の%

生残差(R)

生残差は、観測度数と期待度数の差です。
観測度数
観測値数は、カテゴリに属するサンプル内の観測実数です。
期待度数

観測度数は変数が独立している場合に、平均的に、セルで期待される頻度です。Minitabでは、行と列の合計の製品を観測値の総数で割って、期待度数を計算します。

解釈

出力表の観測値と期待値を比べることができます。

これらの結果では、セル度数が各セルの最初の数で、期待度数が各セルの2番目の数で、生残差が各セルの3番目の数です。シフト2の際の機械2で最大の生残差があり、したがってシフト2の際の機械2で発見された期待欠陥品と実欠陥品の差が最大であることを意味しています。
行: 機械ID 列: ワークシート列 第1シフト 第2シフト 第3シフト すべて 1 48 47 48 143 56.08 46.97 39.96 -8.078 0.034 8.044 2 76 47 32 155 60.78 50.91 43.31 15.216 -3.907 -11.309 3 36 40 34 110 43.14 36.13 30.74 -7.137 3.873 3.265 すべて 160 134 114 408 セルの内容 計数 期待度数 残差
観測度数と期待度数を標準化残差と比較するのが、より良い方法です。

標準化残差

標準化残差は、生残差(または観測度数と期待度数の差)を期待度数の平方根で割ったものです。

解釈

出力表の標準化残差を比較して、どのカテゴリ変数で期待度数とサンプルサイズに関連する実度数の差が一番大きいか、また依存しているように見えるかを確認します。たとえば、出力表の標準化残差を評価して、不良品を生み出す機械とシフトの間の関連性を見ることができます。

これらの結果では、セル度数が各セルの最初の数、期待度数が各セルの2番目の数で、標準化残差が各セルの3番目の数です。正の標準化残差は、予測以上に不良の柄があったことを示しています。不の標準化残差は、予測よりも不良の柄が少なかったことを示しています。
Rows: Machine ID Columns: Worksheet columns 1st shift 2nd shift 3rd shift All 1 48 47 48 143 56.08 46.97 39.96 -1.0788 0.0050 1.2726 2 76 47 32 155 60.78 50.91 43.31 1.9516 -0.5476 -1.7184 3 36 40 34 110 43.14 36.13 30.74 -1.0867 0.6443 0.5889 All 160 134 114 408 Cell Contents: Count Expected count Standardized residual

調整済み残差(A)

調整済み残差は、生残差(または観測度数と期待度数の差)を標準誤差の推定値で割ったものです。調整済み残差を用いて、サンプルサイズによるばらつきを考慮に入れます。

解釈

出力表の調整済み残差を比較して、どのカテゴリで期待度数とサンプルサイズに関連する実度数の差が一番大きいかを確認します。たとえば、どの機械、どのシフトで、不良品の期待数と不良品の実数の差が一番大きいのかを確認できます。

これらの結果では、セル度数は各セルの最初の数であり、期待度数は各セルの2番目の数であり、調整済み残差は各セルの3番目の数です。正の調整済み残差は、サンプルサイズで調整された期待よりも不良品の柄が多かったことを示しています。負の調整済み残差は、サンプルサイズで調整された期待よりも不良品の柄が少なかったことを示しています。
行: 機械ID 列: ワークシート列 第1シフト 第2シフト 第3シフト すべて 1 48 47 48 143 56.08 46.97 39.96 -1.7169 0.0076 1.8602 2 76 47 32 155 60.78 50.91 43.31 3.1788 -0.8485 -2.5707 3 36 40 34 110 43.14 36.13 30.74 -1.6309 0.9199 0.8117 すべて 160 134 114 408 セルの内容 計数 期待度数 調整済み残差

カイ二乗への寄与度

Minitabでは、各セルのカイ二乗統計量への寄与度が表示され、各セルの相違に起因している合計カイ二乗統計量の割合が定量化されます。

Minitabでは、各セルのカイ二乗統計量への寄与度が、そのセルの期待値で割った、セルの観測値と期待値の間の差の平方として計算されます。カイ二乗統計量はすべてのセルのこれらの値の和です。

解釈

これらの結果では、各セルのカイ二乗の和は、ピアソンカイ二乗統計量で11.788です。最大の寄与度は、最初のシフトと3番目のシフトの際の機械2であらわれます。最小の寄与度は、2番目のシフトの際の機械1と2であらわれます。

集計統計量: 機械ID, ワークシート列

行: 機械ID 列: ワークシート列 第1シフト 第2シフト 第3シフト すべて 1 48 47 48 143 56.08 46.97 39.96 1.1637 0.0000 1.6195 2 76 47 32 155 60.78 50.91 43.31 3.8088 0.2998 2.9530 3 36 40 34 110 43.14 36.13 30.74 1.1809 0.4151 0.3468 すべて 160 134 114 408 セルの内容 計数 期待度数 カイ二乗への寄与度
本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください