2サンプルの分散のすべての統計量およびグラフを解釈する

2サンプルの分散分析で使用されるすべての統計量とグラフの定義と解釈について解説します。

帰無仮説と対立仮説

帰無仮説と対立仮説は、ある母集団についての相互に排他的な2つの仮説です。仮説検定手法では、サンプルデータを用いて帰無仮説を棄却するかどうかを判断します。
帰無仮説
帰無仮説では母集団パラメータ(平均や標準偏差など)は仮説値に等しいと仮定します。帰無仮説とは多くの場合、前回の分析や専門知識を基にした最初の主張を指します。
対立仮説
対立仮説では、母集団パラメータは帰無仮説の仮説値よりも小さい、大きい、異なると仮定します。対立仮説とは、真であると確信できる、または真であることの証明が期待できる仮説を指します。

解釈

出力では、帰無仮説と対立仮説により、仮説比として正しい値を入力したことを検証できます。

有意水準

有意水準(αまたはアルファで示される)とは、帰無仮説が正しいにもかかわらず帰無仮説を棄却するリスク(第1種の過誤)の最大許容水準です。通常、データを分析する前に有意水準を選択します。Minitabでは、信頼水準を指定することで有意水準を選択できます。これは、有意水準が1から信頼水準を引いたものに等しいためです。Minitabでのデフォルトの信頼水準は0.95であるため、デフォルトの有意水準は0.05となります。

解釈

有意水準をp値と比較して、帰無仮説(H0)を棄却するか棄却できないかを決定します。p値が有意水準より小さい場合、通常は、結果が統計的に有意であり、H0を棄却できると解釈します。

通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。有意水準が0.05の場合は、実際には差がないのに差が存在すると結論付けるリスクが5%あることを示します。
  • 存在する可能性がある差がより確実に検出されるようにするには、0.10などの高い値の有意水準を選択します。たとえば、品質エンジニアが新しいボールベアリングの安定性を現行のベアリングの安定性と比較するとします。ボールベアリングが不安定だと大事故が発生する可能性があるため、エンジニアは、新しいボールベアリングの安定性について強い確信を持っている必要があります。この場合エンジニアは、ボールベアリングの安定性における潜在的な差がすべて確実に検出されるよう、有意水準として0.10を選択します。
  • 実際に存在する差のみが確実に検出されるようにするには、0.01などの低い値の有意水準を選択します。たとえば、製薬会社の科学者は、会社の新薬によって症状が著しく緩和されるという主張について、非常に強い確信を持っている必要があります。この場合科学者は、症状における有意差が確かに存在することを示すため、有意水準として0.001を選択します。

N

サンプルサイズ(N)は、サンプルに含まれる観測値の合計数です。

解釈

サンプルサイズは、信頼区間と検定の検出力に影響します。

通常、サンプルサイズが大きいほど信頼区間が狭くなります。また、サンプルサイズが大きいほど、検定での差の検出力が高くなります。詳細は、検出力とはを参照してください。

標準偏差

標準偏差とは、散布度、つまり平均を中心としたデータの広がり方を表す最も一般的な測度です。記号σ(シグマ)は、母集団の標準偏差を示す場合によく使用されますが、sはサンプルの標準偏差を示す場合にも使用されます。多くの場合、工程に対してランダム(自然)な変動は雑音と呼ばれます。

標準偏差は、データと同じ単位を使用します。

解釈

各サンプルの標準偏差は、各母集団の標準偏差の推定値です。Minitabでは、標準偏差から母集団の標準偏差での比が推定されます。この比に注目してください。

標準偏差を使用して、工程の全体的な変動を推定するためのベンチマークを設定することもできます。
病院1
病院2
退院時間

管理者が、2つの病院の救急部門で処置を受けた患者の退院時間を追跡するとします。平均退院時間はほぼ同じ(35分)ですが、標準偏差には有意差があります。病院1の標準偏差はおよそ6です。平均すると、患者の退院時間は平均(点線)から約6分離れています。病院2の標準偏差はおよそ20です。平均すると、患者の退院時間は平均(点線)から約20分離れることになります。

分散

分散は、平均を中心としたデータの広がりを測定します。分散は標準偏差の二乗に等しくなります。

解釈

各サンプルの分散は、各母分散の推定値です。Minitabでは、分散から母分散での比が推定されます。この比に注目してください。

標準偏差の推定比

標準偏差の比は、最初のサンプルの標準偏差を2番目のサンプルの標準偏差で除算した値です。

解釈

サンプルデータの標準偏差の推定比は、母集団標準偏差での比の推定値です。

推定比は母集団全体ではなくサンプルデータに基づくため、サンプル比率が母比率に一致する可能性は低いと言えます。より良好に比を推定するためには、信頼区間を使用します。

分散の推定比

分散の比は、最初のサンプルの分散を2番目のサンプルの分散で除算した値です。

解釈

サンプルデータの分散の推定比は、母分散での比の推定値です。

推定比は母集団全体ではなくサンプルデータに基づくため、サンプル比率が母比率に一致する可能性は低いと言えます。より良好に比を推定するためには、信頼区間を使用します。

信頼区間(CI)と限界

信頼区間は、母比率の値が含まれる可能性が高い範囲です。データのサンプルはランダムであるため、2つの母集団サンプルの信頼区間が同一である可能性は低くなります。しかし、サンプルを何度も繰り返して測定すると、得られた信頼区間または限界値の特定の割合に未知の母比率が含まれることになります。このような比率を含む信頼区間や限界値の割合(%)を区間の信頼水準と言います。たとえば、95%の信頼水準は、母集団から100個のサンプルをランダムに採取した場合、そのうちおよそ95個からは母比率を含む区間が得られると期待することができます。

上限は、母比率がそれより小さくなる可能性が高い値です。下限は、母比率がそれより大きくなる可能性が高い値です。

信頼区間により、結果の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて役に立たない場合、サンプルのサイズを増加させることを検討します。 詳細は、信頼区間の精度を高める方法を参照してください。

デフォルトで2サンプルの分散検定にはルヴィーンの方法とボネットの方法の結果が表示されます。ボネットの方法のほうが基本的にルヴィーンの方法よりも信頼度が高いです。しかし、極端に偏ったり裾の重い分布ではルヴィーンの方法のほうがボネットの方法よりも信頼度は高いです。F検定は、データが正規分布に従うことが確実な場合にのみ使用してください。正規性からのわずかな偏差があってもF検定の結果に大きく影響する可能性があるためです。詳細は2サンプルの分散にBonettの方法またはLeveneの方法を使用する必要があるかを参照してください。

標準偏差の比

推定比Bonettを使用した比に対する
95%信頼区間
Leveneを使用した比に対する
95%信頼区間
0.658241(0.372, 1.215)(0.378, 1.296)

これらの結果では、2つの病院からの評価に対する標準偏差の推定母比率は0.658です。ボネットの方法によると、95%の信頼度で、病院の評価に対する標準偏差の母比率は0.372から1.215の間に含まれると考えることができます。

自由度

自由度(DF)とは、未知の母数の値を推定して推定値の変動性を計算するために「費やす」ことが可能なデータの情報量のことです。2サンプルの分散検定では、自由度はサンプルに含まれる観測値の数によって決まり、Minitabが使用する方法によっても異なります。

解釈

Minitabは、自由度を使用して検定統計量を判断します。自由度はサンプルサイズによって決まります。サンプルサイズを大きくすると、母集団に関して提供される情報が増え、自由度が高くなります。

ボネット(Bonett)の方法の検定統計量

検定統計量は、信頼区間を逆変換することでボネット(Bonett)の方法に対してMinitabによって算出される統計量です。ボネットの方法の検定統計量は要約データや非バランス型データに対しては使用できません。

解釈

検定統計量をカイ二乗分布の棄却限界値と比較して、帰無仮説を棄却するかどうかを判断できます。ただし通常は、検定のp値を使用して同じ決定を下すほうがより実用的で便利です。p値はすべてのサイズ検定で同じ意味になりますが、サンプルサイズによっては同じカイ二乗統計量で反対の結論を示すこともできます。

帰無仮説を棄却するかどうかを判断するには、検定統計量を棄却限界値と比較します。Minitabで棄却限界値を計算することも、ほとんどの統計に関する書籍に掲載されているカイ二乗表で棄却限界値を見つけることもできます。詳細は、逆累積分布関数(ICDF)の使用に進み、「ICDFを使用して重要な値を計算」をクリックします。
  • 両側検定の場合、棄却限界値は および . 検定統計量が最初の値より小さい、または2番目の値より大きい場合、帰無仮説を棄却します。検定統計量が最初と2番目の値の間である場合は、帰無仮説を棄却することはできません。
  • 「次より小さい」対立仮説の片側検定の場合、棄却限界値は. 検定統計量が棄却限界値より小さい場合、帰無仮説を棄却します。Z値の絶対値が棄却値より大きい場合、帰無仮説を棄却します。
  • 「次より大きい」片側検定の場合、棄却限界値は. 検定統計量が棄却限界値より大きい場合、帰無仮説を棄却します。Z値の絶対値が棄却値より大きい場合、帰無仮説を棄却します。

検定統計量はp値を計算するために使用されます。

ルヴィーン(Levene)の方法の検定統計量

検定では、観測値の絶対中央偏差に適用された一元配置分散分析のF統計量が使用されます。そのため、ルヴィーン(Levene)の方法を適用することは、観測値の絶対中央偏差に一元配置分散分析を適用するのと同等となります。2サンプル問題においては、この方法は2サンプルt検定を観測値の絶対中央偏差に適用するのとも同等となります。

解釈

検定統計量をF分布の棄却限界値と比較して、帰無仮説を棄却するかどうかを判断できます。ただし通常は、検定のp値を使用して同じ決定を下すほうがより実用的で便利です。

帰無仮説を棄却するかどうかを判断するには、検定統計量を棄却限界値と比較します。Minitabで棄却限界値を計算することも、ほとんどの統計に関する書籍に掲載されているF分布表で棄却値を見つけることもできます。詳細は、逆累積分布関数(ICDF)の使用に進み、「ICDFを使用して重要な値を計算」をクリックします。
  • 両側検定の場合、棄却限界値は および . 検定統計量が最初の値より小さい、または2番目の値より大きい場合、帰無仮説を棄却します。検定統計量が最初と2番目の値の間である場合は、帰無仮説を棄却することはできません。
  • 「次より小さい」対立仮説の片側検定の場合、棄却限界値は. 検定統計量が棄却限界値より小さい場合、帰無仮説を棄却します。Z値の絶対値が棄却値より大きい場合、帰無仮説を棄却します。
  • 「次より大きい」片側検定の場合、棄却限界値は. 検定統計量が棄却限界値より大きい場合、帰無仮説を棄却します。Z値の絶対値が棄却値より大きい場合、帰無仮説を棄却します。

検定統計量はp値を計算するために使用されます。

F方法の検定統計量

検定統計量は、観測された分散比を測定するF検定の統計量です。

解釈

検定統計量をF分布の棄却限界値と比較して、帰無仮説を棄却するかどうかを判断できます。ただし通常は、検定のp値を使用して同じ決定を下すほうがより実用的で便利です。

帰無仮説を棄却するかどうかを判断するには、(帰無仮説での)検定統計量の観測値を棄却限界値と比較します。Minitabで棄却限界値を計算することも、ほとんどの統計に関する書籍に掲載されているF分布表で棄却値を見つけることもできます。詳細は、逆累積分布関数(ICDF)の使用に進み、「ICDFを使用して重要な値を計算」をクリックします。
  • 両側検定の場合、棄却限界値は および . 検定統計量が最初の値より小さい、または2番目の値より大きい場合、帰無仮説を棄却します。検定統計量が最初と2番目の値の間である場合は、帰無仮説を棄却することはできません。
  • For a one-sided test with an alternative hypothesis of less than, the critical value is . 検定統計量が棄却限界値より小さい場合、帰無仮説を棄却します。Z値の絶対値が棄却値より大きい場合、帰無仮説を棄却します。
  • 「次より大きい」片側検定の場合、棄却限界値は. 検定統計量が棄却限界値より大きい場合、帰無仮説を棄却します。Z値の絶対値が棄却値より大きい場合、帰無仮説を棄却します。

検定統計量はp値を計算するために使用されます。

p値

p値は帰無仮説を棄却するための証拠を測定する確率です。p値が小さいほど、帰無仮説を棄却するための強力な証拠となります。

解釈

p値を使用して、母標準偏差または母分散間の差が統計的に有意かどうかを判断します。

母標準偏差間または母分散間の差が統計的に有意かどうかを判断するには、p値を有意水準と比較します。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。有意水準が0.05の場合は、実際には差がないのに差が存在すると結論付けるリスクが5%あることを示します。
p値 ≤ α: 標準偏差または分散の比は統計的に有意です(H0を棄却する)
p値が有意水準以下の場合は、帰無仮説を棄却する決定を下します。母標準偏差または母分散の比は、仮説比と等しくならないと結論付けることができます。仮説比を指定しなかった場合、Minitabでは、標準偏差間または分散間に差がないかどうかを検定します(仮説率 = 1)。専門知識に基づいて、差が実際に有意かどうかを判断します。詳細は、統計的有意性と実質的有意性を参照してください。
p値 > α: 標準偏または分散の比は統計的に有意ではありません(H0を棄却しない)
p値が有意水準よりも大きい場合は、帰無仮説を棄却しない決定を下します。母標準偏差または母分散の比は統計的に有意であると結論付けるだけの十分な証拠はありません。検定の検出力が、実質的に有意な差を検出するのに十分であることを確認してください。詳細は、2分散の検出力とサンプルサイズを参照してください。
デフォルトで2サンプルの分散検定には、Leveneの方法とBonettの方法で使用するp値が表示されます。正規分布の検定を使用する場合、MinitabにはF検定のp値が表示されます。次のようにして、データの分布のプロパティで検定を選択します。
  • Bonettの検定では、すべての連続分布で正確な結果を出すことができ、データの正規性は要件ではありません。Bonettの検定は、通常、Leveneの検定より高い信頼性を示します。
  • Leveneの検定も、すべての連続分布に関して正確です。歪みが極端で裾部が長い分布の場合は、Leveneの方法のほうがBonettの方法よりも信頼性が高くなります。
  • F検定は、正規分布に従うデータの場合にのみ正確です。正規性からの偏差があると、サンプルサイズが大きい場合でも、F検定の結果が不正確になる可能性があります。ただしデータが正規分布によく適合する場合は、通常、F検定のほうがBonettの検定やLeveneの検定よりも強力になります。

詳細は、2サンプルの分散にBonettの方法またはLeveneの方法を使用する必要があるかを参照してください。

要約プロット

要約プロットには、各サンプルでの比の信頼区間と標準偏差または分散の信頼区間が表示されます。サンプルデータの箱ひげ図と仮説検定のp値も表示されます。

信頼区間

信頼区間は、母比率の値が含まれる可能性が高い範囲です。データのサンプルはランダムであるため、2つの母集団サンプルの信頼区間が同一である可能性は低くなります。しかし、サンプルを何度も繰り返して測定すると、得られた信頼区間または限界値の特定の割合に未知の母比率が含まれることになります。このような比率を含む信頼区間や限界値の割合(%)を区間の信頼水準と言います。たとえば、95%の信頼水準は、母集団から100個のサンプルをランダムに採取した場合、そのうちおよそ95個からは母比率を含む区間が得られると期待することができます。

上限は、母比率がそれより小さくなる可能性が高い値です。下限は、母比率がそれより大きくなる可能性が高い値です。

解釈

信頼区間により、結果の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて役に立たない場合、サンプルのサイズを増加させることを検討します。 詳細は、信頼区間の精度を高める方法を参照してください。

デフォルトで2サンプルの分散検定にはルヴィーンの方法とボネットの方法の結果が表示されます。ボネットの方法のほうが基本的にルヴィーンの方法よりも信頼度が高いです。しかし、極端に偏ったり裾の重い分布ではルヴィーンの方法のほうがボネットの方法よりも信頼度は高いです。F検定は、データが正規分布に従うことが確実な場合にのみ使用してください。正規性からのわずかな偏差があってもF検定の結果に大きく影響する可能性があるためです。詳細は2サンプルの分散にBonettの方法またはLeveneの方法を使用する必要があるかを参照してください。

箱ひげ図

箱ひげ図は、各サンプルの分布を視覚的に要約します。サンプルの形状、中心傾向、および変動性を簡単に比較できます。

解釈

箱ひげ図を使用して、データの広がりを調べ、潜在的な外れ値を識別します。箱ひげ図は、サンプルサイズが20より大きい場合に最適です。

歪んだデータ

データの広がりを調べて、データが歪んでいるかどうかを判断します。データが歪んでいる場合、大半のデータがグラフの上側または下側に表示されます。多くの場合、ヒストグラムまたは箱ひげ図で最も簡単に歪度を検出できます。

右方向の歪み
左方向の歪み

データが右方向に歪んだ箱ひげ図は、待ち時間を示しています。ほとんどの待ち時間は比較的短く、いくつかの待ち時間のみが長くなっています。データが左方向に歪んだ箱ひげ図は、故障時間データを示しています。一部の項目はすぐに故障していますが、多くの項目は故障するまでに長い時間がかかっています。

サンプルが小さい(いずれかのサンプル値が20個未満の)場合、大きく歪んだデータはp値の妥当性に影響する可能性があります。データが大きく歪んでいてサンプルが小さい場合は、サンプルサイズを大きくすることを検討してください。

外れ値

他のデータ値から遠く離れている外れ値は、分析結果に大きく影響する可能性があります。多くの場合、箱ひげ図で最も簡単に外れ値を識別できます。

箱ひげ図では、アスタリスク(*)で外れ値が示されます。

外れ値の原因を特定する必要があります。データ入力や測定の誤差を修正します。異常な1回きりの事象(特別原因)のデータ値は除外することを検討します。その後で、分析を繰り返します。詳細は、外れ値の識別を参照してください。

個別値プロット

個別値プロットには、各サンプルの個別値が表示されます。個別値プロットでは、サンプルを簡単に比較できます。各円は1つの観測値を表しています。個別値プロットは、観測値数が比較的少なく、各観測値の効果も評価する必要がある場合に特に便利です。

解釈

個別値プロットを使用して、データの広がりを調べ、潜在的な外れ値を識別します。 個別値プロットは、サンプルサイズが50未満の場合に最適です。

歪んだデータ

データの広がりを調べて、データが歪んでいるかどうかを判断します。データが歪んでいる場合、大半のデータがグラフの上側または下側に表示されます。多くの場合、ヒストグラムまたは箱ひげ図で最も簡単に歪度を検出できます。

右方向の歪み
左方向の歪み

データが右方向に歪んだ個別値プロットは、待ち時間を示しています。ほとんどの待ち時間は比較的短く、いくつかの待ち時間のみが長くなっています。データが左方向に歪んだ個別値プロットは、故障時間データを示しています。一部の項目はすぐに故障していますが、多くの項目は故障するまでに長い時間がかかっています。

サンプルが小さい(いずれかのサンプル値が20個未満の)場合、大きく歪んだデータはp値の妥当性に影響する可能性があります。データが大きく歪んでいてサンプルが小さい場合は、サンプルサイズを大きくすることを検討してください。

外れ値

他のデータ値から遠く離れている外れ値は、分析結果に大きく影響する可能性があります。多くの場合、箱ひげ図で最も簡単に外れ値を識別できます。

個別値プロットでは、異常に低いか高いデータ値で潜在的な外れ値が示されます。

外れ値の原因を特定する必要があります。データ入力や測定の誤差を修正します。異常な1回きりの事象(特別原因)のデータ値は除外することを検討します。その後で、分析を繰り返します。詳細は、外れ値の識別を参照してください。

ヒストグラム

ヒストグラムは、サンプル値を多数の区間に分割し、各区間内のデータ値の度数をバーで表します。

解釈

ヒストグラムを使用してデータの形状と広がりを評価します。 ヒストグラムは、サンプルサイズが20より大きい場合に最適です。

歪んだデータ

データの広がりを調べて、データが歪んでいるかどうかを判断します。データが歪んでいる場合、大半のデータがグラフの上側または下側に表示されます。多くの場合、ヒストグラムまたは箱ひげ図で最も簡単に歪度を検出できます。

右方向の歪み
左方向の歪み

データが右方向に歪んだヒストグラムは、待ち時間を示しています。ほとんどの待ち時間は比較的短く、いくつかの待ち時間のみが長くなっています。データが左方向に歪んだヒストグラムは、故障時間データを示しています。一部の項目はすぐに故障していますが、多くの項目は故障するまでに長い時間がかかっています。

サンプルが小さい(いずれかのサンプル値が20個未満の)場合、大きく歪んだデータはp値の妥当性に影響する可能性があります。データが大きく歪んでいてサンプルが小さい場合は、サンプルサイズを大きくすることを検討してください。

外れ値

他のデータ値から遠く離れている外れ値は、分析結果に大きく影響する可能性があります。多くの場合、箱ひげ図で最も簡単に外れ値を識別できます。

ヒストグラムでは、グラフのどちらかの端にある孤立したバーで潜在的な外れ値が示されます。

外れ値の原因を特定する必要があります。データ入力や測定の誤差を修正します。異常な1回きりの事象(特別原因)のデータ値は除外することを検討します。その後で、分析を繰り返します。詳細は、外れ値の識別を参照してください。