2サンプル平均のブートストラッピングのブートストラップ標本の統計量およびグラフ

2標本平均のブートストラップで使用されるすべてのブートストラップ標本の統計量およびグラフの定義と解釈について解説します。

このトピックの内容

ヒストグラム
個別値プロット
再標本数

平均
標準偏差（ブートストラップ標本）
信頼区間（CI）と限界

ヒストグラム

ヒストグラムではサンプル値が多くの区間に分割されており、各区間におけるデータ値の頻度がバーで表されています。

解釈

ヒストグラムを使用して、ブートストラップ分布の形状を調べます。ブートストラップ分布は、各再標本の平均の差の分布です。ブートストラップ分布は、正規分布のように見えるべきです。ブートストラップ分布が非正規である場合、結果を信頼することはできません。

分布は通常、再標本数が多いほど割り出しやすくなります。たとえば、このデータでは、50個の再標本で分布が不明確です。1000個の再標本になると、形状はほぼ正規に見えます。

個別値プロット

個別値プロットは、標本に対して個別の値を表示します。各円は1つの観測値を表しています。個別値プロットは、観測値の数が比較的少ない場合と、各観測値の効果も評価する必要がある場合に、特に有効です。

注

Minitabでは、1つの標本を取る場合にのみ、個別値プロットが表示されます。元のデータと再標本データの両方が表示されます。

解釈

標本の大きさが大きい場合、ブートストラップ標本は通常、元の標本と同様の中心と広がりになります。標本の大きさが小さい場合は、元の標本とは異なるブートストラップ標本になる可能性があります。ブートストラップ標本が元の標本と似ていない場合、標本の規模を大きくすることを考える必要があります。

再標本数

再標本数は、元のデータセットからMinitabが復元無作為抽出した回数です。通常、再標本数が多いほど上手く機能します。各再標本のサンプルサイズは、元のデータセットのサンプルサイズと等しくなります。再標本数はヒストグラムの観測数と同じです。

平均

平均は、ブートストラップ標本の平均の差すべての和を再標本数で割ったものです。

解釈

Minitabでは、観測標本の差とブートストラップ分布の差の、平均の差の2つの異なる値が表示されます（平均）。これらの値は母平均の差の推定値であり、通常は類似しています。これらの2つの値の差が大きい場合、元の標本の大きさを大きくする必要があります。

平均は母集団全体ではなく標本データに基づくため、平均が母平均の差に一致する可能性は低いと言えます。より良好に母平均の差を推定するためには、信頼区間を使用します。

標準偏差（ブートストラップ標本）

標準偏差とは、散布度、つまり平均を中心としたデータの広がり方を表す最も一般的な測度です。記号σ（シグマ）は、母集団の標準偏差を示す場合によく使用されますが、sはサンプルの標準偏差を示す場合にも使用されます。多くの場合、工程に対してランダム（自然）な変動は雑音と呼ばれます。標準偏差の単位はデータの単位と同じであるため、通常は、分散よりも解釈が簡単です。

ブートストラップ標本の標準偏差（ブートストラップ標準誤差とも呼ばれます）は、平均の差のサンプル分布で推定される標準偏差です。

解釈

標準偏差を使用して、差の全体平均からのブートストラップ標本の差の拡散程度を判断します。標準偏差の値が高いほど、差の広がりが大きいことを示します。正規分布の経験則によれば、値のおよそ68%が差の全体平均の1つの標準偏差の範囲内にあり、値の95%が2つの標準偏差の範囲内にあり、値の99.7%が3つの標準偏差の範囲内にあります。

ブートストラップ標本の標準偏差から、ブートストラップ標本からの差によって推定される平均の母集団差の正確さを判定します。値が小さいほど、母集団差の推定値の精度が高いことを示します。通常、標準偏差が大きいと、ブートストラップの標準誤差が大きくなり、母集団差の推定値の精度が低くなります。サンプルサイズが大きいと、ブートストラップの標準誤差が小さくなり、母集団差の推定値の精度が高くなります。

信頼区間（CI）と限界

信頼区間は、統計量の標本分布に基づいています。統計量にパラメータの推定量としての偏りがない場合、標本分布はパラメータの真の値を中心とします。ブートストラッピング分布は、統計量の標本分布に近似します。したがって、ブートストラッピング分布の値の中間95%は、パラメータの95%の信頼区間となります。信頼区間により、母集団パラメータで推定値の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。

注

Minitabでは、再標本数が少なすぎて正確な信頼区間を得られにくい場合、信頼区間は計算されません。

観測されたサンプル

病院	N	平均	標準偏差	分散	最小	中央値	最大
A	20	80.30	8.18	66.96	62.00	79.00	98.00
B	20	59.30	12.43	154.54	35.00	58.50	89.00

観測された平均の差

Aの平均 - Bの平均 = 21

平均の差のブートストラップサンプル

リサンプル数	群平均	標準偏差	差に対する95%信頼区間
1000	20.960	3.279	(14.400, 27.600)

これらの結果では、母集団差の推定値は20.96です。95％の信頼度で、母集団差は14.4から27.6の間であると考えることができます。