1サンプル関数のブートストラッピングのブートストラップ標本の統計量およびグラフ

1標本関数のブートストラップで使用されるすべてのブートストラップ標本の定義と解釈について解説します。

ヒストグラム

ヒストグラムでは標本値が多くの区間に分割されており、各区間におけるデータ値の頻度がバーで表されています。

解釈

ヒストグラムを使用して、ブートストラップ分布の形状を調べます。ブートストラップ分布は、各再標本から選択された統計量の分布です。ブートストラップ分布は正規分布のように見えるべきです。ブートストラップ分布が非正規の場合、ブートストラップの結果を信頼することはできません。
50個の再標本
1000個の再標本

分布は通常、再標本数が多いほど割り出しやすくなります。たとえば、このデータでは、50個の再標本で分布が不明確です。1000個の再標本になると、形状はほぼ正規に見えます。

このヒストグラムでは、ブートストラップ分布は正規分布のようには見えません。元の標本にはデータポイントが16点しかありません。信頼性の高い信頼区間を得るには、収集する標本の規模を大きくして、分析を再度実行します。

個別値プロット

個別値プロットは標本に対して個別の値を表示します。各円は1つの観測値を表しています。個別値プロットは、観測値の数が比較的少ない場合と、各観測値の効果も評価する必要がある場合に、特に有効です。

Minitabでは、1つの標本を取る場合にのみ、個別値プロットが表示されます。元のデータと再標本データの両方が表示されます。

解釈

標本の大きさが大きい場合、ブートストラップ標本は通常、元の標本と同様の中心と広がりになります。標本の大きさが小さい場合は、元の標本とは異なるブートストラップ標本になる可能性があります。ブートストラップ標本が元の標本と似ていない場合、標本の規模を大きくすることを考える必要があります。
標本の大きさ8
標本の大きさ50

棒グラフ

棒グラフは、カテゴリごとの発生比率を示します。

Minitabでは、1つの再標本を取る場合にのみ、棒グラフが表示されます。元のデータと再標本データの両方が表示されます。

解釈

標本の大きさが大きい場合、ブートストラップ標本は通常、元の標本と同様の比率になります。標本の大きさが小さい場合は、元の標本とは異なるブートストラップ標本になる可能性があります。ブートストラップ標本が元の標本と似ていない場合、標本の規模を大きくすることを考える必要があります。
標本の大きさ8
標本の大きさ50

再標本数

再標本数は、元のデータセットからMinitabが復元無作為抽出した回数です。通常、再標本数が多いほど上手く機能します。各再標本のサンプルサイズは、元のデータセットのサンプルサイズと等しくなります。再標本数はヒストグラムの観測数と同じです。

平均

平均は、ブートストラップ標本で選択された統計量の和を再標本数で割ったものです。

解釈

Minitabでは、観測標本の値とブートストラップ分布の値の、選択された統計量の2つの異なる値が表示されます。これらの値は母集団パラメータの推定値であり、通常は類似しています。これらの2つの値の差が大きい場合、元の標本の大きさを大きくする必要があります。

平均は母集団全体ではなく標本データに基づくため、平均が母集団パラメータに一致する可能性は低いと言えます。より良好に母集団パラメータを推定するためには、信頼区間を使用します。

サンプル標準偏差(ブートストラップサンプル)

ブートストラップサンプルのサンプル標準偏差(ブートストラップ標準誤差とも)は、選択された統計量のサンプル分布標準偏差の推定値です。

解釈

標準偏差を使用して、ブートストラップサンプルから選択した統計値が全体平均からどのように広がるかを判定します。標準偏差の値が高いほど、広がりが大きいことを示します。

ブートストラップサンプルの標準誤差を使用して、ブートストラップ統計量がどれほど正確に母集団パラメータを推定するかを判定します。値が小さいほど、母集団パラメータの推定値の精度が高いことを示します。また、サンプルサイズが大きいほどブートストラップの標準誤差が小さくなり、母集団パラメータの推定値の精度は高くなります。

信頼区間(CI)と限界

信頼区間は、統計のサンプル分布に基づいています。統計量にパラメータの推定量としての偏りがない場合、サンプル分布はパラメータの真の値を中心とします。ブートストラッピング分布は、統計量のサンプル分布に近似します。したがって、ブートストラッピング分布の値の中間95%は、パラメータの95%の信頼区間となります。信頼区間により、母集団パラメータで推定値の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。

Minitabでは、再サンプル数が少なすぎて正確な信頼区間を得られにくい場合、信頼区間は計算されません。

観測サンプル

変数N平均標準偏差分散最小中央値最大
時間1611.3313.1159.702181.3007.70010.05016.000

平均に対するブートストラップサンプル

リサンプル数平均標準偏差μに対する95%信頼区間
100011.30950.7625(9.8562, 12.8562)

この結果では、母平均の推定値は約11.3です。95%の信頼度で、母平均はおよそ9.9から12.9の間だと考えることができます。