個別の分布の識別の分布の百分位数

個別の分布の識別によって提供されるすべての分布の百分位数統計量の定義と解釈について解説します。

パーセントと百分位数

選択したパーセントのデータの百分位数の推定を選択すると、Minitabには、百分位数の表が表示されます。Pパーセントに対する百分位数は、各分布の母集団値のPパーセントがそれよりも下の値になると期待される値です。デフォルトでは、0.135%、0.5%、2%、および5%に対する百分位数が表示されます。

解釈

確率プロットと適合度の測度に基づいて最適な分布を決めることが難しい場合もあります。この場合、各分布の選択したパーセント値の百分位数を比較して、異なる分布を使用することが結論にどのように影響を及ぼすかを評価できます。
  • 数種類の分布が妥当な範囲でデータに適合し、その百分位数の値が十分に近似しているためにどの分布を使用する場合でも同様の結論が得られる可能性が高い場合は、おそらくどの分布を選択するかは問題ではありません。
  • 妥当な適合度を示す各分布の百分位数が分析結果に影響するほど異なっている場合は、アプリケーションについて最も控えめな結果が導かれる分布を選択することができます。

たとえば、工程の下側規格限界が46.2だとします。その場合、最大極値分布では、分布の下側の裾で工程能力を評価する場合に、やや控えめな結果が導かれます。その差異がアプリケーションにとって重要な場合は、最大極値分布を使用して、工程能力を過大評価する可能性を排除することができます。

パーセンタイル表

分布パーセントパーセンタイル標準誤差95.0%信頼区間
正規144.35020.7568542.945.8
Box-Cox変換10.00000.000000.00.0
対数正規144.75660.6576943.546.1
3-パラメータ対数正規146.56780.4449845.747.4
指数10.51040.072180.40.7
2-パラメータ指数146.75960.0057846.746.8
ワイブル140.27751.2089438.042.7
3-パラメータワイブル146.86680.1594546.747.2
最小極値138.61101.5685235.541.7
最大極値146.18980.4125545.447.0
ガンマ144.69020.6774043.446.0
3-パラメータガンマ146.59320.1934646.247.0
ロジスティック143.24340.9150241.445.0
対数ロジスティック143.78060.7849642.345.3
3-パラメータ対数ロジスティック146.50590.5930945.547.7
Johnson変換1-2.23440.26634-2.8-1.7

これらの結果では、3パラメータワイブル分布と最大極値分布の両方が、確率プロットとp値(非表示)に基づいて妥当な範囲でデータに適合しています。3パラメータワイブル分布の場合、データの1%が46.8668に分布することが期待できます。最大極値分布の場合、データの1%が46.1898に分布することが期待できます。状況次第では、この追加情報が、よりよくあてはまる分布を選択するのに役立ちます。1つの値で推定値がより保守的になる場合は、この分布を選択するかもしれません。

Box-CoxとJohnson変換の値は、生データではなく変換された値に基づいているため、百分位数の解釈は難しくなります。

百分位数の標準誤差

百分位数の標準誤差により、同じ母集団からサンプルを繰り返し抽出する場合に得られるサンプル百分位数間の変動性を推定します。平均の標準誤差によってサンプル間の変動性が推定されるのに対し、標準偏差では単一サンプル内の変動性が測定されます。

解釈

百分位数の標準誤差を使用して、サンプル百分位数による各分布の母集団百分位数の推定値の精度を判断します。

標準誤差の値が小さいほど、母集団百分位数の推定値の精度が高いことを示します。通常は、標準偏差が大きいほど標準誤差が大きくなり、母集団百分位数の推定値の精度は低くなります。また、サンプルサイズが大きいほど標準誤差が小さくなり、母集団百分位数の推定値の精度は高くなります。

Minitabでは、百分位数の標準誤差を使用して、母集団百分位数の値の範囲である信頼限界区間を計算します。

百分位数の信頼区間(CI)

信頼区間は、母集団百分位数の値が含まれる可能性が高い範囲です。信頼区間は、下限と上限によって定義されます。限界値は、百分位数のサンプル推定値の誤差幅を算定することによって計算されます。下側信頼限界により、百分位数がそれより大きくなる可能性が高い値が定義されます。上側信頼限界により、百分位数がそれより小さくなる可能性が高い値が定義されます。

解釈

データのサンプルはランダムであるため、工程から収集された2つのサンプルでは百分位数の推定値が同一である可能性は低くなります。百分位数の実際の値を計算するには、工程を経て製造されるすべての工作物のデータを分析する必要がありますが、これは現実的ではありません。代わりに、信頼区間を使用して、百分位数の起こり得る値の範囲を決定することができます。

信頼水準が95%の場合は、百分位数の実際値が信頼区間に含まれるということを95%の信頼度で確信できます。つまり、工程から100個のサンプルをランダムに収集する場合、サンプルのおよそ95個において百分位数の実際値が含まれる区間が作成されると期待できます。

信頼区間の幅には、サンプルサイズが大きくなるほど、またはデータの変動性が小さくなるほど、狭くなる傾向があります。信頼区間が狭い場合は、サンプル推定値を信頼することができ、サンプルのランダム抽出による変動性による影響を強く受ける可能性が低いことを示します。百分位数の信頼区間が広い場合は、百分位数点の推定値を使用して工程に関する結論を導くときに慎重に行う必要があります。信頼区間が広い場合は、信頼区間の上限または下限のうち、どちらであれアプリケーションに関してより控えめな結果を生み出す値に基づいて、百分位数の推定値を求めることができます。

パーセンタイル表

分布パーセントパーセンタイル標準誤差95.0%信頼区間
正規144.35020.7568542.945.8
Box-Cox変換10.00000.000000.00.0
対数正規144.75660.6576943.546.1
3-パラメータ対数正規146.56780.4449845.747.4
指数10.51040.072180.40.7
2-パラメータ指数146.75960.0057846.746.8
ワイブル140.27751.2089438.042.7
3-パラメータワイブル146.86680.1594546.747.2
最小極値138.61101.5685235.541.7
最大極値146.18980.4125545.447.0
ガンマ144.69020.6774043.446.0
3-パラメータガンマ146.59320.1934646.247.0
ロジスティック143.24340.9150241.445.0
対数ロジスティック143.78060.7849642.345.3
3-パラメータ対数ロジスティック146.50590.5930945.547.7
Johnson変換1-2.23440.26634-2.8-1.7

これらの結果では、最大極値分布を使用して、サンプル推定値に基づいて、データの1%が値46.1898以下に分布することが期待できます。95%の信頼区間は(45.4, 47)です。工程の下側規格限界が47だとします。慎重に精査するため、百分位数の推定で信頼区間の下限(45.4)を使用したいと考えるかもしれません。下限を使用すれば、データの1%が値45.4以下に分布することが期待でき、この状況では、より保守的な推定値が得られます。

Box-CoxとJohnson変換の値は、生データではなく変換された値に基づいているため、百分位数の解釈は難しくなります。