平均値は、データの平均であり、すべての観測値の和を観測値の数で割って求められる値です。
データの中心を表す1つの値でサンプルを表すのに、平均を使います。多くの統計分析では、平均がデータ分布の中央の標準測度として使用されます。
平均の標準誤差(平均のSE)では、同じ母集団から繰り返しサンプルを抽出した場合に得られるサンプル平均間の変動性が推定されます。平均の標準誤差はサンプル間の変動性を推定し、標準偏差は単一サンプル内の変動性を測定します。
たとえば、ランダムサンプルである312個の配達時間に基づいた平均配達時間は3.80日、標準偏差は1.43日であるとします。この数値から求められる平均の標準誤差は、0.08日(1.43を312の平方根で割ったもの)です。同じ母集団から同じサイズのランダムサンプルを複数抽出すると、異なるサンプル平均の標準偏差はおよそ0.08日になります。
平均の標準誤差を使用して、サンプル平均がどれだけ正確に母集団平均を推定するかを判断します。
平均の標準誤差の値が小さいと、母平均の推定値の精度が高くなります。通常、標準偏差が大きいと、平均の標準誤差が大きくなり、母平均の推定値の精度が低くなります。サンプルサイズが大きいと、平均の標準誤差が小さくなり、母平均の推定値の精度が高くなります。
Minitabは、平均の標準誤差を使用して信頼区間を計算します。
標準偏差とは、散布度、つまり平均を中心としたデータの広がり方を表す最も一般的な測度です。記号σ(シグマ)は、母集団の標準偏差を示す場合によく使用されますが、sはサンプルの標準偏差を示す場合にも使用されます。多くの場合、工程に対してランダム(自然)な変動は雑音と呼ばれます。
標準偏差の単位はデータの単位と同じであるため、通常は、分散よりも解釈が簡単です。
標準偏差を使用して、平均からのデータの拡散程度を判断します。 標準偏差の値が高いほど、データの広がりが大きいことを示します。 正規分布の経験則によれば、値のおよそ68%が平均の1つの標準偏差の範囲内にあり、値の95%が2つの標準偏差の範囲内にあり、値の99.7%が3つの標準偏差の範囲内にあります。
分散は、平均を中心としたデータの広がりを測定します。分散は標準偏差の二乗に等しくなります。
分散が大きいほど、データの広がりも大きくなります。
分散(σ2)は二乗した数量であるため、その単位も二乗されることになり、分散を実際に使用することは困難です。標準偏差は、データと同じ単位を使用するため、通常は解釈が簡単です。たとえば、バスの停留所での待ち時間のサンプルは、平均が15分で分散は9分2であるとします。分散は、データと同じ単位ではないため、多くの場合に平方根つまり標準偏差と一緒に表示されます。分散の9分2は、標準偏差の3分に相当します。
変動係数(COVで示される)とは、平均に対するデータの変動性を説明する広がりの測度です。変動係数は、値が単位を持たないように調整されます。この調整のおかげで、変動係数は単位が異なるデータや平均が著しく異なるデータの変動性を比較する場合に標準偏差の代わりに使用できます。
変動係数が大きいほど、データの広がりが大きくなります。
大きい容器 | 小さい容器 |
---|---|
COV = 100 * 0.4 カップ / 16 カップ = 2.5 | COV = 100 * 0.08 カップ / 1 カップ = 8 |
四分位数とは、並べられたデータのサンプルを4つの等しい部分に分ける、25%の第1四分位数(Q1)、50%の第2四分位数(Q2または中間値)、75%の第3四分位数(Q3)の3つの値です。
第1四分位数は第25百分位数であり、データの25%がこの値以下であることを示します。
中央値はデータセットの中間点です。この中間点の値は、観測値の半分がその値より上にあり、観測値の半分がその値より下にあるという点です。中央値は、観測値に順位付けし、順位付けされた順序での順位が[N + 1] / 2の観測値を検出することによって算定されます。観測値の数が偶数の場合、その中央値は、N / 2と[N / 2] + 1の順位で順位付けされる観測値の平均値です。
四分位数とは、順序付きデータのサンプルを4つの等しい部分に分ける、25%の第1四分位数(Q1)、50%の第2四分位数(Q2または中間値)、75%の第3四分位数(Q3)の3つの値です。
第3四分位数は第75百分位数であり、データの75%がこの値以下であることを示します。
四分位間範囲(IQR)は、第1四分位数(Q1)と第3四分位数(Q3)の間の距離です。データの50%がこの範囲内に収まります。
四分位間範囲を使用して、データの広がりを記述します。データの広がりが大きくなるにつれ、IQRは大きくなります。
値のうち最も高い5%と最も低い5%を除外したデータの平均。
調整平均は、極端に大きな値や小さな値が平均に与える影響を除外するために使用します。データに外れ値が含まれている場合、調整平均の方が平均よりも中心傾向の測定としては優れている場合があります。
和とは、すべてのデータ値の合計です。和は、平均や標準偏差などの統計量計算にも使用されます。
最小値とは、最小のデータ値を指します。
このデータで、最小値は7です。
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
最小値を使用して、外れ値の可能性がある値またはデータ入力ミスを識別します。データの広がりを最も簡単に評価する方法の1つは、最小値と最大値を比較することです。データの中心、広がり、形状を検討する場合であっても、最小値が非常に小さい場合、極端な値の原因を調査してください。
最大値とは、最大のデータ値を指します。
このデータで、最大値は19です。
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
最大値を使用して、外れ値の可能性がある値またはデータ入力ミスを識別します。データの広がりを最も簡単に評価する方法の1つは、最小値と最大値を比較することです。データの中心、広がり、形状を検討する場合であっても、最大値が非常に大きい場合、極端な値の原因を調査してください。
範囲とは、サンプルの最も大きいデータ値と最も小さいデータ値の差です。範囲は、すべてのデータ値が含まれる区間を表します。
範囲を使用して、データの広がりを理解できます。範囲の値が大きい場合、データの広がりが大きいことを示します。範囲の値が小さい場合、データの広がりが小さいことを示します。範囲は2つのデータ値のみを使用して計算されるため、小さいデータセットを使用する場合に有用です。
未修正の平方和は、列の各値の平方の和です。たとえば、列にx1, x2, ... , xnが含まれている場合、平方和は(x12 + x22 + ... + xn2)のように計算されます。修正された平方和とは異なり、未修正の平方和は誤差を含みます。データ値は最初に平均を引かずに二乗します。
歪度とは、データの非対称性を示す度合いです。
尖度は、分布の裾の正規分布からの逸脱の程度を示します。
MSSDとは、平方逐次的差分の平均です。MSSDは分散の推定値です。MSSDの使用法の1つとして、一連の観測値がランダムかどうかを検定する場合が考えられます。品質管理では、MSSDの使用法の1つとして、サブグループサイズが1の場合に分散を推定する場合が考えられます。
サンプルにおける非欠損値の数。
合計数 | N | N* |
---|---|---|
149 | 141 | 8 |
サンプルにおける欠損値の数。欠損値の数は、欠損値記号*を含むセルを参照します。
合計数 | N | 欠損値の数 |
---|---|---|
149 | 141 | 8 |
列に含まれる観測値の合計数。欠損値の数と非欠損値の数の和を示すために使用します。
計数 | N | 欠損値の数 |
---|---|---|
149 | 141 | 8 |
学年 | 計数 | 累積個数 | 計算 |
---|---|---|---|
1 | 49 | 49 | 49 |
2 | 58 | 107 | 49 + 58 |
3 | 52 | 159 | 49 + 58 + 52 |
4 | 60 | 219 | 49 + 58 + 52 + 60 |
5 | 48 | 267 | 49 + 58 + 52 + 60 + 48 |
6 | 55 | 322 | 49 + 58 + 52 + 60 + 48 + 55 |
グループ変数の各グループの観測値の割合。次の例では、行1、行2、行3、行4の4つのグループがあります。
グループ(グループ変数) | パーセント |
---|---|
行1 | 16 |
行2 | 20 |
行3 | 36 |
行4 | 28 |
累積パーセントは、グループ変数の各グループのパーセンテージの累積和です。次の例では、グループ変数には行1、行2、行3、行4の4つのグループがあります。
グループ(グループ変数) | パーセント | 累積パーセント |
---|---|---|
行1 | 16 | 16 |
行2 | 20 | 36 |
行3 | 36 | 72 |
行4 | 28 | 100 |