事後確率と事前確率とは

事後確率とは、所定のデータの下で、観測値が各グループに割り当てられる確率です。事前確率とは、データを収集する前に観測値がグループ内に収まる確率です。たとえば、特定の車の購入者を分類する場合に、購入者の60%が男性で、40%が女性であることがすでにわかっている可能性があります。このような確率がわかっている場合や推定できる場合、判別分析では、事後確率の計算に、これらの事前確率を使用できます。事前確率を指定しない場合、Minitabではすべてのグループが均一であると仮定されます。

データに正規分布があると仮定して、線形判別関数はln(p_i)ずつ増加します（p_iはグループiの事前確率）。観測値は、最小の一般化距離、つまり最大の線形判別関数に従ってグループに割り当てられるため、その効果により、事前確率が高いグループの事後確率は増加します。

注

事前確率を指定すると、結果の正確性に大きく影響することがあります。グループ間で不等な比率が真の母集団の実際の差を示すかどうか、またはその差がサンプリング誤差によるものかどうかを調べます。

ここで、事前確率があり、f_i(x)がグループiのデータの同時密度（母集団パラメータをサンプル推定値に置き換え）であるとします。

事後確率は、データが与えられたグループiの確率であり、次のように計算されます。

最大事後確率は、ln [p_if_i(x)]の最大値と等しくなります。

f_i(x)が正規分布の場合、次のようになります。

ln [p_if_i(x)] = -0.5 [d_i²(x) – 2 ln p_i] – (定数)

角カッコで囲まれた項は、xとグループiとの一般化二乗距離と呼ばれ、d_i²(x)と表されます。ただし、

d_i²(x) = -2[m_i' S_p^-1 x - 0.5 m_i' S_p^-1m_i + ln p_i] + x' S_p^-1x

角カッコで囲まれた項は、線形判別関数です。事前確率なしの場合との違いは、定数項の変更だけです。最大事後確率は最小の一般化距離と等しくなりますが、これが最大の線形判別関数と等しいことに留意してください。