名義ロジスティック回帰の方法と計算式

目的の方法または計算式を選択してください。

モデル

Minitabでは、K応答カテゴリを持つモデルのK – 1のlogit関数が計算されます。例えば、3つのカテゴリ(1,2,3)を持つ応答には、2つのlogit関数(参照事象 = 3)があります。

計算式

表記

用語説明
gk(x) logitリンク関数
θkk番目の異なる応答カテゴリと関係のある定数
xk予測変数のベクトル
bkk番目のlogit関数と関係のある係数のベクトル

因子/共変量パターン

データセット内の1組の因子/共変量の値を説明します。因子/共変量パターンごとに、事象確率、残差、およびその他の診断測定値が計算されます。

たとえば、データセットに性別や人種の因子、年代の共変量が含まれている場合、これらの予測変数の組み合わせには、統計対象と同じ数のさまざまな共変量パターンが含まれている可能性があります。データセットに人種や性別の因子のみが含まれ、それぞれ2つの水準でコード化されている場合は、4つの因子/共変量パターンしかありません。データを、頻度または成功、試行、もしくは失敗として入力する場合、各行には1つの因子/共変量パターンが含まれます。

事象確率

πと表示されます。カテゴリ1、2、3(参照事象は3)を持つ3カテゴリモデルの場合、条件付き確率は以下になります。

計算式

事象確率は以下になります。

k = 123に対するπk(x) = P(y = k|x)。それぞれの確率は、2(p + 1)パラメータのベクトル関数であり、b' = (b'1, b'2)です。

対数尤度

対数尤度関数を最大化して、bを最適値にします。3つの応答カテゴリ(参照 = 3)の場合、対数尤度関数は以下になります。

2(p + 1)パラメータごとにL(b)の最初の偏導関数をとることで、尤度式を見つけます。これらの式の一般形は以下になります。

これらの式にゼロを設定してbを解くことで、最尤推定値が得られます。

表記

用語説明
k 1, 2
j0, 1, 2, ..., p
pモデルの係数の個数(定係数は含まれない)
πki 各科目ごとにx0iを持つ πk(xi)

係数

パラメータ推定値とも呼ばれる最尤推定値。異なるK応答値がある場合、予測変数ごとのK – 1セットのパラメータ推定値が推定されます。この影響は、参照事象と比較される応答カテゴリによって異なります。logitごとに、参照事象に対する応答カテゴリの対数オッズの差を推定します。K – 1式のパラメータは、すべての他のペアの応答カテゴリを使用して、logitのパラメータを決定します。

推定係数は反復再重み付け最小二乗法を使用して計算され、最尤推定値に等しくなります。1、2

参考文献

  1. D.W. Hosmer、S. Lemeshow(2000)Applied Logistic Regression第2版、John Wiley & Sons, Inc.
  2. P. McCullagh、J.A. Nelder(1992)、Generalized Linear Model、Chapman & Hall

係数の標準誤差

漸近的な標準誤差は、推定された係数の精度を示します。標準誤差が小さいほど、推定値の精度が高くなります。

詳細は、[1]および[2]を参照してください。

  1. A. Agresti(1990)、Categorical Data Analysis、John Wiley & Sons, Inc.
  2. P. McCullagh、J.A. Nelder(1992)、Generalized Linear Model、Chapman & Hall

Z

Zは、予測変数が応答と有意な関係があるかどうかを判断するために使用します。Zの大きい方の絶対値は有意な関係を示します。p値は、Zが正規分布になることを示します。

計算式

Z = βi /標準偏差

定数の計算式は以下になります。

Z = θk /標準誤差

サンプルが小さい場合、尤度比検定は、より信頼できる有意性検定になり得ます。

p値(P)

p値は、仮説検定で帰無仮説を棄却できるかどうかを決定するために使用されます。p値は帰無仮説が真の場合に、実際の計算値と少なくとも同程度以上の極端な検定統計量が得られる確率です。p値用によく使用されるカットオフ値は0.05です。たとえば、検定統計量の計算されたp値が0.05未満の場合、帰無仮説を棄却します。

オッズ比

予測変数と応答の関係を解釈するのに役立ちます。

オッズ比(q)はどのような非負数値にもなり得ます。オッズ比1は、比較の基線になります。θ = 1の場合、応答と予測変数に関係はありません。θ > 1の場合、比較応答事象のオッズは、因子の参照水準に対して(または、より高い水準の連続予測変数に対して)高くなります。θ < 1の場合、比較応答事象のオッズは、因子の参照水準に対して(または、より高い水準の連続予測変数に対して)低くなります。値が1から離れるほど、関連度がより強くなることを表します。

たとえば、3つの応答カテゴリ(1,2,3)と1つの予測変数を持つモデルの場合、オッズ比は、参照事象(この例では3)として使用される結果カテゴリに対する結果カテゴリkのオッズを指定します。以下は、2つの水準abを持つ予測変数のオッズ比の計算式です。

計算式

表記

用語説明
k結果カテゴリ

信頼区間

計算式

βi のサンプルの信頼区間が大きい場合は以下になります。

β i + Zα /2*(標準誤差)

オッズ比の信頼区間を得るには、信頼区間の上限と下限をべき乗します。信頼区間は、オッズが予測変数の単位変化ごとに分布できる範囲を示します。

表記

用語説明
α 有意水準

分散共分散行列

p +1 × (K – 1)次元を持つ平方行列。係数ごとの分散は対角セルに、ペアごとの係数の共分散は非対角セルにあります。分散は、係数を二乗したものの標準誤差です。

分散共分散行列は漸近的であり、情報行列を逆行列にして最後に反復したときに得られます。2番目の偏導関数の行列は、共分散行列を取得するために使用します。

表記

用語説明
p予測変数の数
K応答のカテゴリ数

ピアソン

データへのモデル適合度を示すピアソン残差を基準にした要約統計量。ピアソンは、共変量の異なる値の数が観測値数とほぼ等しいときは役立ちませんが、同じ共変量水準で観測値を反復しているときは役立ちます。χ2検定統計量が高く、p値が低くなるほど、データへのモデル適合度は十分でないことを示します。

計算式は以下になります。

r = ピアソン残差、m = j番目の分散または共変量パターンの試行回数、π0 = 比率に対して仮定された値。

逸脱度

データへのモデル適合度を示す逸脱度残差に基づく要約統計量。逸脱度は、共変量の異なる値の数が観測値の数とほぼ等しくなる場合には役立ちませんが、同じ共変量水準で観測値を反復する場合に役立ちます。Dの値が高く、p値が低いほど、モデルがデータに十分に適合しないことを示します。検定の自由度は(k - 1)*J − (p)(kは応答のカテゴリ数、Jは因子または共変量パターン数、pは係数の数)です。

計算式は以下になります。

D =2 Σ yik log p ik− 2 Σ yik log π ik

πik = k番目のカテゴリに対するi番目の観測値の確率。