名義ロジスティック回帰のすべての統計量を解釈する

名義ロジスティック回帰分析で使用されるすべての統計量の定義と解釈について解説します。

応答情報

Minitabでは、応答に関して次の情報が表示されます。
変数
応答変数の名前
応答変数の水準
計数
応答変数の各水準における観測数
合計
非欠損観測値の数。

出力は、応答のどの水準が参照事象であるかも特定します。

解釈

応答情報を使用して、分析内にあるデータ量を調べます。各水準の出現数を多く持つランダムサンプルが大きくなるほど、通常、母集団の推定は正確になります。

また、応答情報を使用して、どの事象が参照事象かを判断します。係数などの統計量とオッズ比の解釈は、どの事象が参照水準かによって変わります。

因子情報

因子情報表には、計画、水準の数、水準の値が表示されます。因子によって仮定できる有効値の数には限りがあり、因子水準として知られています。因子水準は、テキストあるいは数値になります。有効値は多かったとしても、数値の因子には実験で制御されたいくつかの値を使用します。

解釈

因子情報表を使用して、分析の水準数を確認します。たとえば、品質のアナリストがプラスチックの製造過程において、プラスチックの強度に影響を与える可能性のある要因を研究することを計画しているとします。分析には加法が含まれます。加法は、タイプAまたはタイプBになり得るカテゴリ変数です。

因子情報

因子水準
加法2A, B

因子には交差因子または枝分かれ因子を使用できます。2つの因子のうち、片方の因子の各水準が、他方の因子の各水準との組み合わせで出現している場合、これらの因子は交差しているといいます。2つの因子は、1つ目の因子の水準セットが2つ目の因子の水準のみに表示されるときに枝分かれします。たとえば、計画に機械とオペレータが含まれている場合、これらの因子は、すべてのオペレータがすべての機械を使用する場合に交差します。ただし、各機械が異なるセットのオペレータを持つ場合、オペレータは機械に対して枝分かれします。

因子情報表では、括弧は枝分かれ因子を示します。例えば、基準(評価者)の場合、基準が評価者に対して枝分かれすることを示します。このコンテキストでは、枝分かれは、各評価者に異なる組の基準パーツが対応づけられることを示します。枝分かれ因子の因子水準は、枝分かれの各水準で反復され、枝分かれ因子の水準数を増加させます。この例では、各評価者は5つの基準を持つことになりますが、基準が評価者に対して枝分かれするので、基準は20の異なる水準を持つことになります。

因子情報

因子水準
標準(検査者)201(Amanda), 2(Amanda), 3(Amanda), 4(Amanda), 5(Amanda), 1(Britt), 2(Britt),
3(Britt), 4(Britt), 5(Britt), 1(Eric), 2(Eric), 3(Eric), 4(Eric), 5(Eric),
1(Mike), 2(Mike), 3(Mike), 4(Mike), 5(Mike)
検査者4Amanda, Britt, Eric, Mike

因子の詳細は、因子と因子水準因子、交差因子、枝分かれ因子とは固定因子と変量因子の違いを参照してください。

係数

名義ロジスティック式は、各名義値結果を個別に処理します。ロジスティック回帰式は複数のlogit関数で構成され、logit関数は、応答の値の数から1を引いた数だけあります。各式は、予測変数の一意の傾きを持ちます。これらの式は、1つの名義値結果の確率が別な名義値結果と関連して、予測変数が変化するにつれてどのように変化するかを評価します。

解釈

係数を使用して、予測変数の変化に伴い、1つの結果の確率がどのように変化するかを調べます。予測変数の推定係数は、予測変数の1単位分の変化に対するリンク関数の変化を表し、モデル内の他のすべての予測変数は固定されます。結果の係数と確率の関係は、応答変数の参照結果やカテゴリ予測変数の参照水準を含む、分析の方法によって変わります。一般に、係数が正の場合、予測変数が増加するにつれて参照結果の可能性は低くなります。係数が負の場合、予測変数が増加するにつれて、参照結果の可能性は高くなります。推定係数が0に近い場合、予測変数の影響は小さいことを示します。

例えば、ある学校管理者が、異なる教授法を評価したいと考えています。年齢と教授法を使用して、生徒が好む科目を予測します。最初の結果事象は、応答情報表の最初にあり、応答変数の参照事象がこれに該当します。このデータでは、生徒が科学を好むということが参照結果です。logit 1は、生徒が科学よりも数学を好む確率を比較します。この式では、年齢の係数のp値は0.7より大きいです。p値がこのように高い場合、年齢は、生徒が科学よりも数学を好むかどうかにほとんど影響を与えないことを示します。

logit 2は科学と人文科学を比較します。この式では、年齢の係数は、数学と科学を比較する係数よりも大きいです。年齢の係数は正です。年齢が高くなるほど、生徒は科学よりも人文科学を好む可能性が高くなります。

カテゴリ予測変数の係数の解釈は、因子の参照水準によって変わります。教授法のデータでは、教授法の2つの水準は「実演する」と「説明する」です。「実演する」は、係数表にはないので、参照水準です。数学と科学を比較する式の「説明する」のp値は0.5よりも大きいです。p値がこのように高い場合、教授法は、生徒が科学よりも数学を好むかどうかにほとんど影響を与えないことを示します。

logit 2では、「説明する」の係数は、数学と科学を比較する係数よりも大きいです。この係数は、p値が0.05未満なので、0.05水準において統計的に有意になります。この式の「説明する」の係数は正です。教授法が「説明する」の場合、生徒は美術を好む可能性が高くなります。

応答情報

変数計数
科目理科10(参照事象)
  算数11 
  図画工作9 
  合計30 

因子情報

因子水準
教授法2実演, 説明

ロジスティック回帰表







95% 信頼区間
予測変数係数係数の標準誤差z値p値オッズ比下限上限
Logit 1: (算数/理科)             
定数-1.122664.56425-0.250.806     
教授法             
  説明-0.5631150.937591-0.600.5480.570.093.58
年齢0.1246740.4010790.310.7561.130.522.49
Logit 2: (図画工作/理科)             
定数-13.84857.24256-1.910.056     
教授法             
  説明2.769921.372092.020.04415.961.08234.90
年齢1.013540.5844941.730.0832.760.888.66
対数尤度 = -26.446

すべての傾きが0に等しい検定

自由度Gp値
412.8250.012

適合度検定

方法カイ二乗自由度p値
ピアソン6.95295100.730
逸脱 (deviance)7.88622100.640

係数の標準誤差

係数の標準誤差により、同じ母集団から繰り返しサンプルを抽出する場合に得られる係数推定値間の変動を推定します。計算では、サンプルを繰り返し抽出する場合はサンプルのサイズと係数の推定値は変わらないと仮定します。

解釈

係数の標準誤差を使用して、係数の推定値の精度を測定します。標準誤差が小さいほど、推定値の精度が高くなります。

Z値

Z値は、係数とその標準誤差の間の比率を測定する検定統計量です。

解釈

Z値を使用してMinitabで計算されるp値に基づいて、項およびモデルの統計的有意性に関する決定を下すことができます。サンプルの係数の分布が正規分布に基づくようになるほどサンプルのサイズが大きい場合、この検定は正確です。

Z値が0から十分に離れている場合は、係数の推定値が、0から統計的に異なるほど十分に大きくかつ正確であることを示しています。逆にZ値が0に近い場合は、係数の推定値が小さすぎる、または精度が低すぎて、項が応答に対して影響を及ぼすとは確信できないことを示しています。

p値

p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。

解釈

モデルにおける応答と各項の間の関係が統計的に有意かどうか判断するには、項のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、項の係数は0に等しく、項と応答に関連性がないという仮定です。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には関連性がない場合でも、関連性が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α:関連性は統計的に有意です
p値が有意水準以下の場合は、応答変数と項の間に統計的に有意な関連性が存在すると結論付けることができます。
p値 > α:その関連性は統計的に有意ではありません
p値が有意水準より大きい場合は、応答変数と項の間に統計的に有意な関連性があると結論付けることはできません。項を持たないモデルを再適合したいと考えるかもしれません。
応答との間に統計的に有意な関連性がない予測変数が複数存在する場合は、一度に1つずつ項を削除することによってモデルを縮約できます。モデルからの項の削除の詳細は、モデルの縮約化を参照してください。
モデル項が統計的に有意な場合、解釈は項のタイプによって異なります。解釈は次のとおりです。
  • 連続予測変数が有意な場合、応答水準の確率が予測変数によって変化すると結論できます。
  • カテゴリ予測変数が有意な場合、応答水準では、因子の水準における発生確率は、因子の参照水準よりも異なります。
  • 交互作用項が有意な場合は、予測変数と応答水準確率の間の関係がその項の他の予測変数に依存すると結論できます。
  • 多項式の項が有意な場合は、予測変数と応答水準確率の関係が予測変数の大きさに依存すると結論できます。

オッズ比

オッズ比は、2つの結果のオッズを比較します。結果のオッズは、比較結果が発生する確率を、参照結果が発生する確率で割ったものです。

解釈

オッズ比を使用して、予測変数の影響を理解します。オッズ比の解釈は、予測変数がカテゴリ変数か連続変数かによって変わります。ロジスティック回帰表では、比較結果は、logitラベルの後の最初の結果であり、参照結果は2番目の結果です。参照結果は、すべてのlogitに対して同じです。

連続予測変数のオッズ比

オッズ比が1より大きい場合、予測変数が増加するにつれて、比較結果の可能性は参照結果よりも高くなることを示します。オッズ比が1未満の場合、参照結果の可能性は比較結果よりも高くなります。

例えば、ある学校管理者が、異なる教授法を評価したいと考えています。logit 1では、比較結果は数学です。logit 2では、比較結果は人文科学です。参照結果は科学です。logit 2では、オッズ比の推定値は2.76であり、1よりも大きいです。年齢が増加するにつれて、生徒は科学よりも人文科学を好む可能性が高くなります。年齢が1年追加される度に、生徒が人文科学を好むオッズ比は、科学を好むオッズ比よりも3倍大きくなります。

ロジスティック回帰表







95% 信頼区間
予測変数係数係数の標準誤差z値p値オッズ比下限上限
Logit 1: (算数/理科)             
定数-1.122664.56425-0.250.806     
教授法             
  説明-0.5631150.937591-0.600.5480.570.093.58
年齢0.1246740.4010790.310.7561.130.522.49
Logit 2: (図画工作/理科)             
定数-13.84857.24256-1.910.056     
教授法             
  説明2.769921.372092.020.04415.961.08234.90
年齢1.013540.5844941.730.0832.760.888.66

カテゴリ予測変数のオッズ比

カテゴリ予測変数の場合、オッズ比は、2つの異なる水準の予測変数で比較結果のオッズを比較します。比較水準はロジスティック回帰表にあり、推定オッズ比を持ちます。オッズ比が1よりも大きい場合、カテゴリ予測変数が参照水準から比較水準へ変化するときに、比較結果は、参照結果と関係する可能性が高くなることを示します。オッズ比が1未満の場合、カテゴリ予測変数が参照水準から比較水準へ変化するときに、比較結果は、参照結果と関係する可能性が低くなることを示します。

例えば、ある学校管理者が、異なる教授法を評価したいと考えています。logit 1では、比較結果は数学です。logit 2では、比較結果は人文科学です。参照結果は科学です。logit 2では、教授法のオッズ比の推定値は15.96であり、1よりも大きくなります。教授法が「実演する」から「説明する」へ変化するとき、生徒が人文科学を好むオッズ比は、科学を好むオッズよりも約16倍大きくなります。

ロジスティック回帰表







95% 信頼区間
予測変数係数係数の標準誤差z値p値オッズ比下限上限
Logit 1: (算数/理科)             
定数-1.122664.56425-0.250.806     
教授法             
  説明-0.5631150.937591-0.600.5480.570.093.58
年齢0.1246740.4010790.310.7561.130.522.49
Logit 2: (図画工作/理科)             
定数-13.84857.24256-1.910.056     
教授法             
  説明2.769921.372092.020.04415.961.08234.90
年齢1.013540.5844941.730.0832.760.888.66

オッズ比の信頼区間(95% CI)

信頼区間(CI)は、オッズ比の真の値が含まれている可能性のある値の範囲です。信頼区間の計算では、正規分布を使用します。標本のオッズ比の分布が正規分布に基づくようになるほどサンプルサイズが大きい場合、信頼区間は正確です。

データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。

信頼区間は、次の2つの部分で構成されています。
点推定
点推定は、サンプルデータから算出されるパラメータの推定値です。
誤差幅
誤差幅は信頼区間の幅を定義し、事象確率やサンプルサイズ、信頼水準の影響を受けます。

解釈

信頼区間を使用すると、オッズ比のパラメータの推定値を評価できます。

たとえば、信頼水準が95%の場合、信頼区間に母集団のオッズ比の値が含まれていることが95%信頼できます。信頼区間により、結果の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて役に立たない場合、サンプルサイズを増加させることを検討します。

自由度が1を超える項の検定

この検定は、カテゴリ変数に対するすべての係数を同時に考慮した全体の検定です。検定は、3つ以上の水準を持つカテゴリ変数のためにあります。

解釈

この検定を使用して、複数の係数を持つカテゴリ変数が、応答事象と統計的に有意な関係があるかどうかを判断します。カテゴリ変数が2つの水準よりも大きい場合、それぞれの水準の係数は異なるp値を持ちます。全体の検定は、予測変数が統計的に有意かどうかについて、1つの解を与えます。

応答事象とカテゴリ変数の関係が統計的に有意かどうか判断するには、検定のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、予測変数と応答事象の間には関連性がないという仮定です。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が有効に機能します。0.05の有意水準は、実際には関連性が存在しない場合に、関連性が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α: 関連性は統計的に有意です
p値が有意水準以下の場合は、応答変数と予測変数の間に統計的に有意な関連性が存在すると結論できます。
p値 > α: その関連性は統計的に有意ではありません
p値が有意水準より大きい場合は、応答変数と予測変数の間に統計的に有意な関連性があると結論することはできません。

対数尤度

推定係数の最適値を見つけるため、対数尤度関数が最大化されます。

解釈

対数尤度を使用して、同じデータを使用して、係数を推定する2つのモデルを比較します。値が負の場合、値が0に近づくほど、データへのモデル適合度が上がります。

対数尤度は、モデルに項が追加されても減少することはありません。たとえば、5つの項を持つモデルの対数尤度は、同じ項で作成可能な4項モデルよりも高いです。したがって、対数尤度は、同じサイズのモデルを比較するときに最も役立ちます。個々の項を決定するには、通常、p値に異なるlogitの項がないか確認します。

すべての傾きがゼロの検定

この検定は、モデル内の予測変数に対するすべての係数を考慮した全体の検定です。

解釈

検定を使用して、モデル内の少なくとも1つの予測変数が、応答事象と統計的に有意な関連があるかどうかを判断します。通常、G統計量または自由度(DF)を解釈します。自由度は、モデル内の予測変数の係数の数と等しいです。

モデルにおける応答事象と予測変数の間の関係が統計的に有意かどうか判断するには、検定のp値と有意水準を比較して帰無仮説を評価します。帰無仮説は、モデル内の予測変数のすべての係数がゼロであるということで、応答事象といずれの予測変数との間にも関連性が存在しないことを示しています。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が有効に機能します。0.05の有意水準は、実際には関連が存在しない場合に、関連が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α: 関連性は統計的に有意です
p値が有意水準以下の場合は、応答変数と少なくとも1つの予測変数の間に統計的に有意な関連性が存在すると結論できます。
p値 > α: その関連性は統計的に有意ではありません
p値が有意水準より大きい場合は、応答変数といずれかの項の間に統計的に有意な関連性があると結論することはできません。

ピアソン適合度検定

ピアソンの適合度検定は現在のモデルと完全モデルの間の誤差を評価します。

解釈

適合度検定を使用して、多項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。検定は、異なる値の数が観測値の数と近似する場合は役に立ちませんが、予測変数と同じ値の観測値が複数ある場合には役立ちます。適合度検定のp値が、選択した有意水準よりも低い場合、多項分布が予測できないように、予測される確率が観測される確率から離れた値になります。逸脱の一般的な原因は次の通りです。
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています

逸脱度適合度検定

逸脱適合度検定は現在のモデルと完全モデルの間の誤差を評価します。

解釈

適合度検定を使用して、多項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。検定は、異なる値の数が観測値の数と近似する場合は役に立ちませんが、予測変数と同じ値の観測値が複数ある場合には役立ちます。適合度検定のp値が、選択した有意水準よりも低い場合、多項分布が予測できないように、予測される確率が観測される確率から離れた値になります。逸脱の一般的な原因は次の通りです。
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています