予測

このトピックの内容

回帰式
変数設定
適合確率またはクラス確率
適合値の標準誤差（SE Fit）
適合値の信頼区間（95%の信頼区間）

モデルで予測する方法は、モデルの作成方法によって異なります。

でモデルを作成する場合 2値ロジスティックモデルの当てはめは、統計 > 回帰 > 2値ロジスティック回帰 > 予測を選択します。
でモデルを作成する場合はベストモデルの検出(2値応答)、予測結果をクリックします。

2 つの方法では、結果にわずかな違いがあります。たとえば、いずれかの方法で結果を保存する場合、予測統計はワークシートに含まれますが、バージョンのバージョンではベストモデルの検出(2値応答) 出力ペインに回帰式も表示されます。のバージョンには 2値ロジスティックモデルの当てはめ、適合の標準誤差と適合の信頼区間を含めることができます。どちらの方法でも、出力ペインの結果には、回帰式、予測変数の設定、予測テーブルが含まれます。

回帰式

2値ロジスティック回帰では、2種類の回帰式が表示されます。最初の式は、事象確率と変換された応答を関連づけます。最初の式の形は、リンク関数によって変わります。

2番目の式は、予測変数と変換された応答を関連づけます。モデルに連続予測変数とカテゴリ予測変数の両方がある場合、2番目の式は、カテゴリの組み合わせごとに分離できます。

解釈

これらの式を使用して、応答と予測変数の関係を調べます。

たとえば、顧客が製品を購入するかどうかを予測するモデルには以下の項が含まれます。

顧客の収入
顧客に子どもがいるかどうか
これら2つの予測変数の交互作用

最初の式は、logitリンク関数を基に事象確率と変換された応答の関係を表示します。

2番目の式は、収入の多寡や、顧客に子どもがいるかどうかが変換された応答に関係することを示します。顧客に子どもがいない場合、収入の係数は約0.04になります。顧客に子どもがいる場合、収入の係数は約0.02になります。こうした式では、顧客の収入が多いほど、製品を購入する可能性が高くなります。ただし、顧客に子どもがいない場合に、収入は、顧客が製品を購入するかどうかにより強い影響を与えます。

非コード化単位の回帰式

P(1)	=	exp(Y')/(1 + exp(Y'))

子供
いいえ	Y'	=	-3.549 + 0.04296 年収

はい	Y'	=	-1.076 + 0.01565 年収

非階層なモデルで連続予測変数を標準化する場合、回帰式はコード化単位で表されます。詳細については、「コード化係数」のセクションを参照してください。階層の詳細については、を参照してください階層モデルとは。

変数設定

Minitabは回帰式と変数設定を使用して、適合値を計算します。2値ロジスティックモデルの当てはめを使用してモデルを作成し、変数設定がモデルの推定に使用されたデータと比較して異常である場合、予測の下に警告が表示されます。

変数設定表を使い、目的の分析が行われたかどうかを検証してください。

適合確率またはクラス確率

でモデルを作成すると、ベストモデルの検出(2値応答) 予測テーブルに観測番号、予測クラス、および各クラスのメンバーシップの確率が表示されます。を使用してモデルを作成する場合 2値ロジスティックモデルの当てはめ、予測テーブルには適合確率が含まれます。

事象確率は、事象が出現する確率です。事象確率は、予測確率とも呼ばれ、1組のトランプからエースを引いたり、不適合部品が生産されるなどの事象が起こる尤度を推定します。事象確率の範囲は、0（不可能）から1（確実）です。

解釈

2値ロジスティック回帰で、応答変数が取り得る値は、たとえば特定の病気が「存在する」か「存在しない」かなど、2つだけです。事象確率は、与えられた因子/共分散のパターンの応答が1、つまり1つの事象になる尤度（50歳以上の女性が2型糖尿病になる尤度など）のことです。

実験における各実行を試行と呼びます。たとえば、硬貨を10回投げて表が出た回数を記録する場合、実験において10回の試行を実行すると言います。試行が独立しており尤度が同じであれば、事象確率は事象数を試行総数で割ることによって得られます。たとえば、硬貨を10回投げて表が出た回数が6であった場合、事象（表が出る）の推定確率は次のようになります。

事象数 ÷ 試行回数 = 6 ÷ 10 = 0.6

適合値の標準誤差（SE Fit）

を使用してモデルを作成すると、SE フィットは予測テーブルに 2値ロジスティックモデルの当てはめ表示されます。適合値の標準誤差（SE Fit）は、特定の変数設定について推定される平均応答の変動を推定します。平均応答の信頼区間の計算には、適合値の標準誤差が使用されます。標準誤差は常に正数です。

解釈

適合値の標準誤差は、平均応答の推定値の精度を測定するために使用します。標準誤差が小さいほど、予測される平均応答の精度は高くなります。たとえば、分析者が配達時間を予測するモデルを開発するとします。変数設定のひとつのセットに、モデルは3.80日の平均配達時間を予測します。これらの設定の適合値の標準誤差は0.08日です。変数設定の2つめのセットに、モデルは適合値の標準誤差の0.02日で同じ平均配達時間を生成します。分析者は、変数設定の2つめのセットの平均配達時間が3.80日近くであるということに、より自信を持つことができます。

適合値とともに、適合値の標準誤差を使用して、平均応答の信頼区間を作成できます。たとえば、自由度の数に基づいて、95%の信頼区間は予測平均から標準誤差のおよそ2個分の範囲になっています。配達時間では、標準誤差が0.08日の際の予測平均の3.80日の95%の信頼区間は、（3.64、3.96）日です。これは、95%の信頼度で、母集団の平均がこの範囲に含まれることを意味します。標準誤差が0.02日の際、95%の信頼区間は、（3.76、3.84）日です。変数設定の２つめのセットの信頼区間は、標準誤差がより小さいことから、より狭くなります。

適合値の信頼区間（95%の信頼区間）

を使用してモデルを作成する場合、適合の信頼区間は予測テーブルに表示 2値ロジスティックモデルの当てはめされます。信頼区間（CI）は、モデル内にある予測変数の観測値を持つ母集団の事象確率が含まれている可能性のある値の範囲です。

データのサンプルはランダムであるため、2つの母集団サンプルの信頼区間が同一である可能性は低くなります。しかし、サンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合（%）を区間の信頼水準と言います。

信頼区間は、次の2つの部分で構成されています。

点推定: 点推定は、標本データから算出されるパラメータの推定値です。
誤差幅: 誤差幅は信頼区間の幅を定義し、事象確率やサンプルサイズ、信頼水準の影響を受けます。

解釈

信頼区間を使用して、変数の観測値に関する適合値の推定値を評価します。

たとえば、信頼水準が95%の場合は、モデル内の指定された値の変数を持つ事象確率が含まれる信頼区間を95%信頼できます。信頼区間により、結果の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて役に立たない場合、サンプルサイズを増加させることを検討します。