2値ロジスティック回帰で各データフォーマットを使用する場合

2値ロジスティック回帰には、2値応答・度数フォーマットと事象・試行フォーマットの2つの異なるフォーマットにデータを入力できます。分析のデータフォーマットは、通常、データを収集する方法と一致する必要があります。

事象・試行フォーマットデータを使用する理由

一度にたくさんの試行を収集できるので、通常は事象・試行フォーマットのデータを収集して分析します。たとえば、技師は、200の集積回路のバッチを生産します。バッチ内のすべての集積回路には、同じ処理設定を使用する必要があります。これら200の集積回路は200個の試行になります。技師が、同じ設定を持つ別なバッチのデータを収集する場合、データは別の行になります。

事象・試行フォーマットの例

事象・試行フォーマットでは、応答変数は2つの列を使用します。1つの列には、対象となる成功数または事象数が含まれます。他の列には、試行回数が表示されています。

このワークシートには、成功に事象数が含まれ、電気機能試験に合格した回路の数を示します。試行には、試行回数が含まれ、予測変数の組み合わせで生成されたチップ数が含まれます。温度は連続予測変数です。原材料はカテゴリ予測変数です。ワークシートの1行目には、供給業者Bの原材料から1500の温度で製造された200個のチップのバッチが表示されます。回路のうち180個は電気機能試験に合格しました。
C1 C2 C3 C4
成功 試行 温度 原材料
180 200 1500 供給業者B
200 200 1400 供給業者A
196 200 1500 供給業者A
197 200 1400 供給業者B
190 200 1400 供給業者A
193 200 1400 供給業者B
198 200 1500 供給業者A
185 200 1500 供給業者B

ワークシートのデータが事象・試行フォーマットでも1行あたりの試行数が小さい場合、統計量の信頼性と解釈が変わります。たとえば、すべての行の試行回数が1回の場合、1行当たりの事象数は0か1になります。こうしたデータの分析は、度数列のない2値応答データや度数データの場合と同じです。

2値応答・度数フォーマットデータを使用する理由

結果が生じる度に各試行の結果を記録できるので、通常は2値応答・度数フォーマットのデータを収集して分析します。たとえば、マーケティングコンサルタントは、消費者がスーパーマーケットから出るときに、新しいブランドのシリアル製品を購入したかどうかを調査します。それぞれの消費者が回答する度に、コンサルタントは個々の情報を記録します。

2値応答・度数フォーマットのデータ例

2値応答・度数フォーマットでは、応答変数に1列を使用します。応答列には2つの値しかなく、そのうちの1つは事象を示し、もう1つの事象は非事象を示します。

このワークシートでは、購入は応答であり、消費者は新しいブランドのシリアル製品を購入したかどうかを示します。応答事象ははいです。収入は連続予測変数であり、子どもはカテゴリ予測変数です。ワークシートの1行目には、コンサルタントが質問した1人目の消費者には子どもがいて、収入が37,000ドルで、新しいブランドのシリアル製品を購入したことを示しています。
C1 C2 C3
購入 収入 子ども
はい 37 はい
いいえ 47 はい
はい 34 いいえ
はい 58 いいえ

2値応答・度数フォーマットのデータには度数列を含めることができます。残差対順序プロットの最もはっきりした解釈は、連続する観測値のみを結合することです。連続していない観測値の組み合わせでは、残差対順序プロットのパターンを作成または非表示にすることができます。

このワークシートでは、応答と予測変数は前述のサンプルと同じですが、データには度数変数も含まれます。度数には、行ごとに応答と予測変数の値の組み合わせに対応する消費者の人数が含まれます。ワークシートの1行目には、子どもがいて、収入が40,000ドルの2人の消費者が新しいブランドのシリアル製品を購入したことを示しています。これらの人が、調査上最初の消費者でない場合、ワークシートのデータ順序はデータ収集順序とは異なります。残差対順序プロットのパターンは、非表示または記録データとして意味がない可能性があります。
C1 C2 C3 C4
購入 収入 子ども 度数
はい 40 はい 2
いいえ 40 いいえ 12
はい 45 はい 1
いいえ 45 いいえ 6