2値ロジスティック回帰には、2値応答・度数フォーマットと事象・試行フォーマットの2つの異なるフォーマットにデータを入力できます。分析のデータフォーマットは、通常、データを収集する方法と一致する必要があります。
一度にたくさんの試行を収集できるので、通常は事象・試行フォーマットのデータを収集して分析します。たとえば、技師は、200の集積回路のバッチを生産します。バッチ内のすべての集積回路には、同じ処理設定を使用する必要があります。これら200の集積回路は200個の試行になります。技師が、同じ設定を持つ別なバッチのデータを収集する場合、データは別の行になります。
事象・試行フォーマットでは、応答変数は2つの列を使用します。1つの列には、対象となる成功数または事象数が含まれます。他の列には、試行回数が表示されています。
C1 | C2 | C3 | C4 |
---|---|---|---|
成功 | 試行 | 温度 | 原材料 |
180 | 200 | 1500 | 供給業者B |
200 | 200 | 1400 | 供給業者A |
196 | 200 | 1500 | 供給業者A |
197 | 200 | 1400 | 供給業者B |
190 | 200 | 1400 | 供給業者A |
193 | 200 | 1400 | 供給業者B |
198 | 200 | 1500 | 供給業者A |
185 | 200 | 1500 | 供給業者B |
ワークシートのデータが事象・試行フォーマットでも1行あたりの試行数が小さい場合、統計量の信頼性と解釈が変わります。たとえば、すべての行の試行回数が1回の場合、1行当たりの事象数は0か1になります。こうしたデータの分析は、度数列のない2値応答データや度数データの場合と同じです。
結果が生じる度に各試行の結果を記録できるので、通常は2値応答・度数フォーマットのデータを収集して分析します。たとえば、マーケティングコンサルタントは、消費者がスーパーマーケットから出るときに、新しいブランドのシリアル製品を購入したかどうかを調査します。それぞれの消費者が回答する度に、コンサルタントは個々の情報を記録します。
2値応答・度数フォーマットでは、応答変数に1列を使用します。応答列には2つの値しかなく、そのうちの1つは事象を示し、もう1つの事象は非事象を示します。
C1 | C2 | C3 |
---|---|---|
購入 | 収入 | 子ども |
はい | 37 | はい |
いいえ | 47 | はい |
はい | 34 | いいえ |
はい | 58 | いいえ |
2値応答・度数フォーマットのデータには度数列を含めることができます。残差対順序プロットの最もはっきりした解釈は、連続する観測値のみを結合することです。連続していない観測値の組み合わせでは、残差対順序プロットのパターンを作成または非表示にすることができます。
C1 | C2 | C3 | C4 |
---|---|---|---|
購入 | 収入 | 子ども | 度数 |
はい | 40 | はい | 2 |
いいえ | 40 | いいえ | 12 |
はい | 45 | はい | 1 |
いいえ | 45 | いいえ | 6 |