在二元 Logistic 回归中,您可以输入两种不同的数据格式:二元响应/频率格式和事件/试验格式。分析数据的格式通常应与您收集数据的方式匹配。
您通常会收集并分析事件/试验格式的数据,因为您可以一次收集多个试验。例如,一位工程师要生产一个包含 200 个集成电路的批次。该批次中的所有电路都必须使用相同的过程设置。这 200 个电路就是 200 个试验。如果这位工程师要收集另一个具有相同设置的批次的数据,则这些数据位于一个单独的行中。
在事件/试验格式中,响应变量占用两列。其中一列包含成功次数或相关事件数。另一列包含试验数。
C1 | C2 | C3 | C4 |
---|---|---|---|
成功次数 | 试验次数 | 温度 | 原材料 |
180 | 200 | 1500 | 供应商 B |
200 | 200 | 1400 | 供应商 A |
196 | 200 | 1500 | 供应商 A |
197 | 200 | 1400 | 供应商 B |
190 | 200 | 1400 | 供应商 A |
193 | 200 | 1400 | 供应商 B |
198 | 200 | 1500 | 供应商 A |
185 | 200 | 1500 | 供应商 B |
如果工作表数据采用事件/试验格式,但每行中的试验数很小,则统计量的可信度和解释会改变。例如,如果每行有 1 个试验,则每行的事件数为 0 或 1,对这些数据的分析与针对不带频率列的二元响应/频率数据相同。
您通常会收集并分析二元响应/频率格式的数据,因为您可以在结果出现时记录每个单独试验的结果。例如,一位市场营销顾问在顾客离开超市时对他们是否购买了新品牌的谷类食品进行了调查。在每位顾客回答问题时,这位顾问记录了他们各自的信息。
在二元响应/频率格式中,响应变量占用一列。响应变量列只有两个值,其中一个表示事件,另一个表示非事件。
C1 | C2 | C3 |
---|---|---|
已买 | 收入 | 孩子 |
是 | 37 | 是 |
否 | 47 | 是 |
是 | 34 | 否 |
是 | 58 | 否 |
对于采用二元响应/频率格式的数据可以包括频率列。为了最清楚地解释残差与顺序图,请仅结合连续观测值。如果结合非连续观测值,可能会在残差与顺序图上创建或隐藏模式。
C1 | C2 | C3 | C4 |
---|---|---|---|
已买 | 收入 | 孩子 | 频率 |
是 | 40 | 是 | 2 |
否 | 40 | 否 | 12 |
是 | 45 | 是 | 1 |
否 | 45 | 否 | 6 |