在二元 Logistic 回归中,您可以输入两种不同的数据格式:二元响应/频率格式和事件/试验格式。分析数据的格式通常应与您收集数据的方式匹配。

为何使用事件/试验格式的数据?

您通常会收集并分析事件/试验格式的数据,因为您可以一次收集多个试验。例如,一位工程师要生产一个包含 200 个集成电路的批次。该批次中的所有电路都必须使用相同的过程设置。这 200 个电路就是 200 个试验。如果这位工程师要收集另一个具有相同设置的批次的数据,则这些数据位于一个单独的行中。

事件/试验格式示例

在事件/试验格式中,响应变量占用两列。其中一列包含成功次数或相关事件数。另一列包含试验数。

在此工作表中,成功次数包含事件数,它表示通过电气检验的电路数。试验数包含试验数,它表示为该预测变量组合生产的芯片总数。温度是连续预测变量。原材料是类别预测变量。工作表第一行显示的批次是使用供应商 B 提供的原材料在温度为 1500 时制造的 200 个芯片。180 个电路通过了电气检验。
C1 C2 C3 C4
成功次数 试验次数 温度 原材料
180 200 1500 供应商 B
200 200 1400 供应商 A
196 200 1500 供应商 A
197 200 1400 供应商 B
190 200 1400 供应商 A
193 200 1400 供应商 B
198 200 1500 供应商 A
185 200 1500 供应商 B

注意

如果工作表数据采用事件/试验格式,但每行中的试验数很小,则统计量的可信度和解释会改变。例如,如果每行有 1 个试验,则每行的事件数为 0 或 1,对这些数据的分析与针对不带频率列的二元响应/频率数据相同。

为何使用二元响应/频率格式的数据?

您通常会收集并分析二元响应/频率格式的数据,因为您可以在结果出现时记录每个单独试验的结果。例如,一位市场营销顾问在顾客离开超市时对他们是否购买了新品牌的谷类食品进行了调查。在每位顾客回答问题时,这位顾问记录了他们各自的信息。

二元响应/频率格式的数据的示例

在二元响应/频率格式中,响应变量占用一列。响应变量列只有两个值,其中一个表示事件,另一个表示非事件。

在该工作表中,已买是响应,指示消费者是否购买了新品牌的谷类食品。响应事件为收入是连续预测变量,孩子是类别预测变量。工作表中的第一行显示顾问询问的第一个消费者有孩子,该消费者的收入为 37,000 美元而且购买了新品牌的谷类食品。
C1 C2 C3
已买 收入 孩子
37
47
34
58

对于采用二元响应/频率格式的数据可以包括频率列。为了最清楚地解释残差与顺序图,请仅结合连续观测值。如果结合非连续观测值,可能会在残差与顺序图上创建或隐藏模式。

在此工作表中,响应变量和预测变量与上一个示例的相同,但是这些数据还包括频率变量。频率包含顾客的计数,它对应于每一行中的响应变量和预测变量值的组合。工作表第一行显示有孩子且收入为 $40,000 的 2 位顾客购买了新品牌的谷类食品。如果这些不是调查的前两位顾客的数据,则工作表中的数据顺序不同于收集的顺序。对于重新排序的数据,残差与顺序图的模式可能处于隐藏状态或者毫无意义。
C1 C2 C3 C4
已买 收入 孩子 频率
40 2
40 12
45 1
45 6