您用模型预测的方式取决于您如何创建模型。
  • 如果你创建模型, 拟合二元 Logistic 模型选择 统计 > 回归 > 二元 Logistic 回归 > 预测
  • 如果您创建模型 发现最佳模型 (二值响应),请单击 预测 结果。

这两种方法在结果上产生细微的差异。例如,如果使用任一方法存储结果,则预测统计数据在工作表中,但带有的版本 发现最佳模型 (二值响应) 也会显示输出窗格中的回归方程。该版本 拟合二元 Logistic 模型 可以包括适合的标准错误和适合的置信区间。使用任一方法,输出窗格中的结果包括回归方程、预测器的设置和预测表。

回归方程

对于二元 Logistic 回归,Minitab 会显示两种类型的回归方程。第一种方程会将事件概率与变换的响应变量相关。第一种方程的形式取决于链接函数。

第二种方程会将预测变量与变换的响应变量相关。如果模型包含连续预测变量和类别预测变量,则可以为每个类别组合拆分第二种方程。

解释

使用这些方程研究响应变量和预测变量之间的关系。

例如,用于预测顾客是否购买产品的模型包含以下项:
  • 顾客的收入
  • 顾客是否有孩子
  • 两个预测变量之间的交互作用

第一种方程会因为 Logit 链接函数而显示概率和变换的响应变量之间的关系。

第二种方程会显示收入和顾客是否有孩子与变换后响应变量的相关方式。当顾客没有孩子时,收入的系数约为 .0.04。当顾客有孩子时,收入的系数约为 .0.02。对于这些方程,顾客的收入越多,他们购买产品的可能性越大。但是,当顾客没有孩子时,收入对顾客是否购买产品具有较大的效应。

以未编码单位表示的回归方程

P(1)=exp(Y')/(1 + exp(Y'))
孩子
Y'=-3.549 + 0.04296 收入
       
Y'=-1.076 + 0.01565 收入

如果您的模型为非分层结构,并且您已标准化连续预测变量,则回归方程采用编码单位。有关更多信息,请参见有关“编码系数”的部分。有关层次结构的更多信息,请转到 什么是分层模型?

变量设置

Minitab 使用回归方程和变量设置计算拟合值。如果您使用 拟合二元 Logistic 模型 创建模型并且变量设置与用于估计模型的数据相比不寻常,则会在预测下方显示警告。

使用变量设置表来验证是否按预期执行了分析。

安装概率或类概率

当您创建模型时 发现最佳模型 (二值响应),预测表显示每个类的观察数、预测类和成员的概率为。当您创建模型时 拟合二元 Logistic 模型,预测表包括安装概率。

事件概率是事件的发生机会。事件概率估计事件发生的可能性,如在牌桌上抽到一张 A,或制造不一致的部件。事件概率的范围从 0(不可能)到 1(必然)。

解释

在二值 logistic 回归中,响应变量只有两个可能值,如存在或不存在某种特定疾病。事件概率是给定因子或协变量模式的响应为 1 或某一事件的可能性(例如,50 岁以上的妇女患上二型糖尿病的可能性)。

试验中的每个性能都称为一次试验。例如,如果投掷硬币 10 次,并记录了印有头像那面朝上的次数,则您执行了 10 次试验。如果试验是独立的而且可能性相等,则可以通过将事件数量除以试验总数来估计事件概率。例如,如果在 10 次硬币投掷中有 6 次印有头像那面朝上,则估计的事件概率(印有头像那面朝上的投掷)为:

事件数 ÷ 试验数 = 6 ÷ 10 = .6

拟合值标准误

当您创建模型时,SE Fit 在预测表中 拟合二元 Logistic 模型。拟合值标准误(拟合值 SE)用于估计指定变量设置的估计平均响应中的变异。将使用拟合值标准误来计算平均响应的置信区间。标准误始终为非负值。

解释

使用拟合值标准误可度量平均响应估计值的精确度。标准误越小,预测平均响应越精确。例如,一位分析人员设计了一个用于预测交货时间的模型。对于一组变量设置,该模型预测平均交货时间为 3.80 天。这些设置的拟合值标准误为 .0.08 天。对于第二组变量设置,模型生成了相同的平均交货时间,但是拟合值标准误为 .0.02 天。该分析人员可以确信:第二组变量设置的平均交货时间更接近 3.80 天。

您可以将拟合值标准误与拟合值结合使用,从而创建平均响应的置信区间。例如,根据自由度的数量,95% 置信区间将大约从预测均值上方和下方展开两个标准误。对于交货时间,当标准误为 0.08 时,预测均值 3.80 天的 95% 置信区间为 (3.64, 3.96) 天。总体均值在此范围内的置信度为 95%。当标准误为 .0.02 时,95% 置信区间为 (3.76, 3.84) 天。第二组变量设置的置信区间更窄,因为其标准误较小。

拟合值的置信区间(95% 置信区间)

当您创建模型时,适合的置信区间位于预测表中 拟合二元 Logistic 模型。这些置信区间 (CI) 是值的极差,可能包含总体(具有模型中预测变量的观测值)的事件概率。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果将样本重复许多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计值
点估计是从样本数据计算得到的参数的估计值。
边际误差
边际误差定义了置信区间的宽度,它受到事件概率范围、样本数量和置信水平的影响。

解释

使用置信区间可以为变量的实测值评估拟合值的估计值。

例如,对于 95% 置信区间,置信区间包含模型中指定变量值的事件概率的可信度为 95%。置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际显著性的值。如果区间因太宽而毫无用处,请考虑增加样本数量。