Asegúrese de que Minitab sepa dónde buscar la macro descargada. Elija Ubicación de la macro, navegue hasta la ubicación donde guarda los archivos de macro.
. EnSi utiliza un explorador web más antiguo, cuando haga clic en el botón Descargar, el archivo podría abrirse en Quicktime, que comparte la extensión de archivos .mac con las macros de Minitab. Para guardar la macro, haga clic con el botón derecho en el botón Descargar y elija Guardar destino como.
Para almacenar las probabilidades de un evento a partir de una regresión logística binaria, haga clic en Almacenamiento en el cuadro de diálogo principal y seleccione Probabilidad del evento.
Supongamos que la variable de respuesta binaria está en la columna C3 y que usted tiene dos predictores en las columnas C1 y C2. Las probabilidades del evento se almacenan en C5. Para ejecutar la macro, elija
y escriba:%ROCBLR C3; MODELO C1 C2; EPRO C5.
Haga clic en Enviar comandos.
Tablas de clasificación y curvas ROC
Una medida de lo adecuado de un modelo de regresión logística binaria es su capacidad para predecir con precisión una respuesta binaria, dados los valores de los términos (predictores) en el modelo. Esta capacidad puede resumirse en una tabla de clasificación que tabula el número de veces que el modelo ajustado clasifica la respuesta correctamente para cada uno de los dos valores de respuesta.
Para ver un ejemplo, consulte Ejemplo de regresión logística binaria en la Ayuda de Minitab. Este ejemplo ajusta un modelo de regresión logística binaria en el que la respuesta es PulsoDesc (Alto o Bajo) y los predictores son Peso (una variable continua) y Fuma (una variable categórica con dos valores: Sí o No).
En el conjunto de datos, una persona no es fumadora y pesa 175 libras. Para predecir si esta persona tendrá un pulso en reposo elevado o bajo, su peso y el hecho de que sea fumadora o no (1 si lo es, 0 si no lo es) se "conectan" en la ecuación de la regresión producida en el análisis. El resultado es una probabilidad estimada de tener un pulso en reposo bajo (ya que "Bajo" es el evento de referencia en este ejemplo):
En otras palabras, dados los coeficientes estimados, el no fumador con un peso de 175 libras tiene una probabilidad estimada de 92 % de tener un pulso en reposo bajo. Esta es la probabilidad del evento. Dado que esta probabilidad es tan alta, podríamos clasificar esta observación como "Baja". Estamos tomando una probabilidad estimada y clasificándola como uno de dos valores. Además, el pulso en reposo real observado de esta persona en particular fue bajo. Por lo tanto, el modelo fue exacto al predecir el pulso en reposo para esta persona.
Podemos hacer lo mismo para cada observación del conjunto de datos, pero primero debemos decidir dónde "cortar" la probabilidad del evento. El corte más obvio es 0.5. Podemos decir, para cada observación del conjunto de datos, si la probabilidad del evento es mayor que 0.5, que clasificaremos el pulso en reposo como "Bajo" y si la probabilidad del evento es inferior a 0.5, clasificaremos el pulso en reposo como "Alto".
Por último, podemos comparar el pulso en reposo pronosticado con el pulso en reposo real y tabular estos resultados en una tabla de clasificación (no se muestra).
La tabla mostraría que hubo 68 personas cuyo pulso en reposo fue bajo y que la probabilidad del evento fue mayor que 0.5; la clasificación fue exacta. Además, hubo dos personas cuyo pulso en reposo fue bajo, pero la probabilidad del evento fue menor que 0.5; la clasificación no fue exacta. Igualmente, hubo dos personas cuyo pulso en reposo fue alto y el modelo clasificó correctamente el pulso en reposo. Sin embargo, también hubo 20 personas cuyo pulso en reposo fue alto, pero el modelo clasificó incorrectamente como bajo el pulso en reposo pronosticado. Por lo tanto, usted podría concluir que el modelo se inclina a predecir el pulso en reposo como bajo.
Otros dos valores estadísticos que ayudan a resumir la exactitud del modelo son la sensibilidad y la especificidad. La sensibilidad mide qué tan bien predice el modelo un pulso en reposo bajo, dado que el pulso en reposo real de una persona sea bajo. La especificidad mide qué tan bien predice el modelo un pulso en reposo alto, dado que el pulso en reposo real de una persona sea alto. Para ambos estadísticos, mientras mayor sea el valor, mejor será la capacidad del modelo para clasificar las observaciones.
En este ejemplo, la sensibilidad = 68 /70 ≅ 97 % y especificidad = 2/22 ≅ 9 %.
No obstante, las tablas de clasificación son muy dependientes de la distribución de las observaciones de la tabla de clasificación y pueden ser muy engañosas. Una discusión clara y profunda de los problemas inherentes a las tablas de clasificación se incluye en Applied Logistic Regression de Hosmer y Lemeshow.
Una mejor manera para evaluar la capacidad de un modelo de regresión logística binaria para clasificar con exactitud las observaciones es una curva de rendimiento diagnóstico (ROC). Una curva ROC se construye generando varias tablas de clasificación, para valores de corte que oscilan entre 0 y 1 y calculando la sensibilidad y la especificidad para cada valor. La sensibilidad se grafica en función de 1 - la especificidad para construir una curva ROC.
El área por debajo de la curva ROC (AUC) es una medida de discriminación; un modelo con un área por debajo de la curva ROC alta sugiere que el modelo puede predecir con exactitud el valor de la respuesta de una observación.
Hosmer y Lemeshow proporcionan reglas generales para interpretar valores de AUC. Parafraseando sus reglas se obtienen los lineamientos generales siguientes:
AUC = 0.5 | No discriminación (es decir, también se podría lanzar una moneda) |
0.7 ≤ AUC < 0.8 | Discriminación aceptable |
0.8 ≤ AUC < 0.9 | Excelente discriminación |
AUC ≥ 0.9 | Excelente discriminación (pero extremadamente rara) |
Dado que la AUC para este modelo es menor que 0.7, usted podría concluir que el modelo no proporciona una discriminación adecuada.
Referencias:
D.W. Hosmer y S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John Wiley & Sons, Inc. Pp. 156-164.
A. Agresti (2002). Categorical Data Analysis. 2nd ed. John Wiley & Sons, Inc. Pp.228-230.