Ejemplo de Descubrir predictores clave con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores recopila datos sobre los factores que afectan una característica de calidad de los pretzels horneados. Las variables incluyen la configuración del proceso, como herramienta de mezcla, y las propiedades del grano, como proteína de harina.

Como parte de la exploración inicial de los datos, los investigadores deciden utilizar Descubrir predictores clave modelos de comparación mediante la eliminación secuencial de predictores sin importancia para identificar los predictores clave. Los investigadores esperan identificar predictores clave que tengan grandes efectos en la característica de calidad y obtener más información sobre las relaciones entre la característica de calidad y los predictores clave.

  1. Abra los datos de muestra, aceptabilidad_pretzel.MTW.
  2. Elija Módulo de análisis predictivo > Clasificación TreeNet® > Descubrir predictores clave.
  3. En la lista desplegable, seleccione Respuesta binaria.
  4. En Respuesta, ingrese Pretzel aceptable.
  5. En Response event, seleccione 1 para indicar que el pretzel es aceptable.
  6. En Predictores continuos, ingrese proteína de harina-Densidad a granel.
  7. En Predictores categóricos, ingrese herramienta de mezcla-método kiln.
  8. Clic Descubrir predictores clave
  9. En Número máximo de pasos de eliminación el archivo 29.
  10. Haga clic en Aceptar en cada cuadro de diálogo.

Interpretar los resultados

Para este análisis, Minitab Statistical Software compara 28 modelos. El número de pasos es menor que el número máximo de pasos porque el Estabilidad de espuma predictor tiene una puntuación de importancia de 0 en el primer modelo, por lo que el algoritmo elimina 2 variables en el primer paso. El asterisco de la columna Modelo de la tabla Evaluación de modelos muestra que el modelo con el valor más pequeño del estadístico promedio –loglikelihood es el modelo 23. Los resultados que siguen a la tabla de evaluación del modelo son para el modelo 23.

Aunque el modelo 23 tiene el valor más pequeño del estadístico promedio –logverosimilitud, otros modelos tienen valores similares. El equipo puede hacer clic Seleccionar modelo alternativo para generar resultados para otros modelos desde la tabla Evaluación de modelos.

En los resultados del Modelo 23, la gráfica Average –Loglikelihood vs. Number of Trees muestra que el número óptimo de árboles es casi el número de árboles en el análisis. El equipo puede hacer clic Ajustar hiperparámetros para aumentar el número de árboles y ver si los cambios en otros hiperparámetros mejoran el rendimiento del modelo.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es tiempo de mezcla. Si la importancia de la variable predictora principal, tiempo de mezcla, es del 100%, entonces la siguiente variable importante, Temperatura del horno, tiene una contribución del 93,9%. Esto significa que Temperatura del horno es un 93,9% tan importante como tiempo de mezcla.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan los valores de respuesta ajustados. Los valores de respuesta ajustados están se encuentran en la escala semi-logarítmica. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

Los gráficos de dependencia parcial de un predictor muestran que los valores medios para tiempo de mezcla, Temperatura del horno y Tiempo para hornear aumentan las probabilidades de un pretzel aceptable. Un valor medio de Tiempo seco disminuye las probabilidades de un pretzel aceptable. Los investigadores pueden seleccionar Gráficos de un predictor producir gráficos para otras variables.

El gráfico de dependencia parcial de dos predictores muestra tiempo de mezcla Temperatura del horno una relación más compleja entre las dos variables y la respuesta. Si bien los valores medios de tiempo de mezcla y Temperatura del horno aumentan las probabilidades de un pretzel aceptable, el gráfico muestra que las mejores probabilidades ocurren cuando ambas variables están en valores medios. Los investigadores pueden seleccionar Gráficos de dos predictores producir gráficos para otros pares de variables.

Método

Criterio para seleccionar un número óptimo de árbolesMáxima logverosimilitud
Validación del modelo70/30% conjuntos de entrenamiento/prueba
Tasa de aprendizaje0.05
Método de selección de submuestrasCompletamente aleatorio
    Fracción de submuestra0.5
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 29
Filas utilizadas5000

Información de respuesta binaria



EntrenamientoPrueba
VariableClaseConteo%Conteo%
Pretzel aceptable1 (Evento)216061.8294362.62
  0133438.1856337.38
  Todo3494100.001506100.00

Selección del modelo eliminando predictores no importantes

Prueba
ModeloNúmero
óptimo de
árboles
Log-verosimilitud
promedio
Número de
predictores
Predictores eliminados
12680.27393629Ninguno
22680.27418627Estabilidad de espuma, Densidad a granel
32340.27384326Concentración gelificación mín.
42330.27435025Modo horno 2
52320.27494324método kiln
62730.27555323Modo horno 1
72440.27481122velocidad de mezcla
82680.27425821Modo horno 3
92720.27418520Superficie en reposo
102320.27407719temperatura de hornear 3
112870.27359818herramienta de mezcla
122270.27435817temperatura de hornear 1
132760.27537416Tiempo de descanso
142720.27608215Agua
152680.27559514Concentración cáustica
162680.27781013capacidad de hinchazón
172530.27643612Estabilidad de emulsión
182310.27615911actividad de emulsión
192680.27353710Capacidad de absorción de agua
202600.2734559Capacidad absorción de aceite
212990.2728488proteína de harina
222780.2726297Capacidad de espuma
23*2990.2671846tamaño de la harina
242970.2886215temperatura de hornear 2
252340.3303424Tiempo seco
262900.3059933temperatura de gelatinización
272450.5343452Tiempo para hornear
281460.5998371Temperatura del horno
El algoritmo eliminó un solo predictor y todos los predictores con 0 importancia en cada
     paso.
* El modelo seleccionado tiene la mínima-logververosimilitud promedio. A continuación se
     muestra la salida del modelo seleccionado.

Resumen del modelo

Total de predictores6
Predictores importantes6
Número de árboles cultivados300
Número óptimo de árboles299
EstadísticasEntrenamientoPrueba
Logverosimilitud promedio0.24180.2672
Área bajo la curva ROC0.96610.9412
        IC de 95%(0.9608, 0.9713)(0.9295, 0.9529)
Elevación1.61761.5970
Tasa de clasificación errónea0.09700.0963

Matriz de confusión


Clase de predicción
(entrenamiento)





Clase de predicción (prueba)
Clase realConteo10% CorrectoConteo10% Correcto
1 (Evento)2160194221889.919438469789.71
01334121121390.935634851591.47
Todo34942063143190.30150689461290.37
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.
     
EstadísticasEntrenamiento
(%)
Prueba (%)
Tasa de positivos verdaderos (sensibilidad o potencia)89.9189.71
Tasa de positivos falsos (error tipo I)9.078.53
Tasa de negativos falsos (error tipo II)10.0910.29
Tasa de negativos verdaderos (especificidad)90.9391.47

Clasificación errónea


EntrenamientoPrueba

ConteoClasificado
erróneamente
% ErrorConteoClasificado
erróneamente
% Error
Clase real



1 (Evento)216021810.099439710.29
013341219.07563488.53
Todo34943399.7015061459.63
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.