Ejemplo de Descubrir predictores clave para Regresión TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores quiere utilizar los datos de un proceso de moldeo por inyección para estudiar la configuración de las máquinas que maximizan un tipo de resistencia de una pieza de plástico. Las variables incluyen controles en las máquinas, diferentes fórmulas de plástico y las máquinas de moldeo por inyección.

Como parte de la exploración inicial de los datos, el equipo decide utilizar Descubrir predictores clave para comparar modelos mediante la eliminación secuencial de predictores sin importancia para identificar predictores clave. Los investigadores esperan identificar los predictores clave que tienen el mayor efecto en la respuesta y obtener más información sobre las relaciones entre la respuesta y los predictores clave.

  1. Abra el conjunto de datos de muestra proceso_de_inyección.MTW.
  2. Elija Módulo de análisis predictivo > Regresión TreeNet® > Descubrir predictores clave.
  3. En Respuesta, ingrese fuerza.
  4. En Predictores continuos, escriba presión de inyeccióntemperatura a medida.
  5. En Predictores categóricos, ingrese máquina y fórmula.
  6. Haga clic en Aceptar.

Interpretar los resultados

Para este análisis, Minitab Statistical Software compara 20 modelos. El asterisco de la columna Modelo de la tabla Evaluación del modelo muestra que el modelo con el mayor valor del estadístico R2 validado de forma cruzada es el modelo 16. El modelo 16 contiene 5 predictores importantes. Los resultados que siguen a la tabla de evaluación del modelo son para el modelo 16.

Aunque el modelo 16 tiene el mayor valor del estadístico R2 validado de forma cruzada, otros modelos tienen valores similares. El equipo puede hacer clic Seleccionar modelo alternativo para generar resultados para otros modelos desde la tabla Evaluación de modelos.

En los resultados del Modelo 16, la gráfica R cuadrado frente al número de árboles muestra que el número óptimo de árboles es igual al número de árboles en el análisis, 300. El equipo puede hacer clic Ajustar hiperparámetros para aumentar el número de árboles y ver si los cambios en otros hiperparámetros mejoran el rendimiento del modelo.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es la temperatura del molde. Si la importancia de la principal variable predictora, la temperatura del molde, es del 100%, entonces la siguiente variable importante, la máquina, tiene una contribución del 58,7%. Esto significa que la máquina que inyecta es un 58,7% tan importante como la temperatura dentro del molde.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan la respuesta pronosticada. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

Los gráficos de dependencia parcial de un predictor muestran que la temperatura del molde, la presión de inyección y la temperatura de enfriamiento tienen una relación positiva con la resistencia. El gráfico de las máquinas muestra las diferencias entre las máquinas, con la máquina 1 fabricando las partes más débiles en promedio y la máquina 4 haciendo las partes más fuertes en promedio. El equipo se da cuenta de que la temperatura del molde y la máquina tienen la interacción más fuerte en los datos, por lo que observan el gráfico de dependencia parcial de dos predictores para comprender mejor cómo estas variables afectan la resistencia. El equipo puede seleccionar Gráficos de un predictor en los resultados producir gráficos para otras variables, como la temperatura de inyección.

El gráfico de dependencia parcial de dos predictores de la temperatura del molde y la máquina proporciona una idea de las diferentes resistencias medias de las máquinas. Una de las razones es que los datos de la máquina 1 no incluyen tantas observaciones a las temperaturas de molde más altas como las otras máquinas. El equipo aún podría decidir buscar otras razones por las que las máquinas producen diferentes resistencias cuando otras configuraciones son las mismas. El equipo puede hacer clic Gráficos de dos predictores en los resultados para producir gráficos para otros pares de variables.

Método

Función de pérdidaError cuadrático
Criterio para seleccionar un número óptimo de árbolesR-cuadrado máximo
Validación del modeloValidación cruzada de 3 pliegues
Tasa de aprendizaje0.01408
Fracción de submuestra0.5
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 21
Filas utilizadas1408

Información de respuesta

MediaDesv.Est.MínimoQ1MedianaQ3Máximo
485.247318.61141.2082301.099398.924562.4492569.04

Selección del modelo eliminando predictores no importantes

Prueba
ModeloNúmero
óptimo de
árboles
R-cuadrado
(%)
Número de
predictores
Predictores eliminados
130089.3221Ninguno
230089.3419caudal de plástico, cambiar de posición
330089.3918Temperatura de secado
430089.4617zona de temperatura de fusión 2
530089.5116Temperatura de plástico
630089.5015fórmula
730089.5914presión de retención
830089.5713cojín de tornillo
930089.6912zona de temperatura de fusión 4
1030089.7011presión de espalda
1130089.8610zona de temperatura de fusión 1
1230089.909Tiempo de secado
1330089.928temperatura a medida
1430090.067zona de temperatura de fusión 5
1530090.166zona de temperatura de fusión 3
16*30090.235Velocidad de rotación tornillo
1730089.964temperatura de inyección
1829779.373Temperatura de refrigeración
1924466.642presión de inyección
2016446.191máquina
El algoritmo eliminó un solo predictor y todos los predictores con 0 importancia en cada
     paso.
* El modelo seleccionado tiene el R-cuadrado máximo. A continuación se muestra la salida del
     modelo seleccionado.

Resumen del modelo

Total de predictores5
Predictores importantes5
Número de árboles cultivados300
Número óptimo de árboles300
EstadísticasEntrenamientoPrueba
R-cuadrado92.23%90.23%
Raíz de los cuadrados medios del error (RMSE)88.804999.5673
Cuadrado medio del error (MSE)7886.31529913.6420
Desviación absoluta media (MAD)68.923174.4113
Media del error porcentual absoluto (MAPE)0.20830.2175