Exemplo de Descubrir preditores-chave para Regressão TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores quer usar dados de um processo de moldagem por injeção para estudar configurações para máquinas que maximizam um tipo de força de uma peça plástica. As variáveis incluem controles nas máquinas, diferentes fórmulas plásticas e máquinas de moldagem por injeção.

Como parte da exploração inicial dos dados, a equipe decide usar Descubrir preditores-chave para comparar modelos removendo sequencialmente preditores sem importância para identificar preditores-chave. Os pesquisadores esperam identificar os principais preditores que têm mais efeito na resposta e obter mais informações sobre as relações entre a resposta e os principais preditores.

  1. Abra o conjunto de dados de amostra processo_de_injeção.MTW.
  2. Selecione Módulo de análise preditiva > Regressão TreeNet® > Descobrir preditores principais.
  3. Em Resposta, digite força.
  4. Em Preditores contínuos, insira pressão de injeçãoTemperatura em medição.
  5. Em Preditores categóricos, digite máquinafórmula.
  6. Clique em OK.

Interprete os resultados

Para esta análise, o Minitab Statistical Software compara 20 modelos. O asterisco na coluna Modelo da tabela de avaliação de modelos mostra que o modelo com maior valor da estatística R2 validada cruzada é o modelo 16. O modelo 16 contém 5 preditores importantes. Os resultados que seguem a tabela de avaliação do modelo são para o modelo 16.

Embora o Modelo 16 tenha o maior valor da estatística R2 validada cruzada, outros modelos possuem valores semelhantes. A equipe pode clicar em Selecionar um modelo alternativo para produzir resultados para outros modelos da tabela de avaliação de modelos.

Nos resultados do modelo 16, o Gráfico R-quadrado versus número de árvores mostra que o número ótimo de árvores é igual ao número de árvores na análise, 300. A equipe pode clicar em Sintonizar hiperparâmetros para identificar um modelo melhor para aumentar o número de árvores e para ver se mudanças em outros hiperparâmetros melhoram o desempenho do modelo.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é Temperatura do molde. Se a importância da variável principal do preditor, Temperatura do molde, for 100%, a próxima variável importante, Máquina, terá uma contribuição de 58,7%. Isso significa que a máquina que injeta é 58,7% tão importante quanto a temperatura no interior do molde.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os valores de resposta na escala de meio log são as predições oriundas do modelo. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

Os gráficos de dependência parcial do preditor mostram que a temperatura do molde, a pressão de injeção e a temperatura de resfriamento têm uma relação positiva com força. O gráfico das máquinas mostra as diferenças entre as máquinas, com a máquina 1 fazendo as peças mais fracas em média e a máquina 4 fazendo as peças mais fortes em média. A equipe nota que a temperatura do molde e a máquina têm a interação mais forte nos dados, então eles olham para o gráfico de dependência parcial de dois preditores para entender melhor como essas variáveis afetam a força. A equipe pode clicar em Selecionar mais preditores para representar no gráfico para produzir gráficos para outras variáveis, como Temperatura de injeção.

O gráfico de dependência parcial de dois preditores de Temperatura do molde e Máquina dá algumas informações sobre os pontos fortes médios da diferença para as máquinas. Uma das razões é que os dados da máquina 1 não incluem tantas observações nas temperaturas mais altas do molde quanto as outras máquinas. A equipe ainda poderia decidir procurar outras razões para que as máquinas produzam diferentes pontos fortes quando outras configurações são as mesmas. A equipe pode clicar em Selecionar mais preditores para representar no gráfico para produzir gráficos para outros pares de variáveis.

Método

Função de perdaErro quadrado
Critério para seleção do número ótimo de árvoresR-quadrado máximo
Validação do modeloValidação cruzada de 3 dobras
Taxa de aprendizado0,01408
Fração da subamostra0,5
Nós máximos terminais por árvore6
Tamanho mínimo do nó terminal3
Número de preditores selecionados para divisão de nósNúmero total de preditores = 21
Linhas usadas1408

Informações da Resposta

MédiaDesvPadMínimoQ1MedianaQ3Máximo
485,247318,61141,2082301,099398,924562,4492569,04

Seleção do modelo pela eliminação de preditores sem importância

Teste
ModeloNúmero
ótimo de
árvores
R-quadrado
(%)
Número de
preditores
Preditores eliminados
130089,3221Nenhum
230089,3419Taxa de fluxo de plástico; mudar de posição
330089,3918temperatura de secagem
430089,4617Zona de temperatura derretida 2
530089,5116Temperatura plástica
630089,5015fórmula
730089,5914Segurar pressão
830089,5713almofada para parafusos
930089,6912Zona de temperatura derretida 4
1030089,7011pressão nas costas
1130089,8610Zona de temperatura derretida 1
1230089,909tempo de secagem
1330089,928Temperatura em medição
1430090,067Zona de temperatura derretida 5
1530090,166Zona de temperatura derretida 3
16*30090,235Velocidade rotação do parafuso
1730089,964temperatura da injeção
1829779,373temperatura de resfriamento
1924466,642pressão de injeção
2016446,191máquina
O algoritmo removeu um preditor e todos os preditores com 0 importância em cada etapa.
* O modelo selecionado tem R-quadrado máximo. A saída para o modelo selecionado vem na
     sequência.

Sumário do modelo

Preditores totais5
Preditores importantes5
Número de árvores cultivadas300
Número ótimo de árvores300
EstatísticasTreinamentoTeste
R-quadrado92,23%90,23%
Raiz do quadrado médio do Erro (RMSE)88,804999,5673
Quadrado médio do erro (MSE)7886,31529913,6420
Desvio absoluto médio (DAM)68,923174,4113
Erro percentual absoluto médio (MAPE)0,20830,2175