Exemplo de Descubrir preditores-chave com Classificação TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores coleta dados sobre fatores que afetam uma característica de qualidade de pretzels assados. As variáveis incluem configurações de processos, ferramenta de mixagemcomo, e propriedades de grãos, como proteína de farinha.

Como parte da exploração inicial dos dados, os pesquisadores decidem usar Descubrir preditores-chave para comparar modelos removendo sequencialmente preditores sem importância para identificar preditores-chave. Os pesquisadores esperam identificar preditores-chave que tenham grandes efeitos sobre a característica da qualidade e obter mais insights sobre as relações entre a característica da qualidade e os principais preditores.

  1. Abra os dados amostrais, aceitabilidade_pretzel.MTW.
  2. Selecione Módulo de análise preditiva > Classificação TreeNet® > Descobrir preditores principais.
  3. Na lista suspensa, selecione Resposta binária.
  4. Em Resposta, digite pretzel aceitável.
  5. Em Evento de resposta, selecione 1 para indicar que o pretzel é aceitável.
  6. Em Preditores contínuos, insira proteína de farinha-densidade a granel.
  7. Em Preditores categóricos, insira ferramenta de mixagem-método do forno.
  8. Clique em Descobrir preditores principais
  9. Em Número máximo de etapas de eliminação, insira 29.
  10. Clique em OK em cada caixa de diálogo.

Interprete os resultados

Para esta análise, o Minitab Statistical Software compara 28 modelos. O número de etapas é menor que o número máximo de etapas porque o preditor estabilidade da espuma tem uma pontuação de importância de 0 no primeiro modelo, então o algoritmo elimina 2 variáveis na primeira etapa. O asterisco na coluna Modelo da tabela de avaliação de modelos mostra que o modelo com o menor valor da estatística de log-verossimilhança é o modelo 23. Os resultados que seguem a tabela de avaliação do modelo são para o modelo 23.

Embora o modelo 23 tenha o menor valor da estatística média – log-verossimilhança, outros modelos têm valores semelhantes. A equipe pode clicar em Selecionar um modelo alternativo para produzir resultados para outros modelos da tabela de avaliação de modelos.

Nos resultados do Modelo 23, o Gráfico de média − log-verossimilhança vs. número de árvores mostra que o número ótimo de árvores é quase o número de árvores na análise. A equipe pode clicar em Sintonizar hiperparâmetros para identificar um modelo melhor para aumentar o número de árvores e para ver se mudanças em outros hiperparâmetros melhoram o desempenho do modelo.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é tempo de mistura. Se a contribuição da variável preditora superior, tempo de mistura, for de 100%, então a próxima variável importante, temperatura do forno, tem uma contribuição de 93,9%. Isso significa que temperatura do forno é 93,9% tão importante quanto tempo de mistura.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os valores de resposta na escala de meio log são as predições oriundas do modelo. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

Os gráficos de dependência parcial do único preditor mostram que os valores médios para tempo de mistura, temperatura do forno e Hora de assar aumentam as chances de um pretzel aceitável. Um valor médio de tempo seco diminui as chances de um pretzel aceitável. Os pesquisadores podem clicar em Selecionar mais preditores para representar no gráfico para produzir gráficos para outras variáveis.

O gráfico de dependência parcial de dois preditores de tempo de mistura e temperatura do forno mostra uma relação mais complexa entre as duas variáveis e a resposta. Enquanto os valores médios tempo de mistura e temperatura do forno aumentam as chances de um pretzel aceitável, o gráfico mostra que as melhores chances ocorrem quando ambas as variáveis estão em valores médios. Os pesquisadores podem clicar em Selecionar mais preditores para representar no gráfico para produzir gráficos para outros pares de variáveis.

Classificação TreeNet®: pretzel acei vs proteína de ; água; tempo de mis; ...

Método Critério para seleção do número ótimo de árvores Log-verossimilhança máximo Validação do modelo 70/30% conjuntos de treinamento/teste Taxa de aprendizado 0,05 Método de seleção da subamostra Completamente aleatório Fração da subamostra 0,5 Nós máximos terminais por árvore 6 Tamanho mínimo do nó terminal 3 Número de preditores selecionados para divisão de nós Número total de preditores = 29 Linhas usadas 5000
Informações de resposta binária Treinamento Teste Variável Classe Contagem % Contagem % pretzel aceitável 1 (Evento) 2160 61,82 943 62,62 0 1334 38,18 563 37,38 Tudo 3494 100,00 1506 100,00

Classificação TreeNet® - descubra os preditores principais: pretzel acei versus proteína de ; água; ...

Eliminação de preditor

Seleção do modelo pela eliminação de preditores sem importância Teste Número ótimo de Log-verossimilhança Número de Modelo árvores médio preditores 1 268 0,273936 29 2 268 0,274186 27 3 234 0,273843 26 4 233 0,274350 25 5 232 0,274943 24 6 273 0,275553 23 7 244 0,274811 22 8 268 0,274258 21 9 272 0,274185 20 10 232 0,274077 19 11 287 0,273598 18 12 227 0,274358 17 13 276 0,275374 16 14 272 0,276082 15 15 268 0,275595 14 16 268 0,277810 13 17 253 0,276436 12 18 231 0,276159 11 19 268 0,273537 10 20 260 0,273455 9 21 299 0,272848 8 22 278 0,272629 7 23* 299 0,267184 6 24 297 0,288621 5 25 234 0,330342 4 26 290 0,305993 3 27 245 0,534345 2 28 146 0,599837 1
Modelo Preditores eliminados 1 Nenhum 2 estabilidade da espuma; densidade a granel 3 menor concentração de gelação 4 modo forno 2 5 método do forno 6 modo forno 1 7 velocidade de mistura 8 modo forno 3 9 superfície de descanso 10 Temperatura do cozimento 3 11 ferramenta de mixagem 12 Temperatura do cozimento 1 13 tempo de descanso 14 água 15 concentração cáustica 16 Capacidade de inchaço 17 estabilidade de emulsão 18 atividade de emulsão 19 Capacidade de absorção de água 20 Capacidade de absorção de óleo 21 proteína de farinha 22 Capacidade de espuma 23* Tamanho da farinha 24 Temperatura do cozimento 2 25 tempo seco 26 Temperatura de gelatinização 27 Hora de assar 28 temperatura do forno O algoritmo removeu um preditor e todos os preditores com 0 importância em cada etapa. * O modelo selecionado tem média mínima-log-verossimilhança. A saída para o modelo selecionado vem na sequência.

Classificação TreeNet®: pretzel acei vs tempo de mis; Hora de assa; ...

Resumo do modelo Preditores totais 6 Preditores importantes 6 Número de árvores cultivadas 300 Número ótimo de árvores 299 Estatística Treinamento Teste Log-verossimilhança médio 0,2418 0,2672 Área sob a curva ROC 0,9661 0,9412 IC de 95% (0,9608; 0,9713) (0,9295; 0,9529) Elevação 1,6176 1,5970 Taxa de classificação incorreta 0,0970 0,0963

Classificação TreeNet®: pretzel acei vs tempo de mis; Hora de assa; ...

Matriz de confusão Classe predita (Treinamento) Classe predita (Teste) Classe real Contagem 1 0 % Correto Contagem 1 0 % Correto 1 (Evento) 2160 1942 218 89,91 943 846 97 89,71 0 1334 121 1213 90,93 563 48 515 91,47 Tudo 3494 2063 1431 90,30 1506 894 612 90,37 Atribua uma linha à classe de eventos se a probabilidade de evento para a linha exceder 0,5.
Treinamento Estatística (%) Teste (%) Taxa de positivo verdadeiro (sensibil. ou poder) 89,91 89,71 Taxa de positivo falso (erro tipo I) 9,07 8,53 Taxa de negativo falso (erro tipo II) 10,09 10,29 Taxa de negativo verdadeiro (especificidade) 90,93 91,47
Classificação errada Treinamento Teste Classificado Classificado Classe real Contagem errado % de erro Contagem errado 1 (Evento) 2160 218 10,09 943 97 0 1334 121 9,07 563 48 Tudo 3494 339 9,70 1506 145
Classe real % de erro 1 (Evento) 10,29 0 8,53 Tudo 9,63 Atribua uma linha à classe de eventos se a probabilidade de evento para a linha exceder 0,5.

Um preditor de parcelas de dependência parcial

Selecione mais preditores para representar graficamente...

Dois lotes de dependência parcial preditor

Selecione mais preditores para representar graficamente...