Exemplo de Descubrir preditores-chave com Classificação TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores coleta dados sobre fatores que afetam uma característica de qualidade de pretzels assados. As variáveis incluem configurações de processo, como ferramenta de mixagem, e propriedades de granulação, como proteína de farinha.

Como parte da exploração inicial dos dados, os pesquisadores decidem usar Descubrir preditores-chave para comparar modelos removendo sequencialmente preditores sem importância para identificar preditores-chave. Os pesquisadores esperam identificar preditores-chave que tenham grandes efeitos sobre a característica da qualidade e obter mais insights sobre as relações entre a característica da qualidade e os principais preditores.

  1. Abra os dados amostrais, aceitabilidade_pretzel.MTW.
  2. Selecione Módulo de análise preditiva > Classificação TreeNet® > Descobrir preditores principais.
  3. Na lista suspensa, selecione Resposta binária.
  4. Em Resposta, digite pretzel aceitável.
  5. Em Evento de resposta, selecione 1 para indicar que o pretzel é aceitável.
  6. Em Preditores contínuos, digite proteína de farinha-densidade a granel.
  7. Em Preditores categóricos, digite ferramenta de mixagem-método do forno.
  8. Clique em Descobrir preditores principais
  9. Em Número máximo de etapas de eliminação, insira 29.
  10. Clique em OK em cada caixa de diálogo.

Interpretar os resultados

Para esta análise, o Minitab Statistical Software compara 28 modelos. O número de etapas é menor que o número máximo de etapas porque o preditor estabilidade da espuma tem uma pontuação de importância de 0 no primeiro modelo, então o algoritmo elimina 2 variáveis na primeira etapa. O asterisco na coluna Modelo da tabela de avaliação de modelos mostra que o modelo com o menor valor da estatística de log-verossimilhança é o modelo 23. Os resultados que seguem a tabela de avaliação do modelo são para o modelo 23.

Embora o modelo 23 tenha o menor valor da estatística média – log-verossimilhança, outros modelos têm valores semelhantes. A equipe pode clicar em Selecione o modelo alternativo para produzir resultados para outros modelos da tabela de avaliação de modelos.

Nos resultados do Modelo 23, o Gráfico de média − log-verossimilhança vs. número de árvores mostra que o número ótimo de árvores é quase o número de árvores na análise. A equipe pode clicar em Ajustar hiperparâmetros para aumentar o número de árvores e para ver se mudanças em outros hiperparâmetros melhoram o desempenho do modelo.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é tempo de mistura. Se a contribuição da variável preditora superior, tempo de mistura, for de 100%, então a próxima variável importante, temperatura do forno, tem uma contribuição de 93,9%. Isso significa que temperatura do forno é 93,9% tão importante quanto tempo de mistura.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os valores de resposta na escala de meio log são as predições oriundas do modelo. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

Os gráficos de dependência parcial do único preditor mostram que os valores médios para tempo de mistura, temperatura do forno e Hora de assar aumentam as chances de um pretzel aceitável. Um valor médio de tempo seco diminui as chances de um pretzel aceitável. Os pesquisadores podem optar por Gráficos de um preditor produzir gráficos para outras variáveis.

O gráfico de dependência parcial de dois preditores de tempo de mistura e temperatura do forno mostra uma relação mais complexa entre as duas variáveis e a resposta. Embora os valores médios aumentem tempo de mistura as chances de um pretzel temperatura do forno aceitável, o gráfico mostra que as melhores chances ocorrem quando ambas as variáveis estão em valores médios. Os pesquisadores podem optar por Gráficos de dois preditores produzir gráficos para outros pares de variáveis.

Método

Critério para seleção do número ótimo de árvoresLog-verossimilhança máximo
Validação do modelo70/30% conjuntos de treinamento/teste
Taxa de aprendizado0,05
Método de seleção da subamostraCompletamente aleatório
    Fração da subamostra0,5
Nós máximos terminais por árvore6
Tamanho mínimo do nó terminal3
Número de preditores selecionados para divisão de nósNúmero total de preditores = 29
Linhas usadas5000

Informações de resposta binária



TreinamentoTeste
VariávelClasseContagem%Contagem%
pretzel aceitável1 (Evento)216061,8294362,62
  0133438,1856337,38
  Todos3494100,001506100,00

Seleção do modelo pela eliminação de preditores sem importância

Teste
ModeloNúmero
ótimo de
árvores
-Log da
Verossimilhança
Média
Número de
preditores
Preditores eliminados
12680,27393629Nenhum
22680,27418627estabilidade da espuma; densidade a granel
32340,27384326menor concentração de gelação
42330,27435025modo forno 2
52320,27494324método do forno
62730,27555323modo forno 1
72440,27481122velocidade de mistura
82680,27425821modo forno 3
92720,27418520superfície de descanso
102320,27407719Temperatura do cozimento 3
112870,27359818ferramenta de mixagem
122270,27435817Temperatura do cozimento 1
132760,27537416tempo de descanso
142720,27608215água
152680,27559514concentração cáustica
162680,27781013Capacidade de inchaço
172530,27643612estabilidade de emulsão
182310,27615911atividade de emulsão
192680,27353710Capacidade de absorção de água
202600,2734559Capacidade de absorção de óleo
212990,2728488proteína de farinha
222780,2726297Capacidade de espuma
23*2990,2671846Tamanho da farinha
242970,2886215Temperatura do cozimento 2
252340,3303424tempo seco
262900,3059933Temperatura de gelatinização
272450,5343452Hora de assar
281460,5998371temperatura do forno
O algoritmo removeu um preditor e todos os preditores com 0 importância em cada etapa.
* O modelo selecionado tem -Log da verossimilhança média. A saída para o modelo selecionado
     vem na sequência.

Sumário do modelo

Preditores totais6
Preditores importantes6
Número de árvores cultivadas300
Número ótimo de árvores299
EstatísticasTreinamentoTeste
-Log da Verossimilhança Média0,24180,2672
Área sob a curva ROC0,96610,9412
        IC de 95%(0,9608; 0,9713)(0,9295; 0,9529)
Elevação1,61761,5970
Taxa de classificação errada0,09700,0963

Matriz de confusão


Classe predita (Treinamento)Classe predita (Teste)
Classe realContagem10% CorretoContagem10% Correto
1 (Evento)2160194221889,919438469789,71
01334121121390,935634851591,47
Todos34942063143190,30150689461290,37
Atribua uma linha à classe de eventos se a probabilidade de evento para a linha exceder 0,5.
     
EstatísticasTreinamento
(%)
Teste (%)
Taxa de positivo verdadeiro (sensibil. ou poder)89,9189,71
Taxa de positivo falso (erro tipo I)9,078,53
Taxa de negativo falso (erro tipo II)10,0910,29
Taxa de negativo verdadeiro (especificidade)90,9391,47

Classificação errada


TreinamentoTeste

ContagemClassificado
errado
% de erroContagemClassificado
errado
% de erro
Classe real



1 (Evento)216021810,099439710,29
013341219,07563488,53
Todos34943399,7015061459,63
Atribua uma linha à classe de eventos se a probabilidade de evento para a linha exceder 0,5.