Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Uma equipe de pesquisadores coleta dados sobre fatores que afetam uma característica de qualidade de pretzels assados. As variáveis incluem configurações de processo, como ferramenta de mixagem, e propriedades de granulação, como proteína de farinha.
Como parte da exploração inicial dos dados, os pesquisadores decidem usar Descubrir preditores-chave para comparar modelos removendo sequencialmente preditores sem importância para identificar preditores-chave. Os pesquisadores esperam identificar preditores-chave que tenham grandes efeitos sobre a característica da qualidade e obter mais insights sobre as relações entre a característica da qualidade e os principais preditores.
Para esta análise, o Minitab Statistical Software compara 28 modelos. O número de etapas é menor que o número máximo de etapas porque o preditor estabilidade da espuma tem uma pontuação de importância de 0 no primeiro modelo, então o algoritmo elimina 2 variáveis na primeira etapa. O asterisco na coluna Modelo da tabela de avaliação de modelos mostra que o modelo com o menor valor da estatística de log-verossimilhança é o modelo 23. Os resultados que seguem a tabela de avaliação do modelo são para o modelo 23.
Embora o modelo 23 tenha o menor valor da estatística média – log-verossimilhança, outros modelos têm valores semelhantes. A equipe pode clicar em Selecione o modelo alternativo para produzir resultados para outros modelos da tabela de avaliação de modelos.
Nos resultados do Modelo 23, o Gráfico de média − log-verossimilhança vs. número de árvores mostra que o número ótimo de árvores é quase o número de árvores na análise. A equipe pode clicar em Ajustar hiperparâmetros para aumentar o número de árvores e para ver se mudanças em outros hiperparâmetros melhoram o desempenho do modelo.
O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é tempo de mistura. Se a contribuição da variável preditora superior, tempo de mistura, for de 100%, então a próxima variável importante, temperatura do forno, tem uma contribuição de 93,9%. Isso significa que temperatura do forno é 93,9% tão importante quanto tempo de mistura.
Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os valores de resposta na escala de meio log são as predições oriundas do modelo. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.
Os gráficos de dependência parcial do único preditor mostram que os valores médios para tempo de mistura, temperatura do forno e Hora de assar aumentam as chances de um pretzel aceitável. Um valor médio de tempo seco diminui as chances de um pretzel aceitável. Os pesquisadores podem optar por produzir gráficos para outras variáveis.
O gráfico de dependência parcial de dois preditores de tempo de mistura e temperatura do forno mostra uma relação mais complexa entre as duas variáveis e a resposta. Embora os valores médios aumentem tempo de mistura as chances de um pretzel temperatura do forno aceitável, o gráfico mostra que as melhores chances ocorrem quando ambas as variáveis estão em valores médios. Os pesquisadores podem optar por produzir gráficos para outros pares de variáveis.
Critério para seleção do número ótimo de árvores | Log-verossimilhança máximo |
---|---|
Validação do modelo | 70/30% conjuntos de treinamento/teste |
Taxa de aprendizado | 0,05 |
Método de seleção da subamostra | Completamente aleatório |
Fração da subamostra | 0,5 |
Nós máximos terminais por árvore | 6 |
Tamanho mínimo do nó terminal | 3 |
Número de preditores selecionados para divisão de nós | Número total de preditores = 29 |
Linhas usadas | 5000 |
Treinamento | Teste | ||||
---|---|---|---|---|---|
Variável | Classe | Contagem | % | Contagem | % |
pretzel aceitável | 1 (Evento) | 2160 | 61,82 | 943 | 62,62 |
0 | 1334 | 38,18 | 563 | 37,38 | |
Todos | 3494 | 100,00 | 1506 | 100,00 |
Modelo | Número ótimo de árvores | -Log da Verossimilhança Média | Número de preditores | Preditores eliminados |
---|---|---|---|---|
1 | 268 | 0,273936 | 29 | Nenhum |
2 | 268 | 0,274186 | 27 | estabilidade da espuma; densidade a granel |
3 | 234 | 0,273843 | 26 | menor concentração de gelação |
4 | 233 | 0,274350 | 25 | modo forno 2 |
5 | 232 | 0,274943 | 24 | método do forno |
6 | 273 | 0,275553 | 23 | modo forno 1 |
7 | 244 | 0,274811 | 22 | velocidade de mistura |
8 | 268 | 0,274258 | 21 | modo forno 3 |
9 | 272 | 0,274185 | 20 | superfície de descanso |
10 | 232 | 0,274077 | 19 | Temperatura do cozimento 3 |
11 | 287 | 0,273598 | 18 | ferramenta de mixagem |
12 | 227 | 0,274358 | 17 | Temperatura do cozimento 1 |
13 | 276 | 0,275374 | 16 | tempo de descanso |
14 | 272 | 0,276082 | 15 | água |
15 | 268 | 0,275595 | 14 | concentração cáustica |
16 | 268 | 0,277810 | 13 | Capacidade de inchaço |
17 | 253 | 0,276436 | 12 | estabilidade de emulsão |
18 | 231 | 0,276159 | 11 | atividade de emulsão |
19 | 268 | 0,273537 | 10 | Capacidade de absorção de água |
20 | 260 | 0,273455 | 9 | Capacidade de absorção de óleo |
21 | 299 | 0,272848 | 8 | proteína de farinha |
22 | 278 | 0,272629 | 7 | Capacidade de espuma |
23* | 299 | 0,267184 | 6 | Tamanho da farinha |
24 | 297 | 0,288621 | 5 | Temperatura do cozimento 2 |
25 | 234 | 0,330342 | 4 | tempo seco |
26 | 290 | 0,305993 | 3 | Temperatura de gelatinização |
27 | 245 | 0,534345 | 2 | Hora de assar |
28 | 146 | 0,599837 | 1 | temperatura do forno |
Preditores totais | 6 |
---|---|
Preditores importantes | 6 |
Número de árvores cultivadas | 300 |
Número ótimo de árvores | 299 |
Estatísticas | Treinamento | Teste |
---|---|---|
-Log da Verossimilhança Média | 0,2418 | 0,2672 |
Área sob a curva ROC | 0,9661 | 0,9412 |
IC de 95% | (0,9608; 0,9713) | (0,9295; 0,9529) |
Elevação | 1,6176 | 1,5970 |
Taxa de classificação errada | 0,0970 | 0,0963 |
Classe predita (Treinamento) | Classe predita (Teste) | |||||||
---|---|---|---|---|---|---|---|---|
Classe real | Contagem | 1 | 0 | % Correto | Contagem | 1 | 0 | % Correto |
1 (Evento) | 2160 | 1942 | 218 | 89,91 | 943 | 846 | 97 | 89,71 |
0 | 1334 | 121 | 1213 | 90,93 | 563 | 48 | 515 | 91,47 |
Todos | 3494 | 2063 | 1431 | 90,30 | 1506 | 894 | 612 | 90,37 |
Estatísticas | Treinamento (%) | Teste (%) |
---|---|---|
Taxa de positivo verdadeiro (sensibil. ou poder) | 89,91 | 89,71 |
Taxa de positivo falso (erro tipo I) | 9,07 | 8,53 |
Taxa de negativo falso (erro tipo II) | 10,09 | 10,29 |
Taxa de negativo verdadeiro (especificidade) | 90,93 | 91,47 |
Treinamento | Teste | |||||
---|---|---|---|---|---|---|
Contagem | Classificado errado | % de erro | Contagem | Classificado errado | % de erro | |
Classe real | ||||||
1 (Evento) | 2160 | 218 | 10,09 | 943 | 97 | 10,29 |
0 | 1334 | 121 | 9,07 | 563 | 48 | 8,53 |
Todos | 3494 | 339 | 9,70 | 1506 | 145 | 9,63 |