Exemplo de Descubrir preditores-chave com Classificação TreeNet^®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores coleta dados sobre fatores que afetam uma característica de qualidade de pretzels assados. As variáveis incluem configurações de processo, como ferramenta de mixagem, e propriedades de granulação, como proteína de farinha.

Como parte da exploração inicial dos dados, os pesquisadores decidem usar Descubrir preditores-chave para comparar modelos removendo sequencialmente preditores sem importância para identificar preditores-chave. Os pesquisadores esperam identificar preditores-chave que tenham grandes efeitos sobre a característica da qualidade e obter mais insights sobre as relações entre a característica da qualidade e os principais preditores.

Abra os dados amostrais, aceitabilidade_pretzel.MWX.
Selecione Módulo de análise preditiva > Classificação TreeNet® > Descobrir preditores principais.
Na lista suspensa, selecione Resposta binária.
Em Resposta, digite pretzel aceitável.
Em Evento de resposta, selecione 1 para indicar que o pretzel é aceitável.
Em Preditores contínuos, digite proteína de farinha-densidade a granel.
Em Preditores categóricos, digite ferramenta de mixagem-método do forno.
Clique em Eliminação de preditores.
Em Número máximo de etapas de eliminação, insira 29.
Clique em OK em cada caixa de diálogo.

Interpretar os resultados

Para esta análise, o Minitab Statistical Software compara 28 modelos. O número de etapas é menor que o número máximo de etapas porque o preditor estabilidade da espuma tem uma pontuação de importância de 0 no primeiro modelo, então o algoritmo elimina 2 variáveis na primeira etapa. O asterisco na coluna Modelo da tabela de avaliação de modelos mostra que o modelo com o menor valor da estatística de log-verossimilhança é o modelo 23. Os resultados que seguem a tabela de avaliação do modelo são para o modelo 23.

Embora o modelo 23 tenha o menor valor da estatística média – log-verossimilhança, outros modelos têm valores semelhantes. A equipe pode clicar em Selecione o modelo alternativo para produzir resultados para outros modelos da tabela de avaliação de modelos.

Nos resultados do Modelo 23, o Gráfico de média − log-verossimilhança vs. número de árvores mostra que o número ótimo de árvores é quase o número de árvores na análise. A equipe pode clicar em Ajustar hiperparâmetros para aumentar o número de árvores e para ver se mudanças em outros hiperparâmetros melhoram o desempenho do modelo.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é tempo de mistura. Se a contribuição da variável preditora superior, tempo de mistura, for de 100%, então a próxima variável importante, temperatura do forno, tem uma contribuição de 91,0%. Isso significa que temperatura do forno é 91,0% tão importante quanto tempo de mistura.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os valores de resposta na escala de meio log são as predições oriundas do modelo. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

Os gráficos de dependência parcial do único preditor mostram que os valores médios para tempo de mistura, temperatura do forno e Hora de assar aumentam as chances de um pretzel aceitável. Um valor médio de tempo seco diminui as chances de um pretzel aceitável. Os pesquisadores podem optar por Gráficos de um preditor produzir gráficos para outras variáveis.

O gráfico de dependência parcial de dois preditores de tempo de mistura e temperatura do forno mostra uma relação mais complexa entre as duas variáveis e a resposta. Embora os valores médios aumentem tempo de mistura as chances de um pretzel temperatura do forno aceitável, o gráfico mostra que as melhores chances ocorrem quando ambas as variáveis estão em valores médios. Os pesquisadores podem optar por Gráficos de dois preditores produzir gráficos para outros pares de variáveis.

Método

Critério para seleção do número ótimo de árvores	Log-verossimilhança máximo
Validação do modelo	70/30% conjuntos de treinamento/teste
Taxa de aprendizado	0,05
Método de seleção da subamostra	Completamente aleatório
Fração da subamostra	0,5
Nós máximos terminais por árvore	6
Tamanho mínimo do nó terminal	3
Número de preditores selecionados para divisão de nós	Número total de preditores = 29
Linhas usadas	5000

Informações de resposta binária

		Treinamento		Teste
Variável	Classe	Contagem	%	Contagem	%
pretzel aceitável	1 (Evento)	2160	61,82	943	62,62
	0	1334	38,18	563	37,38
	Todos	3494	100,00	1506	100,00

Seleção do modelo pela eliminação de preditores sem importância

Teste

Modelo	Número ótimo de árvores	-Log da Verossimilhança Média	Número de preditores	Preditores eliminados
1	268	0,273936	29	Nenhum
2	268	0,274186	27	estabilidade da espuma; densidade a granel
3	234	0,273843	26	menor concentração de gelação
4	233	0,274350	25	modo forno 2
5	232	0,274943	24	método do forno
6	273	0,275553	23	modo forno 1
7	244	0,274811	22	velocidade de mistura
8	268	0,274258	21	modo forno 3
9	272	0,274185	20	superfície de descanso
10	232	0,274077	19	Temperatura do cozimento 3
11	287	0,273598	18	ferramenta de mixagem
12	227	0,274358	17	Temperatura do cozimento 1
13	276	0,275374	16	tempo de descanso
14	272	0,276082	15	água
15	268	0,275595	14	concentração cáustica
16	268	0,277810	13	Capacidade de inchaço
17	253	0,276436	12	estabilidade de emulsão
18	231	0,276159	11	atividade de emulsão
19	268	0,273537	10	Capacidade de absorção de água
20	260	0,273455	9	Capacidade de absorção de óleo
21	299	0,272848	8	proteína de farinha
22	278	0,272629	7	Capacidade de espuma
23*	299	0,267184	6	Tamanho da farinha
24	297	0,288621	5	Temperatura do cozimento 2
25	234	0,330342	4	tempo seco
26	290	0,305993	3	Temperatura de gelatinização
27	245	0,534345	2	Hora de assar
28	146	0,599837	1	temperatura do forno

Sumário do modelo

Preditores totais	6
Preditores importantes	6
Número de árvores cultivadas	300
Número ótimo de árvores	299

Estatísticas	Treinamento	Teste
-Log da Verossimilhança Média	0,2418	0,2672
Área sob a curva ROC	0,9661	0,9412
IC de 95%	(0,9608; 0,9713)	(0,9295; 0,9529)
Elevação	1,6176	1,5970
Taxa de classificação errada	0,0970	0,0963

Matriz de confusão

	Classe predita (Treinamento)				Classe predita (Teste)
Classe real	Contagem	1	0	% Correto	Contagem	1	0	% Correto
1 (Evento)	2160	1942	218	89,91	943	846	97	89,71
0	1334	121	1213	90,93	563	48	515	91,47
Todos	3494	2063	1431	90,30	1506	894	612	90,37

Estatísticas	Treinamento (%)	Teste (%)
Taxa de positivo verdadeiro (sensibil. ou poder)	89,91	89,71
Taxa de positivo falso (erro tipo I)	9,07	8,53
Taxa de negativo falso (erro tipo II)	10,09	10,29
Taxa de negativo verdadeiro (especificidade)	90,93	91,47

Classificação errada

	Treinamento			Teste
	Contagem	Classificado errado	% de erro	Contagem	Classificado errado	% de erro
Classe real		Classificado errado			Classificado errado
1 (Evento)	2160	218	10,09	943	97	10,29
0	1334	121	9,07	563	48	8,53
Todos	3494	339	9,70	1506	145	9,63

Exemplo de Descubrir preditores-chave com Classificação TreeNet®