Exemplo de Descobrir o melhor modelo (Resposta contínua)

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Procure o melhor tipo de modelo

Pesquisadores de um sistema de saúde coletam dados de suas clínicas médicas regionais. Em particular, a equipe de pesquisa está interessada em dados dos exames iniciais dos médicos sobre pacientes doentes. Ao final dos exames iniciais, os médicos atribuem a cada paciente uma pontuação para a gravidade de sua doença. Os pesquisadores querem desenvolver um pequeno questionário para ajudar a priorizar os pacientes mais doentes antes do exame por um médico. Por meio de consulta com especialistas no assunto e exploração inicial dos dados, a equipe seleciona 8 variáveis para prever o escore de gravidade. Os pesquisadores querem determinar o melhor tipo de modelo para prever o escore de gravidade antes de refinar ainda mais o modelo.

Os pesquisadores utilizam Descobrir o melhor modelo (Resposta contínua) para comparar o desempenho preditivo de 4 tipos de modelos: regressão múltipla, TreeNet®, Random Forests® e CART®. A equipe planeja explorar ainda mais o tipo de modelo com o melhor desempenho preditivo.

Use os links a seguir para ver um exemplo de cada tipo de modelo para um conjunto de dados diferente:
  1. Abra os dados amostrais, Disease.mtw.
  2. Selecione Módulo de análise preditiva > Aprendizado de máquina automatizado > Descobrir o melhor modelo (Resposta contínua).
  3. Em Resposta, insira 'Pontuação da Doença'.
  4. Em Preditores contínuos, insira 'Número de Sintomas Agora'.
  5. Em Preditores categóricos, insira 'Alta Produção de Phlegm'-'Limites das Atividades Normais'.
  6. Clique em OK.

Interprete os resultados

A tabela Seleção de Modelos compara o desempenho dos tipos de modelos. O modelo de regressão múltipla tem o valor máximo de R2. Os resultados a seguir são para o melhor modelo de regressão múltipla.

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real. Nestes resultados, várias distribuições têm um valor de p maior do que 0,05. Falta severa de ar*Dor de cabeça severa e Dor de cabeça severa*Perturbação severa do sono. Quando os pesquisadores exploram outros modelos de regressão múltipla, eles usarão métricas de desempenho do modelo e parcelas residuais para explorar os efeitos da inclusão desses termos no modelo.

A tabela de resumo do Modelo mostra que o treinamento R2 e o teste R2 são ambos aproximadamente 91%. A raiz de teste significa erro ao quadrado (RMSE), que representa o quão longe os valores de dados caem dos valores montados, é aproximadamente 4. Como a RMSE é pequena na escala do escore da doença, os pesquisadores estão otimistas de que um pequeno número de perguntas é informação suficiente para ajudar a priorizar os pacientes.

A tabela de ajustes e diagnósticos para informações incomuns mostra pontos de dados que não seguem bem a equação de regressão proposta. Estes são os ajustes e diagnósticos do conjunto completo de dados.

A letra R indica um ponto com um grande residual. Examine os pontos de dados atípicos para quais são os valores dos preditores onde o modelo pode não ajustar bem. A letra X indica um ponto com alta alavancagem. Pontos com alta alavancagem têm combinações de preditor incomuns em relação ao resto do conjunto de dados.

Grandes resíduos e pontos de alavancagem elevados são pontos potencialmente influentes. Por exemplo, a inclusão ou exclusão de um ponto influente pode mudar se um coeficiente for estatisticamente significativo ou não. Se você vir uma observação influente, determine se ela é um erro de entrada de dados ou de medição. Se a observação não for um erro, determine o quanto a observação influencia os resultados. Quando os pesquisadores explorarem melhor o modelo, eles se encaixarão no modelo com e sem as observações. Em seguida, compare os coeficientes, valores-p, R2, e outras informações do modelo. Se o modelo mudar significativamente quando você remover a observação influente, examine o modelo ainda mais para determinar se você especificou incorretamente o modelo. Talvez seja necessário reunir mais dados para resolver o problema.

O gráfico de dispersão de valores ajustados de empréstimos versus valores reais de empréstimo mostra a relação entre os valores ajustados e reais tanto para os dados de treinamento quanto para os dados de teste. Os pontos caem aproximadamente perto da linha de referência de y=x, o que indica que o modelo se encaixa bem nos dados.

Descobrir o melhor modelo (resposta contínua): Pontuação da vs Número de Si; Alta Produçã; ...

Método Ajuste um modelo de regressão stepwise com termos lineares e termos de ordem 2. Ajuste 6 modelos de regressão TreeNet® Regressão que usam a função de perda quadrada. Ajuste 3 modelos de regressão Random Forests® com tamanho amostral de bootstrap igual ao tamanho de dados de treinamento de 1546. Ajuste um modelo ótimo de regressão CART®. Selecione o modelo com R-quadrado máximo da avaliação cruzada com 5-dobras. Número total de linhas: 1546 Linhas usadas para modelo de regressão: 1546 Linhas usadas para modelos baseados em árvores: 1546
Informações da Resposta Média DesvPad Mínimo Q1 Mediana Q3 Máximo 31,0110 14,0820 0 19,05 30,95 40,48 76,19

Seleção de modelo

Desvio Melhor modelo R-quadrado absoluto dentro do tipo (%) da média Regressão Múltipla* 91,31 3,0785 TreeNet® 90,90 3,1613 Random Forests® 89,93 3,3248 CART® 86,11 3,9369 * Melhor modelo em todos os tipos de modelo com R-quadrado máximo. A saída para o melhor modelo vem na sequência.
Seleção stepwise de termos para o melhor modelo de regressão múltipla Termos selecionados: Número de Sintomas Agora; Alta Produção de Phlegm; Dor severa no peito; Dor de cabeça severa; Perturbação severa do sono; Limites das Atividades Normais; Número de Sintomas Agora*Número de Sintomas Agora; Número de Sintomas Agora*Falta severa de ar; Número de Sintomas Agora*Geralmente se sentindo muito ma; Falta severa de ar*Dor de cabeça severa; Dor severa no peito*Perturbação severa do sono; Dor de cabeça severa*Perturbação severa do sono; Perturbação severa do sono*Limites das Atividades Normais α para entrada = 0,15; α para remoção = 0,15
Equação de Regressão Pontuação da Doença = 0,344 + 2,985 Número de Sintomas Agora + 0,0 Alta Produção de Phlegm_0 + 3,874 Alta Produção de Phlegm_1 + 0,0 Dor severa no peito_0 + 3,247 Dor severa no peito_1 + 0,0 Dor de cabeça severa_0 + 4,203 Dor de cabeça severa_1 + 0,0 Perturbação severa do sono_0 + 3,591 Perturbação severa do sono_1 + 0,0 Limites das Atividades Normais_0 + 3,400 Limites das Atividades Normais_1 - 0,0419 Número de Sintomas Agora*Número de Sintomas Agor a + 0,0 Número de Sintomas Agora*Falta severa de ar_0 + 0,5118 Número de Sintomas Agora*Falta severa de ar_1 + 0,0 Número de Sintomas Agora*Geralmente se sentindo mui to ma_0 + 0,5164 Número de Sintomas Agora*Geralmente se sentindo muito ma_1 + 0,0 Falta severa de ar*Dor de cabeça severa_0 0 + 0,0 Falta severa de ar*Dor de cabeça severa_0 1 + 0,0 Falta severa de ar*Dor de cabeça severa_1 0 + 1,000 Falta severa de ar*Dor de cabeça severa_1 1 + 0,0 Dor severa no peito*Perturbação severa do sono_0 0 + 0,0 Dor severa no peito*Perturbação severa do sono_0 1 + 0,0 Dor severa no peito*Perturbação severa do sono_1 0 + 1,741 Dor severa no peito*Perturbação severa do sono_1 1 + 0,0 Dor de cabeça severa*Perturbação severa do sono_0 0 + 0,0 Dor de cabeça severa*Perturbação severa do sono_0 1 + 0,0 Dor de cabeça severa*Perturbação severa do sono_1 0 - 0,881 Dor de cabeça severa*Perturbação severa do sono_1 1 + 0,0 Perturbação severa do sono*Limites das Atividades N ormais_0 0 + 0,0 Perturbação severa do sono*Limites das Atividades N ormais_0 1 + 0,0 Perturbação severa do sono*Limites das Atividades N ormais_1 0 + 1,146 Perturbação severa do sono*Limites das Atividades  Normais_1 1
Coeficientes Termo Coef EP de Coef Constante 0,344 0,739 Número de Sintomas Agora 2,985 0,213 Alta Produção de Phlegm 1 3,874 0,224 Dor severa no peito 1 3,247 0,412 Dor de cabeça severa 1 4,203 0,370 Perturbação severa do sono 1 3,591 0,370 Limites das Atividades Normais 1 3,400 0,351 Número de Sintomas Agora*Número de Sintomas Agora -0,0419 0,0145 Número de Sintomas Agora*Falta severa de ar 1 0,5118 0,0398 Número de Sintomas Agora*Geralmente se sentindo muito ma 1 0,5164 0,0332 Falta severa de ar*Dor de cabeça severa 1 1 1,000 0,546 Dor severa no peito*Perturbação severa do sono 1 1 1,741 0,557 Dor de cabeça severa*Perturbação severa do sono 1 1 -0,881 0,493 Perturbação severa do sono*Limites das Atividades Normais 1 1 1,146 0,487 Termo Valor-T Valor-P Constante 0,47 0,641 Número de Sintomas Agora 13,99 0,000 Alta Produção de Phlegm 1 17,32 0,000 Dor severa no peito 1 7,89 0,000 Dor de cabeça severa 1 11,37 0,000 Perturbação severa do sono 1 9,70 0,000 Limites das Atividades Normais 1 9,68 0,000 Número de Sintomas Agora*Número de Sintomas Agora -2,88 0,004 Número de Sintomas Agora*Falta severa de ar 1 12,87 0,000 Número de Sintomas Agora*Geralmente se sentindo muito ma 1 15,56 0,000 Falta severa de ar*Dor de cabeça severa 1 1 1,83 0,067 Dor severa no peito*Perturbação severa do sono 1 1 3,13 0,002 Dor de cabeça severa*Perturbação severa do sono 1 1 -1,79 0,074 Perturbação severa do sono*Limites das Atividades Normais 1 1 2,35 0,019 Termo VIF Constante Número de Sintomas Agora 25,48 Alta Produção de Phlegm 1 1,10 Dor severa no peito 1 2,47 Dor de cabeça severa 1 2,69 Perturbação severa do sono 1 2,98 Limites das Atividades Normais 1 2,76 Número de Sintomas Agora*Número de Sintomas Agora 26,19 Número de Sintomas Agora*Falta severa de ar 1 2,42 Número de Sintomas Agora*Geralmente se sentindo muito ma 1 2,12 Falta severa de ar*Dor de cabeça severa 1 1 2,68 Dor severa no peito*Perturbação severa do sono 1 1 2,95 Dor de cabeça severa*Perturbação severa do sono 1 1 3,37 Perturbação severa do sono*Limites das Atividades Normais 1 1 4,21
Resumo do modelo Estatística Treinamento Teste R-quadrado 91,45% 91,31% Raiz do quadrado médio do Erro (RMSE) 4,1339 4,1509 Quadrado médio do erro (MSE) 17,0889 17,2303 Desvio absoluto médio (MAD) 3,0502 3,0785 R-quadrado (aj) 91,38% R-quadrado (pred) 91,27%
Análise de Variância Fonte GL SQ (Aj.) Regressão 13 280199 Número de Sintomas Agora 1 3346 Alta Produção de Phlegm 1 5128 Dor severa no peito 1 1063 Dor de cabeça severa 1 2209 Perturbação severa do sono 1 1609 Limites das Atividades Normais 1 1602 Número de Sintomas Agora*Número de Sintomas Agora 1 142 Número de Sintomas Agora*Falta severa de ar 1 2831 Número de Sintomas Agora*Geralmente se sentindo muito ma 1 4140 Falta severa de ar*Dor de cabeça severa 1 57 Dor severa no peito*Perturbação severa do sono 1 167 Dor de cabeça severa*Perturbação severa do sono 1 55 Perturbação severa do sono*Limites das Atividades Normais 1 95 Erro 1532 26180 Falta de ajuste 482 8929 Erro puro 1050 17251 Total 1545 306379 Fonte QM (Aj.) Valor F Regressão 21553,8 1261,28 Número de Sintomas Agora 3346,0 195,80 Alta Produção de Phlegm 5128,2 300,09 Dor severa no peito 1063,4 62,23 Dor de cabeça severa 2208,9 129,26 Perturbação severa do sono 1609,3 94,17 Limites das Atividades Normais 1601,8 93,74 Número de Sintomas Agora*Número de Sintomas Agora 142,1 8,32 Número de Sintomas Agora*Falta severa de ar 2831,4 165,69 Número de Sintomas Agora*Geralmente se sentindo muito ma 4140,1 242,27 Falta severa de ar*Dor de cabeça severa 57,4 3,36 Dor severa no peito*Perturbação severa do sono 167,2 9,78 Dor de cabeça severa*Perturbação severa do sono 54,6 3,19 Perturbação severa do sono*Limites das Atividades Normais 94,7 5,54 Erro 17,1 Falta de ajuste 18,5 1,13 Erro puro 16,4 * Total Fonte Valor-P Regressão 0,000 Número de Sintomas Agora 0,000 Alta Produção de Phlegm 0,000 Dor severa no peito 0,000 Dor de cabeça severa 0,000 Perturbação severa do sono 0,000 Limites das Atividades Normais 0,000 Número de Sintomas Agora*Número de Sintomas Agora 0,004 Número de Sintomas Agora*Falta severa de ar 0,000 Número de Sintomas Agora*Geralmente se sentindo muito ma 0,000 Falta severa de ar*Dor de cabeça severa 0,067 Dor severa no peito*Perturbação severa do sono 0,002 Dor de cabeça severa*Perturbação severa do sono 0,074 Perturbação severa do sono*Limites das Atividades Normais 0,019 Erro Falta de ajuste 0,059 Erro puro * Total
Ajustados e Diagnósticos para Observações Atípicas Pontuação Obs. da Doença Ajuste Resíd Resíd Pad 11 66,670 56,876 9,794 2,38 R 13 52,380 40,295 12,085 2,94 R 16 59,520 48,753 10,767 2,62 R 24 45,240 53,741 -8,501 -2,07 R 25 54,760 51,951 2,809 0,69 X 33 50,000 60,750 -10,750 -2,61 R 48 64,290 55,761 8,529 2,07 R 54 50,000 41,213 8,787 2,14 R 55 71,430 62,446 8,984 2,20 R 56 50,000 58,812 -8,812 -2,14 R 106 59,520 49,132 10,388 2,52 R 114 59,520 48,176 11,344 2,76 R 128 69,050 58,812 10,238 2,49 R 144 50,000 41,678 8,322 2,03 R 173 47,620 56,876 -9,256 -2,25 R 191 42,860 51,882 -9,022 -2,20 R 198 59,520 48,305 11,215 2,73 R 202 73,810 63,801 10,009 2,43 R 205 47,620 38,376 9,244 2,25 R 226 64,290 55,793 8,497 2,08 R 239 47,620 58,812 -11,192 -2,72 R 241 71,430 65,104 6,326 1,56 X 243 14,290 23,821 -9,531 -2,31 R 352 64,290 51,498 12,792 3,11 R 369 38,100 49,420 -11,320 -2,75 R 391 16,670 31,869 -15,199 -3,69 R 392 0,000 11,616 -11,616 -2,81 R 395 0,000 14,224 -14,224 -3,44 R 424 40,480 52,627 -12,147 -2,95 R 425 47,620 34,968 12,652 3,08 R 479 40,480 30,080 10,400 2,53 R 489 16,670 25,679 -9,009 -2,19 R 493 57,140 44,917 12,223 2,97 R 495 35,710 25,642 10,068 2,45 R 509 38,100 27,094 11,006 2,68 R 520 73,810 58,812 14,998 3,65 R 537 38,100 27,122 10,978 2,67 R 550 14,290 23,248 -8,958 -2,17 R 583 42,860 53,741 -10,881 -2,65 R 720 59,520 64,053 -4,533 -1,12 X 722 40,480 30,734 9,746 2,37 R 802 30,950 41,786 -10,836 -2,63 R 814 40,480 31,869 8,611 2,09 R 823 61,900 48,143 13,757 3,36 R 833 33,330 42,941 -9,611 -2,34 R 839 42,860 34,575 8,285 2,01 R 859 38,100 49,420 -11,320 -2,75 R 868 47,620 36,910 10,710 2,61 R 891 30,950 19,848 11,102 2,69 R 893 28,570 48,766 -20,196 -4,98 R X 905 45,240 55,761 -10,521 -2,56 R 942 42,860 34,526 8,334 2,02 R 977 64,290 54,955 9,335 2,28 R 983 57,140 47,814 9,326 2,27 R 993 73,810 63,801 10,009 2,43 R 997 33,330 23,248 10,082 2,45 R 1003 54,760 45,258 9,502 2,31 R 1025 33,330 45,945 -12,615 -3,12 R X 1034 33,330 41,525 -8,195 -2,00 R 1059 57,140 48,748 8,392 2,05 R 1105 47,620 37,691 9,929 2,41 R 1150 59,520 44,917 14,603 3,55 R 1160 52,380 39,929 12,451 3,02 R 1163 30,950 41,213 -10,263 -2,49 R 1165 69,050 56,876 12,174 2,96 R 1169 59,520 49,420 10,100 2,46 R 1198 42,860 51,887 -9,027 -2,20 R 1207 76,190 62,893 13,297 3,24 R 1213 26,190 40,350 -14,160 -3,44 R 1228 40,480 50,081 -9,601 -2,34 R 1235 59,520 50,799 8,721 2,12 R 1237 57,140 48,792 8,348 2,03 R 1246 64,290 55,761 8,529 2,07 R 1262 45,240 36,607 8,633 2,10 R 1263 57,140 43,803 13,337 3,24 R 1284 45,240 56,429 -11,189 -2,72 R 1285 47,620 60,750 -13,130 -3,19 R 1288 35,710 44,896 -9,186 -2,24 R 1303 26,190 36,882 -10,692 -2,60 R 1305 35,710 45,087 -9,377 -2,28 R 1311 30,950 40,129 -9,179 -2,24 R 1353 42,860 53,294 -10,434 -2,54 R 1377 47,620 35,298 12,322 3,00 R 1380 69,050 55,761 13,289 3,23 R 1384 50,000 39,313 10,687 2,60 R 1414 26,190 35,935 -9,745 -2,37 R 1502 61,900 51,905 9,995 2,43 R 1526 38,100 25,422 12,678 3,07 R 1535 14,290 23,821 -9,531 -2,31 R 1544 38,100 28,117 9,983 2,43 R 1548 50,000 39,319 10,681 2,60 R 1565 38,100 39,528 -1,428 -0,35 X 1582 66,670 55,152 11,518 2,81 R R Resíduo grande X Atípicos X

Gráfico de dispersão de ajustes de respostas versus valores reais

Selecione um modelo alternativo

Os pesquisadores decidem examinar os resultados do melhor modelo de ® TreeNet.

  1. Nos resultados de Descobrir o melhor modelo (Resposta contínua), após a seleção stepwise de termos para melhor modelo de regressão múltipla, clique Selecionar um modelo alternativo.
  2. Em Tipo de modelo, selecione TreeNet®.
  3. Em Selecione um modelo existente, escolha o sexto modelo, que tem o melhor valor de R2.
  4. Clique em Exibir resultados.

Interprete os resultados

Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 63. O modelo usa uma taxa de aprendizagem de 0,1 e uma fração de subsample de 0,7. O número padrão máximo de nós terminais é 6.

Regressão TreeNet®: Pontuação da vs Número de Si; Alta Produçã; ...

Método Função de perda Erro quadrado Critério para seleção do número ótimo de árvores R-quadrado máximo Validação do modelo Validação cruzada de 5 dobras Taxa de aprendizado 0,1 Fração da subamostra 0,7 Nós máximos terminais por árvore 6 Tamanho mínimo do nó terminal 3 Número de preditores selecionados para divisão de nós Número total de preditores = 8 Linhas usadas 1546 Linhas não usadas 70
Informações da Resposta Média DesvPad Mínimo Q1 Mediana Q3 Máximo 31,0110 14,0820 0 19,05 30,95 40,48 76,19

O gráfico R-quadrado vs número de árvores mostra toda a curva sobre o número de árvores cultivadas. O valor ideal para os dados de teste é cerca de 91% quando o número de árvores é 63.

Regressão TreeNet®: Pontuação da vs Número de Si; Alta Produçã; ...

Resumo do modelo Preditores totais 8 Preditores importantes 8 Número de árvores cultivadas 300 Número ótimo de árvores 63 Estatística Treinamento Teste R-quadrado 91,93% 90,90% Raiz do quadrado médio do Erro (RMSE) 3,9992 4,2471 Quadrado médio do erro (MSE) 15,9932 18,0375 Desvio absoluto médio (MAD) 2,9943 3,1613 Erro percentual absoluto médio (MAPE) 0,1088 0,1130

A tabela de resumo do modelo mostra que o valor R2 quando o número de árvores é 63 é de aproximadamente 92% para os dados de treinamento e aproximadamente 91% para os dados de teste.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é Número de Sintomas Agora. Se a contribuição da variável preditora superior, Número de Sintomas Agora, for de 100%, então a próxima variável importante, Limites das Atividades Normais, tem uma contribuição de 44,4%. Isso significa Limites das Atividades Normais que é 44,4% tão importante quanto Número de Sintomas Agora neste modelo de regressão.

O gráfico de dispersão de valores ajustados de empréstimos versus valores reais de empréstimo mostra a relação entre os valores ajustados e reais tanto para os dados de treinamento quanto para os dados de teste. Os pontos caem aproximadamente perto da linha de referência de y=x, o que indica que o modelo se encaixa bem nos dados.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

O primeiro enredo ilustra a relação entre os escores da doença e o número de sintomas que o paciente tem agora. Como há tantos pontos de dados, você pode passar o mouse sobre cada um dos pontos de dados para ver os valores específicos de x e y. Por exemplo, o ponto mais alto do lado direito do gráfico é para a área de núcleo número 13 e o valor do empréstimo ajustado é de aproximadamente US$ 378.069.

O segundo enredo ilustra que o escore da doença ajustado aumenta em aproximadamente 5 pontos quando os pacientes relatam limitações em suas atividades normais.

O terceiro enredo ilustra que o escore da doença ajustado aumenta em aproximadamente 5 pontos quando os pacientes relatam geralmente se sentir muito mal.

O quarto enredo ilustra que o escore da doença ajustado aumenta em aproximadamente 4 pontos quando os pacientes relatam falta de ar grave.

O último enredo ilustra como o escore da doença ajustado para uma série de sintomas depende se o paciente também tem limites em suas atividades normais. Para o mesmo número de sintomas, os pacientes que também relatam limites em suas atividades normais têm maiores escores de doenças.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política