Exemplo de Descobrir o melhor modelo (Resposta contínua)

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Procure o melhor tipo de modelo

Pesquisadores de um sistema de saúde coletam dados de suas clínicas médicas regionais. Em particular, a equipe de pesquisa está interessada em dados dos exames iniciais dos médicos de pacientes doentes. No final dos exames iniciais, os médicos atribuem a cada paciente uma pontuação para a gravidade de sua doença. Os pesquisadores querem desenvolver um pequeno questionário para ajudar a priorizar os pacientes mais doentes antes do exame por um médico. Por meio de consulta com especialistas no assunto e exploração inicial dos dados, a equipe seleciona 8 variáveis para prever o escore de gravidade. Os pesquisadores querem determinar o melhor tipo de modelo para prever a pontuação de gravidade antes de refinar ainda mais o modelo.

Os pesquisadores usam Descobrir o melhor modelo (Resposta contínua) para comparar o desempenho preditivo de 5 tipos de modelos: regressão múltipla, TreeNet®, Random Forests® CART® e MARS®. A equipe planeja explorar ainda mais o tipo de modelo com o melhor desempenho preditivo.

  1. Abra os dados amostrais, Disease.mtw.
  2. Selecione Módulo de análise preditiva > Aprendizado de máquina automatizado > Descobrir o melhor modelo (Resposta contínua).
  3. Em Resposta, insira ‘Pontuação da Doença’.
  4. Em Preditores contínuos, insira ‘Número de Sintomas Agora’.
  5. Em Preditores categóricos, digite 'Alta Produção de Phlegm'-'Limites das Atividades Normais’.
  6. Clique em OK.

Interpretar os resultados

A tabela Seleção de modelo compara o desempenho dos tipos de modelos. O modelo de regressão múltipla tem o valor máximo de R2. Os resultados a seguir são para o melhor modelo de regressão múltipla.

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real. Nesses resultados, dois dos termos de interação apresentam valores de p maiores que 0,05: Falta severa de ar*Dor de cabeça severa e Dor de cabeça severa*Perturbação severa do sono. Quando os pesquisadores exploram outros modelos de regressão múltipla, eles usarão métricas de desempenho do modelo e gráficos residuais para explorar os efeitos da inclusão desses termos no modelo.

A tabela de resumo do modelo mostra que o treinamento R2 e o teste R2 são ambos aproximadamente 91%. O erro quadrático médio da raiz de teste (RMSE), que representa até que ponto os valores de dados caem dos valores ajustados, é de aproximadamente 4. Como o RMSE é pequeno na escala da pontuação da doença, os pesquisadores estão otimistas de que um pequeno número de perguntas é informação suficiente para ajudar a priorizar os pacientes.

A tabela de ajustes e diagnósticos para informações incomuns mostra pontos de dados que não seguem bem a equação de regressão proposta. Estes são os ajustes e diagnósticos do conjunto de dados completo.

A letra R indica um ponto com um grande resíduo. Examine os pontos de dados atípicos para quais são os valores dos preditores onde o modelo pode não ajustar bem. A letra X indica um ponto com alta alavancagem. Pontos com alta alavancagem têm combinações preditoras incomuns em relação ao restante do conjunto de dados.

Grandes resíduos e altos pontos de alavancagem são pontos potencialmente influentes. Por exemplo, a inclusão ou exclusão de um ponto influente pode mudar se um coeficiente for estatisticamente significativo ou não. Se você vir uma observação influente, determine se ela é um erro de entrada de dados ou de medição. Se a observação não for um erro, determine o quanto a observação influencia os resultados. Quando os pesquisadores explorarem ainda mais o modelo, eles se ajustarão ao modelo com e sem as observações. Em seguida, eles compararão os coeficientes, valores-p, R2e outras informações do modelo. Se o modelo mudar significativamente quando você remover a observação influente, examine o modelo ainda mais para determinar se você especificou incorretamente o modelo. Talvez seja necessário reunir mais dados para resolver o problema.

O gráfico de dispersão dos escores de doença ajustados versus escores reais de doença mostra a relação entre os valores ajustados e reais para os dados de treinamento e teste. Os pontos caem aproximadamente perto da linha de referência de y=x, o que indica que o modelo se ajusta bem aos dados.

Método

Ajuste um modelo de regressão com termos lineares e termos de ordem 2.
Ajuste 6 modelos de regressão TreeNet® Regressão que usam a função de perda quadrada.
Ajuste 3 modelos de regressão Random Forests® com tamanho amostral de bootstrap igual ao tamanho de dados de treinamento de 1546.
Ajuste um modelo ótimo de regressão CART®.
Ajuste um modelo ótimo de regressão MARS®.
Selecione o modelo com R-quadrado máximo da avaliação cruzada com 5-dobras.
Número total de linhas: 1546
Linhas usadas para modelo de regressão: 1546
Linhas usadas para modelos baseados em árvores: 1546

Informações da Resposta

MédiaDesvPadMínimoQ1MedianaQ3Máximo
31,011014,0820019,0530,9540,4876,19
Melhor modelo
dentro do tipo
R-quadrado
(%)
Desvio
absoluto
da média
Regressão Múltipla*91,233,1011
MARS®91,053,1604
TreeNet®90,903,1613
Random Forests®89,933,3248
CART®86,113,9369
* Melhor modelo em todos os tipos de modelo com R-quadrado máximo. A saída para o melhor
     modelo vem na sequência.

Seleção forward de termos com validação para o melhor modelo de regressão múltipla

Termos selecionados: Número de Sintomas Agora; Alta Produção de Phlegm; Falta severa de ar;
     Dor de cabeça severa; Perturbação severa do sono; Geralmente se sentindo muito ma; Limites
     das Atividades Normais; Número de Sintomas Agora*Falta severa de ar; Número de Sintomas
     Agora*Dor severa no peito; Falta severa de ar*Perturbação severa do sono; Geralmente se
     sentindo muito ma*Limites das Atividades Normais
 

Equação de Regressão

Pontuação da Doença=1,241 + 2,5386 Número de Sintomas Agora + 0,0 Alta Produção de Phlegm_0
+ 3,900 Alta Produção de Phlegm_1 + 0,0 Falta severa de ar_0
+ 0,94 Falta severa de ar_1 + 0,0 Dor de cabeça severa_0
+ 4,094 Dor de cabeça severa_1 + 0,0 Perturbação severa do sono_0
+ 3,884 Perturbação severa do sono_1
+ 0,0 Geralmente se sentindo muito ma_0
+ 3,473 Geralmente se sentindo muito ma_1
+ 0,0 Limites das Atividades Normais_0
+ 3,140 Limites das Atividades Normais_1
+ 0,0 Número de Sintomas Agora*Falta severa de ar_0
+ 0,373 Número de Sintomas Agora*Falta severa de ar_1
+ 0,0 Número de Sintomas Agora*Dor severa no peito_0
+ 0,4765 Número de Sintomas Agora*Dor severa no peito_1
+ 0,0 Falta severa de ar*Perturbação severa do sono_0 0
+ 0,0 Falta severa de ar*Perturbação severa do sono_0 1
+ 0,0 Falta severa de ar*Perturbação severa do sono_1 0
+ 1,337 Falta severa de ar*Perturbação severa do sono_1 1
+ 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_0
0
+ 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_0
1
+ 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_1
0
+ 1,372 Geralmente se sentindo muito ma*Limites das Atividades Normais_
1 1

Coeficientes

TermoCoefEP de CoefValor-T
Constante1,2410,3853,22
Número de Sintomas Agora2,53860,059342,81
Alta Produção de Phlegm     
  13,9000,22517,35
Falta severa de ar     
  10,941,180,80
Dor de cabeça severa     
  14,0940,25316,18
Perturbação severa do sono     
  13,8840,28413,69
Geralmente se sentindo muito ma     
  13,4730,34310,14
Limites das Atividades Normais     
  13,1400,4247,40
Número de Sintomas Agora*Falta severa de ar     
  10,3730,1332,81
Número de Sintomas Agora*Dor severa no peito     
  10,47650,031215,26
Falta severa de ar*Perturbação severa do sono     
  1 11,3370,5282,53
Geralmente se sentindo muito ma*Limites das Atividades Normais     
  1 11,3720,5272,61
TermoValor-PVIF
Constante0,001 
Número de Sintomas Agora0,0001,95
Alta Produção de Phlegm   
  10,0001,10
Falta severa de ar   
  10,42423,23
Dor de cabeça severa   
  10,0001,25
Perturbação severa do sono   
  10,0001,73
Geralmente se sentindo muito ma   
  10,0002,62
Limites das Atividades Normais   
  10,0003,98
Número de Sintomas Agora*Falta severa de ar   
  10,00526,80
Número de Sintomas Agora*Dor severa no peito   
  10,0001,25
Falta severa de ar*Perturbação severa do sono   
  1 10,0113,26
Geralmente se sentindo muito ma*Limites das Atividades Normais   
  1 10,0095,73

Sumário do modelo

EstatísticasTreinamentoTeste
R-quadrado91,35%91,23%
Raiz do quadrado médio do Erro (RMSE)4,15624,1679
Quadrado médio do erro (MSE)17,274117,3714
Desvio absoluto médio (DAM)3,07983,1011
     
R-quadrado (aj)91,29% 
R-quadrado (pred)  91,19%

Análise de Variância

FonteGLSQ (Aj.)QM (Aj.)
Regressão1127988125443,7
  Número de Sintomas Agora13165531654,8
  Alta Produção de Phlegm152025201,8
  Falta severa de ar11111,1
  Dor de cabeça severa145204520,0
  Perturbação severa do sono132393238,8
  Geralmente se sentindo muito ma117761775,6
  Limites das Atividades Normais1945945,4
  Número de Sintomas Agora*Falta severa de ar1136136,4
  Número de Sintomas Agora*Dor severa no peito140234023,4
  Falta severa de ar*Perturbação severa do sono1111110,7
  Geralmente se sentindo muito ma*Limites das Atividades Normais1117117,3
Erro15342649817,3
  Falta de ajuste484924719,1
  Erro puro10501725116,4
Total1545306379 
FonteValor FValor-P
Regressão1472,940,000
  Número de Sintomas Agora1832,510,000
  Alta Produção de Phlegm301,140,000
  Falta severa de ar0,640,424
  Dor de cabeça severa261,660,000
  Perturbação severa do sono187,500,000
  Geralmente se sentindo muito ma102,790,000
  Limites das Atividades Normais54,730,000
  Número de Sintomas Agora*Falta severa de ar7,900,005
  Número de Sintomas Agora*Dor severa no peito232,920,000
  Falta severa de ar*Perturbação severa do sono6,410,011
  Geralmente se sentindo muito ma*Limites das Atividades Normais6,790,009
Erro   
  Falta de ajuste1,160,025
  Erro puro**
Total   

Ajustados e Diagnósticos para Observações Atípicas

Obs.Pontuação
da Doença
AjusteResídResíd Pad
1166,67056,7579,9132,40R 
1352,38041,17711,2032,71R 
1659,52048,60410,9162,64R 
3350,00060,657-10,657-2,57R 
4864,29055,4168,8742,14R 
5261,90053,3698,5312,06R 
5450,00041,5988,4022,03R 
5650,00058,328-8,328-2,02R 
5838,10046,485-8,385-2,03R 
10659,52049,02810,4922,53R 
11459,52047,16012,3602,99R 
12869,05058,32810,7222,59R 
14450,00040,4719,5292,30R 
17347,62056,757-9,137-2,21R 
17442,86034,0008,8602,14R 
19142,86052,051-9,191-2,23R 
19859,52048,41111,1092,68R 
20273,81064,0469,7642,36R 
20547,62037,55910,0612,43R 
21335,71034,9700,7400,18  X
21716,67019,053-2,383-0,58  X
23947,62058,328-10,708-2,59R 
24171,43066,3115,1191,25  X
24314,29024,088-9,798-2,36R 
30450,00041,1308,8702,14R 
30714,29010,9203,3700,83  X
35264,29051,25413,0363,15R 
36938,10049,275-11,175-2,70R 
39116,67032,073-15,403-3,72R 
3920,00011,395-11,395-2,75R 
3950,00013,934-13,934-3,36R 
42440,48052,504-12,024-2,90R 
42547,62034,59713,0233,16R 
47447,62038,5389,0822,21R 
47940,48030,8969,5842,31R 
48916,67025,023-8,353-2,02R 
49130,95024,3486,6021,61  X
49357,14044,33912,8013,09R 
49535,71025,48010,2302,47R 
50938,10026,69611,4042,77R 
52073,81058,32815,4823,75R 
53738,10028,3589,7422,35R 
55014,29024,458-10,168-2,45R 
58342,86053,369-10,509-2,54R 
69419,05021,817-2,767-0,68  X
72059,52065,602-6,082-1,49  X
72240,48032,0668,4142,03R 
80230,95042,586-11,636-2,81R 
80530,95039,868-8,918-2,16R 
81440,48032,0738,4072,03R 
82361,90048,14813,7523,33R 
83333,33044,054-10,724-2,60R 
85938,10049,275-11,175-2,70R 
86847,62037,7899,8312,38R 
89130,95019,94511,0052,66R 
89328,57048,860-20,290-4,92R 
90545,24055,416-10,176-2,46R 
92454,76056,019-1,259-0,31  X
97764,29053,10711,1832,72R 
98357,14047,6839,4572,29R 
98850,00044,5015,4991,34  X
99373,81064,0469,7642,36R 
99733,33024,4588,8722,14R 
100354,76045,1289,6322,33R 
102533,33047,705-14,375-3,49R 
105957,14048,6638,4772,05R 
110547,62037,31910,3012,49R 
115059,52044,33915,1813,67R 
116052,38040,05112,3292,97R 
116330,95041,598-10,648-2,57R 
116569,05056,75712,2932,97R 
116959,52049,27510,2452,48R 
119842,86051,516-8,656-2,09R 
120776,19063,53412,6563,07R 
121326,19040,278-14,088-3,41R 
122840,48050,571-10,091-2,45R 
123559,52050,1759,3452,26R 
123757,14048,2398,9012,15R 
124664,29055,4168,8742,14R 
126245,24035,9579,2832,24R 
126357,14043,95113,1893,18R 
128233,33036,011-2,681-0,65  X
128445,24056,564-11,324-2,74R 
128547,62060,657-13,037-3,15R 
130326,19036,567-10,377-2,51R 
130535,71045,499-9,789-2,36R 
131130,95040,089-9,139-2,21R 
134526,19025,1051,0850,26  X
135342,86053,175-10,315-2,49R 
136526,19017,8348,3562,01R 
137747,62035,22212,3983,00R 
138069,05055,41613,6343,29R 
138450,00038,49611,5042,78R 
141426,19035,345-9,155-2,21R 
150261,90050,19511,7052,84R 
152638,10025,45012,6503,05R 
153514,29024,088-9,798-2,36R 
154438,10029,1658,9352,16R 
154850,00040,4559,5452,31R 
156538,10042,846-4,746-1,16  X
158266,67055,43711,2332,72R 
R  Resíduo grande
X  Atípicos X

Selecione um modelo alternativo

Os pesquisadores decidem examinar os resultados para o melhor modelo TreeNet® .

  1. Nos resultados de Descobrir o melhor modelo (Resposta contínua), selecione Selecione o modelo alternativo.
  2. Em Tipo de modelo, selecione TreeNet®.
  3. Em Selecione um modelo existente, escolha o sexto modelo, que tem o melhor valor de R2.
  4. Clique em Exibir resultados.

Interpretar os resultados

Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 63. O modelo usa uma taxa de aprendizagem de 0,1 e uma fração subsample de 0,7. número máximo de nós terminais por árvore O número máximo de nós terminais é 6.

Método

Função de perdaErro quadrado
Critério para seleção do número ótimo de árvoresR-quadrado máximo
Validação do modeloValidação cruzada de 5 dobras
Taxa de aprendizado0,1
Fração da subamostra0,7
Nós máximos terminais por árvore6
Tamanho mínimo do nó terminal3
Número de preditores selecionados para divisão de nósNúmero total de preditores = 8
Linhas usadas1546
Linhas não usadas70

Informações da Resposta

MédiaDesvPadMínimoQ1MedianaQ3Máximo
31,011014,0820019,0530,9540,4876,19

O gráfico R-quadrado vs número de árvores mostra toda a curva sobre o número de árvores cultivadas. O valor ideal para os dados de teste é de cerca de 91% quando o número de árvores é de 63.

Sumário do modelo

Preditores totais8
Preditores importantes8
Número de árvores cultivadas300
Número ótimo de árvores63
EstatísticasTreinamentoTeste
R-quadrado91,93%90,90%
Raiz do quadrado médio do Erro (RMSE)3,99924,2471
Quadrado médio do erro (MSE)15,993218,0375
Desvio absoluto médio (MAD)2,99433,1613
Erro percentual absoluto médio (MAPE)0,10880,1130

A tabela de resumo do modelo mostra que o valor de R2 quando o número de árvores é 63 é de aproximadamente 92% para os dados de treinamento e aproximadamente 91% para os dados de teste.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é Número de Sintomas Agora. Se a contribuição da variável preditora superior, , é de 100%, então a próxima variável importante, , tem uma contribuição de 44,4 Número de Sintomas Agora Limites das Atividades Normais%. Esse meio Limites das Atividades Normais é 44,4% tão importante quanto Número de Sintomas Agora nesse modelo de regressão.

O gráfico de dispersão dos escores de doença ajustados versus escores reais de doença mostra a relação entre os valores ajustados e reais para os dados de treinamento e teste. Os pontos caem aproximadamente perto da linha de referência de y=x, o que indica que o modelo se ajusta bem aos dados.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

O primeiro gráfico ilustra a relação entre os escores da doença e o número de sintomas que o paciente tem agora. Você pode passar o mouse sobre pontos de dados individuais para ver os valores x e y específicos. Por exemplo, o ponto mais alto no lado direito do gráfico é quando o paciente apresenta 13 sintomas e o escore de doença ajustado é de aproximadamente 45.

O segundo gráfico ilustra que o escore de doença ajustada aumenta em aproximadamente 5 pontos quando os pacientes relatam limitações em suas atividades normais.

O terceiro gráfico ilustra que o escore de doença ajustado aumenta em aproximadamente 5 pontos quando os pacientes relatam geralmente se sentir muito mal.

O quarto gráfico ilustra que o escore de doença ajustada aumenta em aproximadamente 4 pontos quando os pacientes relatam falta de ar grave.

O último gráfico ilustra como a pontuação de doença ajustada para uma série de sintomas depende se o paciente também tem limites em suas atividades normais. Para o mesmo número de sintomas, os pacientes que também relatam limites em suas atividades normais têm escores de doença mais altos.