Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Pesquisadores de um sistema de saúde coletam dados de suas clínicas médicas regionais. Em particular, a equipe de pesquisa está interessada em dados dos exames iniciais dos médicos de pacientes doentes. No final dos exames iniciais, os médicos atribuem a cada paciente uma pontuação para a gravidade de sua doença. Os pesquisadores querem desenvolver um pequeno questionário para ajudar a priorizar os pacientes mais doentes antes do exame por um médico. Por meio de consulta com especialistas no assunto e exploração inicial dos dados, a equipe seleciona 8 variáveis para prever o escore de gravidade. Os pesquisadores querem determinar o melhor tipo de modelo para prever a pontuação de gravidade antes de refinar ainda mais o modelo.
Os pesquisadores usam Descobrir o melhor modelo (Resposta contínua) para comparar o desempenho preditivo de 5 tipos de modelos: regressão múltipla, TreeNet®, Random Forests® CART® e MARS®. A equipe planeja explorar ainda mais o tipo de modelo com o melhor desempenho preditivo.
A tabela Seleção de modelo compara o desempenho dos tipos de modelos. O modelo de regressão múltipla tem o valor máximo de R2. Os resultados a seguir são para o melhor modelo de regressão múltipla.
Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real. Nesses resultados, dois dos termos de interação apresentam valores de p maiores que 0,05: Falta severa de ar*Dor de cabeça severa e Dor de cabeça severa*Perturbação severa do sono. Quando os pesquisadores exploram outros modelos de regressão múltipla, eles usarão métricas de desempenho do modelo e gráficos residuais para explorar os efeitos da inclusão desses termos no modelo.
A tabela de resumo do modelo mostra que o treinamento R2 e o teste R2 são ambos aproximadamente 91%. O erro quadrático médio da raiz de teste (RMSE), que representa até que ponto os valores de dados caem dos valores ajustados, é de aproximadamente 4. Como o RMSE é pequeno na escala da pontuação da doença, os pesquisadores estão otimistas de que um pequeno número de perguntas é informação suficiente para ajudar a priorizar os pacientes.
A tabela de ajustes e diagnósticos para informações incomuns mostra pontos de dados que não seguem bem a equação de regressão proposta. Estes são os ajustes e diagnósticos do conjunto de dados completo.
A letra R indica um ponto com um grande resíduo. Examine os pontos de dados atípicos para quais são os valores dos preditores onde o modelo pode não ajustar bem. A letra X indica um ponto com alta alavancagem. Pontos com alta alavancagem têm combinações preditoras incomuns em relação ao restante do conjunto de dados.
Grandes resíduos e altos pontos de alavancagem são pontos potencialmente influentes. Por exemplo, a inclusão ou exclusão de um ponto influente pode mudar se um coeficiente for estatisticamente significativo ou não. Se você vir uma observação influente, determine se ela é um erro de entrada de dados ou de medição. Se a observação não for um erro, determine o quanto a observação influencia os resultados. Quando os pesquisadores explorarem ainda mais o modelo, eles se ajustarão ao modelo com e sem as observações. Em seguida, eles compararão os coeficientes, valores-p, R2e outras informações do modelo. Se o modelo mudar significativamente quando você remover a observação influente, examine o modelo ainda mais para determinar se você especificou incorretamente o modelo. Talvez seja necessário reunir mais dados para resolver o problema.
O gráfico de dispersão dos escores de doença ajustados versus escores reais de doença mostra a relação entre os valores ajustados e reais para os dados de treinamento e teste. Os pontos caem aproximadamente perto da linha de referência de y=x, o que indica que o modelo se ajusta bem aos dados.
| Ajuste um modelo de regressão com termos lineares e termos de ordem 2. |
|---|
| Ajuste 6 modelos de regressão TreeNet® Regressão que usam a função de perda quadrada. |
| Ajuste 3 modelos de regressão Random Forests® com tamanho amostral de bootstrap igual ao tamanho de dados de treinamento de 1546. |
| Ajuste um modelo ótimo de regressão CART®. |
| Ajuste um modelo ótimo de regressão MARS®. |
| Selecione o modelo com R-quadrado máximo da avaliação cruzada com 5-dobras. |
| Número total de linhas: 1546 |
| Linhas usadas para modelo de regressão: 1546 |
| Linhas usadas para modelos baseados em árvores: 1546 |
| Média | DesvPad | Mínimo | Q1 | Mediana | Q3 | Máximo |
|---|---|---|---|---|---|---|
| 31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
| Melhor modelo dentro do tipo | R-quadrado (%) | Desvio absoluto da média |
|---|---|---|
| Regressão Múltipla* | 91,23 | 3,1011 |
| MARS® | 91,05 | 3,1604 |
| TreeNet® | 90,90 | 3,1613 |
| Random Forests® | 89,93 | 3,3248 |
| CART® | 86,11 | 3,9369 |
| Pontuação da Doença | = | 1,241 + 2,5386 Número de Sintomas Agora + 0,0 Alta Produção de Phlegm_0 + 3,900 Alta Produção de Phlegm_1 + 0,0 Falta severa de ar_0 + 0,94 Falta severa de ar_1 + 0,0 Dor de cabeça severa_0 + 4,094 Dor de cabeça severa_1 + 0,0 Perturbação severa do sono_0 + 3,884 Perturbação severa do sono_1 + 0,0 Geralmente se sentindo muito ma_0 + 3,473 Geralmente se sentindo muito ma_1 + 0,0 Limites das Atividades Normais_0 + 3,140 Limites das Atividades Normais_1 + 0,0 Número de Sintomas Agora*Falta severa de ar_0 + 0,373 Número de Sintomas Agora*Falta severa de ar_1 + 0,0 Número de Sintomas Agora*Dor severa no peito_0 + 0,4765 Número de Sintomas Agora*Dor severa no peito_1 + 0,0 Falta severa de ar*Perturbação severa do sono_0 0 + 0,0 Falta severa de ar*Perturbação severa do sono_0 1 + 0,0 Falta severa de ar*Perturbação severa do sono_1 0 + 1,337 Falta severa de ar*Perturbação severa do sono_1 1 + 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_0 0 + 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_0 1 + 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_1 0 + 1,372 Geralmente se sentindo muito ma*Limites das Atividades Normais_ 1 1 |
|---|
| Termo | Coef | EP de Coef | Valor-T |
|---|---|---|---|
| Constante | 1,241 | 0,385 | 3,22 |
| Número de Sintomas Agora | 2,5386 | 0,0593 | 42,81 |
| Alta Produção de Phlegm | |||
| 1 | 3,900 | 0,225 | 17,35 |
| Falta severa de ar | |||
| 1 | 0,94 | 1,18 | 0,80 |
| Dor de cabeça severa | |||
| 1 | 4,094 | 0,253 | 16,18 |
| Perturbação severa do sono | |||
| 1 | 3,884 | 0,284 | 13,69 |
| Geralmente se sentindo muito ma | |||
| 1 | 3,473 | 0,343 | 10,14 |
| Limites das Atividades Normais | |||
| 1 | 3,140 | 0,424 | 7,40 |
| Número de Sintomas Agora*Falta severa de ar | |||
| 1 | 0,373 | 0,133 | 2,81 |
| Número de Sintomas Agora*Dor severa no peito | |||
| 1 | 0,4765 | 0,0312 | 15,26 |
| Falta severa de ar*Perturbação severa do sono | |||
| 1 1 | 1,337 | 0,528 | 2,53 |
| Geralmente se sentindo muito ma*Limites das Atividades Normais | |||
| 1 1 | 1,372 | 0,527 | 2,61 |
| Termo | Valor-P | VIF |
|---|---|---|
| Constante | 0,001 | |
| Número de Sintomas Agora | 0,000 | 1,95 |
| Alta Produção de Phlegm | ||
| 1 | 0,000 | 1,10 |
| Falta severa de ar | ||
| 1 | 0,424 | 23,23 |
| Dor de cabeça severa | ||
| 1 | 0,000 | 1,25 |
| Perturbação severa do sono | ||
| 1 | 0,000 | 1,73 |
| Geralmente se sentindo muito ma | ||
| 1 | 0,000 | 2,62 |
| Limites das Atividades Normais | ||
| 1 | 0,000 | 3,98 |
| Número de Sintomas Agora*Falta severa de ar | ||
| 1 | 0,005 | 26,80 |
| Número de Sintomas Agora*Dor severa no peito | ||
| 1 | 0,000 | 1,25 |
| Falta severa de ar*Perturbação severa do sono | ||
| 1 1 | 0,011 | 3,26 |
| Geralmente se sentindo muito ma*Limites das Atividades Normais | ||
| 1 1 | 0,009 | 5,73 |
| Estatísticas | Treinamento | Teste |
|---|---|---|
| R-quadrado | 91,35% | 91,23% |
| Raiz do quadrado médio do Erro (RMSE) | 4,1562 | 4,1679 |
| Quadrado médio do erro (MSE) | 17,2741 | 17,3714 |
| Desvio absoluto médio (DAM) | 3,0798 | 3,1011 |
| R-quadrado (aj) | 91,29% | |
| R-quadrado (pred) | 91,19% |
| Fonte | GL | SQ (Aj.) | QM (Aj.) |
|---|---|---|---|
| Regressão | 11 | 279881 | 25443,7 |
| Número de Sintomas Agora | 1 | 31655 | 31654,8 |
| Alta Produção de Phlegm | 1 | 5202 | 5201,8 |
| Falta severa de ar | 1 | 11 | 11,1 |
| Dor de cabeça severa | 1 | 4520 | 4520,0 |
| Perturbação severa do sono | 1 | 3239 | 3238,8 |
| Geralmente se sentindo muito ma | 1 | 1776 | 1775,6 |
| Limites das Atividades Normais | 1 | 945 | 945,4 |
| Número de Sintomas Agora*Falta severa de ar | 1 | 136 | 136,4 |
| Número de Sintomas Agora*Dor severa no peito | 1 | 4023 | 4023,4 |
| Falta severa de ar*Perturbação severa do sono | 1 | 111 | 110,7 |
| Geralmente se sentindo muito ma*Limites das Atividades Normais | 1 | 117 | 117,3 |
| Erro | 1534 | 26498 | 17,3 |
| Falta de ajuste | 484 | 9247 | 19,1 |
| Erro puro | 1050 | 17251 | 16,4 |
| Total | 1545 | 306379 |
| Fonte | Valor F | Valor-P |
|---|---|---|
| Regressão | 1472,94 | 0,000 |
| Número de Sintomas Agora | 1832,51 | 0,000 |
| Alta Produção de Phlegm | 301,14 | 0,000 |
| Falta severa de ar | 0,64 | 0,424 |
| Dor de cabeça severa | 261,66 | 0,000 |
| Perturbação severa do sono | 187,50 | 0,000 |
| Geralmente se sentindo muito ma | 102,79 | 0,000 |
| Limites das Atividades Normais | 54,73 | 0,000 |
| Número de Sintomas Agora*Falta severa de ar | 7,90 | 0,005 |
| Número de Sintomas Agora*Dor severa no peito | 232,92 | 0,000 |
| Falta severa de ar*Perturbação severa do sono | 6,41 | 0,011 |
| Geralmente se sentindo muito ma*Limites das Atividades Normais | 6,79 | 0,009 |
| Erro | ||
| Falta de ajuste | 1,16 | 0,025 |
| Erro puro | * | * |
| Total |
| Obs. | Pontuação da Doença | Ajuste | Resíd | Resíd Pad | ||
|---|---|---|---|---|---|---|
| 11 | 66,670 | 56,757 | 9,913 | 2,40 | R | |
| 13 | 52,380 | 41,177 | 11,203 | 2,71 | R | |
| 16 | 59,520 | 48,604 | 10,916 | 2,64 | R | |
| 33 | 50,000 | 60,657 | -10,657 | -2,57 | R | |
| 48 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
| 52 | 61,900 | 53,369 | 8,531 | 2,06 | R | |
| 54 | 50,000 | 41,598 | 8,402 | 2,03 | R | |
| 56 | 50,000 | 58,328 | -8,328 | -2,02 | R | |
| 58 | 38,100 | 46,485 | -8,385 | -2,03 | R | |
| 106 | 59,520 | 49,028 | 10,492 | 2,53 | R | |
| 114 | 59,520 | 47,160 | 12,360 | 2,99 | R | |
| 128 | 69,050 | 58,328 | 10,722 | 2,59 | R | |
| 144 | 50,000 | 40,471 | 9,529 | 2,30 | R | |
| 173 | 47,620 | 56,757 | -9,137 | -2,21 | R | |
| 174 | 42,860 | 34,000 | 8,860 | 2,14 | R | |
| 191 | 42,860 | 52,051 | -9,191 | -2,23 | R | |
| 198 | 59,520 | 48,411 | 11,109 | 2,68 | R | |
| 202 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
| 205 | 47,620 | 37,559 | 10,061 | 2,43 | R | |
| 213 | 35,710 | 34,970 | 0,740 | 0,18 | X | |
| 217 | 16,670 | 19,053 | -2,383 | -0,58 | X | |
| 239 | 47,620 | 58,328 | -10,708 | -2,59 | R | |
| 241 | 71,430 | 66,311 | 5,119 | 1,25 | X | |
| 243 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
| 304 | 50,000 | 41,130 | 8,870 | 2,14 | R | |
| 307 | 14,290 | 10,920 | 3,370 | 0,83 | X | |
| 352 | 64,290 | 51,254 | 13,036 | 3,15 | R | |
| 369 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
| 391 | 16,670 | 32,073 | -15,403 | -3,72 | R | |
| 392 | 0,000 | 11,395 | -11,395 | -2,75 | R | |
| 395 | 0,000 | 13,934 | -13,934 | -3,36 | R | |
| 424 | 40,480 | 52,504 | -12,024 | -2,90 | R | |
| 425 | 47,620 | 34,597 | 13,023 | 3,16 | R | |
| 474 | 47,620 | 38,538 | 9,082 | 2,21 | R | |
| 479 | 40,480 | 30,896 | 9,584 | 2,31 | R | |
| 489 | 16,670 | 25,023 | -8,353 | -2,02 | R | |
| 491 | 30,950 | 24,348 | 6,602 | 1,61 | X | |
| 493 | 57,140 | 44,339 | 12,801 | 3,09 | R | |
| 495 | 35,710 | 25,480 | 10,230 | 2,47 | R | |
| 509 | 38,100 | 26,696 | 11,404 | 2,77 | R | |
| 520 | 73,810 | 58,328 | 15,482 | 3,75 | R | |
| 537 | 38,100 | 28,358 | 9,742 | 2,35 | R | |
| 550 | 14,290 | 24,458 | -10,168 | -2,45 | R | |
| 583 | 42,860 | 53,369 | -10,509 | -2,54 | R | |
| 694 | 19,050 | 21,817 | -2,767 | -0,68 | X | |
| 720 | 59,520 | 65,602 | -6,082 | -1,49 | X | |
| 722 | 40,480 | 32,066 | 8,414 | 2,03 | R | |
| 802 | 30,950 | 42,586 | -11,636 | -2,81 | R | |
| 805 | 30,950 | 39,868 | -8,918 | -2,16 | R | |
| 814 | 40,480 | 32,073 | 8,407 | 2,03 | R | |
| 823 | 61,900 | 48,148 | 13,752 | 3,33 | R | |
| 833 | 33,330 | 44,054 | -10,724 | -2,60 | R | |
| 859 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
| 868 | 47,620 | 37,789 | 9,831 | 2,38 | R | |
| 891 | 30,950 | 19,945 | 11,005 | 2,66 | R | |
| 893 | 28,570 | 48,860 | -20,290 | -4,92 | R | |
| 905 | 45,240 | 55,416 | -10,176 | -2,46 | R | |
| 924 | 54,760 | 56,019 | -1,259 | -0,31 | X | |
| 977 | 64,290 | 53,107 | 11,183 | 2,72 | R | |
| 983 | 57,140 | 47,683 | 9,457 | 2,29 | R | |
| 988 | 50,000 | 44,501 | 5,499 | 1,34 | X | |
| 993 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
| 997 | 33,330 | 24,458 | 8,872 | 2,14 | R | |
| 1003 | 54,760 | 45,128 | 9,632 | 2,33 | R | |
| 1025 | 33,330 | 47,705 | -14,375 | -3,49 | R | |
| 1059 | 57,140 | 48,663 | 8,477 | 2,05 | R | |
| 1105 | 47,620 | 37,319 | 10,301 | 2,49 | R | |
| 1150 | 59,520 | 44,339 | 15,181 | 3,67 | R | |
| 1160 | 52,380 | 40,051 | 12,329 | 2,97 | R | |
| 1163 | 30,950 | 41,598 | -10,648 | -2,57 | R | |
| 1165 | 69,050 | 56,757 | 12,293 | 2,97 | R | |
| 1169 | 59,520 | 49,275 | 10,245 | 2,48 | R | |
| 1198 | 42,860 | 51,516 | -8,656 | -2,09 | R | |
| 1207 | 76,190 | 63,534 | 12,656 | 3,07 | R | |
| 1213 | 26,190 | 40,278 | -14,088 | -3,41 | R | |
| 1228 | 40,480 | 50,571 | -10,091 | -2,45 | R | |
| 1235 | 59,520 | 50,175 | 9,345 | 2,26 | R | |
| 1237 | 57,140 | 48,239 | 8,901 | 2,15 | R | |
| 1246 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
| 1262 | 45,240 | 35,957 | 9,283 | 2,24 | R | |
| 1263 | 57,140 | 43,951 | 13,189 | 3,18 | R | |
| 1282 | 33,330 | 36,011 | -2,681 | -0,65 | X | |
| 1284 | 45,240 | 56,564 | -11,324 | -2,74 | R | |
| 1285 | 47,620 | 60,657 | -13,037 | -3,15 | R | |
| 1303 | 26,190 | 36,567 | -10,377 | -2,51 | R | |
| 1305 | 35,710 | 45,499 | -9,789 | -2,36 | R | |
| 1311 | 30,950 | 40,089 | -9,139 | -2,21 | R | |
| 1345 | 26,190 | 25,105 | 1,085 | 0,26 | X | |
| 1353 | 42,860 | 53,175 | -10,315 | -2,49 | R | |
| 1365 | 26,190 | 17,834 | 8,356 | 2,01 | R | |
| 1377 | 47,620 | 35,222 | 12,398 | 3,00 | R | |
| 1380 | 69,050 | 55,416 | 13,634 | 3,29 | R | |
| 1384 | 50,000 | 38,496 | 11,504 | 2,78 | R | |
| 1414 | 26,190 | 35,345 | -9,155 | -2,21 | R | |
| 1502 | 61,900 | 50,195 | 11,705 | 2,84 | R | |
| 1526 | 38,100 | 25,450 | 12,650 | 3,05 | R | |
| 1535 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
| 1544 | 38,100 | 29,165 | 8,935 | 2,16 | R | |
| 1548 | 50,000 | 40,455 | 9,545 | 2,31 | R | |
| 1565 | 38,100 | 42,846 | -4,746 | -1,16 | X | |
| 1582 | 66,670 | 55,437 | 11,233 | 2,72 | R |
Os pesquisadores decidem examinar os resultados para o melhor modelo TreeNet® .
Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 63. O modelo usa uma taxa de aprendizagem de 0,1 e uma fração subsample de 0,7. número máximo de nós terminais por árvore O número máximo de nós terminais é 6.
| Função de perda | Erro quadrado |
|---|---|
| Critério para seleção do número ótimo de árvores | R-quadrado máximo |
| Validação do modelo | Validação cruzada de 5 dobras |
| Taxa de aprendizado | 0,1 |
| Fração da subamostra | 0,7 |
| Nós máximos terminais por árvore | 6 |
| Tamanho mínimo do nó terminal | 3 |
| Número de preditores selecionados para divisão de nós | Número total de preditores = 8 |
| Linhas usadas | 1546 |
| Linhas não usadas | 70 |
| Média | DesvPad | Mínimo | Q1 | Mediana | Q3 | Máximo |
|---|---|---|---|---|---|---|
| 31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
O gráfico R-quadrado vs número de árvores mostra toda a curva sobre o número de árvores cultivadas. O valor ideal para os dados de teste é de cerca de 91% quando o número de árvores é de 63.
| Preditores totais | 8 |
|---|---|
| Preditores importantes | 8 |
| Número de árvores cultivadas | 300 |
| Número ótimo de árvores | 63 |
| Estatísticas | Treinamento | Teste |
|---|---|---|
| R-quadrado | 91,93% | 90,90% |
| Raiz do quadrado médio do Erro (RMSE) | 3,9992 | 4,2471 |
| Quadrado médio do erro (MSE) | 15,9932 | 18,0375 |
| Desvio absoluto médio (MAD) | 2,9943 | 3,1613 |
| Erro percentual absoluto médio (MAPE) | 0,1088 | 0,1130 |
A tabela de resumo do modelo mostra que o valor de R2 quando o número de árvores é 63 é de aproximadamente 92% para os dados de treinamento e aproximadamente 91% para os dados de teste.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é Número de Sintomas Agora. Se a contribuição da variável preditora superior, , é de 100%, então a próxima variável importante, , tem uma contribuição de 44,4 Número de Sintomas Agora Limites das Atividades Normais%. Esse meio Limites das Atividades Normais é 44,4% tão importante quanto Número de Sintomas Agora nesse modelo de regressão.
O gráfico de dispersão dos escores de doença ajustados versus escores reais de doença mostra a relação entre os valores ajustados e reais para os dados de treinamento e teste. Os pontos caem aproximadamente perto da linha de referência de y=x, o que indica que o modelo se ajusta bem aos dados.
Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.
O primeiro gráfico ilustra a relação entre os escores da doença e o número de sintomas que o paciente tem agora. Você pode passar o mouse sobre pontos de dados individuais para ver os valores x e y específicos. Por exemplo, o ponto mais alto no lado direito do gráfico é quando o paciente apresenta 13 sintomas e o escore de doença ajustado é de aproximadamente 45.
O segundo gráfico ilustra que o escore de doença ajustada aumenta em aproximadamente 5 pontos quando os pacientes relatam limitações em suas atividades normais.
O terceiro gráfico ilustra que o escore de doença ajustado aumenta em aproximadamente 5 pontos quando os pacientes relatam geralmente se sentir muito mal.
O quarto gráfico ilustra que o escore de doença ajustada aumenta em aproximadamente 4 pontos quando os pacientes relatam falta de ar grave.
O último gráfico ilustra como a pontuação de doença ajustada para uma série de sintomas depende se o paciente também tem limites em suas atividades normais. Para o mesmo número de sintomas, os pacientes que também relatam limites em suas atividades normais têm escores de doença mais altos.