Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Pesquisadores de um sistema de saúde coletam dados de suas clínicas médicas regionais. Em particular, a equipe de pesquisa está interessada em dados dos exames iniciais dos médicos de pacientes doentes. No final dos exames iniciais, os médicos atribuem a cada paciente uma pontuação para a gravidade de sua doença. Os pesquisadores querem desenvolver um pequeno questionário para ajudar a priorizar os pacientes mais doentes antes do exame por um médico. Por meio de consulta com especialistas no assunto e exploração inicial dos dados, a equipe seleciona 8 variáveis para prever o escore de gravidade. Os pesquisadores querem determinar o melhor tipo de modelo para prever a pontuação de gravidade antes de refinar ainda mais o modelo.
Os pesquisadores usam Descobrir o melhor modelo (Resposta contínua) para comparar o desempenho preditivo de 5 tipos de modelos: regressão múltipla, TreeNet®, Random Forests® CART® e MARS®. A equipe planeja explorar ainda mais o tipo de modelo com o melhor desempenho preditivo.
A tabela Seleção de modelo compara o desempenho dos tipos de modelos. O modelo de regressão múltipla tem o valor máximo de R2. Os resultados a seguir são para o melhor modelo de regressão múltipla.
Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real. Nesses resultados, dois dos termos de interação apresentam valores de p maiores que 0,05: Falta severa de ar*Dor de cabeça severa e Dor de cabeça severa*Perturbação severa do sono. Quando os pesquisadores exploram outros modelos de regressão múltipla, eles usarão métricas de desempenho do modelo e gráficos residuais para explorar os efeitos da inclusão desses termos no modelo.
A tabela de resumo do modelo mostra que o treinamento R2 e o teste R2 são ambos aproximadamente 91%. O erro quadrático médio da raiz de teste (RMSE), que representa até que ponto os valores de dados caem dos valores ajustados, é de aproximadamente 4. Como o RMSE é pequeno na escala da pontuação da doença, os pesquisadores estão otimistas de que um pequeno número de perguntas é informação suficiente para ajudar a priorizar os pacientes.
A tabela de ajustes e diagnósticos para informações incomuns mostra pontos de dados que não seguem bem a equação de regressão proposta. Estes são os ajustes e diagnósticos do conjunto de dados completo.
A letra R indica um ponto com um grande resíduo. Examine os pontos de dados atípicos para quais são os valores dos preditores onde o modelo pode não ajustar bem. A letra X indica um ponto com alta alavancagem. Pontos com alta alavancagem têm combinações preditoras incomuns em relação ao restante do conjunto de dados.
Grandes resíduos e altos pontos de alavancagem são pontos potencialmente influentes. Por exemplo, a inclusão ou exclusão de um ponto influente pode mudar se um coeficiente for estatisticamente significativo ou não. Se você vir uma observação influente, determine se ela é um erro de entrada de dados ou de medição. Se a observação não for um erro, determine o quanto a observação influencia os resultados. Quando os pesquisadores explorarem ainda mais o modelo, eles se ajustarão ao modelo com e sem as observações. Em seguida, eles compararão os coeficientes, valores-p, R2e outras informações do modelo. Se o modelo mudar significativamente quando você remover a observação influente, examine o modelo ainda mais para determinar se você especificou incorretamente o modelo. Talvez seja necessário reunir mais dados para resolver o problema.
O gráfico de dispersão dos escores de doença ajustados versus escores reais de doença mostra a relação entre os valores ajustados e reais para os dados de treinamento e teste. Os pontos caem aproximadamente perto da linha de referência de y=x, o que indica que o modelo se ajusta bem aos dados.
Ajuste um modelo de regressão com termos lineares e termos de ordem 2. |
---|
Ajuste 6 modelos de regressão TreeNet® Regressão que usam a função de perda quadrada. |
Ajuste 3 modelos de regressão Random Forests® com tamanho amostral de bootstrap igual ao tamanho de dados de treinamento de 1546. |
Ajuste um modelo ótimo de regressão CART®. |
Ajuste um modelo ótimo de regressão MARS®. |
Selecione o modelo com R-quadrado máximo da avaliação cruzada com 5-dobras. |
Número total de linhas: 1546 |
Linhas usadas para modelo de regressão: 1546 |
Linhas usadas para modelos baseados em árvores: 1546 |
Média | DesvPad | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
Melhor modelo dentro do tipo | R-quadrado (%) | Desvio absoluto da média |
---|---|---|
Regressão Múltipla* | 91,23 | 3,1011 |
MARS® | 91,05 | 3,1604 |
TreeNet® | 90,90 | 3,1613 |
Random Forests® | 89,93 | 3,3248 |
CART® | 86,11 | 3,9369 |
Pontuação da Doença | = | 1,241 + 2,5386 Número de Sintomas Agora + 0,0 Alta Produção de Phlegm_0 + 3,900 Alta Produção de Phlegm_1 + 0,0 Falta severa de ar_0 + 0,94 Falta severa de ar_1 + 0,0 Dor de cabeça severa_0 + 4,094 Dor de cabeça severa_1 + 0,0 Perturbação severa do sono_0 + 3,884 Perturbação severa do sono_1 + 0,0 Geralmente se sentindo muito ma_0 + 3,473 Geralmente se sentindo muito ma_1 + 0,0 Limites das Atividades Normais_0 + 3,140 Limites das Atividades Normais_1 + 0,0 Número de Sintomas Agora*Falta severa de ar_0 + 0,373 Número de Sintomas Agora*Falta severa de ar_1 + 0,0 Número de Sintomas Agora*Dor severa no peito_0 + 0,4765 Número de Sintomas Agora*Dor severa no peito_1 + 0,0 Falta severa de ar*Perturbação severa do sono_0 0 + 0,0 Falta severa de ar*Perturbação severa do sono_0 1 + 0,0 Falta severa de ar*Perturbação severa do sono_1 0 + 1,337 Falta severa de ar*Perturbação severa do sono_1 1 + 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_0 0 + 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_0 1 + 0,0 Geralmente se sentindo muito ma*Limites das Atividades Normais_1 0 + 1,372 Geralmente se sentindo muito ma*Limites das Atividades Normais_ 1 1 |
---|
Termo | Coef | EP de Coef | Valor-T |
---|---|---|---|
Constante | 1,241 | 0,385 | 3,22 |
Número de Sintomas Agora | 2,5386 | 0,0593 | 42,81 |
Alta Produção de Phlegm | |||
1 | 3,900 | 0,225 | 17,35 |
Falta severa de ar | |||
1 | 0,94 | 1,18 | 0,80 |
Dor de cabeça severa | |||
1 | 4,094 | 0,253 | 16,18 |
Perturbação severa do sono | |||
1 | 3,884 | 0,284 | 13,69 |
Geralmente se sentindo muito ma | |||
1 | 3,473 | 0,343 | 10,14 |
Limites das Atividades Normais | |||
1 | 3,140 | 0,424 | 7,40 |
Número de Sintomas Agora*Falta severa de ar | |||
1 | 0,373 | 0,133 | 2,81 |
Número de Sintomas Agora*Dor severa no peito | |||
1 | 0,4765 | 0,0312 | 15,26 |
Falta severa de ar*Perturbação severa do sono | |||
1 1 | 1,337 | 0,528 | 2,53 |
Geralmente se sentindo muito ma*Limites das Atividades Normais | |||
1 1 | 1,372 | 0,527 | 2,61 |
Termo | Valor-P | VIF |
---|---|---|
Constante | 0,001 | |
Número de Sintomas Agora | 0,000 | 1,95 |
Alta Produção de Phlegm | ||
1 | 0,000 | 1,10 |
Falta severa de ar | ||
1 | 0,424 | 23,23 |
Dor de cabeça severa | ||
1 | 0,000 | 1,25 |
Perturbação severa do sono | ||
1 | 0,000 | 1,73 |
Geralmente se sentindo muito ma | ||
1 | 0,000 | 2,62 |
Limites das Atividades Normais | ||
1 | 0,000 | 3,98 |
Número de Sintomas Agora*Falta severa de ar | ||
1 | 0,005 | 26,80 |
Número de Sintomas Agora*Dor severa no peito | ||
1 | 0,000 | 1,25 |
Falta severa de ar*Perturbação severa do sono | ||
1 1 | 0,011 | 3,26 |
Geralmente se sentindo muito ma*Limites das Atividades Normais | ||
1 1 | 0,009 | 5,73 |
Estatísticas | Treinamento | Teste |
---|---|---|
R-quadrado | 91,35% | 91,23% |
Raiz do quadrado médio do Erro (RMSE) | 4,1562 | 4,1679 |
Quadrado médio do erro (MSE) | 17,2741 | 17,3714 |
Desvio absoluto médio (DAM) | 3,0798 | 3,1011 |
R-quadrado (aj) | 91,29% | |
R-quadrado (pred) | 91,19% |
Fonte | GL | SQ (Aj.) | QM (Aj.) |
---|---|---|---|
Regressão | 11 | 279881 | 25443,7 |
Número de Sintomas Agora | 1 | 31655 | 31654,8 |
Alta Produção de Phlegm | 1 | 5202 | 5201,8 |
Falta severa de ar | 1 | 11 | 11,1 |
Dor de cabeça severa | 1 | 4520 | 4520,0 |
Perturbação severa do sono | 1 | 3239 | 3238,8 |
Geralmente se sentindo muito ma | 1 | 1776 | 1775,6 |
Limites das Atividades Normais | 1 | 945 | 945,4 |
Número de Sintomas Agora*Falta severa de ar | 1 | 136 | 136,4 |
Número de Sintomas Agora*Dor severa no peito | 1 | 4023 | 4023,4 |
Falta severa de ar*Perturbação severa do sono | 1 | 111 | 110,7 |
Geralmente se sentindo muito ma*Limites das Atividades Normais | 1 | 117 | 117,3 |
Erro | 1534 | 26498 | 17,3 |
Falta de ajuste | 484 | 9247 | 19,1 |
Erro puro | 1050 | 17251 | 16,4 |
Total | 1545 | 306379 |
Fonte | Valor F | Valor-P |
---|---|---|
Regressão | 1472,94 | 0,000 |
Número de Sintomas Agora | 1832,51 | 0,000 |
Alta Produção de Phlegm | 301,14 | 0,000 |
Falta severa de ar | 0,64 | 0,424 |
Dor de cabeça severa | 261,66 | 0,000 |
Perturbação severa do sono | 187,50 | 0,000 |
Geralmente se sentindo muito ma | 102,79 | 0,000 |
Limites das Atividades Normais | 54,73 | 0,000 |
Número de Sintomas Agora*Falta severa de ar | 7,90 | 0,005 |
Número de Sintomas Agora*Dor severa no peito | 232,92 | 0,000 |
Falta severa de ar*Perturbação severa do sono | 6,41 | 0,011 |
Geralmente se sentindo muito ma*Limites das Atividades Normais | 6,79 | 0,009 |
Erro | ||
Falta de ajuste | 1,16 | 0,025 |
Erro puro | * | * |
Total |
Obs. | Pontuação da Doença | Ajuste | Resíd | Resíd Pad | ||
---|---|---|---|---|---|---|
11 | 66,670 | 56,757 | 9,913 | 2,40 | R | |
13 | 52,380 | 41,177 | 11,203 | 2,71 | R | |
16 | 59,520 | 48,604 | 10,916 | 2,64 | R | |
33 | 50,000 | 60,657 | -10,657 | -2,57 | R | |
48 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
52 | 61,900 | 53,369 | 8,531 | 2,06 | R | |
54 | 50,000 | 41,598 | 8,402 | 2,03 | R | |
56 | 50,000 | 58,328 | -8,328 | -2,02 | R | |
58 | 38,100 | 46,485 | -8,385 | -2,03 | R | |
106 | 59,520 | 49,028 | 10,492 | 2,53 | R | |
114 | 59,520 | 47,160 | 12,360 | 2,99 | R | |
128 | 69,050 | 58,328 | 10,722 | 2,59 | R | |
144 | 50,000 | 40,471 | 9,529 | 2,30 | R | |
173 | 47,620 | 56,757 | -9,137 | -2,21 | R | |
174 | 42,860 | 34,000 | 8,860 | 2,14 | R | |
191 | 42,860 | 52,051 | -9,191 | -2,23 | R | |
198 | 59,520 | 48,411 | 11,109 | 2,68 | R | |
202 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
205 | 47,620 | 37,559 | 10,061 | 2,43 | R | |
213 | 35,710 | 34,970 | 0,740 | 0,18 | X | |
217 | 16,670 | 19,053 | -2,383 | -0,58 | X | |
239 | 47,620 | 58,328 | -10,708 | -2,59 | R | |
241 | 71,430 | 66,311 | 5,119 | 1,25 | X | |
243 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
304 | 50,000 | 41,130 | 8,870 | 2,14 | R | |
307 | 14,290 | 10,920 | 3,370 | 0,83 | X | |
352 | 64,290 | 51,254 | 13,036 | 3,15 | R | |
369 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
391 | 16,670 | 32,073 | -15,403 | -3,72 | R | |
392 | 0,000 | 11,395 | -11,395 | -2,75 | R | |
395 | 0,000 | 13,934 | -13,934 | -3,36 | R | |
424 | 40,480 | 52,504 | -12,024 | -2,90 | R | |
425 | 47,620 | 34,597 | 13,023 | 3,16 | R | |
474 | 47,620 | 38,538 | 9,082 | 2,21 | R | |
479 | 40,480 | 30,896 | 9,584 | 2,31 | R | |
489 | 16,670 | 25,023 | -8,353 | -2,02 | R | |
491 | 30,950 | 24,348 | 6,602 | 1,61 | X | |
493 | 57,140 | 44,339 | 12,801 | 3,09 | R | |
495 | 35,710 | 25,480 | 10,230 | 2,47 | R | |
509 | 38,100 | 26,696 | 11,404 | 2,77 | R | |
520 | 73,810 | 58,328 | 15,482 | 3,75 | R | |
537 | 38,100 | 28,358 | 9,742 | 2,35 | R | |
550 | 14,290 | 24,458 | -10,168 | -2,45 | R | |
583 | 42,860 | 53,369 | -10,509 | -2,54 | R | |
694 | 19,050 | 21,817 | -2,767 | -0,68 | X | |
720 | 59,520 | 65,602 | -6,082 | -1,49 | X | |
722 | 40,480 | 32,066 | 8,414 | 2,03 | R | |
802 | 30,950 | 42,586 | -11,636 | -2,81 | R | |
805 | 30,950 | 39,868 | -8,918 | -2,16 | R | |
814 | 40,480 | 32,073 | 8,407 | 2,03 | R | |
823 | 61,900 | 48,148 | 13,752 | 3,33 | R | |
833 | 33,330 | 44,054 | -10,724 | -2,60 | R | |
859 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
868 | 47,620 | 37,789 | 9,831 | 2,38 | R | |
891 | 30,950 | 19,945 | 11,005 | 2,66 | R | |
893 | 28,570 | 48,860 | -20,290 | -4,92 | R | |
905 | 45,240 | 55,416 | -10,176 | -2,46 | R | |
924 | 54,760 | 56,019 | -1,259 | -0,31 | X | |
977 | 64,290 | 53,107 | 11,183 | 2,72 | R | |
983 | 57,140 | 47,683 | 9,457 | 2,29 | R | |
988 | 50,000 | 44,501 | 5,499 | 1,34 | X | |
993 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
997 | 33,330 | 24,458 | 8,872 | 2,14 | R | |
1003 | 54,760 | 45,128 | 9,632 | 2,33 | R | |
1025 | 33,330 | 47,705 | -14,375 | -3,49 | R | |
1059 | 57,140 | 48,663 | 8,477 | 2,05 | R | |
1105 | 47,620 | 37,319 | 10,301 | 2,49 | R | |
1150 | 59,520 | 44,339 | 15,181 | 3,67 | R | |
1160 | 52,380 | 40,051 | 12,329 | 2,97 | R | |
1163 | 30,950 | 41,598 | -10,648 | -2,57 | R | |
1165 | 69,050 | 56,757 | 12,293 | 2,97 | R | |
1169 | 59,520 | 49,275 | 10,245 | 2,48 | R | |
1198 | 42,860 | 51,516 | -8,656 | -2,09 | R | |
1207 | 76,190 | 63,534 | 12,656 | 3,07 | R | |
1213 | 26,190 | 40,278 | -14,088 | -3,41 | R | |
1228 | 40,480 | 50,571 | -10,091 | -2,45 | R | |
1235 | 59,520 | 50,175 | 9,345 | 2,26 | R | |
1237 | 57,140 | 48,239 | 8,901 | 2,15 | R | |
1246 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
1262 | 45,240 | 35,957 | 9,283 | 2,24 | R | |
1263 | 57,140 | 43,951 | 13,189 | 3,18 | R | |
1282 | 33,330 | 36,011 | -2,681 | -0,65 | X | |
1284 | 45,240 | 56,564 | -11,324 | -2,74 | R | |
1285 | 47,620 | 60,657 | -13,037 | -3,15 | R | |
1303 | 26,190 | 36,567 | -10,377 | -2,51 | R | |
1305 | 35,710 | 45,499 | -9,789 | -2,36 | R | |
1311 | 30,950 | 40,089 | -9,139 | -2,21 | R | |
1345 | 26,190 | 25,105 | 1,085 | 0,26 | X | |
1353 | 42,860 | 53,175 | -10,315 | -2,49 | R | |
1365 | 26,190 | 17,834 | 8,356 | 2,01 | R | |
1377 | 47,620 | 35,222 | 12,398 | 3,00 | R | |
1380 | 69,050 | 55,416 | 13,634 | 3,29 | R | |
1384 | 50,000 | 38,496 | 11,504 | 2,78 | R | |
1414 | 26,190 | 35,345 | -9,155 | -2,21 | R | |
1502 | 61,900 | 50,195 | 11,705 | 2,84 | R | |
1526 | 38,100 | 25,450 | 12,650 | 3,05 | R | |
1535 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
1544 | 38,100 | 29,165 | 8,935 | 2,16 | R | |
1548 | 50,000 | 40,455 | 9,545 | 2,31 | R | |
1565 | 38,100 | 42,846 | -4,746 | -1,16 | X | |
1582 | 66,670 | 55,437 | 11,233 | 2,72 | R |
Os pesquisadores decidem examinar os resultados para o melhor modelo TreeNet® .
Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 63. O modelo usa uma taxa de aprendizagem de 0,1 e uma fração subsample de 0,7. número máximo de nós terminais por árvore O número máximo de nós terminais é 6.
Função de perda | Erro quadrado |
---|---|
Critério para seleção do número ótimo de árvores | R-quadrado máximo |
Validação do modelo | Validação cruzada de 5 dobras |
Taxa de aprendizado | 0,1 |
Fração da subamostra | 0,7 |
Nós máximos terminais por árvore | 6 |
Tamanho mínimo do nó terminal | 3 |
Número de preditores selecionados para divisão de nós | Número total de preditores = 8 |
Linhas usadas | 1546 |
Linhas não usadas | 70 |
Média | DesvPad | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
Preditores totais | 8 |
---|---|
Preditores importantes | 8 |
Número de árvores cultivadas | 300 |
Número ótimo de árvores | 63 |
Estatísticas | Treinamento | Teste |
---|---|---|
R-quadrado | 91,93% | 90,90% |
Raiz do quadrado médio do Erro (RMSE) | 3,9992 | 4,2471 |
Quadrado médio do erro (MSE) | 15,9932 | 18,0375 |
Desvio absoluto médio (MAD) | 2,9943 | 3,1613 |
Erro percentual absoluto médio (MAPE) | 0,1088 | 0,1130 |
A tabela de resumo do modelo mostra que o valor de R2 quando o número de árvores é 63 é de aproximadamente 92% para os dados de treinamento e aproximadamente 91% para os dados de teste.