Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Uma equipe de pesquisadores quer usar dados sobre um mutuário e a localização de um imóvel para predizer o valor de uma hipoteca. As variáveis incluem a renda, raça e sexo do mutuário, bem como a localização do setor censitário do imóvel, e outras informações sobre o mutuário e o tipo de imóvel.
Após a exploração inicial para Regressão CART® identificar os preditores importantes, a equipe agora considera Regressão TreeNet® como uma etapa de acompanhamento necessária. Os pesquisadores esperam obter mais informações sobre as relações entre a resposta e os preditores importantes e predizer novas observações com maior exatidão.
Esses dados foram adaptados com base em um conjunto de dados públicos contendo informações sobre hipotecas de bancos federais de empréstimos imobiliários. Dados originais de fhfa.gov.
Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 300. Como o número ótimo de árvores está próximo ao número máximo de árvores cultivadas pelo modelo, os pesquisadores repetem a análise com mais árvores.
Preditores totais | 34 |
---|---|
Preditores importantes | 19 |
Número de árvores cultivadas | 300 |
Número ótimo de árvores | 300 |
Estatísticas | Treinamento | Teste |
---|---|---|
R-quadrado | 94,02% | 84,97% |
Raiz do quadrado médio do Erro (RMSE) | 32334,5587 | 51227,9431 |
Quadrado médio do erro (MSE) | 1,04552E+09 | 2,62430E+09 |
Desvio absoluto médio (DAM) | 22740,1020 | 35974,9695 |
Erro percentual absoluto médio (MAPE) | 0,1238 | 0,1969 |
Para esta análise, foram cultivadas 500 árvores e o número ideal de árvores para a combinação de hiperparâmetros com o melhor valor do critério de precisão é 500. A fração da subamostra muda para 0,7 em vez de 0,5 na análise original. A taxa de aprendizado muda para 0,0437 em vez de 0,04372 na análise original.
Examine tanto a tabela sumário do modelo quanto o gráfico R-quadrado versus número de árvores. O valor de R2 quando o número de árvores é 500 é de 86,79% para os dados de teste e é de 96,41% para os dados de treinamento. Esses resultados mostram melhora em relação a uma análise de regressão tradicional e uma Regressão CART®.
Função de perda | Erro quadrado |
---|---|
Critério para seleção do número ótimo de árvores | R-quadrado máximo |
Validação do modelo | Validação cruzada de 3 dobras |
Taxa de aprendizado | 0,04372 |
Fração da subamostra | 0,5 |
Nós máximos terminais por árvore | 6 |
Tamanho mínimo do nó terminal | 3 |
Número de preditores selecionados para divisão de nós | Número total de preditores = 34 |
Linhas usadas | 4372 |
Média | DesvPad | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
235217 | 132193 | 23800 | 136000 | 208293 | 300716 | 1190000 |
Função de perda | Erro quadrado |
---|---|
Critério para seleção do número ótimo de árvores | R-quadrado máximo |
Validação do modelo | Validação cruzada de 3 dobras |
Taxa de aprendizado | 0,001; 0,0437; 0,1 |
Fração da subamostra | 0,5; 0,7 |
Nós máximos terminais por árvore | 6 |
Tamanho mínimo do nó terminal | 3 |
Número de preditores selecionados para divisão de nós | Número total de preditores = 34 |
Linhas usadas | 4372 |
Média | DesvPad | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
235217 | 132193 | 23800 | 136000 | 208293 | 300716 | 1190000 |
Modelo | Número ótimo de árvores | R-quadrado (%) | Desvio absoluto da média | Taxa de aprendizado | Fração da subamostra | Máximo de do nós terminais |
---|---|---|---|---|---|---|
1 | 500 | 36,43 | 82617,1 | 0,0010 | 0,5 | 6 |
2 | 495 | 85,87 | 34560,5 | 0,0437 | 0,5 | 6 |
3 | 495 | 85,63 | 34889,3 | 0,1000 | 0,5 | 6 |
4 | 500 | 36,86 | 82145,0 | 0,0010 | 0,7 | 6 |
5* | 500 | 86,79 | 33052,6 | 0,0437 | 0,7 | 6 |
6 | 451 | 86,67 | 33262,3 | 0,1000 | 0,7 | 6 |
Preditores totais | 34 |
---|---|
Preditores importantes | 24 |
Número de árvores cultivadas | 500 |
Número ótimo de árvores | 500 |
Estatísticas | Treinamento | Teste |
---|---|---|
R-quadrado | 96,41% | 86,79% |
Raiz do quadrado médio do Erro (RMSE) | 25035,7243 | 48029,9503 |
Quadrado médio do erro (MSE) | 6,26787E+08 | 2,30688E+09 |
Desvio absoluto médio (DAM) | 17309,3936 | 33052,6087 |
Erro percentual absoluto médio (MAPE) | 0,0930 | 0,1790 |