Exemplo de Regressão TreeNet®

Uma equipe de pesquisadores quer usar dados sobre um mutuário e a localização de um imóvel para predizer o valor de uma hipoteca. As variáveis incluem a renda, raça e sexo do mutuário, bem como a localização do setor censitário do imóvel, e outras informações sobre o mutuário e o tipo de imóvel.

Após a exploração inicial com Regressão CART®para identificar os preditores importantes, a equipe agora considera Regressão TreeNet® como um passo de acompanhamento necessário. Os pesquisadores esperam obter mais informações sobre as relações entre a resposta e os preditores importantes e predizer novas observações com maior exatidão.

Esses dados foram adaptados com base em um conjunto de dados públicos contendo informações sobre hipotecas de bancos federais de empréstimos imobiliários. Dados originais de fhfa.gov.

  1. Abra o conjunto de dados de amostra HipotecasCompradas.MTW.
  2. Selecione Módulo de análise preditiva > Regressão TreeNet® > Ajuste de modelo.
  3. Em Resposta, digite Valor do empréstimo.
  4. Em Preditores contínuos, insira Renda AnualRenda da área.
  5. Em Preditores categóricos, insira Comprador de casa pela primeira vezÁrea estatística baseada em núcleo.
  6. Clique em OK.

Interprete os resultados

Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 300. Quando o número ótimo de árvores está próximo do número máximo de árvores cultivadas pelo modelo, considere refazer a análise com mais árvores.

Regressão TreeNet®: Valor do emp vs Renda Anual; Proporção da; ...

Resumo do modelo Preditores totais 34 Preditores importantes 19 Número de árvores cultivadas 300 Número ótimo de árvores 300 Estatística Treinamento Teste R² 94,02% 84,97% Raiz do quadrado médio do Erro (RMSE) 32334,5587 51227,9431 Quadrado médio do erro (MSE) 1045523683,1610 2624302154,9887 Desvio absoluto médio (MAD) 22740,1020 35974,9695 Erro percentual absoluto médio (MAPE) 0,1238 0,1969

Exemplo com 5000 árvores

  1. Pressione Ctrl+E para abrir a última caixa de diálogo ou escolha Módulo de análise preditiva > Regressão TreeNet® > Ajuste de modelo.
  2. Clique em Opções.
  3. Em Número de árvores, insira 5000.
  4. Clique em OK em cada caixa de diálogo.

Interprete os resultados

Para esta análise, foram cultivadas 5.000 árvores e o número ótimo de árvores é de 3530. Examine tanto a tabela de Sumário do modelo quanto o Gráfico de R-quadrado vs número de árvores, para ver que o valor R2 para os dados de teste quando o número de árvores é de 3530 é de aproximadamente 86,69% e para os dados de treinamento é de 98,35%. Esses resultados mostram melhora em relação a uma análise de regressão tradicional e um Regressão CART®.

Regressão TreeNet® com ajuste de hiperparâmetros: Valor do emp versus Renda Anual; Proporção da; ...

Método Função de perda Erro quadrado Critério para seleção do número ótimo de árvores R-quadrado máximo Validação do modelo Validação cruzada de 3 dobras Taxa de aprendizado 0,001; 0,0437; 0,1 Fração da subamostra 0,5; 0,7 Nós máximos terminais por árvore 6 Tamanho mínimo do nó terminal 3 Número de preditores selecionados para divisão de nós Número total de preditores = 34 Linhas usadas 4372
Informações da Resposta Média DesvPad Mínimo Q1 Mediana Q3 Máximo 235217 132193 23800 136000 208293 300716 1190000
Otimização de hiperparâmetros Teste Número Desvio Máximo de ótimo de absoluto Taxa de Fração da do nós Modelo árvores R-quad. (%) mínimo aprendizado subamostra terminais 1 500 36,43 82617,1 0,0010 0,5 6 2 495 85,87 34560,5 0,0437 0,5 6 3 495 85,63 34889,3 0,1000 0,5 6 4 500 36,86 82145,0 0,0010 0,7 6 5* 500 86,79 33052,6 0,0437 0,7 6 6 451 86,67 33262,3 0,1000 0,7 6 * O modelo ótimo tem R-quadrado máximo. A saída para o modelo ótimo vem na sequência.

Regressão TreeNet®: Valor do emp vs Renda Anual; Proporção da; ...

Resumo do modelo Preditores totais 34 Preditores importantes 24 Número de árvores cultivadas 500 Número ótimo de árvores 500 Estatística Treinamento Teste R² 96,41% 86,79% Raiz do quadrado médio do Erro (RMSE) 25035,7243 48029,9503 Quadrado médio do erro (MSE) 626787491,1374 2306876123,1055 Desvio absoluto médio (MAD) 17309,3936 33052,6087 Erro percentual absoluto médio (MAPE) 0,0930 0,1790

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é a Área Estatística Baseada em Núcleos. Se a importância da variável preditora superior, a Área Estatística Baseada em Núcleos, for 100%, então a próxima variável importante, Renda anual, tem uma contribuição de 57,0%. Isso significa que a renda anual do mutuário é 57% tão importante quanto a localização geográfica do imóvel.

O gráfico de dispersão de valores ajustados de empréstimos versus valores reais de empréstimo mostra a relação entre os valores ajustados e reais tanto para os dados de treinamento quanto para os dados de teste. Você pode passar o mouse sobre os pontos no gráfico para ver mais facilmente os valores representados graficamente. Neste exemplo, todos os pontos ficam aproximadamente perto da linha de referência de y=x.

O primeiro gráfico ilustra o valor do empréstimo ajustado para cada área estatística baseada em núcleos. Como há tantos pontos de dados, você pode passar o mouse sobre cada um dos pontos de dados para ver os valores específicos de x e y. Por exemplo, o ponto mais alto do lado direito do gráfico é para a área de núcleo número 37740 e o valor do empréstimo ajustado é de aproximadamente US$ 435.000.

O segundo gráfico mostra que o valor do empréstimo ajustado aumenta à medida que a renda anual aumenta. Quando a renda anual se aproxima de US$ 50.0000, o valor do empréstimo ajustado estabiliza em aproximadamente US$ 45.0000.

O terceiro gráfico mostra o valor do empréstimo ajustado para cada código da região censitária. Assim como no primeiro gráfico, você pode passar o mouse sobre determinados pontos de dados para obter mais informações.

O quarto gráfico mostra que o valor do empréstimo ajustado aumenta à medida que aumenta a relação de front-end do empréstimo.

O quinto gráfico mostra que o valor do empréstimo ajustado aumenta à medida que aumenta a relação de renda do empréstimo.

O sexto gráfico mostra que o valor do empréstimo ajustado aumenta à medida que a renda do setor censitário aumenta para um empréstimo máximo de aproximadamente US$ 20050, de modo que o valor do empréstimo ajustado diminui antes de estabilizar.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política