Exemplo de Ajuste de modelo para Regressão TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores quer usar dados sobre um mutuário e a localização de um imóvel para predizer o valor de uma hipoteca. As variáveis incluem a renda, raça e sexo do mutuário, bem como a localização do setor censitário do imóvel, e outras informações sobre o mutuário e o tipo de imóvel.

Após a exploração inicial com Regressão CART® para identificar os preditores importantes, a equipe agora considera Regressão TreeNet® como um passo de acompanhamento necessário. Os pesquisadores esperam obter mais informações sobre as relações entre a resposta e os preditores importantes e predizer novas observações com maior exatidão.

Esses dados foram adaptados com base em um conjunto de dados públicos contendo informações sobre hipotecas de bancos federais de empréstimos imobiliários. Dados originais de fhfa.gov.

  1. Abra o conjunto de dados de amostra HipotecasCompradas.MTW.
  2. Selecione Módulo de análise preditiva > Regressão TreeNet® > Ajuste de modelo.
  3. Em Resposta, digite Valor do empréstimo.
  4. Em Preditores contínuos, insira Renda AnualRenda da área.
  5. Em Preditores categóricos, insira Comprador de casa pela primeira vezÁrea estatística baseada em núcleo.
  6. Clique em Validação.
  7. Em Método de validação, selecione Validação cruzada de K dobras.
  8. Em Número de dobras (K), insira 3.
  9. Clique em OK em cada caixa de diálogo.

Interprete os resultados

Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 300. Como o número ótimo de árvores está próximo ao número máximo de árvores cultivadas pelo modelo, os pesquisadores repetem a análise com mais árvores.

Sumário do modelo

Preditores totais34
Preditores importantes19
Número de árvores cultivadas300
Número ótimo de árvores300
EstatísticasTreinamentoTeste
R-quadrado94,02%84,97%
Raiz do quadrado médio do Erro (RMSE)32334,558751227,9431
Quadrado médio do erro (MSE)1,04552E+092,62430E+09
Desvio absoluto médio (DAM)22740,102035974,9695
Erro percentual absoluto médio (MAPE)0,12380,1969

Exemplo com 500 árvores

  1. Após a tabela sumário do modelo, clique em Sintonizar hiperparâmetros para identificar um modelo melhor .
  2. Em Número de árvores, insira 500.
  3. Clique em Exibir resultados.

Interprete os resultados

Para esta análise, foram cultivadas 500 árvores e o número ideal de árvores para a combinação de hiperparâmetros com o melhor valor do critério de precisão é 500. A fração da subamostra muda para 0,7 em vez de 0,5 na análise original. A taxa de aprendizado muda para 0,0437 em vez de 0,04372 na análise original.

Examine tanto a tabela sumário do modelo quanto o gráfico R-quadrado versus número de árvores. O valor de R2 quando o número de árvores é 500 é de 86,79% para os dados de teste e é de 96,41% para os dados de treinamento. Esses resultados mostram melhora em relação a uma análise de regressão tradicional e uma Regressão CART®.

Método

Função de perdaErro quadrado
Critério para seleção do número ótimo de árvoresR-quadrado máximo
Validação do modeloValidação cruzada de 3 dobras
Taxa de aprendizado0,04372
Fração da subamostra0,5
Nós máximos terminais por árvore6
Tamanho mínimo do nó terminal3
Número de preditores selecionados para divisão de nósNúmero total de preditores = 34
Linhas usadas4372

Informações da Resposta

MédiaDesvPadMínimoQ1MedianaQ3Máximo
235217132193238001360002082933007161190000
Regressão TreeNet® com ajuste de hiperparâmetros: Valor do empréstimo versus Renda Anual; Proporção da renda; Proporção de front-end; Proporção de back-end; Número de mutuários; Idade; Idade do comutuário; Porcentagem minoritária do terr; Renda do terreno; Renda local; Renda da área; Comprador de casa pela primeira; Código de ocupação; Autônomo; Raça do comutuário 4; Raça do comutuário 5; Finalidade do empréstimo; Gênero; Número de unidades; Etnia; Raça do comutuário 3; Gênero do comutuário; Raça 2; Etnia do comutuário; Pontuação de crédito; Pontuação de crédito do comutuá; Raça; Raça do comutuário 2; Raça do comutuário; Tipo de propriedade; Distrito federal; Código estadual; Código da região; Área estatística baseada em núc

Método

Função de perdaErro quadrado
Critério para seleção do número ótimo de árvoresR-quadrado máximo
Validação do modeloValidação cruzada de 3 dobras
Taxa de aprendizado0,001; 0,0437; 0,1
Fração da subamostra0,5; 0,7
Nós máximos terminais por árvore6
Tamanho mínimo do nó terminal3
Número de preditores selecionados para divisão de nósNúmero total de preditores = 34
Linhas usadas4372

Informações da Resposta

MédiaDesvPadMínimoQ1MedianaQ3Máximo
235217132193238001360002082933007161190000

Otimização de hiperparâmetros

Teste
ModeloNúmero
ótimo de
árvores
R-quadrado
(%)
Desvio
absoluto
da média
Taxa de
aprendizado
Fração da
subamostra
Máximo de
do nós
terminais
150036,4382617,10,00100,56
249585,8734560,50,04370,56
349585,6334889,30,10000,56
450036,8682145,00,00100,76
5*50086,7933052,60,04370,76
645186,6733262,30,10000,76
* O modelo ótimo tem R-quadrado máximo. A saída para o modelo ótimo vem na sequência.

Sumário do modelo

Preditores totais34
Preditores importantes24
Número de árvores cultivadas500
Número ótimo de árvores500
EstatísticasTreinamentoTeste
R-quadrado96,41%86,79%
Raiz do quadrado médio do Erro (RMSE)25035,724348029,9503
Quadrado médio do erro (MSE)6,26787E+082,30688E+09
Desvio absoluto médio (DAM)17309,393633052,6087
Erro percentual absoluto médio (MAPE)0,09300,1790

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é a Área Estatística Baseada em Núcleos. Se a importância da principal variável preditora, Core Based Statistical Area, é de 100%, então a próxima variável importante, a Renda Anual, tem uma contribuição de 92,8%. Isso significa que a renda anual do mutuário é 92,8% tão importante quanto a localização geográfica do imóvel.

O gráfico de dispersão de valores ajustados de empréstimos versus valores reais de empréstimo mostra a relação entre os valores ajustados e reais tanto para os dados de treinamento quanto para os dados de teste. Você pode passar o mouse sobre os pontos no gráfico para ver mais facilmente os valores representados graficamente. Neste exemplo, todos os pontos ficam aproximadamente perto da linha de referência de y=x.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

O primeiro gráfico ilustra o valor do empréstimo ajustado para cada área estatística baseada em núcleos. Como há tantos pontos de dados, você pode passar o mouse sobre cada um dos pontos de dados para ver os valores específicos de x e y. Por exemplo, o ponto mais alto do lado direito do gráfico é para a área de núcleo número 41860 e o valor do empréstimo ajustado é de aproximadamente US$ 378.069.

O segundo gráfico mostra que o valor do empréstimo ajustado aumenta à medida que a renda anual aumenta. Depois que a renda anual atinge US $ 300.000, os níveis de valor do empréstimo adequado aumentam a uma taxa mais lenta.

O terceiro gráfico mostra que o valor do empréstimo ajustado aumenta à medida que aumenta a relação de front-end.

O quarto gráfico mostra o valor do empréstimo ajustado para cada código da região censitária. Assim como no primeiro gráfico, você pode passar o mouse sobre determinados pontos de dados para obter mais informações. Clique em Selecionar mais preditores para representar no gráfico para produzir gráficos para outras variáveis.