Uma equipe de pesquisadores quer usar dados sobre um mutuário e a localização de um imóvel para predizer o valor de uma hipoteca. As variáveis incluem a renda, raça e sexo do mutuário, bem como a localização do setor censitário do imóvel, e outras informações sobre o mutuário e o tipo de imóvel.
Após a exploração inicial com Regressão CART®para identificar os preditores importantes, a equipe agora considera Regressão TreeNet® como um passo de acompanhamento necessário. Os pesquisadores esperam obter mais informações sobre as relações entre a resposta e os preditores importantes e predizer novas observações com maior exatidão.
Esses dados foram adaptados com base em um conjunto de dados públicos contendo informações sobre hipotecas de bancos federais de empréstimos imobiliários. Dados originais de fhfa.gov.
Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 300. Quando o número ótimo de árvores está próximo do número máximo de árvores cultivadas pelo modelo, considere refazer a análise com mais árvores.
Para esta análise, foram cultivadas 5.000 árvores e o número ótimo de árvores é de 3530. Examine tanto a tabela de Sumário do modelo quanto o Gráfico de R-quadrado vs número de árvores, para ver que o valor R2 para os dados de teste quando o número de árvores é de 3530 é de aproximadamente 86,69% e para os dados de treinamento é de 98,35%. Esses resultados mostram melhora em relação a uma análise de regressão tradicional e um Regressão CART®.
O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é a Área Estatística Baseada em Núcleos. Se a importância da variável preditora superior, a Área Estatística Baseada em Núcleos, for 100%, então a próxima variável importante, Renda anual, tem uma contribuição de 57,0%. Isso significa que a renda anual do mutuário é 57% tão importante quanto a localização geográfica do imóvel.
O gráfico de dispersão de valores ajustados de empréstimos versus valores reais de empréstimo mostra a relação entre os valores ajustados e reais tanto para os dados de treinamento quanto para os dados de teste. Você pode passar o mouse sobre os pontos no gráfico para ver mais facilmente os valores representados graficamente. Neste exemplo, todos os pontos ficam aproximadamente perto da linha de referência de y=x.
O primeiro gráfico ilustra o valor do empréstimo ajustado para cada área estatística baseada em núcleos. Como há tantos pontos de dados, você pode passar o mouse sobre cada um dos pontos de dados para ver os valores específicos de x e y. Por exemplo, o ponto mais alto do lado direito do gráfico é para a área de núcleo número 37740 e o valor do empréstimo ajustado é de aproximadamente US$ 435.000.
O segundo gráfico mostra que o valor do empréstimo ajustado aumenta à medida que a renda anual aumenta. Quando a renda anual se aproxima de US$ 50.0000, o valor do empréstimo ajustado estabiliza em aproximadamente US$ 45.0000.
O terceiro gráfico mostra o valor do empréstimo ajustado para cada código da região censitária. Assim como no primeiro gráfico, você pode passar o mouse sobre determinados pontos de dados para obter mais informações.
O quarto gráfico mostra que o valor do empréstimo ajustado aumenta à medida que aumenta a relação de front-end do empréstimo.
O quinto gráfico mostra que o valor do empréstimo ajustado aumenta à medida que aumenta a relação de renda do empréstimo.
O sexto gráfico mostra que o valor do empréstimo ajustado aumenta à medida que a renda do setor censitário aumenta para um empréstimo máximo de aproximadamente US$ 20050, de modo que o valor do empréstimo ajustado diminui antes de estabilizar.