Exemplo de Regressão Random Forests®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores coleta dados da venda de propriedades residenciais individuais em Ames, Iowa. Os pesquisadores querem identificar as variáveis que afetam o preço de venda. As variáveis incluem o tamanho do lote e várias características do imóvel residencial.

Após a exploração inicial com Regressão CART® para identificar os preditores importantes, a equipe usa Regressão Random Forests® para criar um modelo mais intensivo a partir do mesmo conjunto de dados. Os equipe compara a tabela de sumário do modelo e o gráfico R2 dos resultados para avaliar qual modelo proporciona um resultado de predição melhor.

Esses dados foram adaptados com base em um conjunto de dados públicos contendo informações sobre os dados habitacionais de Ames. Dados originais de DeCock, Truman State University.

  1. Abra os dados amostrais Habitação_Ames.MTW.
  2. Selecione Módulo de análise preditiva > Regressão do Random Forests®.
  3. Em Resposta, insira ‘Preço de venda’.
  4. Em Preditores contínuos, digite ‘frontage lot' – 'ano vendido’.
  5. Em Preditores categóricos, digite ‘tipo' – 'Condição de venda’.
  6. Clique em Opções.
  7. Em Número de preditores para divisão do nó, selecione K por cento do número total de preditores; K = e insira 30. Os pesquisadores querem usar mais do que o número padrão de preditores para esta análise.
  8. Clique em OK em cada caixa de diálogo.

Interprete os resultados

Para esta análise, o número de observações é de 2930. Cada uma das 300 amostras por bootstrap seleciona aleatoriamente 2.930 observações, com substituição, para criar uma árvore. O método também usa 30% do número total de preditores para dividir nós. Além disso, a tabela Informações de Resposta mostra estatísticas descritivas comuns para as observações.

Método

Validação do modeloValidação com dados usando método out-of-bag
Número de amostras bootstrap300
    Tamanho amostralO mesmo que o tamanho dos dados de treinamento de 2930
Número de preditores selecionados para divisão de nós30% do número total de preditores = 23
Tamanho mínimo do nó interno5
Linhas usadas2930

Informações da Resposta

MédiaDesvPadMínimoQ1MedianaQ3Máximo
18079679886,712789129500160000213500755000

O gráfico R-quadrado vs número de árvores mostra toda a curva sobre o número de árvores cultivadas. O valor de R2 aumenta rapidamente à medida que o número de árvores aumenta e se achata em aproximadamente 91%.

Sumário do modelo

Preditores totais77
Preditores importantes68
EstatísticasOut-of-Bag
R-quadrado90,90%
Raiz do quadrado médio do Erro (RMSE)24097,3281
Quadrado médio do erro (MSE)5,80681E+08
Desvio absoluto médio (DAM)14746,8323
Erro percentual absoluto médio (MAPE)0,0895

A tabela de resumo do modelo mostra que os valores de R2 são ligeiramente melhorados em relação aos valores de R2 da análise CART® correspondente.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante para predizer o preço de venda é Quality. Se a importância da principal variável preditora, Qualidade, é de 100%, então a próxima variável importante, Área de Vida SF, tem uma contribuição de 88,8%. Isso significa que a metragem quadrada da vida é 88,8% tão importante quanto a qualidade geral da propriedade. A próxima variável mais importante é o Bairro, que tem uma contribuição de 52,6%.

O gráfico de dispersão do preço de venda ajustado versus preço de venda real mostra a relação entre os valores ajustados e reais para os dados OOB. Você pode passar o mouse sobre os pontos no gráfico para ver mais facilmente os valores representados graficamente. Neste exemplo, muitos pontos ficam aproximadamente perto da linha de referência de y=x, mas vários pontos podem precisar de investigação para ver discrepâncias entre valores ajustados e reais.