Exemplo de Regressão MARS®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores coleta dados da venda de propriedades residenciais individuais em Ames, Iowa. Os pesquisadores querem identificar as variáveis que afetam o preço de venda. As variáveis incluem o tamanho do lote e várias características do imóvel residencial. Os pesquisadores querem avaliar o quão bem o melhor modelo MARS® se encaixa nos dados.

  1. Abra os dados amostrais, Habitação_Ames.MTW.
  2. Selecione Módulo de análise preditiva > Regressão MARS®.
  3. Em Resposta, insira “Preço de venda”.
  4. Em Preditores contínuos, digite ‘frontage lot' – 'ano vendido’.
  5. Em Preditores categóricos, digite tipo – ‘Condição de venda’.
  6. Clique em OK.

Interprete os resultados

Por padrão, Regressão MARS® ajusta um modelo aditivo para que todas as funções de base na equação de regressão usem 1 preditor. O primeiro preditor da lista é o BF2. BF2 usa o preditor Área de convivência. Como o preditor está em 1 função base, o preditor tem 2 inclinações diferentes no modelo. A função max(0, 3078 - Área de convivência) define que a inclinação é diferente de zero quando a área de estar é inferior a 3.078.

Os resultados para um modelo aditivo incluem gráficos de dependência parcial para preditores contínuos que são importantes no modelo. Use o gráfico para ver o efeito de todas as funções de base para um preditor em todo o intervalo do preditor. Nesses resultados, o gráfico de dependência parcial mostra que para um valor de 438 a 3.078, a inclinação é de cerca de Área de convivência 57,6. Quando Área de convivência for maior que 3.078, a inclinação é 0.

Nesses resultados, o BF2 apresenta coeficiente negativo na equação de regressão. O arranjo da função base é max(0, c − X). Nesse arranjo, o valor da função base diminui quando o preditor aumenta. A combinação desse arranjo com o coeficiente negativo cria uma relação positiva entre a variável preditora e a variável resposta. O efeito disso Área de convivência é aumentar Preço de venda na região de 438 para 3.078.

A análise também inclui preditores categóricos. Por exemplo, BF3 é para o preditor qualidade. A função base é para quando o valor de qualidade é 8, 9 ou 10. O coeficiente para BF3 na equação é de 115.438. Essa função de base indica que, quando o valor da qualidade muda de um valor de 1 a 7 para um valor de 8, 9 ou 10, o preço de venda aumenta em US$ 115.438 no modelo. qualidade também está em BF11 e BF25. Para entender o efeito do preditor na variável resposta, considere todas as funções de base.

Dois dos preditores que são importantes no modelo têm valores ausentes nos dados de treinamento: Área do porão 1 e área total do porão. A lista de funções de base inclui funções de base que identificam quando esses preditores estão faltando: BF7 e BF17. Quando um preditor tem um valor ausente, a função base para a variável indicadora anula as outras funções base para esse preditor através da multiplicação por 0.

Equação de Regressão

BF2 = máx(0, 3078 - Área de convivência)
BF3 = quando qualidade é 8; 9; 10
BF6 = máx(0, 2002 - ano construído)
BF7 = quando Área do porão 1 não está faltando
BF10 = máx(0, 1696 - Área do porão 1) * BF7
BF11 = quando qualidade é 1; 8
BF13 = quando tipo é 90; 150; 160; 180; 190
BF15 = quando Bairro é Bluestem; Clear Creek; Crawford; Green Hills; Marco; Northridge;
     Northridge Heights; Ponte de Pedra; Somerset Villages; Timberland; Veenker
BF17 = quando área total do porão não está faltando
BF19 = máx(0, área total do porão - 1392) * BF17
BF21 = máx(0, Área do 1º andar - 2402)
BF23 = quando Condição é 1; 2; 3; 4; 5; 6
BF25 = quando qualidade é 1; 7; 10
BF27 = máx(0, Área do 1º andar - 2207)
BF30 = máx(0, 15138 - área de lote)

Preço de venda = 325577  - 57,6167 * BF2 + 115438 * BF3 - 605,079 * BF6 - 25,3989 * BF10 -
     66735,2 * BF11 - 23688,9 * BF13 + 22374,5 * BF15 + 50,3801 * BF19 - 576,789 * BF21 - 18099,2
     * BF23 + 22414,2 * BF25 + 361,254 * BF27 - 1,82 * BF30
Observação

Nestes resultados, a lista de funções de base tem 15 funções de base, mas o número ótimo de funções de base é 13. A equação de regressão contém 13 funções de base. A lista de funções base contém BF7 e BF17, que são as funções base que identificam os valores ausentes. Essas funções de base não são importantes por si só porque não reduziram o MSE tanto quanto outras funções de base na pesquisa. Essas 2 funções de base estão na lista para mostrar o cálculo completo do BF10 e do BF 19, que são importantes.

O gráfico R-quadrado vs Número de Funções de Base mostra o resultado da eliminação para trás para encontrar o número ideal de funções de base. Para usar um modelo com um número diferente de funções base, selecione Selecionar um modelo alternativo. Por exemplo, se um modelo com muito menos funções de base é quase tão preciso quanto o modelo ideal, considere se deve usar o modelo mais simples. Nesses resultados, os valores de R-quadrado para os conjuntos de dados de treinamento e teste são os mesmos para o modelo com 7 funções de base. Este modelo menor é de interesse se o excesso de ajuste for uma preocupação.

Sumário do modelo

Preditores totais77
Preditores importantes10
Número máximo de funções base30
Número ótimo de funções base13
EstatísticasTreinamentoTeste
R-quadrado89,61%87,61%
Raiz do quadrado médio do Erro (RMSE)25836,519727855,6550
Quadrado médio do erro (MSE)667525749,7185775937512,8264
Desvio absoluto médio (MAD)17506,003817783,5549

A tabela de resumo do modelo inclui medidas de quão bem o modelo executa. Você pode usar esses valores para comparar modelos. Para estes resultados, o teste R-quadrado é de cerca de 88%.

O gráfico de importância da variável relativa plota os preditores em ordem de seu efeito no modelo. A variável preditora mais importante é Área de convivência. Se a contribuição da variável preditora superior, Área de convivência, é de 100%, então a próxima variável importante, qualidade, tem uma contribuição de 44,4 %. Essa contribuição significa que qualidade é 88,8% tão importante quanto Área de convivência nesse modelo.

O gráfico de dispersão dos preços de venda ajustados versus os preços de venda reais mostra a relação entre os valores ajustados e os valores reais para os dados de formação e os dados de ensaio. Você pode passar o mouse sobre os pontos no gráfico para ver mais facilmente os valores representados graficamente. Neste exemplo, a maioria dos pontos cai aproximadamente perto da linha de referência de y=x.

O modelo se encaixa mal em alguns pontos distintos, como o do conjunto de dados de teste que tem um preço de venda ajustado de menos de US $ 100.000, mas um preço de venda real mais próximo de US $ 250.000. Considere se deve investigar este caso para melhorar o ajuste do modelo.