Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Normalmente, a maneira mais fácil de determinar qual tipo de modelo faz as melhores previsões para um conjunto de dados específico é construir todos os modelos e comparar o desempenho. Use Descobrir o melhor modelo (Resposta contínua) para comparar o desempenho de 4 tipos comuns de modelos: Ajuste do modelo de regressãoRegressão CART®, Ajuste de modelo para , e Regressão TreeNet®Regressão Random Forests®. Use para produzir uma árvore de decisão com uma resposta contínua com muitas variáveis preditoras contínuas e categóricas. Por exemplo, avaliadores de imóveis querem ver como o preço de venda de apartamentos urbanos está associado a várias variáveis preditoras, incluindo a metragem quadrada, o número de unidades disponíveis, a idade do edifício e a distância do centro da cidade. Os avaliadores comparam o desempenho dos diferentes tipos de modelos para decidir como obter as previsões mais precisas.
Entre os 4 tipos de modelos estão 2 tipos mais gerais de modelos: modelos de regressão múltipla e modelos baseados em árvores. Ajuste do modelo de regressão faz múltiplos modelos de regressão. Os outros 3 comandos fazem modelos baseados em árvores. Os métodos de encaixe do modelo para os 2 tipos gerais são muito diferentes, mas eles se complementam. Um modelo de regressão múltipla pressupõe que a resposta média é uma função paramétrica dos preditores. O modelo usa o critério de menos quadrados para estimar os parâmetros para um conjunto de dados. Se um modelo de regressão paramétrica se encaixa na relação entre a resposta e seus preditores, então o modelo prevê os valores de resposta com novas observações com precisão. Por exemplo, a Lei de Hooke na física diz que a força para estender uma mola tem uma relação linear com a distância da extensão, então um modelo de regressão se encaixa muito bem na relação. Um modelo de regressão múltipla simplifica a identificação das configurações ideais para os preditores. O ajuste efetivo também significa que os parâmetros e erros padrão ajustados são úteis para inferência estatística, como a estimativa de intervalos de confiança para os valores de resposta previstos.
Nesses casos, modelos à base de árvores são bons modelos alternativos a serem considerados.
Entre os modelos à base de árvores, a CART usa uma única árvore de decisão. Uma única árvore de decisão começa a partir de todo o conjunto de dados como o primeiro nó pai. Em seguida, a árvore divide os dados em 2 nódulos infantis mais homogêneos usando o critério de divisão de nódulos. Esta etapa se repete iterativamente até que todos os nós não iluminados atendam a um critério para ser um nó terminal. Depois disso, a validação cruzada ou validação com um conjunto de teste separado é usada para aparar a árvore para obter a árvore ideal, que é o modelo CART. As árvores de decisão simples são fáceis de entender e podem encaixar conjuntos de dados com uma grande variedade de características.
As árvores de decisão simples podem ser menos robustas e menos poderosas do que os outros dois métodos baseados em árvores. Por exemplo, uma pequena mudança nos valores do preditor em um conjunto de dados pode levar a um modelo CART muito diferente. O TreeNet® e Random Forests® métodos usam conjuntos de árvores individuais para criar modelos mais robustos e precisos do que modelos de árvores de decisão única.
Para encontrar o melhor modelo para prever uma resposta contínua, escolha
.Se você tiver uma variável de resposta binária, use Descobrir o melhor modelo (Resposta binária).