Visão geral de Descobrir o melhor modelo (Resposta contínua)

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Normalmente, a maneira mais fácil de determinar qual tipo de modelo faz as melhores previsões para um conjunto de dados específico é construir todos os modelos e comparar o desempenho. Use Descobrir o melhor modelo (Resposta contínua) para comparar o desempenho de 4 tipos comuns de modelos: Ajuste do modelo de regressãoRegressão CART®, Ajuste de modelo para , e Regressão TreeNet®Regressão Random Forests®. Use para produzir uma árvore de decisão com uma resposta contínua com muitas variáveis preditoras contínuas e categóricas. Por exemplo, avaliadores de imóveis querem ver como o preço de venda de apartamentos urbanos está associado a várias variáveis preditoras, incluindo a metragem quadrada, o número de unidades disponíveis, a idade do edifício e a distância do centro da cidade. Os avaliadores comparam o desempenho dos diferentes tipos de modelos para decidir como obter as previsões mais precisas.

Entre os 4 tipos de modelos estão 2 tipos mais gerais de modelos: modelos de regressão múltipla e modelos baseados em árvores. Ajuste do modelo de regressão faz múltiplos modelos de regressão. Os outros 3 comandos fazem modelos baseados em árvores. Os métodos de encaixe do modelo para os 2 tipos gerais são muito diferentes, mas eles se complementam. Um modelo de regressão múltipla pressupõe que a resposta média é uma função paramétrica dos preditores. O modelo usa o critério de menos quadrados para estimar os parâmetros para um conjunto de dados. Se um modelo de regressão paramétrica se encaixa na relação entre a resposta e seus preditores, então o modelo prevê os valores de resposta com novas observações com precisão. Por exemplo, a Lei de Hooke na física diz que a força para estender uma mola tem uma relação linear com a distância da extensão, então um modelo de regressão se encaixa muito bem na relação. Um modelo de regressão múltipla simplifica a identificação das configurações ideais para os preditores. O ajuste efetivo também significa que os parâmetros e erros padrão ajustados são úteis para inferência estatística, como a estimativa de intervalos de confiança para os valores de resposta previstos.

Às vezes, o modelo de regressão múltipla não se encaixa bem em um conjunto de dados ou características dos dados impedem a construção de um modelo de regressão múltipla. A seguir, casos comuns quando um modelo de regressão múltipla tem um ajuste ruim:
  1. As relações entre a resposta e o preditor não seguem um modelo que um modelo de regressão múltipla possa se encaixar.
  2. Os dados não têm observações suficientes para estimar parâmetros suficientes para encontrar um modelo de regressão múltipla que se encaixe bem.
  3. Os preditores são variáveis aleatórias.
  4. Os preditores contêm muitos valores perdidos.

Nesses casos, modelos à base de árvores são bons modelos alternativos a serem considerados.

Entre os modelos à base de árvores, a CART usa uma única árvore de decisão. Uma única árvore de decisão começa a partir de todo o conjunto de dados como o primeiro nó pai. Em seguida, a árvore divide os dados em 2 nódulos infantis mais homogêneos usando o critério de divisão de nódulos. Esta etapa se repete iterativamente até que todos os nós não iluminados atendam a um critério para ser um nó terminal. Depois disso, a validação cruzada ou validação com um conjunto de teste separado é usada para aparar a árvore para obter a árvore ideal, que é o modelo CART. As árvores de decisão simples são fáceis de entender e podem encaixar conjuntos de dados com uma grande variedade de características.

As árvores de decisão simples podem ser menos robustas e menos poderosas do que os outros dois métodos baseados em árvores. Por exemplo, uma pequena mudança nos valores do preditor em um conjunto de dados pode levar a um modelo CART muito diferente. O TreeNet® e Random Forests® métodos usam conjuntos de árvores individuais para criar modelos mais robustos e precisos do que modelos de árvores de decisão única.

Para obter mais informações sobre cada tipo de modelo, use os seguintes links:

Onde encontrar essa análise

Para encontrar o melhor modelo para prever uma resposta contínua, escolha Módulo de análise preditiva > Aprendizado de máquina automatizado > Descobrir o melhor modelo (Resposta contínua).

Quando usar uma análise alternativa

Se você tiver uma variável de resposta binária, use Descobrir o melhor modelo (Resposta binária).

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política