Visão geral de Descobrir o melhor modelo (Resposta binária)

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Normalmente, a maneira mais fácil de determinar qual tipo de modelo faz as melhores previsões para um conjunto de dados específico é construir todos os modelos e comparar o desempenho. Use Descobrir o melhor modelo (Resposta binária) para comparar o desempenho de 4 tipos comuns de modelos: Ajustar modelo logístico binário, Ajuste de modelo para , e Classificação TreeNet®Classificação Random Forests®Classificação CART®. Todas as 4 análises modelam uma resposta binária com muitas variáveis categóricas e contínuas preditoras. Por exemplo, um pesquisador de mercado pode usar para identificar clientes que têm taxas de resposta mais altas a iniciativas específicas e predizer essas taxas de resposta. O pesquisador compara o desempenho dos diferentes tipos de modelos para decidir como obter as previsões mais precisas.

Entre os 4 modelos estão 2 tipos mais gerais de modelos: regressão logística binária e modelos à base de árvores. Exemplo com modelo de regressão logística binária Os outros 3 comandos fazem modelos baseados em árvores. Os métodos de encaixe do modelo para os 2 tipos gerais são muito diferentes, mas eles se complementam. Um modelo de regressão logística binária pressupõe que a probabilidade de evento de uma resposta binária é uma função paramétrica dos preditores. O modelo usa o critério de probabilidade máxima para estimar os parâmetros para um conjunto de dados. Se a função paramétrica representa adequadamente a relação entre a probabilidade de evento de uma resposta e seus preditores, então o modelo pode estimar bem a probabilidade do evento. Então, a expressão tem uma grande chance de prever corretamente os níveis de resposta para novas observações. Um modelo de regressão logística binária simplifica a identificação das configurações ideais para os preditores. O ajuste efetivo também significa que os parâmetros e erros padrão ajustados são úteis para inferência estatística, como a estimativa de intervalos de confiança para as probabilidades de eventos previstas.

Às vezes, o modelo de regressão logística binária não se encaixa bem em um conjunto de dados ou características dos dados que impedem a construção de um modelo de regressão logística binária. A seguir, casos comuns quando um modelo de regressão logística binária tem um ajuste ruim:
  1. A relação entre a probabilidade de evento de uma resposta binária e os preditores não segue uma função paramétrica.
  2. Para certos conjuntos de dados, o algoritmo de estimativa de probabilidade máxima não converge para estimativas de parâmetros únicos.
  3. Os dados não têm observações suficientes para estimar os parâmetros na expressão de probabilidade de evento quando o número de preditores é grande.
  4. Os preditores são variáveis aleatórias.
  5. Os preditores contêm muitos valores perdidos.

Nesses casos, modelos à base de árvores são bons modelos alternativos a serem considerados.

Entre os modelos à base de árvores, a CART usa uma única árvore de decisão. Uma única árvore de decisão começa a partir de todo o conjunto de dados como o primeiro nó pai. Em seguida, a árvore divide os dados em 2 nódulos infantis mais homogêneos usando o critério de divisão de nódulos. Esta etapa se repete iterativamente até que todos os nós não iluminados atendam aos critérios para ser um nó terminal. Depois disso, a validação cruzada ou validação com um conjunto de teste separado é usada para aparar a árvore para obter a árvore ideal, que é o modelo CART. As árvores de decisão simples são fáceis de entender e podem encaixar conjuntos de dados com uma grande variedade de características.

As árvores de decisão simples podem ser menos robustas e menos poderosas do que os outros dois métodos baseados em árvores. Por exemplo, uma pequena mudança nos valores do preditor em um conjunto de dados pode levar a um modelo CART muito diferente. O TreeNet® e Random Forests® métodos usam conjuntos de árvores individuais para criar modelos mais robustos e precisos do que modelos de árvores de decisão única.

Para obter mais informações sobre cada tipo de modelo, use os seguintes links: