Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Normalmente, a maneira mais fácil de determinar qual tipo de modelo faz as melhores previsões para um conjunto de dados específico é construir todos os modelos e comparar o desempenho. Use Descobrir o melhor modelo (Resposta binária) para comparar o desempenho de 4 tipos comuns de modelos: Ajustar modelo logístico binário, Ajuste de modelo para , e Classificação TreeNet®Classificação Random Forests®Classificação CART®. Todas as 4 análises modelam uma resposta binária com muitas variáveis categóricas e contínuas preditoras. Por exemplo, um pesquisador de mercado pode usar para identificar clientes que têm taxas de resposta mais altas a iniciativas específicas e predizer essas taxas de resposta. O pesquisador compara o desempenho dos diferentes tipos de modelos para decidir como obter as previsões mais precisas.
Entre os 4 modelos estão 2 tipos mais gerais de modelos: regressão logística binária e modelos à base de árvores. Exemplo com modelo de regressão logística binária Os outros 3 comandos fazem modelos baseados em árvores. Os métodos de encaixe do modelo para os 2 tipos gerais são muito diferentes, mas eles se complementam. Um modelo de regressão logística binária pressupõe que a probabilidade de evento de uma resposta binária é uma função paramétrica dos preditores. O modelo usa o critério de probabilidade máxima para estimar os parâmetros para um conjunto de dados. Se a função paramétrica representa adequadamente a relação entre a probabilidade de evento de uma resposta e seus preditores, então o modelo pode estimar bem a probabilidade do evento. Então, a expressão tem uma grande chance de prever corretamente os níveis de resposta para novas observações. Um modelo de regressão logística binária simplifica a identificação das configurações ideais para os preditores. O ajuste efetivo também significa que os parâmetros e erros padrão ajustados são úteis para inferência estatística, como a estimativa de intervalos de confiança para as probabilidades de eventos previstas.
Nesses casos, modelos à base de árvores são bons modelos alternativos a serem considerados.
Entre os modelos à base de árvores, a CART usa uma única árvore de decisão. Uma única árvore de decisão começa a partir de todo o conjunto de dados como o primeiro nó pai. Em seguida, a árvore divide os dados em 2 nódulos infantis mais homogêneos usando o critério de divisão de nódulos. Esta etapa se repete iterativamente até que todos os nós não iluminados atendam aos critérios para ser um nó terminal. Depois disso, a validação cruzada ou validação com um conjunto de teste separado é usada para aparar a árvore para obter a árvore ideal, que é o modelo CART. As árvores de decisão simples são fáceis de entender e podem encaixar conjuntos de dados com uma grande variedade de características.
As árvores de decisão simples podem ser menos robustas e menos poderosas do que os outros dois métodos baseados em árvores. Por exemplo, uma pequena mudança nos valores do preditor em um conjunto de dados pode levar a um modelo CART muito diferente. O TreeNet® e Random Forests® métodos usam conjuntos de árvores individuais para criar modelos mais robustos e precisos do que modelos de árvores de decisão única.