Os modelos da análise preditiva fornecem insights para uma ampla gama de aplicações, incluindo controle de qualidade de fabricação, descoberta de medicamentos, detecção de fraudes, pontuação de crédito e previsão de rotatividade. Use os resultados para identificar variáveis importantes, identificar grupos nos dados com características desejáveis e predizer os valores de resposta para novas observações. Por exemplo, um pesquisador de mercado pode usar um modelo de análise preditiva para identificar clientes que têm taxas de resposta mais altas a iniciativas específicas e prever essas taxas de resposta.
Se você tiver uma variável de resposta categórica com mais de 2 categorias, crie modelos um por um.
Um modelo de regressão linear pressupõe que a resposta média é uma função paramétrica dos preditores. O modelo usa o critério de mínimos quadrados para estimar os parâmetros de um conjunto de dados. Se um modelo de regressão paramétrica se ajusta à relação entre a resposta e seus preditores, então o modelo prevê os valores de resposta com novas observações com precisão. Por exemplo, a Lei de Hooke na física diz que a força para estender uma mola tem uma relação linear com a distância de extensão, de modo que um modelo de regressão se encaixa muito bem na relação.
Um modelo de regressão linear simplifica a identificação de configurações ideais para os preditores. O ajuste efetivo também significa que os parâmetros ajustados e os erros-padrão são úteis para inferência estatística, como a estimativa de intervalos de confiança para os valores de resposta previstos.
Nesses casos, os modelos baseados em árvores são bons modelos alternativos a serem considerados.
No Módulo de análise preditiva, o Minitab Statistical Software ajusta Linear modelos de regressão a variáveis de resposta contínuas e binárias com os comandos Descobrir o melhor modelo. Para obter uma lista de outros modelos de regressão linear no Minitab Statistical Software, acesse Quais análises de regressão e de correlação estão incluídas no Minitab?.
CART®, TreeNet® e Random Forests® são 3 métodos baseados em árvores. Entre os modelos baseados em árvore, o CART® é mais fácil de entender porque o CART® usa uma única árvore de decisão. Uma única árvore de decisão começa a partir de todo o conjunto de dados como o primeiro nó pai. Em seguida, a árvore divide os dados em 2 nós filhos mais homogêneos usando o critério de divisão de nós. Esta etapa se repete iterativamente até que todos os nós não divididos atendam a um critério para ser um nó terminal. Depois disso, a validação cruzada ou validação com um conjunto de testes separado é usada para aparar a árvore para obter a árvore ideal, que é o modelo CART®. As árvores de decisão única são fáceis de entender e podem se encaixar em conjuntos de dados com uma ampla variedade de características.
As árvores de decisão única podem ser menos robustas e menos poderosas do que os outros 2 métodos baseados em árvores. Por exemplo, uma pequena alteração nos valores do preditor em um conjunto de dados pode levar a um modelo CART® muito diferente. Os métodos TreeNet® e Random Forests® usam conjuntos de árvores individuais para criar modelos que são mais robustos e mais precisos do que os modelos de árvores de decisão única.