Tipos de modelos de análise preditiva no Minitab Statistical Software

Os modelos da análise preditiva fornecem insights para uma ampla gama de aplicações, incluindo controle de qualidade de fabricação, descoberta de medicamentos, detecção de fraudes, pontuação de crédito e previsão de rotatividade. Use os resultados para identificar variáveis importantes, identificar grupos nos dados com características desejáveis e predizer os valores de resposta para novas observações. Por exemplo, um pesquisador de mercado pode usar um modelo de análise preditiva para identificar clientes que têm taxas de resposta mais altas a iniciativas específicas e prever essas taxas de resposta.

Em muitas aplicações, um passo importante na construção de modelos é considerar vários tipos de modelos. Os analistas encontram o melhor tipo para um aplicativo em um momento específico, encontram a versão ideal desse modelo e usam o modelo para gerar as previsões mais precisas possíveis. Para ajudar na consideração de vários modelos, o Minitab Statistical Software fornece a capacidade de comparar diferentes tipos de modelos em uma única análise se você tiver uma variável de resposta contínua ou uma variável de resposta binária.

Se você tiver uma variável de resposta categórica com mais de 2 categorias, crie modelos um por um.

Modelos de regressão linear

Um modelo de regressão linear pressupõe que a resposta média é uma função paramétrica dos preditores. O modelo usa o critério de mínimos quadrados para estimar os parâmetros de um conjunto de dados. Se um modelo de regressão paramétrica se ajusta à relação entre a resposta e seus preditores, então o modelo prevê os valores de resposta com novas observações com precisão. Por exemplo, a Lei de Hooke na física diz que a força para estender uma mola tem uma relação linear com a distância de extensão, de modo que um modelo de regressão se encaixa muito bem na relação.

Um modelo de regressão linear simplifica a identificação de configurações ideais para os preditores. O ajuste efetivo também significa que os parâmetros ajustados e os erros-padrão são úteis para inferência estatística, como a estimativa de intervalos de confiança para os valores de resposta previstos.

Os modelos de regressão linear são flexíveis e geralmente se ajustam à verdadeira forma de relacionamentos nos dados. Mesmo assim, às vezes um modelo de regressão linear não se ajusta bem a um conjunto de dados ou as características dos dados impedem a construção de um modelo de regressão linear. Os exemplos a seguir são casos comuns de quando um modelo de regressão linear tem um ajuste ruim:
  • As relações entre a resposta e o preditor não seguem um modelo que um modelo de regressão linear possa ajustar.
  • Os dados não têm observações suficientes para estimar parâmetros suficientes para encontrar um modelo de regressão linear que se ajuste bem.
  • Os preditores são variáveis aleatórias.
  • Os preditores contêm muitos valores ausentes.

Nesses casos, os modelos baseados em árvores são bons modelos alternativos a serem considerados.

No Módulo de análise preditiva, o Minitab Statistical Software ajusta Linear modelos de regressão a variáveis de resposta contínuas e binárias com os comandos Descobrir o melhor modelo. Para obter uma lista de outros modelos de regressão linear no Minitab Statistical Software, acesse Quais análises de regressão e de correlação estão incluídas no Minitab?.

Modelos baseados em árvore

CART®, TreeNet® e Random Forests® são 3 métodos baseados em árvores. Entre os modelos baseados em árvore, o CART® é mais fácil de entender porque o CART® usa uma única árvore de decisão. Uma única árvore de decisão começa a partir de todo o conjunto de dados como o primeiro nó pai. Em seguida, a árvore divide os dados em 2 nós filhos mais homogêneos usando o critério de divisão de nós. Esta etapa se repete iterativamente até que todos os nós não divididos atendam a um critério para ser um nó terminal. Depois disso, a validação cruzada ou validação com um conjunto de testes separado é usada para aparar a árvore para obter a árvore ideal, que é o modelo CART®. As árvores de decisão única são fáceis de entender e podem se encaixar em conjuntos de dados com uma ampla variedade de características.

As árvores de decisão única podem ser menos robustas e menos poderosas do que os outros 2 métodos baseados em árvores. Por exemplo, uma pequena alteração nos valores do preditor em um conjunto de dados pode levar a um modelo CART® muito diferente. Os métodos TreeNet® e Random Forests® usam conjuntos de árvores individuais para criar modelos que são mais robustos e mais precisos do que os modelos de árvores de decisão única.

O Minitab Statistical Software ajusta modelos baseados em árvore a variáveis de resposta contínua, variáveis de resposta binária e variáveis de resposta nominal. Para ver um exemplo de cada modelo no Minitab Statistical Software, selecione um tipo de modelo:

Regressão MARS® Modelos

Regressão MARS® primeiro constrói um extenso conjunto de funções de base que se ajustam aos dados da melhor forma possível. Depois de formar o modelo extenso, a análise reduz o risco de sobreajuste, procurando um subconjunto ideal das funções de base. O modelo reduzido permanece adaptável a várias dependências não lineares nos dados. O modelo resultante é um modelo de regressão linear no espaço dessas funções básicas. A característica de procurar diferentes ajustes para diferentes regiões dos dados de forma gradual se conecta Regressão MARS® a modelos baseados em árvores. Devido às características baseadas em árvores, Regressão MARS® fornece algumas das mesmas vantagens:
  • Detecção automática do formulário do modelo
  • Tratamento automático de valores em falta
  • Seleção automática dos preditores mais relevantes
O uso de uma equação se conecta Regressão MARS® a modelos de regressão linear. Devido às características de regressão linear, Regressão MARS® também fornece algumas das vantagens desse tipo de modelo:
  • Uma equação de regressão facilita a compreensão dos efeitos das variáveis.
  • A função contínua significa que pequenas mudanças nos preditores resultam em pequenas mudanças nas previsões.
  • Mesmo para modelos pequenos, valores diferentes dos preditores produzem previsões diferentes.
Os modelos flexíveis fornecem Regressão MARS® previsões precisas e podem fornecer insights sobre a forma do modelo que melhoram o ajuste de outros tipos de modelos. O Minitab Statistical Software ajusta os modelos de regressão MARS® a variáveis de resposta contínua. Para ver um exemplo de Regressão MARS® no Minitab Statistical Software, vá para Exemplo de Regressão MARS®.