Como identificar outliers em regressão e ANOVA

No contexto de análises de ajuste de modelos, outliers são observações com valores de resposta ou preditores maiores que a média. O Minitab oferecediversas maneiras de identificar outliers, incluindo gráficos de resíduos e três estatísticas armazenadas: leverages, distância de Cook e DFITS. É importante identificar outliers porque eles podem afetar significativamente o modelo, fornecendo resultados potencialmente enganosos ou incorretos. Ao detectar um outlier nos dados, você deve examinar a observações para entender porque ela é atípica e identificar uma correção apropriada.

Hi (leverage)

Um Leverage (Hi) mede a distância entre o valor x de uma observação e a média dos valores de x para todas as observações em um conjunto de dados. Use para identificar observações com valores de preditores atípicos em comparação aos outros dados.

Observações com grande leverage podem exercer um grande efeito sobre o valor ajustado e, consequentemente, o modelo de regressão. Por exemplo, uma observação que tem um grande leverage pode fazer com que um coeficientes significativo pareça insignificante. Entretanto, nem todos os pontos de leverage são observações atípicas.

Investige as observações com valore de leverage maiores que 3p/n, onde p é o número de termos do modelo (incluindo a constante) e n é o número de observações. O Minitab identifica as observações com valores de leverage maior que 3p/n ou 0,99, o que for menor, com um X na tabela de observações atípicas.

Distância de Cook (D)

Geometricamente, a distância de Cook é uma medida da distância entre os valores ajustados calculados com e sem a i^a observação. Use para identificar observações com valores de preditores atípicos em comparação aos outros dados e observações que o modelo não ajusta bem. Observações com grandes distâncias de Cook podem exercer um efeito substancial sobre o valor ajustado e, consequentemente, o modelo de regressão.

Investigue as observações onde D é maior que F(0,5, p, np-), a mediana de uma distribuição-F, onde p é o número de termos do modelo (incluindo a constante) e n é o número de observações. Uma maneira diferente de examinar valores de distância é comparar os valores de distância entre si graficamente, usando um gráfico de linha. As observações com grandes valores de distância relativos a outras observações podem ser influentes.

DAJUSTES

DFITS representa aproximadamente o número de desvios padrão que o valor ajustado muda quando cada observação é removida do conjunto de dados e o modelo é reajustado. Use para identificar observações com valores de preditores atípicos em comparação aos outros dados e observações que o modelo não ajusta bem. Observações com grandes valores DFIT podem exercer um efeito substancial sobre o valor ajustado e, consequentemente, o modelo de regressão.

Investigue as observações com valores DFITS maiores que 2*sqrt(p / n), onde p é o número de termos do modelo (incluindo a constante) e n é o número de observações. Uma maneira diferente de examinar valores DFITS é comparar valores DFITS entre si graficamente, usando um gráfico de séries temporais ou um gráfico de linha. As observações com grandes valores DFITS relativas a outras observações podem ser influentes.

Para determinar quanto efeito a observação atípica tem, você pode ajustar o modelo com e sem a observação e comparar os coeficientes, valores-p, R² e outras informações do modelo. Se o modelo mudar significativamente quando você remover a observação atípica, primeiro, determine se a observação é uma entrada de dados ou erro de medição. Se não for, determine se você omitiu um termo importante (por exemplo, um termo de interação) ou variável, ou se especificou incorretamente o modelo. Você pode precisar coletar mais dados para determinar uma resolução.