Maneras de identificar valores atípicos en regresión y ANOVA

En el contexto de los análisis de ajuste del modelo, los valores atípicos son observaciones con valores predictores o de respuesta mayores que el promedio. Minitab ofrece varias maneras de identificar valores atípicos, incluyendo las gráficas de residuos y tres estadísticos almacenados: apalancamientos, distancia de Cook y DFITS. Es importante identificar los valores atípicos, porque estos pueden afectar significativamente el modelo, proporcionando resultados potencialmente engañosos o incorrectos. Si identifica un valor atípico en los datos, debe examinar la observación para determinar por qué se trata de un valor poco común e identificar una solución adecuada.
Hi (apalancamiento)

Un apalancamiento (Hi) mide la distancia desde el valor de X de una observación hasta el promedio de los valores de X de todas las observaciones incluidas en un conjunto de datos. Utilícese para identificar observaciones que tengan valores predictores poco comunes en comparación con los datos restantes.

Las observaciones con apalancamiento grande pueden tener un gran efecto sobre el valor ajustado y, por lo tanto, sobre el modelo de regresión. Por ejemplo, una observación que tenga un apalancamiento grande puede hacer que un coeficiente significativo parezca insignificante. Sin embargo, no todos los puntos con apalancamiento son observaciones poco comunes.

Investigue las observaciones con valores de apalancamiento mayores que 3p/n, donde p es el número de términos del modelo (incluyendo la constante) y n es el número de observaciones. Minitab identifica, mediante una X en la tabla de observaciones poco comunes, las observaciones con valores de apalancamiento mayores que 3p/n o .99, el valor que sea menor.

Distancia de Cook (D)

Geométricamente, la distancia de Cook es una medida de la distancia entre los valores ajustados calculados con y sin la iésima observación. Utilícese para identificar observaciones que tengan valores predictores poco comunes en comparación con los datos restantes y observaciones a las que el modelo no se ajuste adecuadamente. Las observaciones con distancias de Cook grandes pueden tener un gran efecto sobre el valor ajustado y, por lo tanto, sobre el modelo de regresión.

Investigue las observaciones en las que D sea mayor que F(0.5, p, n-p), la mediana de una distribución F, donde p es el número de términos del modelo (incluyendo la constante) y n es el número de observaciones. Una manera diferente de examinar los valores de distancia es comparar los valores de distancia entre sí de forma gráfica, utilizando una gráfica de línea. Las observaciones con valores de distancia grandes en comparación con otras observaciones pueden ser influyentes.

DFITS

DFITS representa aproximadamente el número de desviaciones estándar que el valor ajustado cambia cuando cada observación se elimina del conjunto de datos y se vuelve a ajustar el modelo. Utilícese para identificar observaciones que tengan valores predictores poco comunes en comparación con los datos restantes y observaciones a las que el modelo no se ajuste adecuadamente. Las observaciones con valores grandes de DFITS pueden tener un gran efecto sobre el valor ajustado y, por lo tanto, sobre el modelo de regresión.

Investigue observaciones con valores de DFITS mayores que 2*sqrt(p / n), donde p es el número de términos del modelo (incluyendo la constante) y n es el número de observaciones. Una manera diferente de examinar los valores de DFITS es comparar los valores de DFITS entre sí de forma gráfica, utilizando una gráfica de series de tiempo o una gráfica de línea. Las observaciones con valores de DFITS grandes en comparación con otras observaciones pueden ser influyentes.

Para determinar qué tanto efecto tiene la observación poco común, usted puede ajustar el modelo con y sin la observación y comparar los coeficientes, los valores p, el R2 y otras informaciones del modelo. Si el modelo cambia significativamente al eliminar la observación poco común, en primer lugar, determine si la observación corresponde a un error de medición o de ingreso de los datos. Si no es así, determiné si omitió un término importante (por ejemplo, un término de interacción) o una variable, o si especificó incorrectamente el modelo. Es posible que tenga que recoger más datos para determinar una solución.