Métodos y fórmulas para medidas diagnósticas en Ajustar modelo de regresióny Regresión lineal

Seleccione el método o la fórmula de su preferencia.

En este tema

Apalancamientos (Hi)
Apalancamientos (Hola) con validación
Distancia de Cook
DFITS
Factor de inflación de la varianza (FIV)
Estadístico de Durbin-Watson

Apalancamientos (Hi)

Los apalancamientos se obtienen a partir de la matriz hat (H), que es una matriz de proyección n x n:

El apalancamiento de la i^ésima observación es el i^ésimo elemento diagonal, h_i de H.. Si h_i es grande, la i^ésima observación tiene predictores poco comunes (X_1i, X_2i, ..., X_pi). Es decir, los valores predictores están distantes del vector de medias , usando la distancia de Mahalanobis.

Los valores de apalancamiento están entre 0 y 1. Minitab identifica las observaciones con apalancamientos superiores a 3p/n o .99, el valor que sea menor, con una X en la tabla de observaciones poco comunes. Por lo general, usted examina los valores con apalancamientos grandes.

Notación

Término	Description
X	matriz de diseño
h_i	i^ésimo elemento diagonal de la matriz hat
p	número de términos en el modelo, incluyendo la constante
n	número de observaciones

Apalancamientos (Hola) con validación

Fórmula

Con los datos de validación, los apalancamientos para cada fila proceden de la siguiente fórmula:

Para la regresión ponderada, la fórmula incluye la ponderación:

Notación

Término	Description
X	design matrix for the rows in the training data set or the folds that act as the training data set
x_i	the vector of predictors in the i^-ésima validation row
w_i	weight for the i^-ésima validation row

Distancia de Cook

La medida general, D, del impacto combinado de todos los coeficientes de regresión estimados sobre una observación. Minitab calcula D utilizando valores con apalancamiento y residuos estandarizados, y considera la posibilidad de que una observación sea poco común con respecto tanto a los valores de X como a los valores de Y. Las observaciones con valores grandes de D podrían ser valores atípicos.

Fórmula

La distancia de Cook es la distancia entre los coeficientes calculados con y sin la i ^ésima observación. Minitab calcula la distancia de Cook sin ajustar una nueva ecuación de regresión cada vez que se omite una observación. Este cálculo es:

Notación

Término	Description
e_i	i^ésimo residuo
h_i	i^ésimo elemento diagonal de
p	número de parámetros del modelo, incluyendo la constante
s²	cuadrado medio del error
b	vector de coeficientes
b_(i)	vector de coeficientes calculado después de eliminar la i^ésima observación
X	matriz de diseño

DFITS

Combina los valores de apalancamiento y de residuos studentizados (residuos t eliminados) en una medida general de qué tan poco común es una observación. DFITS mide la influencia de cada observación en los valores ajustados de un modelo de regresión y ANOVA. Las observaciones con valores grandes de DFITS podrían ser valores atípicos.

DFITS representa aproximadamente el número de desviaciones estándar que el valor ajustado cambia cuando cada observación es eliminada del conjunto de datos y se vuelve a ajustar el modelo. Minitab puede calcular DFITS sin ajustar una nueva ecuación de regresión cada vez que se omite una observación.

Fórmula

Notación

Término	Description
e_i	i^ésimo residuo
h_i	i^ésimo elemento diagonal de
X	matriz de diseño
	i^ésima respuesta ajustada
	valor ajustado calculado sin la i^ésima observación
MSE_(i)	cuadrado medio del error calculado sin la i^ésima observación
n	número de observaciones
p	número de parámetros del modelo

Factor de inflación de la varianza (FIV)

El FIV se puede obtener haciendo la regresión de cada predictor sobre los predictores restantes y registrando el valor de R².

Fórmula

Para el predictor x_j, el FIV es:

Notación

Término	Description
R²(x_j)	el coeficiente de determinación con x_j como la variable de respuesta y los otros términos del modelo como los predictores

Estadístico de Durbin-Watson

Evalúa la presencia de autocorrelación en los residuos al determinar si la correlación entre dos términos de error adyacentes es o no es igual a cero. La prueba se basa en el supuesto de que los errores son generados por un proceso autorregresivo de primer orden. Minitab parte del supuesto de que las observaciones están ordenadas significativamente, como un orden cronológico.

En primer lugar, Minitab multiplica los residuos por la raíz cuadrada de las ponderaciones. Si usted no utiliza ponderaciones, el valor de las ponderaciones es 1, y los residuos ponderados tienen el mismo valor que los residuos normales.

Los residuos ponderados se utilizan en la siguiente fórmula:

Notación

Término	Description
e_i	i^ésimo residuo
e_{i -1}	residuo de la observación anterior
n	número de observaciones