Métodos y fórmulas para Regresión de los mejores subconjuntos

Rutina de cálculo

En la regresión de los mejores subconjuntos, Minitab utiliza un procedimiento llamado "camino hamiltoniano", que es un método para calcular todos los subconjuntos posibles de predictores, un subconjunto por paso. Es decir, Minitab calcula todos los 2**m - 1 subconjuntos en 2**m - 1 pasos, donde m es el número de predictores incluidos en el modelo. Minitab evalúa una regresión de subconjunto diferente en cada paso.

Cada subconjunto en el camino hamiltoniano difiere del subconjunto anterior por la adición o la eliminación de solo una variable. El operador Sweep incluye o excluye una variable de la regresión en cada paso del camino hamiltoniano y calcula el R2 para cada subconjunto.

Ecuación de regresión

Para un modelo con múltiples predictores, la ecuación es:

y = β0 + β1x1 + ... + βkxk + ε

La ecuación ajustada es:

En la regresión lineal simple, que incluye solo un predictor, el modelo es:

y=ß0+ ß1x1+ε

Usando estimaciones de regresión b0 para ß0y b1 para ß1, la ecuación ajustada es:

Ecuaciones con una variable categórica

Cuando se incluye una variable categórica en un modelo de regresión, hay 2 opciones para mostrar la ecuación de regresión:
  • Ecuación separada de cada conjunto de niveles predictores categóricos
  • Una sola ecuación
Estas dos opciones son equivalentes. Por ejemplo, supongamos que los datos tienen las siguientes variables:
C1
La variable respuesta
C2
Un predictor continuo
C3
Una variable predictora categórica con los niveles Rojo y Azul
Las ecuaciones separadas son las siguientes:
  • Azul: C1 = 0,184 + 0,1964*C2
  • Rojo: C1 = 0,011 + 0,1964*C2

Una sola ecuación utiliza una variable indicadora para representar la variable categórica.

C1 = 0,184 + 0,1964*C2 + 0,0*C3_Azul- 0,173*C3_Rojo

En la ecuación única, C3_Azul es igual a 1 si la observación es azul, y 0 en caso contrario. C3_Rojo es igual a 1 si la observación es roja, y 0 en caso contrario. Para cada grupo, sustituyamos la variable indicadora para verificar que la ecuación individual es la misma que las dos ecuaciones separadas.
  • Observación azul (C3_Azul = 1, C3_Rojo = 0): C1 = 0,184 + 0,1964*C2 + 0,0*1 - 0,173*0 = 0,184 + 0,1964*C2
  • Observación roja (C3_Azul = 0, C3_Rojo = 1: C1 = 0,084 + 0,1964*C2 + 0,0*0 - 0,173*1 = 0,011 + 0,1964*C2

Notación

TérminoDescription
yRespuesta
xkOk-ésimo trimestre. Cada término puede ser un solo predictor, un término polinómico o un término de interacción.
ßkkésimo coeficiente de regresión poblacional
εtérmino de error que sigue una distribución normal con una media de 0
bkEstimación del coeficiente de regresión poblacional késimo
respuesta ajustada

R-cuad.

El R2 también es denominado como el coeficiente de determinación.

Fórmula

Notación

TérminoDescription
yi i ésimo valor de respuesta observado
respuesta media
i iésima respuesta ajustada

R-cuad.(ajustado)

Notación

TérminoDescription
CMCuadrado medio
SCSuma de los cuadrados
GLGrados de libertad

PRESS

Evalúa la capacidad de predicción del modelo y se calcula de la siguiente manera:

Notación

TérminoDescription
nnúmero de observaciones
eiiésimo residuo
hi

iésimo elemento diagonal de

X (X' X)-1X'

R-cuad.(pred)

Aunque los cálculos de R2(pred) pueden producir valores negativos, para estos casos Minitab muestra cero.

Notación

TérminoDescription
yi i ésimo valor de respuesta observado
respuesta media
n número de observaciones
ei i ésimo residuo
hi i ésimo elemento diagonal de X(X'X)–1X'
X matriz de diseño

Cp de Mallows

Notación

TérminoDescription
SSEpsuma de errores cuadráticos para el modelo considerado
MSEmcuadrado medio del error para el modelo con todos los términos candidato
nnúmero de observaciones
pnúmero de términos en el modelo, incluyendo la constante

S

Notación

TérminoDescription
MSEcuadrado medio del error

Log-verosimilitud

Para análisis no ponderados, Minitab utiliza la siguiente ecuación:
Para un análisis que tenga ponderaciones para las observaciones, Minitab utiliza la siguiente ecuación:

Las observaciones con ponderaciones de 0 no están en el análisis.

Notación

TérminoDescription
nel número de observaciones
Rla suma de los cuadrados para el error del modelo
wila ponderación de la iiésima observación

AICc (Criterio de información de Akaike corregido)

AICc no se calcula cuando .

Notación

TérminoDescription
nel número de observaciones
pel número de coeficientes en el modelo, incluida la constante

BIC (Criterio de información bayesiano)

Notación

TérminoDescription
pel número de coeficientes en el modelo, incluida la constante
nel número de observaciones

Número de condición

Notación

TérminoDescription
Cel número de condición
λmáximo el máximo valor propio de la matriz de correlación de los términos en el modelo, sin incluir la intersección
λmínimo el mínimo valor propio de la matriz de correlación de los términos en el modelo, sin incluir la intersección