Distancia de Cook para múltiples casos

Esta macro calcula la extensión a múltiples casos de la medida de distancia de Cook para casos individuales. Dependiendo del tamaño del conjunto de datos, la medida de distancia se puede calcular para todos los pares y tríos de casos. Además, la medida de distancia se puede calcular para subconjuntos de hasta diez casos que seleccione el usuario. Las gráficas producidas incluyen una gráfica de la distancia de Cook para casos individuales en función del número de casos, una gráfica de ID de pares de casos influyentes y gráficas de efectos de pares fijos, que muestran el efecto o cambian la distancia de Cook, debido a la adición de un tercer caso a un par fijo de casos. Una funcionalidad similar está disponible para modelos sin término constante

Descargar la macro

Asegúrese de que Minitab sepa dónde buscar la macro descargada. Elija Archivo > Opciones > General. En Ubicación de la macro, vaya a la ubicación donde guarda los archivos de macro.

Important

Si utiliza un explorador web más antiguo, cuando haga clic en el botón Descargar, el archivo podría abrirse en Quicktime, que comparte la extensión de archivos .mac con las macros de Minitab. Para guardar la macro, haga clic con el botón derecho en el botón Descargar y elija Guardar destino como.

Entradas requeridas

  • Una columna de valores de respuesta
  • Múltiples columnas de valores predictores

Entradas opcionales

HOLD
Utilícese para especificar un par de casos a partir de los cuales crear gráficas de efectos para pares fijos.
NOCONSTANT
Utilícese si no desea ningún término constante en el modelo. Este comando resulta especialmente útil si se está analizando un modelo de mezcla, en cuyo caso el término constante se omite del modelo para evitar la deficiencia de clasificación en la matriz XTX.
NOPAIR
Utilícese si no desea calcular los valores de distancia para todos los pares de casos. El uso de este subcomando requiere el cálculo de todos los tríos, el cálculo de uno o más subconjuntos seleccionados o el uso del subcomando Hold.
NOPLOTS
Utilícese si no desea mostrar gráficas de diagnóstico.
REPORTALL
Utilícese para mostrar todos los valores calculados de distancia. Cuando se selecciona este subcomando, se eliminan las comparaciones con el valor umbral, ya que se muestran todos los valores de distancia. Si elige este subcomando, el valor umbral seguirá apareciendo en las gráficas como una ayuda visual.
SPAIRS C C C
Utilice este subcomando para almacenar todos los valores de distancia para pares de casos en la hoja de trabajo. Especifique tres columnas: las dos primeras para los índices y la tercera para los valores de distancia.
STRIPLES C C C C
Utilícese para almacenar todos los valores de distancia para tríos de casos en la hoja de trabajo. Especifique cuatro columnas: las tres primeras para los índices y la cuarta para los valores de distancia.
SUB1 K…K
Utilice este subcomando si desea calcular el valor de distancia para un subconjunto seleccionado de hasta diez casos (K). Este subcomando resulta especialmente útil para subconjuntos de más de tres casos. Puede especificar hasta cinco subconjuntos utilizando el subcomando SUB1, SUB2, SUB3, SUB4 y SUB5.
THRESHOLD K
Utilícese para especificar un valor umbral. De manera predeterminada, el valor umbral es 1.00. La salida mostrará todos los resultados calculados que sean mayores que o iguales a este valor. El umbral especificado debe ser un valor numérico positivo.
TRIPLE
Utilice este subcomando si desea que la macro calcule la distancia de Cook para todos los tríos de casos y que la compare con el valor umbral predeterminado o especificado.

Ejecución de la macro

La sintaxis utilizada para ejecutar la macro varía ligeramente según la versión que se utilice.

El siguiente ejemplo utiliza los datos de muestra que contiene el conjunto de datos "Datos modificados sobre la gravedad específica de la madera" de veinte casos y cinco predictores incluido en Rousseeuw y Leroy (1987). Los resultados de los cálculos para los cinco subconjuntos de casos seleccionados coinciden con los que se proporcionan en Seaver, Triantis y Reeves (1999).

Supongamos que los valores de la respuesta Y, gravedad específica, están en C1 y los valores de los cinco predictores, X1-X5 están en las columnas 2-6. Se seleccionaron cinco casos de subconjuntos.

Para ejecutar la macro, elija Vista > Línea de comandos/historial y escriba:
%MULTDIST C1-C6;
SUB1 5;
SUB2 8 19;
SUB3 6 8 19;
SUB4 4 8 19;
SUB5 4 6 8 19.

Haga clic en Corrida.

Salida

Esto es lo que producirá la macro.

Distancia de Cook para múltiples casos

Información de modelo
------------------------
Respuestas:     Y

Predictores:   X1 , X2 , X3 , X4 , X5                                            

Parámetros:    6
 
Valor umbral:    1.00
------------------------
 
*** Distancia de Cook para pares de casos ***
 
     Casos        distancia de Cook

     7 , 11             1.03

 
*** Distancia de Cook para un subconjunto ***

     Casos:  5   Distancia de Cook:  0,06                                              


     Casos:   8 , 19   Distancia de Cook:  0.33                                        


     Casos:   6 ,  8 , 19   Distancia de Cook:  1.99                                   


     Casos:   4 ,  8 , 19   distancia de Cook:  0.49                                   


     Casos:   4 ,  6 ,  8 , 19   distancia de Cook:  53.93 
Nota

No se muestra la salida de la gráfica.

Más información

Tamaño del conjunto de datos

El límite de tamaño del conjunto de datos para calcular la distancia de Cook es 60 y 30 para pares y tríos de casos, respectivamente. El límite de tamaño del conjunto de datos para los cálculos de los subconjuntos de casos es 500. Usted puede cambiar los límites de los pares y tríos de casos dentro de la macro. Para cambiar los límites, vaya a la sección del código de la macro identificada como "MSE check, triple, nopair" y cambie 30 y 60 por los tamaños que desee. Tenga en cuenta que el tiempo de cálculo aumenta a medida que aumenta el tamaño del conjunto de datos, especialmente para el cálculo de todos los tríos.

La inversa no existe

Si va a analizar un modelo de mezcla, debe especificar el subcomando noconstant. Si no lo hace, aparecerá un mensaje de error indicando que no existe la inversa de la matriz XTX. Por lo general, si los predictores están correlacionados (casi) perfectamente, aparecerá este mensaje de error.

Valores faltantes

La macro maneja los datos faltantes eliminando las filas que contienen este tipo de datos. Esto se muestra en la salida y en las gráficas.

Referencias

Rousseeuw, P. J. y Leroy, A. M. (1987), Robust Regression & Outlier Detection, John Wiley & Sons, Inc. (1987), Robust Regression & Outlier Detection, John Wiley & Sons, Inc.

Seaver, B., Triantis, K. y Reeves, C. (1999), The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy, Technometrics, 41, 340-351.