¿Qué es validación cruzada?

La validación cruzada calcula la capacidad predictiva de los posibles modelos para ayudar a determinar el número adecuado de componentes que se deben conservar en el modelo. La validación cruzada es la mejor opción si usted no sabe cuál es el número óptimo de componentes. Cuando los datos contienen múltiples variables de respuesta, Minitab valida los componentes para todas las respuestas de manera simultánea.

Métodos de validación cruzada

Minitab puede realizar tres métodos diferentes de validación cruzada:
Dejar uno fuera
Calcula los posibles modelos dejando fuera una observación a la vez. Para los conjuntos grandes de datos, este método puede requerir mucho tiempo, porque vuelve a calcular los modelos tantas veces como haya observaciones.
Dejar grupo fuera de tamaño
Calcula los modelos excluyendo múltiples observaciones a la vez, con lo cual se reduce el número de veces que se debe volver a calcular un modelo. Este método es más apropiado al trabajar con un conjunto grande de datos.
Dejar fuera como se especifica en la columna
Calcula los modelos, excluyendo simultáneamente las observaciones que tengan números similares en la columna de identificadores de grupo, que usted crea en la hoja de trabajo. Este método permite especificar cuáles observaciones se omiten al mismo tiempo. Por ejemplo, si la columna de identificadores de grupo incluye los números 1, 2 y 3, se omiten de manera conjunta todas las observaciones con 1 y se vuelve a calcular el modelo. A continuación, se omiten todas las observaciones con 2 y se vuelve a calcular el modelo, y así sucesivamente. En este caso, el modelo se vuelve a calcular un total de 3 veces. La columna de identificadores de grupo debe tener la misma longitud que las columnas de respuestas y predictores y no puede contener valores faltantes.

Procedimiento de validación cruzada

Para cada modelo posible, Minitab hace lo siguiente:
  1. Omite una observación o grupo de observaciones, dependiendo del método de validación cruzada.
  2. Vuelve a calcular el modelo sin la observación/grupo de observaciones.
  3. Predice la respuesta, o el valor ajustado con validación cruzada, para la observación/grupo de observaciones omitido utilizando el modelo recalculado y calcula el valor de residuo con validación cruzada.
  4. Repite los pasos del 1 al 3 hasta que todas las observaciones hayan sido omitidas y ajustadas.
  5. Calcula los valores de la suma de los cuadrados de predicción (PRESS) y R2 pronosticado.

Después de realizar los pasos del 1 al 5 para cada modelo, Minitab selecciona el modelo con el número de componentes que produce el R2 pronosticado más alto y el PRESS más bajo. Con múltiples variables de respuesta, Minitab selecciona el modelo con el R2 pronosticado promedio más alto y el PRESS promedio más bajo.

Si usted no utiliza validación cruzada, Minitab establece el número de componentes en 10 o en el número de predictores del modelo, el que sea menor.

Estadísticos de validación cruzada

Cuando usted realiza la validación cruzada, Minitab muestra una tabla de resumen adicional que incluye los siguientes estadísticos:
Valores ajustados con validación cruzada

En la regresión PLS, el valor ajustado con validación cruzada es la respuesta pronosticada para cada observación del conjunto de datos, calculada individualmente, de manera que la observación pueda excluirse del modelo utilizado para calcular la respuesta pronosticada para esa observación. Los valores ajustados con validación cruzada se calculan durante la validación cruzada y varían según la cantidad de observaciones que se omiten cada vez que se vuelve a calcular el modelo.

Utilice los valores ajustados con validación cruzada para determinar qué tan bien son pronosticados los datos por el modelo. Los valores ajustados con validación cruzada son similares a los valores ajustados ordinarios, que indican qué tan bien se ajusta el modelo a los datos.

Residuos con validación cruzada

En la regresión PLS, los residuos con validación cruzada son las diferencias entre las respuestas reales y los valores ajustados con validación cruzada. El valor del residuo con validación cruzada varía según la cantidad de observaciones que se omiten cada vez que se vuelve a calcular el modelo durante la validación cruzada.

Los residuos miden la capacidad de predicción del modelo. Minitab utiliza los residuos con validación cruzada para calcular el estadístico PRESS.