Especificar el método de validación para Descubrir el mejor modelo (Respuesta binaria)

Módulo de análisis predictivo > Regresión Random Forests® > Descubrir el mejor modelo (Respuesta binaria) > Validación
Nota

Este comando está disponible con el módulo Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Elija el método de validación para determinar el mejor tipo de modelo. Por lo general, con muestras más pequeñas, el método de validación cruzada de K pliegues es apropiado. Con muestras más grandes, puede seleccionar una fracción de los casos que se utilizarán para el entrenamiento y las pruebas.

Las opciones que presenta Minitab dependen del tamaño del conjunto de datos. Las selecciones se combinan con selecciones del cuadro de diálogo secundario Términos para proveer un análisis que equilibre el rigor y la velocidad de cálculo:
N < 1,000
El método de validación en el cuadro de diálogo secundario Validación es Validación cruzada de K pliegues. El número máximo de grupos es 5. El Método de selección del modelo de regresión logístico en el cuadro de diálogo secundario Términos es Escalonado.
1,000 ≤ N < 1,500
El método de validación en el cuadro de diálogo secundario Validación es Validación cruzada de K pliegues. El número máximo de grupos es 3. El Método de selección del modelo de regresión logístico en el cuadro de diálogo secundario Términos es Escalonado.
1,500 ≤ N
El método de validación en el cuadro de diálogo secundario Validación es Validación con un conjunto de prueba. La proporción de datos en el conjunto de prueba es de 0.3. Método de selección del modelo de regresión logístico en el cuadro de diálogo secundario Términos es Selección hacia delante con validación, que utiliza el conjunto de pruebas.

Validación cruzada de K pliegues

Complete los pasos siguientes para usar el método de validación cruzada de K pliegues para validar la muestra de prueba.

  1. En la lista desplegable, seleccione Validación cruzada de K pliegues.
  2. Especifique el número de grupos. El valor predeterminado funciona bien en la mayoría de los casos. Un mayor número de grupos aumenta la posibilidad de seleccionar un modelo predictivo más confiable, en especial para conjuntos de datos con menos filas. Un número mayor puede aumentar significativamente el tiempo de cálculo.
  3. (Opcional) Seleccione Almacenar columna ID para validación cruzada de K pliegues para guardar la columna ID.

Validación con un conjunto de prueba

Complete los pasos siguientes para especificar una fracción de los datos que se usarán para el entrenamiento y las pruebas. En muchos casos, el 70% de los datos se utilizan para el entrenamiento y el 30% de los datos se utilizan para las pruebas.

  1. En la lista desplegable, seleccione Validación con un conjunto de prueba.
  2. Especifique la fracción de los datos para el conjunto de pruebas. El valor predeterminado de 0.3 funciona bien en la mayoría de los casos. Para conjuntos de datos más grandes, es posible que desee aumentar la fracción de datos utilizados para las pruebas. También puede establecer una base para el generador de números aleatorios. Cuando se introduce la misma base en diferentes ejecuciones del análisis, la asignación de filas para el conjunto de pruebas es la misma.
  3. (Opcional) Seleccione Almacenar columna ID para división de entrenamiento/prueba para guardar la columna ID.