Especificar el método de validación para Clasificación Random Forests®

Módulo de análisis predictivo > Clasificación Random Forests® > Validación
Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

Seleccione si desea validar con un conjunto de datos de prueba además de la validación out-of-bag.

Validación con datos "out-of-bag"

Clasificación Random Forests® utiliza el muestreo de la secuencia de arranque para cada árbol. Cada registro de una muestra de la secuencia de arranque se selecciona aleatoriamente con el reemplazo del conjunto de datos original. Del total de observaciones del conjunto de datos original, algunos registros se dejarán fuera de cada muestra de la secuencia de arranque. Las filas que se dejan fuera de una muestra de la secuencia de arranque crean un conjunto de datos out-of-bag.

Validación con un conjunto de prueba además de datos "out-of-bag"

Complete los pasos siguientes para especificar una fracción de los datos que se usarán para el entrenamiento y las pruebas. Si selecciona Validación con un conjunto de prueba además de datos "out-of-bag", Minitab utiliza de forma predeterminada el 30% de los datos para las pruebas.

  1. En la lista desplegable, seleccione Validación con un conjunto de prueba además de datos "out-of-bag".
  2. Elija una de las siguientes opciones para especificar si desea seleccionar una fracción de filas aleatoriamente o con una columna ID.
    • Seleccionar aleatoriamente una fracción de filas como un conjunto de prueba: Seleccione esta opción para que Minitab seleccione aleatoriamente una fracción de filas para las pruebas. Puede especificar la fracción. El valor predeterminado de 0.3 funciona bien en la mayoría de los casos. Para conjuntos de datos más grandes, es posible que desee aumentar la fracción de datos utilizados para las pruebas. También puede establecer una base para el generador de números aleatorios.
    • Definir división para entrenamiento/prueba con la columna ID: Seleccione esta opción para elegir las filas que se incluirán en la muestra de prueba. En Columna ID, ingrese la columna que indica las filas que se utilizarán para la muestra de prueba. La columna ID debe contener solo 2 valores. En Nivel para el conjunto de prueba, seleccione el nivel qué utilizará como la muestra de prueba.
  3. (Opcional) Marque Almacenar columna ID para división de entrenamiento/prueba para guardar la columna ID.