Tabla de métodos para Regresión CART®

Encuentre definiciones e interpretaciones para cada estadístico en la tabla de métodos.

División de nodos

Minitab puede utilizar el mínimo cuadrado del error o la desviación absoluta mínima como criterio para dividir los nodos. El método del mínimo cuadrado del error minimiza la suma de los errores cuadráticos. El método de desviación absoluta mínima minimiza la suma de los valores absolutos de los errores.

Árbol óptimo

Minitab presenta inicialmente resultados para el árbol óptimo o para el árbol más pequeño que tiene un valor de criterio dentro de una serie de errores estándares del valor del criterio del árbol óptimo. De forma predeterminada, los resultados son para el árbol más pequeño con un valor de R2 dentro de 1 error estándar del valor máximo de R2 o para el árbol más pequeño con un valor de desviación absoluta dentro de 1 error estándar del valor mínimo, dependiendo de la elección para Node splitting method.

Interpretación

Para muchos conjuntos de datos, el criterio mejora inicialmente a medida que aumenta el número de nodos terminales. El criterio alcanza un valor óptimo y empeora después. Si el valor óptimo es para un árbol donde agregar un nodo hace poca diferencia en el valor del criterio, puede considerar si utilizar un árbol más pequeño cuyo rendimiento sea casi tan bueno como el árbol óptimo. Los árboles más pequeños son más fáciles de interpretar.

Validación del modelo

Minitab puede validar el rendimiento del árbol con un conjunto de datos de prueba o con validación cruzada de K pliegues. También puede optar por no validar el rendimiento del árbol. Cuando el análisis utiliza un conjunto de datos de prueba, este elemento muestra las proporciones objetivo para los conjuntos de datos de entrenamiento y de prueba.

Interpretación

Por opción predeterminada, Minitab utiliza la validación cruzada de K pliegues para validar el rendimiento del árbol para conjuntos de datos con 5.000 casos o menos. Para conjuntos de datos con más de 5.000 casos, Minitab utiliza un conjunto de datos de prueba. Cuando el análisis utiliza un método de validación, el criterio para la selección del árbol óptimo proviene del método de validación. El uso del método de validación para seleccionar el árbol óptimo impide que el árbol se ajuste en exceso a los datos disponibles y presenta una descripción más realista del rendimiento del árbol en nuevos datos.

Penalización por valor faltante

De forma predeterminada, el análisis no tiene una penalización por valor faltante y esta fila no está presente. La penalización por valor faltante penaliza a un competidor en función de la proporción de valores faltantes para cada nodo. Por lo tanto, un competidor con muchos valores faltantes en un nodo tiene menos probabilidades de tener una función de divisor principal.

Penalización por categoría de nivel alto

De forma predeterminada, el análisis no tiene una penalización por categoría de alto nivel y esta fila no está presente. La penalización por categoría de alto nivel penaliza a un competidor según el número de niveles categóricos en relación con el tamaño del nodo para cada nodo. Por lo tanto, un competidor con muchos niveles en un nodo tiene menos probabilidades de tener una función de divisor principal.

Ponderaciones

Indica la columna que se utiliza para ponderar la respuesta.

Filas utilizadas

Debido a la forma en que los análisis para la analítica predictiva controlan los datos faltantes para los predictores, el número de filas utilizadas suele ser del mismo tamaño que el conjunto de datos completo. Algunos datos pueden no ser válidos y excluirse del análisis. Por ejemplo, el análisis excluye filas con valores de respuesta faltantes, ponderaciones faltantes, ponderaciones de 0 o ponderaciones negativas.

Filas no utilizadas

El número de observaciones de respuesta faltantes. Esto también incluye los valores faltantes o ceros en la columna de ponderación.