Una probabilidad a priori es la probabilidad de que una observación se ubique en un grupo antes de recopilar los datos. Por ejemplo, si clasifica a los compradores de un vehículo en particular, usted ya podría saber que el 60% de los compradores son hombres y el 40% son mujeres.
Utilice las probabilidades a priori para aumentar la exactitud de la clasificación para ciertas clases. CART toma diferentes decisiones de balanceo interno basándose en las probabilidades a priori. Aumentar la probabilidad de una clase y disminuir la probabilidad de otra clase ayuda a balancear las tasas de clasificación errónea para diferentes clases. Por ejemplo, aumentar la probabilidad de evento y disminuir la probabilidad de no evento puede mejorar la tasa de falsos positivos, pero puede empeorar la tasa de falsos negativos.
Aumentar la probabilidad de evento reducirá el valor umbral del nodo para la asignación de clase al evento. Por lo tanto, los nodos con fracciones inferiores de clase del evento se clasifican como el evento. Las probabilidades a priori tienen el mayor impacto en el desarrollo de todo el árbol durante la etapa de crecimiento del árbol y proporcionan medios poderosos para cambiar el modelo final.
Utilice el método de división para encontrar el árbol que mejor se adapte a sus datos. Ciertos métodos de división pueden ser mejores que otros dependiendo de sus datos específicos. Compare los resultados de varios métodos de división para determinar la mejor opción para su aplicación.
Minitab utiliza el método de validación cruzada o utiliza un conjunto de pruebas separado para validar el modelo. Con la validación cruzada, puede especificar las filas para cada pliegue o permitir una selección aleatoria. Con un conjunto de pruebas independiente, puede especificar las filas para los conjuntos de entrenamiento y de prueba o permitir una selección aleatoria.
De forma predeterminada, el análisis no tiene una penalización por valor faltante y esta fila no está presente. La penalización por valor faltante penaliza a un competidor en función de la proporción de valores faltantes para cada nodo. Por lo tanto, un competidor con muchos valores faltantes en un nodo tiene menos probabilidades de tener una función de divisor principal.
De forma predeterminada, el análisis no tiene una penalización por categoría de alto nivel y esta fila no está presente. La penalización por categoría de alto nivel penaliza a un competidor según el número de niveles categóricos en relación con el tamaño del nodo para cada nodo. Por lo tanto, un competidor con muchos niveles en un nodo tiene menos probabilidades de tener una función de divisor principal.
Indica la columna que se utiliza para ponderar la respuesta.
El número de observaciones de respuesta utilizadas en el árbol.
El número de observaciones de respuesta faltantes. Esto también incluye los valores faltantes o ceros en la columna de ponderación.