Probabilidades a priori

Una probabilidad a priori es la probabilidad de que una observación se ubique en un grupo antes de recopilar los datos. Por ejemplo, si clasifica a los compradores de un vehículo en particular, usted ya podría saber que el 60% de los compradores son hombres y el 40% son mujeres.

Utilice las probabilidades a priori para aumentar la exactitud de la clasificación para ciertas clases. CART toma diferentes decisiones de balanceo interno basándose en las probabilidades a priori. Aumentar la probabilidad de una clase y disminuir la probabilidad de otra clase ayuda a balancear las tasas de clasificación errónea para diferentes clases. Por ejemplo, aumentar la probabilidad de evento y disminuir la probabilidad de no evento puede mejorar la tasa de falsos positivos, pero puede empeorar la tasa de falsos negativos.

Aumentar la probabilidad de evento reducirá el valor umbral del nodo para la asignación de clase al evento. Por lo tanto, los nodos con fracciones inferiores de clase del evento se clasifican como el evento. Las probabilidades a priori tienen el mayor impacto en el desarrollo de todo el árbol durante la etapa de crecimiento del árbol y proporcionan medios poderosos para cambiar el modelo final.

Interpretación

Igual para todas las clases
Por ejemplo, con 4 clases, cada probabilidad de clase es 0.25.
Coinciden con las frec. totales de la muestra
Por ejemplo, la primera clase puede contener el 50% de las frecuencias, la segunda clase puede contener el 30% de las frecuencias y la última clase puede contener el 20% de las frecuencias. Por lo tanto, las probabilidades a priori son 0.50, 0.30 y 0.20.
Especificadas por el usuario
Las probabilidades a priori se basan en su criterio y pueden alterarse para balancear las tasas de clasificación errónea. Las probabilidades deben sumar uno.

División de nodos

Minitab proporciona los siguientes métodos de división de nodos:
  • Gini
  • Entropía
  • Probabilidad de clase
  • Twoing: disponible con una respuesta multinomial. El método Twoing es el mismo que el método Gini con una respuesta binaria.

Interpretación

Utilice el método de división para encontrar el árbol que mejor se adapte a sus datos. Ciertos métodos de división pueden ser mejores que otros dependiendo de sus datos específicos. Compare los resultados de varios métodos de división para determinar la mejor opción para su aplicación.

Árbol óptimo

Minitab utiliza el costo mínimo de clasificación errónea para determinar el árbol óptimo, o se puede especificar un rango de error estándar alrededor del costo de clasificación errónea para expandir la selección del árbol óptimo.
Costo mínimo de clasificación errónea
Minitab utiliza el costo relativo mínimo para seleccionar el árbol óptimo.
Dentro de X error estándar del costo mínimo de clasificación errónea
Minitab identifica los árboles con costos de clasificación errónea que se encuentran dentro del rango de errores estándares que especifique y selecciona el árbol con el menor número de nodos terminales dentro de ese rango como el árbol óptimo.

Validación del modelo

Minitab utiliza el método de validación cruzada o utiliza un conjunto de pruebas separado para validar el modelo. Con la validación cruzada, puede especificar las filas para cada pliegue o permitir una selección aleatoria. Con un conjunto de pruebas independiente, puede especificar las filas para los conjuntos de entrenamiento y de prueba o permitir una selección aleatoria.

Penalización por valor faltante

De forma predeterminada, el análisis no tiene una penalización por valor faltante y esta fila no está presente. La penalización por valor faltante penaliza a un competidor en función de la proporción de valores faltantes para cada nodo. Por lo tanto, un competidor con muchos valores faltantes en un nodo tiene menos probabilidades de tener una función de divisor principal.

Penalización por categoría de nivel alto

De forma predeterminada, el análisis no tiene una penalización por categoría de alto nivel y esta fila no está presente. La penalización por categoría de alto nivel penaliza a un competidor según el número de niveles categóricos en relación con el tamaño del nodo para cada nodo. Por lo tanto, un competidor con muchos niveles en un nodo tiene menos probabilidades de tener una función de divisor principal.

Ponderaciones

Indica la columna que se utiliza para ponderar la respuesta.

Filas utilizadas

El número de observaciones de respuesta utilizadas en el árbol.

Filas no utilizadas

El número de observaciones de respuesta faltantes. Esto también incluye los valores faltantes o ceros en la columna de ponderación.