Porcentaje de estadísticos del error debido a los residuos más grandes para Regresión CART®

Utilice el porcentaje de estadísticos del error para examinar la cantidad de error en los ajustes del árbol a partir de los peores ajustes. Cuando el análisis utiliza una técnica de validación, también puede comparar los estadísticos del árbol para los datos de entrenamiento y de prueba.

Cada fila de la tabla muestra los estadísticos del error para el porcentaje dado de residuos. El porcentaje del cuadrado medio del error (MSE) que proviene de los residuos más grandes es generalmente mayor que el porcentaje de los otros dos estadísticos. El MSE utiliza los cuadrados de los errores en los cálculos, así que las observaciones más extremas normalmente tienen mayor influencia en el estadístico. Grandes diferencias entre el porcentaje de error para el MSE y las otras dos medidas puede indicar que el árbol es más sensible a la selección de dividir los nodos con mínimo cuadrado del error o con desviación absoluta mínima.

Cuando se utiliza una técnica de validación, Minitab calcula estadísticos separados para los datos de entrenamiento y de prueba. Puede comparar los estadísticos para examinar el rendimiento relativo del árbol en los datos de entrenamiento y en nuevos datos. Los estadísticos de prueba suelen ser una mejor medida de cómo será el rendimiento del árbol para nuevos datos.

Un patrón posible es que un pequeño porcentaje de los residuos explique gran parte del error en los datos. Por ejemplo, en la tabla siguiente, el tamaño total del conjunto de datos es de aproximadamente 4500. Desde la perspectiva del MSE, eso indica que el 1% de los datos explican alrededor del 12% del error. En ese caso, los 45 casos que aportan la mayor parte del error al árbol pueden representar la oportunidad más natural de mejorar el árbol. Encontrar una manera de mejorar los ajustes para esos casos conduce a un aumento relativamente grande del rendimiento general del árbol.

Esta condición también puede indicar que puede tener una mayor confianza en los nodos del árbol que no tiene casos con los errores más grandes. Debido a que la mayor parte del error proviene de un pequeño número de casos, los ajustes para los otros casos son relativamente más exactos.

CART® regresión de 17 nodos: Duración del servicio vs. Edad en la admisión, Edad del primer consumo de drog, Arrestos en 30 días anteriores, Días esperando servicio, Episodios de tratamiento previo, Años de Educación, Otro uso estimulante, Terapia de medicamentos planifi, Condición psiquiátrica, Embarazada, Género, Veterano, Consumo de alcohol, Consumo de cocaína, Uso de marihuana, Uso de heroína, Otro uso de Opiod, Uso del PCP, Uso de Mehtadone, Otro uso de alucinógeno, Uso de metanfetaminas, Otro uso de anfetaminas, Uso de benzodiazepina, Otro uso tranquilizante, Uso de Barbituate, Otro uso sedante, Uso de inhalantes, Uso de medicamentos sin receta, Otro uso de drogas, Uso de drogas intravenosas, Arreglos de Vida, Frecuencia del abuso de sustanc, Seguro médico, Estado civil, Origen étnico, Fuente de ingresos, Ruta de Ingestión Primaria de S, Asistencia de autoayuda, Fuente de pago, Carrera, Situación del empleo, Fuente de referencia, Sustancia primaria de abuso, Diagnóstico de DSM

Porcentaje de estadísticas del error debido a los residuos más grandes % de los residuos más Entrenamiento Prueba grandes Conteo % MSE % MAD % MAPE % MSE % MAD % MAPE 1.0 45 12.0662 4.4286 17.0993 11.7595 4.3601 16.9809 2.0 90 19.6105 7.9590 27.7611 19.0639 7.8242 28.0537 2.5 112 22.6611 9.5292 31.4313 22.0671 9.3775 31.8497 3.0 134 25.4267 11.0245 35.1014 24.7926 10.8576 35.4683 4.0 179 30.3473 13.8759 42.6086 29.7103 13.7003 42.7628 5.0 223 34.5866 16.4938 49.9489 33.9523 16.3116 49.8103 7.5 334 43.2672 22.4419 63.2850 43.0319 22.3750 63.0140 10.0 446 50.4797 27.8875 70.7239 50.3414 27.8406 70.3832 15.0 668 61.1200 37.1919 78.5216 61.0161 37.1327 78.1782 20.0 891 69.2319 45.3354 82.5577 69.0602 45.2227 82.2440