La gráfica de caja muestra la diferencia entre los valores reales y los valores ajustados. Los puntos que son más de 1.5 veces el rango intercuartil desde el cuartil más cercano tienen símbolos individuales.
Lo ideal es que los residuos estén todos cerca de 0 en relación con la escala de la variable de respuesta. Cuando se utiliza una técnica de validación, Minitab crea gráficos separados para los datos de entrenamiento y para los resultados de validación. Puede comparar las gráficas para examinar el rendimiento relativo del árbol en los datos de entrenamiento y en nuevos datos. También puedes buscar diferentes patrones que puedan indicar una diferencia para investigar entre los datos de entrenamiento y los resultados de validación.
Estos diagramas de caja muestran resultados similares para el conjunto de datos de entrenamiento y para los resultados de validación. Esta similitud sugiere que el rendimiento del árbol en nuevos datos está cerca del rendimiento del árbol en los datos de entrenamiento.
El rango intercuartílico de los diagramas de caja para ambos conjuntos de datos es de aproximadamente –2,6 a 2,6. El 50% de los datos tienen residuos dentro de este rango. Los residuos restantes son más grandes. Debido a que el rango intercuartil es de aproximadamente 5, los residuos que están fuera del rango aproximado de –10.5 a 10.5 tienen símbolos individuales. Los residuos más grandes están cerca de 20 en las direcciones positiva y negativa. Estos residuos grandes pueden indicar que el árbol no ajusta bien todos los datos.