Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
L'analyse crée le nombre d'arbres que vous spécifiez, avec une petite modification apportée au modèle à partir des informations de chaque arbre. Si l'analyse inclut une méthode de validation, elle calcule la valeur du critère de sélection du modèle pour les données d'apprentissage et les données de test pour chaque nombre d'arbres. La valeur optimale issue des données de test détermine le nombre d'arbres dans le modèle optimal.
Les critères d'optimisation, comme le R2 maximal, ont tendance à être optimistes lorsque vous les calculez avec les mêmes données que celles que vous utilisez pour ajuster un modèle. Les méthodes de validation de modèle omettent une partie des données lors du procédé d'ajustement du modèle, puis calculent les statistiques qui évaluent les performances du modèle sur les données omises. Les techniques de validation de modèle fournissent une meilleure estimation de la performance des modèles sur de nouvelles données. Selon votre sélection de la fonction de perte pour l’analyse, le critère est le R2 maximal ou le moindre écart moyen absolu (MAD). Minitab propose deux méthodes de validation : la validation croisée sur K ensembles et la validation avec un ensemble de données de test distinct.
La validation croisée sur K ensembles est la méthode par défaut dans Minitab lorsque les données comprennent un maximum de 2000 cas. Étant donné que le processus se répète K fois, la validation croisée est généralement plus lente que la validation avec des données de test.
Lors de la validation avec un ensemble de test, une partie des données est mise de côté pour validation. Les données restantes sont l’ensemble d'apprentissage. Tout d’abord, Minitab développe la séquence des arbres avec l’ensemble d'apprentissage. Ensuite, Minitab calcule les valeurs du critère de sélection du modèle pour chaque nombre d’arbres avec l’ensemble de test. Le nombre d'arbres ayant la meilleure valeur est le modèle optimal.
Sans aucune validation, Minitab utilise l'ensemble de données complet pour ajuster le modèle. Le modèle final contient le plus grand nombre d’arbres.