Méthodes pour Classification Random Forests®

Remarque

Cette commande est disponible avec l’extension Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Un modèle Random Forests® est une approche pour résoudre les problèmes de classification et de régression. L’approche est à la fois plus précise et plus robuste aux variations des variables de prédiction qu'un seul arbre de classification ou de régression. On peut décrire généralement la procédure comme une construction d'un arbre unique à partir d'un échantillon bootstrap par Minitab Statistical Software. Minitab sélectionne aléatoirement un plus petit nombre de prédicteurs sur le nombre total de prédicteurs pour évaluer le meilleur séparateur à chaque nœud. Minitab répète ce processus pour développer de nombreux arbres. Dans le cas de la classification, la classification de chaque arbre est un vote pour la classification prévue. Pour une ligne donnée des données, la classe ayant le plus de votes est la classe prévue pour cette ligne dans l’ensemble de données.

Pour construire un arbre de classification, l’algorithme utilise le critère Gini pour mesurer l’impureté des nœuds. Pour l’application de bureau, chaque arborescence s’agrandit jusqu’à ce qu’un nœud soit impossible à fractionner ou qu’un nœud atteigne le nombre minimum de cas pour diviser un nœud interne. Le nombre minimum de cas est une option pour l’analyse. Pour l’application Web, l’analyse ajoute la contrainte que chaque arbre a une limite de 4 000 nœuds de terminal. Pour plus de détails sur la construction d'un arbre de classification, passez à Méthodes de partition des nœud dans Classification CART®. Vous trouverez ci-dessous des détails spécifiques de l'algorithme Random Forests®.

Échantillons bootstrap

Pour construire chaque arbre, l'algorithme sélectionne un échantillon aléatoire avec remplacement (échantillon bootstrap) dans l'ensemble de données complet. Habituellement, chaque échantillon bootstrap est différent et peut contenir un nombre différent de lignes uniques de l'ensemble de données d’origine. Si vous n'utilisez que la validation out-of-bag, la taille par défaut de l'échantillon bootstrap est la taille de l'ensemble de données d’origine. Si vous divisez l’échantillon en un ensemble d'apprentissage et un ensemble de test, la taille par défaut de l'échantillon bootstrap est la même que la taille de l'ensemble d'apprentissage. Dans les deux cas, vous avez la possibilité de spécifier une taille de l'échantillon bootstrap plus petite que la taille par défaut. En moyenne, un échantillon bootstrap contient environ 2/3 des lignes de données. Les lignes uniques de données qui ne sont pas dans l'échantillon bootstrap sont les données out-of-bag pour validation.

Sélection aléatoire des prédicteurs

À chaque nœud de l'arbre, l'algorithme sélectionne aléatoirement un sous-ensemble du nombre total de prédicteurs, , à évaluer en tant que séparateurs. Par défaut, l'algorithme choisit prédicteurs à évaluer à chaque nœud. Vous avez la possibilité de choisir un nombre différent de prédicteurs à évaluer, de 1 à . Si vous choisissez prédicteurs, l'algorithme évalue chaque prédicteur à chaque nœud, ce qui produit une analyse appelée "forêt bootstrap".

Dans une analyse qui utilise un sous-ensemble de prédicteurs à chaque nœud, les prédicteurs évalués sont généralement différents à chaque nœud. L'évaluation de différents prédicteurs rend les arbres de la forêt moins corrélés entre eux. Les arbres moins corrélés créent un effet d'apprentissage lent de sorte que les prédictions s'améliorent à mesure que vous construisez plus d'arbres.

Validation avec les données out-of-bag

Les lignes uniques de données qui ne font pas partie du processus de construction d'arbres pour un arbre donné sont les données out-of-bag. Les calculs pour les mesures des performances du modèle, telles que le log de vraisemblance, utilisent les données out-of-bag. Pour plus d'informations, reportez-vous à Méthodes et formules pour le récapitulatif du modèle dans Classification Random Forests®.

Pour un arbre donné dans la forêt, un vote de classe pour une ligne dans les données out-of-bag est la classe prévue pour la ligne d'après l'arbre unique. La classe prévue pour une ligne dans les données out-of-bag est la classe de vote le plus élevé sur tous les arbres de la forêt.

La probabilité de classe prévue pour une ligne dans les données out-of-bag est le rapport entre le nombre de votes pour la classe et le total des votes pour la ligne. La validation du modèle utilise les classes prévues, les probabilités de classe prévues et les valeurs de réponse réelles pour toutes les lignes qui apparaissent au moins une fois dans les données out-of-bag.

Détermination de la classe prévue pour une ligne dans l'ensemble d'apprentissage

Chaque arbre de la forêt vote pour une classe pour chaque ligne de l'ensemble d'apprentissage. La classe ayant le plus de votes de tous les arbres est la classe prévue. Le nombre de votes exprimés détermine également la probabilité prévue pour chaque classe :

Vk est le nombre d’arbres qui votent que la ligne i est dans la classe k et F est le nombre d’arbres dans la forêt.