Spécifier la méthode de validation pour Régression Random Forests®

Module d'analyse prédictive > Régression Random Forests® > Validation
Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Définissez si la validation est réalisée avec un ensemble de données de test en plus des données out-of-bag.

Validation avec les données out-of-bag

La fonction Classification Random Forests® utilise l'échantillonnage bootstrap pour chaque arbre. Chaque enregistrement d'un échantillon bootstrap est sélectionné de manière aléatoire avec remise à partir de l'ensemble de données d'origine. Certains enregistrements sont exclus de chaque échantillon bootstrap par rapport au total des observations de l'ensemble de données d'origine. Les lignes exclues d'un échantillon bootstrap forment un ensemble de données out-of-bag.

Validation avec un ensemble de tests en plus des données out-of-bag

Procédez comme suit afin de spécifier une fraction des données à utiliser pour l’apprentissage et les tests. Si vous sélectionnez Validation avec un ensemble de tests en plus des données out-of-bag, Minitab utilise par défaut 30 % des données pour les tests.

  1. Dans la liste déroulante, sélectionnez Validation avec un ensemble de tests en plus des données out-of-bag.
  2. Sélectionnez une des options suivantes pour spécifier si vous souhaitez sélectionner une fraction de lignes de manière aléatoire ou avec une colonne ID.
    • Sélectionner aléatoirement une fraction de lignes comme ensemble de test : sélectionnez cette option pour que Minitab sélectionne de manière aléatoire une fraction de lignes pour les tests. Vous pouvez spécifier la fraction. La valeur par défaut de 0,3 fonctionne bien dans la plupart des cas. Pour les plus grands ensembles de données, vous pouvez augmenter la fraction de données utilisée pour les tests. Vous pouvez également définir une base pour le générateur de nombres aléatoires.
    • Définir la division d'apprentissage/de test par colonne d'ID : sélectionnez cette option pour choisir les lignes à inclure dans l'échantillon de test. Dans Colonne d'ID, saisissez la colonne qui indique les lignes à utiliser pour l'échantillon de test. La colonne ID ne doit contenir que 2 valeurs. Dans Niveau pour l'ensemble de test, sélectionnez le niveau à utiliser comme échantillon de test.
  3. (Facultatif) Cochez Stocker la colonne d'ID pour la division d'apprentissage/de test pour enregistrer la colonne ID.