Spécifier la méthode de validation pour CART® Classification

Stat > Analyse prédictive > CART® Classification > Validation

Choisissez la méthode de validation pour tester votre modèle. Habituellement, avec des échantillons plus petits, la méthode de validation croisée K-ensemble est appropriée. Avec des échantillons plus grands, vous pouvez sélectionner une fraction de cas à utiliser pour l’apprentissage et les tests.

Validation croisée K-ensemble(s)

Procédez comme suit pour utiliser la méthode de validation croisée K-ensemble afin de valider l’échantillon de test. La méthode de validation croisée sur K partitions est la méthode par défaut lorsque le nombre de lignes est ≤ 5 000.

  1. Dans la liste déroulante, sélectionnez Validation croisée K-ensemble(s).
  2. Choisissez l’une des options suivantes pour spécifier si vous souhaitez attribuer des partitions de manière aléatoire ou avec une colonne d’ID.
    • Assigner des lignes de chaque ensemble de maniére aléatorie: sélectionnez cette option afin que Minitab sélectionne de manière aléatoire des lignes pour chaque partition. Vous pouvez spécifier le nombre de partitions. La valeur par défaut de 10 fonctionne bien dans la plupart des cas. L’utilisation d’une valeur inférieure de K peut introduire plus de biais. Cependant, de plus grandes valeurs de K peuvent introduire plus de variabilité. Vous pouvez également définir une base pour le générateur de nombres aléatoires.
    • Assigner des lignes de chaque ensemble par la colonne de ID: sélectionnez cette option pour choisir les lignes à inclure dans chaque partition. Dans Colonne de ID, saisissez la colonne qui contient les lignes correspondant à chaque partition.
  3. (Facultatif) Cochez Stocker la colonne de ID pour la validation corisée de K-ensemble(s) pour enregistrer la colonne d’ID.

Validation avec un ensemble de test

Procédez comme suit afin de spécifier une fraction des données à utiliser pour l’apprentissage et les tests. La méthode de validation de l’ensemble de tests est la méthode par défaut lorsque le nombre de lignes est > 5 000. Dans de nombreux cas, 70 % des données sont utilisées pour l’apprentissage et 30 % pour les tests.

  1. Dans la liste déroulante, sélectionnez Validation avec un ensemble de test.
  2. Choisissez l’une des options suivantes pour spécifier si vous souhaitez sélectionner une fraction de lignes de manière aléatoire ou avec une colonne d’ID.
    • Sélectionnez une fraction de linges comme ensemble de test de maniére aléatoire: Sélectionnez cette option afin que Minitab sélectionne de manière aléatoire une fraction de lignes pour les tests. Vous pouvez spécifier la fraction. La valeur par défaut de 0,3 fonctionne bien dans la plupart des cas. Pour les plus grands ensembles de données, vous pouvez augmenter la fraction de données utilisée pour les tests. Vous pouvez également définir une base pour le générateur de nombres aléatoires.
    • Définir la division de formation/test par la colonne de ID: sélectionnez cette option pour choisir les lignes à inclure dans l’échantillon de test. Dans Colonne de ID, saisissez la colonne qui indique les lignes à utiliser pour l’échantillon de test. La colonne d’ID ne doit contenir que 2 valeurs. Dans Niveau pour l’ensemble de test, sélectionnez le niveau à utiliser comme échantillon de test.
  3. (Facultatif) Cochez Stocker la colonne ID pour la division de formation/test pour enregistrer la colonne d’ID.

Aucun

Si Aucun est sélectionné, aucune validation supplémentaire n’est effectuée.
En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique