Spécifier la méthode de validation pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet^®

Module d'analyse prédictive > Classification TreeNet® > Ajuster le modèle > Validation

Module d'analyse prédictive > Classification TreeNet® > Découvrir les prédicteurs principaux > Validation

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Choisissez la méthode de validation pour tester votre modèle. Habituellement, avec des échantillons plus petits, la méthode de validation croisée de K ensembles est appropriée. Avec des échantillons plus grands, vous pouvez sélectionner une fraction de cas à utiliser pour l'apprentissage et les tests.

Validation croisée sur K ensembles

Procédez comme suit pour utiliser la méthode de validation croisée sur K ensembles afin de valider l'échantillon de test. La méthode de validation croisée sur K ensembles est la méthode par défaut lorsque le nombre de lignes est ≤ 2000.

Dans la liste déroulante, sélectionnez Validation croisée sur K ensembles.
Choisissez l'une des options suivantes pour spécifier si vous souhaitez attribuer des partitions de manière aléatoire ou avec une colonne ID.
- Affecter aléatoirement des lignes de chaque partition : sélectionnez cette option pour que Minitab sélectionne des lignes au hasard pour chaque partition. Vous pouvez spécifier le nombre de partitions. Pour Ajuster le modèle, la valeur par défaut de 5 fonctionne bien dans la plupart des cas. Pour Découvrir les prédicteurs principaux, la valeur par défaut de 3 rend les calculs relativement plus rapides. Un plus grand nombre d'ensembles dans les deux cas augmente les chances de choisir un modèle prédictif plus fiable, en particulier pour les ensembles de données avec moins de lignes, mais peut augmenter considérablement le temps de calcul.
- Affecter des lignes de chaque partition par colonne d'ID : sélectionnez cette option pour choisir les lignes à inclure dans chaque partition. Dans Colonne d'ID, saisissez la colonne qui contient les lignes correspondant à chaque partition.
(Facultatif) Cochez Stocker la colonne d'ID pour la validation croisée sur K partitions pour enregistrer la colonne ID.

Validation avec un ensemble de test

Procédez comme suit afin de spécifier une fraction des données à utiliser pour l’apprentissage et les tests. La méthode de validation de l'ensemble de test est la méthode par défaut lorsque le nombre de lignes est > 2 000. Dans de nombreux cas, 70 % des données sont utilisées pour l'apprentissage et 30 % pour les tests.

Dans la liste déroulante, sélectionnez Validation avec un ensemble de test.
Sélectionnez une des options suivantes pour spécifier si vous souhaitez sélectionner une fraction de lignes de manière aléatoire ou avec une colonne ID.
- Sélectionner aléatoirement une fraction de lignes comme ensemble de test : sélectionnez cette option pour que Minitab sélectionne de manière aléatoire une fraction de lignes pour les tests. Vous pouvez spécifier la fraction. La valeur par défaut de 0,3 fonctionne bien dans la plupart des cas. Pour les plus grands ensembles de données, vous pouvez augmenter la fraction de données utilisée pour les tests. Vous pouvez également définir une base pour le générateur de nombres aléatoires.
- Définir la division d'apprentissage/de test par colonne d'ID : sélectionnez cette option pour choisir les lignes à inclure dans l'échantillon de test. Dans Colonne d'ID, saisissez la colonne qui indique les lignes à utiliser pour l'échantillon de test. La colonne ID ne doit contenir que 2 valeurs. Dans Niveau pour l'ensemble de test, sélectionnez le niveau à utiliser comme échantillon de test.
(Facultatif) Cochez Stocker la colonne d'ID pour la division d'apprentissage/de test pour enregistrer la colonne ID.

Aucune