Spécifier la méthode de validation pour Découvrir le meilleur modèle (réponse continue)

Module d'analyse prédictive > Auto-apprentissage par la machine automatisé > Découvrir le meilleur modèle (réponse continue) > Validation
Remarque

Cette commande est disponible avec le . Cliquez ici pour plus d'informations sur l'activation du module.

Choisissez la méthode de validation pour déterminer le meilleur type de modèle. Habituellement, avec des échantillons plus petits, la méthode de validation croisée sur K partitions est appropriée. Avec des échantillons plus grands, vous pouvez sélectionner une fraction de cas à utiliser pour l'apprentissage et les tests.

Les sélections que Minitab présente dépendent de la taille de l’ensemble de données. Les sélections se combinent avec les sélections de la Termes sous-boîte de dialogue pour fournir une analyse qui équilibre la rigueur et la vitesse de calcul :
n – 1 500
La méthode de validation dans la Validation sous-boîte de dialogue est Validation croisée sur K ensembles. Le nombre d'essais est de 5. La Méthode de sélection du modèle de régressionTermes sous-boîte de dialogue est Pas à pas.
1 500 + 0,2 = 2 000
La méthode de validation dans la Validation sous-boîte de dialogue est Validation croisée sur K ensembles. Le nombre d'essais est de 5. La Méthode de sélection du modèle de régressionTermes sous-boîte de dialogue est Sélection ascendante avec validation.
2 000 / n
La méthode de validation dans la Validation sous-boîte de dialogue est Validation avec un ensemble de test. La proportion de données dans l’ensemble de test est de 0,3. La Méthode de sélection du modèle de régressionTermes sous-boîte de dialogue est Sélection ascendante avec validation.

Validation croisée sur K ensembles

Procédez comme suit pour utiliser la méthode de validation croisée sur K ensembles afin de valider l'échantillon de test.

  1. Dans la liste déroulante, sélectionnez Validation croisée sur K ensembles.
  2. Indiquer le nombre de décalages La valeur par défaut de 5 fonctionne bien dans la plupart des cas. Un plus grand nombre d'ensembles dans les deux cas augmente les chances de choisir un modèle prédictif plus fiable, en particulier pour les ensembles de données avec moins de lignes, mais peut augmenter considérablement le temps de calcul. Un nombre plus important peut augmenter considérablement le temps de calcul.
  3. (Facultatif) Sélectionnez Stocker la colonne d'ID pour la validation croisée sur K partitions pour enregistrer la colonne d'ID.

Validation avec un ensemble de test

Procédez comme suit afin de spécifier une fraction des données à utiliser pour l’apprentissage et les tests. Dans de nombreux cas, 70 % des données sont utilisées pour l'apprentissage et 30 % pour les tests.

  1. Dans la liste déroulante, sélectionnez Validation avec un ensemble de test.
  2. Spécifiez la fraction des données pour l’ensemble de tests. La valeur par défaut (0,3) fonctionne bien dans la plupart des cas. Pour les plus grands ensembles de données, vous pouvez augmenter la fraction de données utilisée pour les tests. Vous pouvez également définir une base pour le générateur de nombres aléatoires. Lorsque vous entrez la même base dans différentes exécutions de l’analyse, l’affectation des lignes au jeu de tests est la même.
  3. (Facultatif) Sélectionnez Stocker la colonne d'ID pour la division d'apprentissage/de test pour enregistrer la colonne d'ID.