Sélectionner des options d'analyse pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet®

Les options d’analyse sont les mêmes pour les analyses suivantes :

Module d'analyse prédictive > Régression TreeNet® > Ajuster le modèle > Options

Module d'analyse prédictive > Régression TreeNet® > Découvrir les prédicteurs principaux > Options

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Sélectionnez les options d'analyse.

Fonction de perte
Sélectionnez la fonction de perte pour créer votre modèle. Vous pouvez comparer les résultats de différentes fonctions pour déterminer le meilleur choix pour votre application.
  • Erreur quadratique : la fonction d'erreur quadratique est la fonction par défaut. Il s'agit d'une fonction de perte reposant sur la moyenne. La fonction de perte est compatible avec de nombreuses applications.
  • Ecart absolu : la fonction d'écart absolu est une fonction de perte reposant sur la médiane.
  • Huber : la fonction de Huber est un hybride de l'erreur quadratique et de la fonction d'écart absolu.
Avec la fonction de Huber, spécifiez une Valeur de conversion. La fonction de perte débute en tant qu'erreur quadratique. Elle reste l'erreur quadratique tant que la valeur est inférieure à la valeur de conversion. Si l'erreur quadratique dépasse la valeur de conversion, la fonction de perte devient l'écart absolu. Si l'écart absolu se retrouve inférieur à la valeur de conversion, la fonction de perte redevient l'erreur quadratique
Nombre d'arbres
Saisissez une valeur entre 1 et 5 000 pour définir le nombre d'arbres à créer. La valeur par défaut de 300 permet d'obtenir des résultats initiaux utiles.
Si le modèle sélectionné initialement est proche du nombre d'arbres que vous spécifiez, envisagez d'augmenter le nombre d'arbres pour rechercher un meilleur modèle.
Nombre maximal de nœuds terminaux par arbre et Profondeur maximale de l'arbre
Vous pouvez également limiter la taille des arbres. Sélectionnez l'une des options suivantes pour limiter la taille des arbres.
  • Nombre maximal de nœuds terminaux par arbre : saisissez une valeur entre 2 et 2 000 pour définir le nombre maximal de nœuds terminaux d'un arbre. Habituellement, la valeur par défaut de 6 fournit un équilibre adéquat entre la vitesse de calcul et l'examen des interactions entre les variables. Une valeur de 2 élimine l'examen des interactions.
  • Profondeur maximale de l'arbre : saisissez une valeur entre 2 et 1 000 pour définir la profondeur maximale d'un arbre. Le nœud racine correspond à une profondeur de 1. La profondeur par défaut est de 4. Dans de nombreuses applications, les profondeurs de 4 à 6 donnent des modèles relativement adéquats.
Nombre minimal de cas autorisés pour un nœud terminal
Saisissez le nombre minimal de cas pour un nœud terminal. Par exemple, si la taille minimale est de 3 et une division crée un nœud avec moins de 3 cas, Minitab n'effectue pas de division.
Protection contre le surajustement
Utilisez les options suivantes pour limiter le surajustement du modèle.
Taux d'apprentissage
Le taux d'apprentissage est l'un des deux hyperparamètres extrêmement importants que vous pouvez affiner afin d'identifier un modèle optimal pour vos données.
Par défaut, si le nombre de cas dans vos données d'apprentissage est de 1 000 ou moins, Minitab utilise 0,01 comme taux d'apprentissage. Pour les ensembles de données de plus de 1 000 cas, le taux d'apprentissage par défaut est max[0,01, 0,1 * min(1,0, N/10 000)]. Par exemple, lorsque l'ensemble de données comporte 9 000 réponses, le taux d'apprentissage est de 0,09.
Si le modèle initial ne prédit pas correctement vos données, envisagez d'augmenter ou de diminuer le taux d'apprentissage de 5 ou de 10 fois pour voir si vous pouvez obtenir un meilleur modèle.
Fraction de sous-échantillon
Spécifiez la proportion des données d'apprentissage à sélectionner de manière aléatoire pour créer chaque arbre dans l'analyse. Généralement, une fraction de 0,5 produit de bons résultats. Envisagez d'augmenter la valeur par défaut de la fraction de 0,5 à 0,70 ou plus si le modèle initial n'est pas bien ajusté à vos données.
Nombre de prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de tous les prédicteurs à chaque nœud. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un sous-ensemble aléatoire de prédicteurs différent à chaque nœud. Dans de tels cas, la racine carrée du nombre total de prédicteurs est un point de départ habituel. Après avoir utilisé la racine carrée et affiché le modèle, vous pouvez envisager de spécifier un nombre plus grand ou plus petit de prédicteurs avec un pourcentage du total.
  • Nombre total de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds.
  • Racine carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
  • K pour cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.
Base pour le générateur de nombres aléatoires
Vous pouvez spécifier une base pour le générateur de nombres aléatoires afin de sélectionner de manière aléatoire les sous-échantillons et le sous-ensemble des prédicteurs. Généralement, vous n'avez pas besoin de modifier la base. Vous pouvez modifier la base pour explorer la sensibilité des résultats aux sélections aléatoires ou pour assurer la même sélection aléatoire pour les analyses répétées.
Pondérations
Saisissez une colonne qui contient les pondérations de cas. La colonne doit comporter le même nombre de lignes que la colonne de réponse. Les valeurs doivent être ≥ 0. Minitab omet les lignes qui contiennent des valeurs manquantes ou des zéros provenant de l'analyse.