Sélectionnez les critères pour déterminer le meilleur modèle et spécifiez des options pour les différents types de modèles. Vous pouvez également définir une base pour le générateur de nombres aléatoires.

Critère de sélection du meilleur modèle 

Choisissez le critère pour déterminer le meilleur type de modèle. Vous pouvez comparer les résultats de plusieurs méthodes pour déterminer le meilleur choix pour votre application.
  • R carré maximum : La méthode Gini est compatible avec de nombreuses applications. La méthode de la moindre erreur quadratique minimise la somme des erreurs quadratiques.
  • Minimum écart absolu moyenne : La méthode du moindre écart absolu minimise la somme des valeurs absolues des erreurs.

Utiliser la fonction perte de Huber avec la valeur de commutation K pour ajuster les modèles de régression TreeNet® : K =

la fonction de Huber est un hybride de l'erreur quadratique et de la fonction d'écart absolu. Avec la fonction Huber, spécifiez une valeur de commutation. La fonction de perte débute en tant qu'erreur quadratique. Elle reste l'erreur quadratique tant que la valeur est inférieure à la valeur de conversion. Si l'erreur quadratique dépasse la valeur de conversion, la fonction de perte devient l'écart absolu. Si l'écart absolu se retrouve inférieur à la valeur de conversion, la fonction de perte redevient l'erreur quadratique

Options pour les modèles de régression TreeNet®

Spécifiez les options du modèle de TreeNet ®.

Nombre d'arbres
Saisissez une valeur entre 1 et 5 000 pour définir le nombre d'arbres à créer. La valeur par défaut de 300 permet d'obtenir des résultats initiaux utiles.
Si le modèle sélectionné initialement est proche du nombre d'arbres que vous spécifiez, envisagez d'augmenter le nombre d'arbres pour rechercher un meilleur modèle.
Nombre maximal de nœuds terminaux par arbre et Profondeur maximale de l'arbre
Vous pouvez également limiter la taille des arbres. Sélectionnez l'une des options suivantes pour limiter la taille des arbres.
  • Nombre maximal de nœuds terminaux par arbre : saisissez une valeur entre 2 et 2 000 pour définir le nombre maximal de nœuds terminaux d'un arbre. Habituellement, la valeur par défaut de 6 fournit un équilibre adéquat entre la vitesse de calcul et l'examen des interactions entre les variables. Une valeur de 2 élimine l'examen des interactions.
  • Profondeur maximale de l'arbre : saisissez une valeur entre 2 et 1 000 pour définir la profondeur maximale d'un arbre. Le nœud racine correspond à une profondeur de 1. La profondeur par défaut est de 4. Dans de nombreuses applications, les profondeurs de 4 à 6 donnent des modèles relativement adéquats.
Taux d'apprentissage
Spécifiez jusqu’à 10 taux d’apprentissage.
Par défaut, l’analyse évalue 3 taux d’apprentissage. L’analyse règle généralement les hyperparamètres avec 3 valeurs de K : 0,001, 0,1 et max(0,01, 0,1 * min(1,0, N/10000)), où N = nombre de lignes dans la colonne de réponse. Si max(0,01, 0,1 * min(1,0, N/10000)) = 0,001 ou 0,1, alors l’analyse règle les hyperparamètres avec 0,001, 0,01 et 0,1.
Fraction de sous-échantillon
Spécifiez jusqu’à 10 fractions de sous-échantillon. À chaque itération, la procédure sélectionne un sous-ensemble différent qui contient cette fraction des données pour construire une arborescence. Le sous-échantillonnage protège du surajustement. Entrez un nombre supérieur ou égal à 0 et inférieur ou égal à 1. Les valeurs résiduelles normalisées sont 0,5 et 0,7.
Nombre de prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de tous les prédicteurs à chaque nœud. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un sous-ensemble aléatoire de prédicteurs différent à chaque nœud. Dans de tels cas, la racine carrée du nombre total de prédicteurs est un point de départ habituel. Après avoir utilisé la racine carrée et affiché le modèle, vous pouvez envisager de spécifier un nombre plus grand ou plus petit de prédicteurs avec un pourcentage du total.
  • Nombre total de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds.
  • Racine carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
  • K pour cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.

Options pour les modèles de régression Random Forests®

Spécifiez les options du modèle Random Forests®.

Nombre d'échantillons bootstrap pour cultiver les arbres
Saisissez une valeur pour déterminer le nombre d'échantillons bootstrap et le nombre d'arbres générés par l'analyse. Saisissez une valeur comprise entre 3 et 3000.
Spécifier un effectif d'échantillon bootstrap inférieur à la taille des données d'apprentissage
Sélectionnez cette option pour saisir une valeur qui définit la taille de l'échantillon bootstrap. Vous devez saisir une valeur supérieure ou égale à 5. Si vous saisissez une taille supérieure à la taille des données d'apprentissage, Minitab utilise une taille d'échantillon égale à celle des données d'apprentissage.
Nombre de prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de la racine carrée du nombre total de prédicteurs. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un plus grand ou d'un plus petit nombre de prédicteurs pour chaque nœud. Après avoir utilisé la racine carrée et affiché le modèle, envisagez de modifier le nombre de prédicteurs pour essayer d'améliorer les performances du modèle.
  • Nombre total de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds. La forêt créée par cette option est appelée forêt bootstrap.
  • Racine carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
  • K pour cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.
Nombre minimal de cas pour diviser un nœud interne
Spécifiez de 1 à 3 nombres minimums. Par défaut, l’analyse évalue 2, 5 et 8. La valeur par défaut est de 2 de sorte que tous les nœuds peuvent être divisés en nœuds plus petits jusqu'à ce qu'il ne soit plus possible de les diviser. Si les performances du modèle sont insuffisantes, envisagez de modifier cette valeur pour observer l'effet sur les performances.

Options pour les modèles de régression CART®

Spécifiez les options du modèle de CART®.

Critère de sélection d'un arbre optimal
Choisissez parmi les critères suivants pour sélectionner l’arbre dans les résultats. Vous pouvez comparer les résultats de différents arbres pour déterminer le meilleur choix pour votre application.
Dans K erreurs types du R carré maximal ; K =
Sélectionnez cette option pour que Minitab choisisse le plus petit arbre avec une valeur de R2 située à moins de K erreurs types de l'arbre avec la valeur de R2 maximale. Par défaut, K = 1, de sorte que l'arbre dans les résultats est le plus petit arbre de classification présentant une valeur de R2 située à moins d'1 erreur type de la valeur de R2 maximale.
R carré maximal
Sélectionnez cette option pour afficher les résultats de l'arbre avec la valeur maximale de R carré.
Nombre minimal de cas pour diviser un nœud interne
Saisissez le nombre minimal de cas qu’un nœud peut avoir et encore être divisé en davantage de nœuds. Elle est par défaut de 10. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si un nœud interne contient 10 cas ou plus, Minitab essaie d'effectuer une partition. Si le nœud interne contient 9 cas ou moins, Minitab n'essaie pas d'effectuer de partition.
La limite de nœud interne n’est pertinente que lorsque la valeur est au moins deux fois supérieure à la limite de nœud de terminal. Les limites internes de nœuds d'au moins 3 fois les limites de nœuds terminaux permettent d'utiliser un nombre raisonnable de séparateurs. Habituellement, des limites plus élevées sont raisonnables pour des ensembles de données plus importants.
Nombre minimal de cas autorisés pour un nœud terminal
Saisissez le nombre minimal de cas qui peuvent se trouver dans un nœud terminal. La valeur par défaut est 3. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si une partition crée un nœud avec moins de 3 cas, Minitab n'effectue pas de partition.

Base pour le générateur de nombres aléatoires

Vous pouvez spécifier une base pour le générateur de nombres aléatoires afin de sélectionner de manière aléatoire les sous-échantillons et le sous-ensemble des prédicteurs. Généralement, vous n'avez pas besoin de modifier la base. Vous pouvez modifier la base pour explorer la sensibilité des résultats aux sélections aléatoires ou pour assurer la même sélection aléatoire pour les analyses répétées.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique