Sélectionnez les critères pour déterminer le meilleur modèle et spécifiez les options pour les différents types de modèles. Vous pouvez également spécifier une base pour le générateur de nombres aléatoires.

Critère de sélection du meilleur modèle

Choisissez le critère pour déterminer le meilleur type de modèle. Vous pouvez comparer les résultats de plusieurs méthodes pour déterminer le meilleur choix pour votre application.
  • R carré maximum : La méthode par défaut fonctionne bien dans de nombreuses applications. Cette méthode minimise la somme des erreurs au carré.
  • Minimum écart absolu moyenne : Cette méthode minimise la somme des valeurs absolues des erreurs.

Utiliser la fonction perte de Huber avec la valeur de commutation K pour ajuster les modèles de régression TreeNet® : K =

La fonction de Huber est un hybride des fonctions R-carré maximum et de déviation absolue moyenne minimale. Avec la fonction Huber, spécifiez une valeur de commutation. La fonction de perte débute en tant qu'erreur quadratique. Elle reste l'erreur quadratique tant que la valeur est inférieure à la valeur de conversion. Si l'erreur quadratique dépasse la valeur de conversion, la fonction de perte devient l'écart absolu. Si l'écart absolu se retrouve inférieur à la valeur de conversion, la fonction de perte redevient l'erreur quadratique.

Options pour les modèles de régression TreeNet®

Spécifiez les options du modèle TreeNet® .

Nombre d'arbres
Saisissez une valeur entre 1 et 5 000 pour définir le nombre d'arbres à créer. La valeur par défaut de 300 permet d'obtenir des résultats initiaux utiles.
Si le modèle sélectionné initialement est proche du nombre d'arbres que vous spécifiez, envisagez d'augmenter le nombre d'arbres pour rechercher un meilleur modèle.
Nombre maximal de nœuds terminaux par arbre et Profondeur maximale de l'arbre
Vous pouvez également limiter la taille des arbres. Sélectionnez l'une des options suivantes pour limiter la taille des arbres.
  • Nombre maximal de nœuds terminaux par arbre : saisissez une valeur entre 2 et 2 000 pour définir le nombre maximal de nœuds terminaux d'un arbre. Habituellement, la valeur par défaut de 6 fournit un équilibre adéquat entre la vitesse de calcul et l'examen des interactions entre les variables. Une valeur de 2 élimine l'examen des interactions.
  • Profondeur maximale de l'arbre : saisissez une valeur entre 2 et 1 000 pour définir la profondeur maximale d'un arbre. Le nœud racine correspond à une profondeur de 1. La profondeur par défaut est de 4. Dans de nombreuses applications, les profondeurs de 4 à 6 donnent des modèles relativement adéquats.
Taux d'apprentissage
Spécifiez jusqu’à 10 taux d’apprentissage.
Par défaut, l’analyse évalue 3 taux d’apprentissage. L’analyse accorde généralement les hyperparamètres avec 3 valeurs de K: 0,001, 0,1 et max(0,01, 0,1 * min(1,0, N/10000)), où N = nombre de lignes dans la colonne de réponse. Si max(0.01, 0.1 * min(1.0, N/10000)) = 0.001 ou 0.1, alors l’analyse ajuste les hyperparamètres avec 0.001, 0.01 et 0.1.
Fraction de sous-échantillon
Spécifiez jusqu’à 10 fractions de sous-échantillon. À chaque itération, la procédure sélectionne un sous-ensemble différent qui contient cette fraction des données pour construire une arborescence. Le sous-échantillonnage protège contre le surajustement. Les fractions du sous-échantillon doivent être supérieures à 0 et inférieures ou égales à 1. Les valeurs par défaut sont 0,5 et 0,7.
Nombre de prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de tous les prédicteurs à chaque nœud. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un sous-ensemble aléatoire de prédicteurs différent à chaque nœud. Dans de tels cas, la racine carrée du nombre total de prédicteurs est un point de départ habituel. Après avoir utilisé la racine carrée et affiché le modèle, vous pouvez envisager de spécifier un nombre plus grand ou plus petit de prédicteurs avec un pourcentage du total.
  • Nombre total de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds.
  • Racine carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
  • K pour cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.

Options pour les modèles de régression Random Forests®

Spécifiez les options du modèle Forêts aléatoires® .

Nombre d'échantillons bootstrap pour cultiver les arbres
Saisissez une valeur pour déterminer le nombre d'échantillons bootstrap et le nombre d'arbres générés par l'analyse. Saisissez une valeur comprise entre 3 et 3000.
Spécifier un effectif d'échantillon bootstrap inférieur à la taille des données d'apprentissage
Sélectionnez cette option pour saisir une valeur qui définit la taille de l'échantillon bootstrap. Vous devez saisir une valeur supérieure ou égale à 5. Si vous saisissez une taille supérieure à la taille des données d'apprentissage, Minitab utilise une taille d'échantillon égale à celle des données d'apprentissage.
Nombre de prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de la racine carrée du nombre total de prédicteurs. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un plus grand ou d'un plus petit nombre de prédicteurs pour chaque nœud. Après avoir utilisé la racine carrée et affiché le modèle, envisagez de modifier le nombre de prédicteurs pour essayer d'améliorer les performances du modèle.
  • Nombre total de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds. La forêt créée par cette option est appelée forêt bootstrap.
  • Racine carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
  • K pour cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.
Nombre minimal de cas pour diviser un nœud interne
Spécifiez de 1 à 3 nombres minimum. Par défaut, l’analyse évalue 2, 5 et 8. Lorsque le nombre est égal à 2, tous les nœuds peuvent être divisés en nœuds plus petits jusqu’à ce qu’une autre division soit impossible. Si les performances du modèle sont inadéquates, envisagez d’essayer d’autres valeurs pour déterminer l’effet sur les performances.

Options pour les modèles de régression CART®

Spécifiez les options du modèle CART® .

Critère de sélection d'un arbre optimal
Choisissez entre ces critères pour produire l’arbre dans les résultats. Vous pouvez comparer les résultats de différents arbres pour déterminer le meilleur choix pour votre application.
Dans K erreurs types du R carré maximal ; K =
Sélectionnez cette option pour que Minitab choisisse le plus petit arbre avec une valeur de R2 située à moins de K erreurs types de l'arbre avec la valeur de R2 maximale. Par défaut, K = 1, de sorte que l'arbre dans les résultats est le plus petit arbre de logistique présentant une valeur de R2 située à moins d'1 erreur type de la valeur de R2 maximale.
R carré maximal
Sélectionnez cette option pour afficher les résultats de l'arbre avec la valeur maximale de R carré.
Nombre minimal de cas pour diviser un nœud interne
Saisissez le nombre minimal de cas qu’un nœud peut avoir et encore être divisé en davantage de nœuds. Elle est par défaut de 10. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si un nœud interne contient 10 cas ou plus, Minitab essaie d'effectuer une partition. Si le nœud interne contient 9 cas ou moins, Minitab n'essaie pas d'effectuer de partition.
La limite de nœud interne n’est pertinente que lorsque la valeur est au moins deux fois la limite de nœud terminal. Des limites de nœuds internes d’au moins 3 fois les limites de nœuds terminaux permettent un nombre raisonnable de séparateurs. Habituellement, des limites plus grandes sont raisonnables pour des ensembles de données plus volumineux.
Nombre minimal de cas autorisés pour un nœud terminal
Saisissez le nombre minimal de cas qui peuvent se trouver dans un nœud terminal. La valeur par défaut est 3. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si une partition crée un nœud avec moins de 3 cas, Minitab n'effectue pas de partition.

Options pour les modèles de régression CART®

Spécifiez les options du modèle MARS® .

Nombre maximal de fonctions de base
La valeur par défaut de 30 fonctionne bien dans la plupart des cas. Considérez une valeur plus grande lorsque 30 fonctions de base semblent trop petites pour les données. Par exemple, considérez une valeur plus élevée lorsque vous pensez que plus de 30 prédicteurs sont importants.
Si vous n’êtes pas certain que 30 suffisent, passez en revue les résultats initiaux. Par exemple, une valeur plus grande est plus susceptible d’améliorer l’ajustement du modèle si la valeur R-carré tend à la hausse à mesure que l’analyse ajoute des fonctions de base.
Nombre minimal d'observations entre les noeuds
Autoriser MARS® à choisir
L’analyse utilise la taille de l’échantillon et la complexité du modèle pour sélectionner automatiquement une valeur. La valeur automatique fonctionne bien dans la plupart des cas.
λ spécifié par l'utilisateur
Une valeur de 1 indique que des points de données consécutifs peuvent être des points où la fonction de base change. La valeur de 1 permet les changements les plus rapides dans les prédictions du modèle. Tenez compte de différentes valeurs pour voir l’effet sur l’ajustement du modèle. Par exemple, pour certaines données, des valeurs plus élevées créent des modèles plus lisses qui sont moins susceptibles de surajuster les données d’apprentissage. Ces modèles plus lisses sont parfois moins précis sur certaines plages de données.
Interactions prédictives autorisées

Autorisez les interactions de prédicteurs jusqu’à l’ordre que vous spécifiez. Une interaction signifie que l’effet d’un prédicteur dépend de la valeur d’autres prédicteurs. Par exemple, la vitesse à laquelle le grain sèche dans un four dépend du temps passé dans le four, mais l’effet du temps dépend de la température du four. Les variables de temps et de température interagissent.

Ne pas autoriser d'interaction (modèle additif)
n'autorisez aucune interaction entre prédicteurs. Dans ce cas, Minitab utilise le modèle additif dans lequel les fonctions de base n’interagissent pas.
Autoriser toutes les interactions jusqu'à l'ordre 2
Order spécifie le nombre de prédicteurs différents qui peuvent se trouver dans une fonction de base. Par exemple, un ordre de 2 indique que l’effet d’un prédicteur peut dépendre de la valeur de 1 autre prédicteur. Les fonctions de base suivantes sont un exemple d’interaction d’ordre 2 :
  • BF1 = max(0, X1 − 800)
  • BF2 = max(0, X2 − 50) * BF1

Base pour le générateur de nombres aléatoires

Vous pouvez spécifier une base pour le générateur de nombres aléatoires afin de sélectionner de manière aléatoire les sous-échantillons et le sous-ensemble des prédicteurs. Généralement, vous n'avez pas besoin de modifier la base. Vous pouvez modifier la base pour explorer la sensibilité des résultats aux sélections aléatoires ou pour assurer la même sélection aléatoire pour les analyses répétées.