Exemple de Ajuster le modèle pour Régression TreeNet®

Remarque

Cette commande est disponible avec la commande Module d'analyse prédictive. Cliquez ici pour plus d’informations sur la façon d’activer le module.

Une équipe de chercheurs veut utiliser des données sur un emprunteur et l’emplacement d’une propriété pour prédire le montant d’un prêt hypothécaire. Les variables comprennent le revenu, la race et le sexe de l’emprunteur ainsi que l’emplacement de la propriété dans le secteur de recensement et d’autres informations sur l’emprunteur et le type de propriété.

Après une première exploration pour Régression CART® identifier les prédicteurs importants, l’équipe considère Régression TreeNet® maintenant comme une étape de suivi nécessaire. Les chercheurs espèrent mieux comprendre les relations entre la réponse et les prédicteurs importants et prédire de nouvelles observations avec une plus grande précision.

Ces données ont été adaptées sur la base d’un ensemble de données publiques contenant des informations sur les prêts hypothécaires des banques fédérales de prêts immobiliers. Les données originales proviennent de fhfa.gov.

  1. Ouvrez l’exemple de jeu de données EmpruntsContractés.MTW.
  2. Choisissez Module d'analyse prédictive > Régression TreeNet® > Ajuster le modèle.
  3. Dans Réponse, entrez Montant du prêt.
  4. Dans Prédicteurs continus, entrez Revenu annuelRevenu du secteur.
  5. Dans Prédicteurs de catégorie, entrez Primo-accédant à la propriétéZone statistique de base.
  6. Cliquez sur Validation.
  7. Dans Méthode de validation, sélectionnez Validation croisée sur K ensembles.
  8. Dans Nombre de partitions (K), entrez 3.
  9. Cliquez dans OK chaque boîte de dialogue.

Interpréter les résultats

Pour cette analyse, Minitab cultive 300 arbres et le nombre optimal d’arbres est de 300. Étant donné que le nombre optimal d’arbres est proche du nombre maximal d’arbres que le modèle cultive, les chercheurs répètent l’analyse avec plus d’arbres.

Récapitulatif du modèle

Nombre total de prédicteurs34
Prédicteurs importants19
Nombre d'arbres développés300
Nombre optimal d'arbres300
StatistiquesApprentissageTest
R carré94,02%84,97%
Racine de l'erreur quadratique moyenne (RMSE)32334,558751227,9431
Erreur quadratique moyenne (MSE)1,04552E+092,62430E+09
Ecart absolu moyen (MAD)22740,102035974,9695
Pourcentage d'erreur absolue moyen (MAPE)0,12380,1969

Exemple avec 500 arbres

  1. Sélectionnez Régler les hyperparamètres dans les résultats.
  2. Dans Nombre d'arbres, entrez 500.
  3. Cliquez sur Afficher les résultats.

Interpréter les résultats

Pour cette analyse, il y avait 500 arbres cultivés et le nombre optimal d’arbres pour la combinaison des hyperparamètres avec la meilleure valeur du critère de précision est de 500. La fraction du sous-échantillon passe à 0,7 au lieu de 0,5 dans l’analyse initiale. Le taux d’apprentissage passe à 0,0437 au lieu de 0,04372 dans l’analyse initiale.

Examinez à la fois le tableau récapitulatif du modèle et le graphique R au carré en fonction du nombre d’arbres. La valeur R2 lorsque le nombre d’arbres est de 500 est de 86,79 % pour les données de test et de 96,41 % pour les données d’entraînement. Ces résultats montrent une amélioration par rapport à une analyse de régression traditionnelle et à un Régression CART®.

Méthode

Fonction de perteErreur quadratique
Critères de sélection du nombre d'arbres optimalR carré maximum
Validation de modèleValidation croisée pour 3 ensemble(s)
Taux d'apprentissage0,04372
Fraction de sous-échantillon0,5
Nombre maximal de nœuds terminaux par arbre6
Taille minimale du nœud terminal3
Nombre de prédicteurs sélectionnés pour la partition des nœudsNombre total de prédicteurs = 34
Lignes utilisées4372

Informations de réponse

MoyenneEcTypMinimumQ1MédianeQ3Maximum
235217132193238001360002082933007161190000
Régression TreeNet® avec réglage des hyperparamètres : Montant du prêt vs Revenu annuel; Rapport de revenu; Rapport de frais de logement; Rapport dette-revenu; Nombre emprunteurs; Age; Age du co-emprunteur; Pourcentage de minorités de la; Revenu de la zone; Revenu local; Revenu du secteur; Primo-accédant à la propriété; Code occupation; Travailleur indépendant; Origine ethnique du co-emprunte; Origine ethnique du co-emprun_1; Objet du prêt; Sexe; Nombre de logements; Appartenance ethnique; Origine ethnique du co-emprun_2; Sexe du co-emprunteur; Origine ethnique 2; Appartenance ethnique du co-emp; Cote de solvabilité; Cote de solvabilité du co-empru; Origine ethnique; Origine ethnique du co-emprun_3; Origine ethnique du co-emprun_4; Type de bien; District fédéral; Code Etat; Code de comté; Zone statistique de base

Méthode

Fonction de perteErreur quadratique
Critères de sélection du nombre d'arbres optimalR carré maximum
Validation de modèleValidation croisée pour 3 ensemble(s)
Taux d'apprentissage0,001; 0,0437; 0,1
Fraction de sous-échantillon0,5; 0,7
Nombre maximal de nœuds terminaux par arbre6
Taille minimale du nœud terminal3
Nombre de prédicteurs sélectionnés pour la partition des nœudsNombre total de prédicteurs = 34
Lignes utilisées4372

Informations de réponse

MoyenneEcTypMinimumQ1MédianeQ3Maximum
235217132193238001360002082933007161190000

Optimisation des hyperparamètres

Test
ModèleNombre
optimal
d'arbres
R carré (%)Écart
absolu
moyen
Taux
d'apprentissage
Fraction de
sous-échantillon
Nombre
maximal de
nœuds
terminaux
150036,4382617,10,00100,56
249585,8734560,50,04370,56
349585,6334889,30,10000,56
450036,8682145,00,00100,76
5*50086,7933052,60,04370,76
645186,6733262,30,10000,76
* Le modèle optimal présente un R carré maximal. Les résultats du modèle optimal sont
     affichés ci-après.

Récapitulatif du modèle

Nombre total de prédicteurs34
Prédicteurs importants24
Nombre d'arbres développés500
Nombre optimal d'arbres500
StatistiquesApprentissageTest
R carré96,41%86,79%
Racine de l'erreur quadratique moyenne (RMSE)25035,724348029,9503
Erreur quadratique moyenne (MSE)6,26787E+082,30688E+09
Ecart absolu moyen (MAD)17309,393633052,6087
Pourcentage d'erreur absolue moyen (MAPE)0,09300,1790

Le graphique Importance relative des variables trace les prédicteurs dans l’ordre de leur effet sur l’amélioration du modèle lorsque des divisions sont effectuées sur un prédicteur au cours de la séquence d’arbres. La variable prédictive la plus importante est la zone statistique basée sur la base. Si l’importance de la variable prédictive principale, la zone statistique de base, est de 100 %, la variable importante suivante, le revenu annuel, a une contribution de 92,8 %. Cela signifie que le revenu annuel de l’emprunteur est à 92,8% aussi important que la situation géographique du bien.

Le nuage de points entre les montants des prêts ajustés et les montants réels des prêts montre la relation entre les valeurs ajustées et réelles pour les données d’entraînement et les données de test. Vous pouvez survoler les points du graphique pour voir plus facilement les valeurs tracées. Dans cet exemple, tous les points se trouvent approximativement près de la droite de référence y=x.

Utilisez les tracés de dépendances partielles pour obtenir des informations sur la façon dont les variables importantes ou les paires de variables affectent les valeurs de réponse ajustées. Les graphiques de dépendance partielle montrent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Le premier graphique illustre le montant ajusté du prêt pour chaque domaine statistique de base. Étant donné qu’il y a beaucoup de points de données, vous pouvez survoler des points de données individuels pour voir les valeurs x et y spécifiques. Par exemple, le point le plus élevé sur le côté droit du graphique est pour la zone centrale numéro 41860 et le montant du prêt ajusté est d’environ 378069 $.

Le deuxième graphique montre que le montant du prêt ajusté augmente à mesure que le revenu annuel augmente. Une fois que le revenu annuel atteint 300000 $, les niveaux de montant du prêt ajusté augmentent à un rythme plus lent.

Le troisième graphique illustre que le montant du prêt ajusté augmente à mesure que le ratio à court terme augmente.

Le quatrième graphique illustre le montant du prêt ajusté pour chaque code de comté de recensement. Comme pour le premier graphique, vous pouvez survoler certains points de données pour obtenir plus d’informations. Sélectionnez Graphiques à un prédicteur ou Graphiques à deux prédicteurs pour produire des tracés pour d’autres variables.