Exemple de Ajuster le modèle pour Régression TreeNet®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Une équipe de chercheurs souhaite utiliser les données sur un emprunteur et l'emplacement d'un bien pour prédire le montant d'un prêt. Les variables comprennent le revenu, l'origine ethnique, le sexe de l'emprunteur ainsi que la zone de recensement du bien et d'autres renseignements sur l'emprunteur et le type de bien.

Après l'exploration initiale avec Régression CART® visant à identifier les prédicteurs importants, l'équipe considère maintenant Régression TreeNet® comme une étape de suivi nécessaire. Les chercheurs espèrent mieux comprendre les relations entre la réponse et les prédicteurs importants et effectuer des prédictions plus précises pour les nouvelles observations.

Ces données ont été adaptées à partir d'un ensemble de données public contenant des informations sur les prêts immobiliers contractés auprès de banques fédérales de prêts immobiliers. Les données d'origine proviennent de fhfa.gov.

  1. Ouvrez l'ensemble de données échantillons EmpruntsContractés.MTW.
  2. Sélectionnez Module d'analyse prédictive > Régression TreeNet® > Ajuster le modèle.
  3. Dans Réponse, saisissez Montant du prêt.
  4. Dans Prédicteurs continus, saisissez Revenu annuelRevenu du secteur .
  5. Dans Prédicteurs de catégorie, saisissez Primo-accédant à la propriétéZone statistique de base .
  6. Cliquez sur Validation.
  7. Dans Méthode de validation, sélectionnez Validation croisée sur K ensembles.
  8. Dans Nombre de partitions (K), saisissez 3.
  9. Cliquez sur OK dans chaque boîte de dialogue

Interpréter des résultats

Pour cette analyse, Minitab développe 300 arbres et le nombre optimal d'arbres est de 300. Du fait que le nombre optimal d'arbres est proche du nombre maximal d'arbres que le modèle développe, les chercheurs répètent l'analyse avec plus d'arbres.

Régression TreeNet®: Montant du p vs Revenu annue; Rapport de r; ...

Récapitulatif du modèle Nombre total de prédicteurs 34 Prédicteurs importants 19 Nombre d'arbres développés 300 Nombre optimal d'arbres 300 Statistiques Apprentissage Test R carré 94,02% 84,97% Racine de l'erreur quadratique moyenne (RMSE) 32334,5587 51227,9431 Erreur quadratique moyenne (MSE) 1045523683,1610 2624302154,9887 Ecart absolu moyen (MAD) 22740,1020 35974,9695 Pourcentage d'erreur absolue moyen (MAPE) 0,1238 0,1969

Exemple avec 500 arbres

  1. Après le tableau récapitulatif du modèle, cliquez sur Affiner les hyperparamètres pour identifier un meilleur modèle.
  2. Dans Nombre d'arbres, saisissez 500.
  3. Cliquez sur Afficher les résultats.

Interpréter des résultats

Pour cette analyse, il y avait 500 arbres développés et le nombre optimal d’arbres pour la combinaison d’hyperparamètres avec la meilleure valeur du critère de précision est de 500. La fraction de sous-échantillon passe à 0,7 au lieu de 0,5 dans l’analyse originale. Le taux d’apprentissage passe à 0,0437 au lieu de 0,04372 dans l’analyse originale.

Examinez à la fois le tableau récapitulatif du modèle et le diagramme du R carré par rapport au nombre d'arbres. La valeur R2 lorsque le nombre d’arbres est de 500 est de 86,79% pour les données de test et de 96,41% pour les données d’apprentissage. Ces résultats montrent une amélioration par rapport à une analyse de régression traditionnelle et un Régression CART®.

Régression TreeNet®: Montant du p vs Revenu annue; Rapport de r; ...

Méthode Fonction de perte Erreur quadratique Critères de sélection du nombre d'arbres optimal R carré maximum Validation de modèle Validation croisée pour 3 ensemble(s) Taux d'apprentissage 0,04372 Fraction de sous-échantillon 0,5 Nombre maximal de nœuds terminaux par arbre 6 Taille minimale du nœud terminal 3 Nombre de prédicteurs sélectionnés pour la partition des nœuds Nombre total de prédicteurs = 34 Lignes utilisées 4372
Informations de réponse Moyenne EcTyp Minimum Q1 Médiane Q3 Maximum 235217 132193 23800 136000 208293 300716 1190000

Régression TreeNet® avec réglage des hyperparamètres : Montant du p vs Revenu annue; Rapport de r; ...

Méthode Fonction de perte Erreur quadratique Critères de sélection du nombre d'arbres optimal R carré maximum Validation de modèle Validation croisée pour 3 ensemble(s) Taux d'apprentissage 0,001; 0,0437; 0,1 Fraction de sous-échantillon 0,5; 0,7 Nombre maximal de nœuds terminaux par arbre 6 Taille minimale du nœud terminal 3 Nombre de prédicteurs sélectionnés pour la partition des nœuds Nombre total de prédicteurs = 34 Lignes utilisées 4372
Informations de réponse Moyenne EcTyp Minimum Q1 Médiane Q3 Maximum 235217 132193 23800 136000 208293 300716 1190000
Optimisation des hyperparamètres Test
Nombre Écart optimal absolu Taux Fraction de Modèle d'arbres R carré (%) moyen d'apprentissage sous-échantillon 1 500 36,43 82617,1 0,0010 0,5 2 495 85,87 34560,5 0,0437 0,5 3 495 85,63 34889,3 0,1000 0,5 4 500 36,86 82145,0 0,0010 0,7 5* 500 86,79 33052,6 0,0437 0,7 6 451 86,67 33262,3 0,1000 0,7 Nombre maximal de nœuds Modèle terminaux 1 6 2 6 3 6 4 6 5* 6 6 6 * Le modèle optimal présente un R carré maximal. Les résultats du modèle optimal sont affichés ci-après.

Régression TreeNet®: Montant du p vs Revenu annue; Rapport de r; ...

Récapitulatif du modèle Nombre total de prédicteurs 34 Prédicteurs importants 24 Nombre d'arbres développés 500 Nombre optimal d'arbres 500 Statistiques Apprentissage Test R carré 96,41% 86,79% Racine de l'erreur quadratique moyenne (RMSE) 25035,7243 48029,9503 Erreur quadratique moyenne (MSE) 626787491,1374 2306876123,1055 Ecart absolu moyen (MAD) 17309,3936 33052,6087 Pourcentage d'erreur absolue moyen (MAPE) 0,0930 0,1790

La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est Région statistique de base. Si l’importance de la variable prédictive supérieure, Core Based Statistical Area, est de 100 %, alors la variable importante suivante, le revenu annuel, a une contribution de 92,8 %. Cela signifie que le revenu annuel de l’emprunteur est 92,8% aussi important que la situation géographique de la propriété.

Le nuage de points des montants ajustés de prêt par rapport aux montants réels de prêt montre la relation entre les valeurs ajustées et les valeurs réelles pour les données d'apprentissage et les données de test. Pour identifier plus facilement les valeurs représentées, survolez les points du graphique. Dans cet exemple, tous les points se situent assez proches de la ligne de référence de y = x.

Utilisez les diagrammes de dépendance partielle pour mieux comprendre comment les variables importantes ou les paires de variables affectent les valeurs de réponse ajustées. Les diagrammes de dépendance partielle indiquent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Le premier diagramme illustre le montant du prêt ajusté pour chaque région statistique de base. En raison du nombre de points de données, vous pouvez positionner votre curseur sur différents points de données pour afficher des valeurs X et Y spécifiques. Par exemple, le point le plus élevé sur le côté droit du graphique correspond au numéro de région de base 41860 et le montant du prêt ajusté est d'environ 378 069 $.

Le deuxième diagramme montre que le montant du prêt ajusté augmente à mesure que le revenu annuel augmente. Une fois que le revenu annuel atteint 300000 $, les niveaux de montant du prêt ajusté augmentent à un rythme plus lent.

Le troisième diagramme montre que le montant du prêt ajusté augmente à mesure que le rapport de frais de logement augmente.

Le quatrième diagramme illustre le montant du prêt ajusté pour chaque code de canton de recensement. Comme avec le premier diagramme, vous pouvez survoler certains points de données pour obtenir plus d'informations. Cliquez sur Sélectionner plus de prédicteurs à tracer pour produire des diagrammes pour d'autres variables.