Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
Une équipe de chercheurs souhaite utiliser les données sur un emprunteur et l'emplacement d'un bien pour prédire le montant d'un prêt. Les variables comprennent le revenu, l'origine ethnique, le sexe de l'emprunteur ainsi que la zone de recensement du bien et d'autres renseignements sur l'emprunteur et le type de bien.
Après l'exploration initiale avec Régression CART® visant à identifier les prédicteurs importants, l'équipe considère maintenant Régression TreeNet® comme une étape de suivi nécessaire. Les chercheurs espèrent mieux comprendre les relations entre la réponse et les prédicteurs importants et effectuer des prédictions plus précises pour les nouvelles observations.
Ces données ont été adaptées à partir d'un ensemble de données public contenant des informations sur les prêts immobiliers contractés auprès de banques fédérales de prêts immobiliers. Les données d'origine proviennent de fhfa.gov.
Pour cette analyse, Minitab développe 300 arbres et le nombre optimal d'arbres est de 300. Du fait que le nombre optimal d'arbres est proche du nombre maximal d'arbres que le modèle développe, les chercheurs répètent l'analyse avec plus d'arbres.
Pour cette analyse, il y avait 500 arbres développés et le nombre optimal d’arbres pour la combinaison d’hyperparamètres avec la meilleure valeur du critère de précision est de 500. La fraction de sous-échantillon passe à 0,7 au lieu de 0,5 dans l’analyse originale. Le taux d’apprentissage passe à 0,0437 au lieu de 0,04372 dans l’analyse originale.
Examinez à la fois le tableau récapitulatif du modèle et le diagramme du R carré par rapport au nombre d'arbres. La valeur R2 lorsque le nombre d’arbres est de 500 est de 86,79% pour les données de test et de 96,41% pour les données d’apprentissage. Ces résultats montrent une amélioration par rapport à une analyse de régression traditionnelle et un Régression CART®.
La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est Région statistique de base. Si l’importance de la variable prédictive supérieure, Core Based Statistical Area, est de 100 %, alors la variable importante suivante, le revenu annuel, a une contribution de 92,8 %. Cela signifie que le revenu annuel de l’emprunteur est 92,8% aussi important que la situation géographique de la propriété.
Le nuage de points des montants ajustés de prêt par rapport aux montants réels de prêt montre la relation entre les valeurs ajustées et les valeurs réelles pour les données d'apprentissage et les données de test. Pour identifier plus facilement les valeurs représentées, survolez les points du graphique. Dans cet exemple, tous les points se situent assez proches de la ligne de référence de y = x.
Utilisez les diagrammes de dépendance partielle pour mieux comprendre comment les variables importantes ou les paires de variables affectent les valeurs de réponse ajustées. Les diagrammes de dépendance partielle indiquent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.
Le premier diagramme illustre le montant du prêt ajusté pour chaque région statistique de base. En raison du nombre de points de données, vous pouvez positionner votre curseur sur différents points de données pour afficher des valeurs X et Y spécifiques. Par exemple, le point le plus élevé sur le côté droit du graphique correspond au numéro de région de base 41860 et le montant du prêt ajusté est d'environ 378 069 $.
Le deuxième diagramme montre que le montant du prêt ajusté augmente à mesure que le revenu annuel augmente. Une fois que le revenu annuel atteint 300000 $, les niveaux de montant du prêt ajusté augmentent à un rythme plus lent.
Le troisième diagramme montre que le montant du prêt ajusté augmente à mesure que le rapport de frais de logement augmente.
Le quatrième diagramme illustre le montant du prêt ajusté pour chaque code de canton de recensement. Comme avec le premier diagramme, vous pouvez survoler certains points de données pour obtenir plus d'informations. Cliquez sur Sélectionner plus de prédicteurs à
tracer pour produire des diagrammes pour d'autres variables.