Une équipe de chercheurs souhaite utiliser les données sur un emprunteur et l'emplacement d'un bien pour prédire le montant d'un prêt. Les variables comprennent le revenu, l'origine ethnique, le sexe de l'emprunteur ainsi que la zone de recensement du bien et d'autres renseignements sur l'emprunteur et le type de bien.
Après l'exploration initiale avec Régression
CART® visant à identifier les prédicteurs importants, l'équipe considère maintenant Régression
TreeNet® comme une étape de suivi nécessaire. Les chercheurs espèrent mieux comprendre les relations entre la réponse et les prédicteurs importants et effectuer des prédictions plus précises pour les nouvelles observations.
Ces données ont été adaptées à partir d'un ensemble de données public contenant des informations sur les prêts immobiliers contractés auprès de banques fédérales de prêts immobiliers. Les données d'origine proviennent de fhfa.gov.
Dans Prédicteurs continus, saisissez Revenu annuel – Revenu du secteur .
Dans Prédicteurs de catégorie, saisissez Primo-accédant à la propriété – Zone statistique de base .
Cliquez sur Validation.
Dans Méthode de
validation, sélectionnez Validation croisée sur K ensembles.
Dans Nombre de
partitions (K), saisissez 3.
Cliquez sur OK dans chaque boîte de dialogue
Interpréter des résultats
Pour cette analyse, Minitab développe 300 arbres et le nombre optimal d'arbres est de 300. Du fait que le nombre optimal d'arbres est proche du nombre maximal d'arbres que le modèle développe, les chercheurs répètent l'analyse avec plus d'arbres.
Exemple avec 500 arbres
Après le tableau récapitulatif du modèle, cliquez sur Affiner
les hyperparamètres pour identifier un meilleur modèle.
Dans Nombre
d'arbres, saisissez 500.
Cliquez sur Afficher les
résultats.
Interpréter des résultats
Pour cette analyse, il y avait 500 arbres développés et le nombre optimal d’arbres pour la combinaison d’hyperparamètres avec la meilleure valeur du critère de précision est de 500. La fraction de sous-échantillon passe à 0,7 au lieu de 0,5 dans l’analyse originale. Le taux d’apprentissage passe à 0,0437 au lieu de 0,04372 dans l’analyse originale.
Examinez à la fois le tableau récapitulatif du modèle et le diagramme du R carré par rapport au nombre d'arbres. La valeur R2 lorsque le nombre d’arbres est de 500 est de 86,79% pour les données de test et de 96,41% pour les données d’apprentissage. Ces résultats montrent une amélioration par rapport à une analyse de régression traditionnelle et un Régression
CART®.