Exemple de Ajuster le modèle pour Régression TreeNet^®

Remarque

Cette commande est disponible avec la commande Module d'analyse prédictive. Cliquez ici pour plus d’informations sur la façon d’activer le module.

Une équipe de chercheurs veut utiliser des données sur un emprunteur et l’emplacement d’une propriété pour prédire le montant d’un prêt hypothécaire. Les variables comprennent le revenu, la race et le sexe de l’emprunteur ainsi que l’emplacement de la propriété dans le secteur de recensement et d’autres informations sur l’emprunteur et le type de propriété.

Après une première exploration pour Régression CART^® identifier les prédicteurs importants, l’équipe considère Régression TreeNet^® maintenant comme une étape de suivi nécessaire. Les chercheurs espèrent mieux comprendre les relations entre la réponse et les prédicteurs importants et prédire de nouvelles observations avec une plus grande précision.

Ces données ont été adaptées sur la base d’un ensemble de données publiques contenant des informations sur les prêts hypothécaires des banques fédérales de prêts immobiliers. Les données originales proviennent de fhfa.gov.

Ouvrez l’exemple de jeu de données EmpruntsContractés.MWX.
Choisissez Module d'analyse prédictive > Régression TreeNet® > Ajuster le modèle.
Dans Réponse, entrez 'Montant du prêt'.
Dans Prédicteurs continus, entrez 'Revenu annuel' – 'Revenu du secteur'.
Dans Prédicteurs de catégorie, entrez 'Primo-accédant à la propriété' – 'Zone statistique de base'.
Cliquez sur Validation.
Dans Méthode de validation, sélectionnez Validation croisée sur K ensembles.
Dans Nombre de partitions (K), entrez 3.
Cliquez dans OK chaque boîte de dialogue.

Interpréter les résultats

Pour cette analyse, Minitab cultive 300 arbres et le nombre optimal d’arbres est de 300. Étant donné que le nombre optimal d’arbres est proche du nombre maximal d’arbres que le modèle cultive, les chercheurs répètent l’analyse avec plus d’arbres.

Récapitulatif du modèle

Nombre total de prédicteurs	34
Prédicteurs importants	19
Nombre d'arbres développés	300
Nombre optimal d'arbres	300

Statistiques	Apprentissage	Test
R carré	94,02%	84,97%
Racine de l'erreur quadratique moyenne (RMSE)	32334,5587	51227,9431
Erreur quadratique moyenne (MSE)	1,04552E+09	2,62430E+09
Ecart absolu moyen (MAD)	22740,1020	35974,9695
Pourcentage d'erreur absolue moyen (MAPE)	0,1238	0,1969

Exemple avec 500 arbres

Sélectionnez Régler les hyperparamètres dans les résultats.
Dans Nombre d'arbres, entrez 500.
Cliquez sur Afficher les résultats.

Interpréter les résultats

Pour cette analyse, il y avait 500 arbres cultivés et le nombre optimal d’arbres pour la combinaison des hyperparamètres avec la meilleure valeur du critère de précision est de 500. La fraction du sous-échantillon passe à 0,7 au lieu de 0,5 dans l’analyse initiale. Le taux d’apprentissage passe à 0,0437 au lieu de 0,04372 dans l’analyse initiale.

Examinez à la fois le tableau récapitulatif du modèle et le graphique R au carré en fonction du nombre d’arbres. La valeur R² lorsque le nombre d’arbres est de 500 est de 86,79 % pour les données de test et de 96,41 % pour les données d’entraînement. Ces résultats montrent une amélioration par rapport à une analyse de régression traditionnelle et à un Régression CART^®.

Méthode

Fonction de perte	Erreur quadratique
Critères de sélection du nombre d'arbres optimal	R carré maximum
Validation de modèle	Validation croisée pour 3 ensemble(s)
Taux d'apprentissage	0,04372
Fraction de sous-échantillon	0,5
Nombre maximal de nœuds terminaux par arbre	6
Taille minimale du nœud terminal	3
Nombre de prédicteurs sélectionnés pour la partition des nœuds	Nombre total de prédicteurs = 34
Lignes utilisées	4372

Informations de réponse

Moyenne	EcTyp	Minimum	Q1	Médiane	Q3	Maximum
235217	132193	23800	136000	208293	300716	1190000

Régression TreeNet® avec réglage des hyperparamètres : Montant du prêt vs Revenu annuel; Rapport de revenu; Rapport de frais de logement; Rapport dette-revenu; Nombre emprunteurs; Age; Age du co-emprunteur; Pourcentage de minorités de la; Revenu de la zone; Revenu local; Revenu du secteur; Primo-accédant à la propriété; Code occupation; Travailleur indépendant; Origine ethnique du co-emprunte; Origine ethnique du co-emprun_1; Objet du prêt; Sexe; Nombre de logements; Appartenance ethnique; Origine ethnique du co-emprun_2; Sexe du co-emprunteur; Origine ethnique 2; Appartenance ethnique du co-emp; Cote de solvabilité; Cote de solvabilité du co-empru; Origine ethnique; Origine ethnique du co-emprun_3; Origine ethnique du co-emprun_4; Type de bien; District fédéral; Code Etat; Code de comté; Zone statistique de base

Méthode

Fonction de perte	Erreur quadratique
Critères de sélection du nombre d'arbres optimal	R carré maximum
Validation de modèle	Validation croisée pour 3 ensemble(s)
Taux d'apprentissage	0,001; 0,0437; 0,1
Fraction de sous-échantillon	0,5; 0,7
Nombre maximal de nœuds terminaux par arbre	6
Taille minimale du nœud terminal	3
Nombre de prédicteurs sélectionnés pour la partition des nœuds	Nombre total de prédicteurs = 34
Lignes utilisées	4372

Informations de réponse

Moyenne	EcTyp	Minimum	Q1	Médiane	Q3	Maximum
235217	132193	23800	136000	208293	300716	1190000

Optimisation des hyperparamètres

Test

Modèle	Nombre optimal d'arbres	R carré (%)	Écart absolu moyen	Taux d'apprentissage	Fraction de sous-échantillon	Nombre maximal de nœuds terminaux
1	500	36,43	82617,1	0,0010	0,5	6
2	495	85,87	34560,5	0,0437	0,5	6
3	495	85,63	34889,3	0,1000	0,5	6
4	500	36,86	82145,0	0,0010	0,7	6
5*	500	86,79	33052,6	0,0437	0,7	6
6	451	86,67	33262,3	0,1000	0,7	6

Récapitulatif du modèle

Nombre total de prédicteurs	34
Prédicteurs importants	24
Nombre d'arbres développés	500
Nombre optimal d'arbres	500

Statistiques	Apprentissage	Test
R carré	96,41%	86,79%
Racine de l'erreur quadratique moyenne (RMSE)	25035,7243	48029,9503
Erreur quadratique moyenne (MSE)	6,26787E+08	2,30688E+09
Ecart absolu moyen (MAD)	17309,3936	33052,6087
Pourcentage d'erreur absolue moyen (MAPE)	0,0930	0,1790