Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
Une équipe de chercheurs recueille des données sur la vente de propriétés résidentielles individuelles à Ames, iowa. Les chercheurs veulent identifier les variables qui influent sur le prix de vente. Les variables incluent la surface du terrain et diverses caractéristiques de la propriété résidentielle.
Après une première exploration à l'aide de Régression CART® pour identifier les prédicteurs importants, l'équipe utilise Régression Random Forests® pour créer un modèle plus avancés à partir du même ensemble de données. L'équipe compare le tableau récapitulatif du modèle et la courbe R2 dans les résultats pour évaluer quel modèle fournit un meilleur résultat de prédiction.
Ces données ont été adaptées à partir d'un ensemble de données public contenant des informations sur les données sur le logement d'Ames. Données originales de DeCock, Truman State University.
Le diagramme du R carré par rapport au nombre d'arbres montre toute la courbe sur le nombre d'arbres développés. La valeur R2 augmente rapidement à mesure que le nombre d’arbres augmente, puis s’aplatit à environ 91 %.
Le tableau récapitulatif du modèle montre que les valeurs R2 sont légèrement améliorées par rapport aux valeurs R2 de l'analyse CART® correspondante.
La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante pour prédire le prix de vente est la qualité. Si l'importance de la principale variable de prédiction, Qualité, est de 100 %, alors la variable importante suivante, Surface habitable, présente une contribution de 88,8%. Ceci signifie que la surface habitable est 88,8 % aussi importante que la qualité générale du bien. La prochaine variable la plus importante est Quartier qui a une contribution de 52,6%.
Le nuage de points du prix de vente ajusté en fonction du prix de vente réel montre la relation entre les valeurs ajustées et réelles pour les données out-of-bag. Pour identifier plus facilement les valeurs représentées, survolez les points du graphique. Dans cet exemple, de nombreux points se situent approximativement près de la ligne de référence de y=x, mais plusieurs points peuvent nécessiter une enquête pour voir des écarts entre les valeurs ajustées et réelles.