Généralités sur Découvrir le meilleur modèle (réponse continue)

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Habituellement, le moyen le plus simple de déterminer quel type de modèle fait les meilleures prédictions pour un jeu de données spécifique est de créer tous les modèles et de comparer les performances. Permet Découvrir le meilleur modèle (réponse continue) de comparer les performances de 4 types de modèles courants : Ajuster le modèle de régression, Régression CART®, pour , et Ajuster le modèleRégression TreeNet®Régression Random Forests®. Utilisez pour créer un arbre de décision pour une réponse continue avec de nombreuses variables de prédiction de catégorie ou continus. Par exemple, des évaluateurs de biens immobiliers veulent connaître la relation entre le prix de vente des appartements en ville et plusieurs variables de prévision, notamment la superficie en mètres carrés, le nombre d'unités disponibles, l'ancienneté du bâtiment et la distance par rapport au centre-ville. Les évaluateurs comparent les performances des différents types de modèles pour décider comment obtenir les prédictions les plus précises.

Parmi les 4 types de modèles figurent 2 types de modèles plus généraux : les modèles de régression multiple et les modèles arborescents. Ajuster le modèle de régression crée des modèles de régression multiple. Les 3 autres commandes créent des modèles arborescents. Les méthodes d’ajustement du modèle pour les 2 types généraux sont très différentes, mais elles se complètent. Un modèle de régression multiple suppose que la réponse moyenne est une fonction paramétrique des prédicteurs. Le modèle utilise le critère des moindres carrés pour estimer les paramètres d’un ensemble de données. Si un modèle de régression paramétrique correspond à la relation entre la réponse et ses prédicteurs, le modèle prédit les valeurs de réponse avec de nouvelles observations avec précision. Par exemple, la loi de Hooke en physique dit que la force d’extension d’un ressort a une relation linéaire avec la distance d’extension, de sorte qu’un modèle de régression correspond très bien à la relation. Un modèle de régression multiple simplifie l’identification des paramètres optimaux pour les prédicteurs. L’ajustement effectif signifie également que les paramètres ajustés et les erreurs-types sont utiles pour l’inférence statistique, comme l’estimation des intervalles de confiance pour les valeurs de réponse prédites.

Parfois, le modèle de régression multiple ne correspond pas bien à un ensemble de données ou les caractéristiques des données empêchent la construction d’un modèle de régression multiple. Voici les cas courants où un modèle de régression multiple présente un mauvais ajustement :
  1. Les relations entre la réponse et le prédicteur ne suivent pas un modèle auquel un modèle de régression multiple peut s’adapter.
  2. Les données n’ont pas assez d’observations pour estimer suffisamment de paramètres pour trouver un modèle de régression multiple qui convient bien.
  3. Les prédicteurs sont des variables aléatoires.
  4. Les prédicteurs contiennent de nombreuses valeurs manquantes.

Dans de tels cas, les modèles arborescents sont de bons modèles alternatifs à considérer.

Parmi les modèles arborescents, CART utilise un arbre de décision unique. Un seul arbre de décision part de l’ensemble des données en tant que premier nœud parent. Ensuite, l’arborescence divise les données en 2 nœuds enfants plus homogènes à l’aide du critère de division des nœuds. Cette étape se répète de manière itérative jusqu’à ce que tous les nœuds nonpliés répondent à un critère pour être un nœud terminal. Après cela, la validation croisée ou la validation avec un ensemble de tests distinct est utilisée pour couper l’arbre afin d’obtenir l’arbre optimal, qui est le modèle CART. Les arbres de décision uniques sont faciles à comprendre et peuvent s’adapter à des ensembles de données avec une grande variété de caractéristiques.

Les arbres de décision uniques peuvent être moins robustes et moins puissants que les 2 autres méthodes basées sur des arbres. Par exemple, une petite modification des valeurs de prédicteur dans un ensemble de données peut conduire à un modèle CART très différent. Les méthodes TreeNet® et Random Forests® utilisent des ensembles d’arbres individuels pour créer des modèles plus robustes et plus précis que les modèles d’arbres de décision uniques.

Pour plus d’informations sur chaque type de modèle, utilisez les liens suivants :

Où trouver cette analyse ?

Pour trouver le meilleur modèle pour prédire une réponse continue, choisissez Module d'analyse prédictive > Auto-apprentissage par la machine automatisé > Découvrir le meilleur modèle (réponse continue).

Quand utiliser une autre analyse ?

Si vous disposez d'une variable de réponse binaire, utilisez la commande Découvrir le meilleur modèle (réponse binaire).

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique