Généralités sur Découvrir le meilleur modèle (réponse binaire)

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Habituellement, le moyen le plus simple de déterminer quel type de modèle fait les meilleures prédictions pour un jeu de données spécifique est de créer tous les modèles et de comparer les performances. Permet Découvrir le meilleur modèle (réponse binaire) de comparer les performances de 4 types de modèles courants : Ajuster le modèle logistique binaire, Ajuster le modèle pour , et Classification TreeNet^®Classification Random Forests^®Classification CART^®. Les 4 analyses modélisent une réponse binaire avec de nombreuses variables prédictives catégorielles et continues. Par exemple, un chargé d'études de marché peut utiliser pour identifier les clients avec des taux de réponse plus élevés à des initiatives spécifiques et pour prévoir ces taux de réponse. Le chercheur compare les performances des différents types de modèles pour décider comment obtenir les prédictions les plus précises.

Parmi les 4 types de modèles figurent 2 types de modèles plus généraux : la régression logistique binaire et les modèles arborescents. Ajuster le modèle logistique binaire crée des modèles de régression logistique binaire. Les 3 autres commandes créent des modèles arborescents. Les méthodes d’ajustement du modèle pour les 2 types généraux sont très différentes, mais elles se complètent. Un modèle de régression logistique binaire suppose que la probabilité d’événement d’une réponse binaire est une fonction paramétrique des prédicteurs. Le modèle utilise le critère de probabilité maximale pour estimer les paramètres d’un ensemble de données. Si la fonction paramétrique représente adéquatement la relation entre la probabilité d’événement d’une réponse et ses prédicteurs, alors le modèle peut bien estimer la probabilité d’événement. Ensuite, l’expression a une grande chance de prédire correctement les niveaux de réponse pour de nouvelles observations. Un modèle de régression logistique binaire simplifie l’identification des paramètres optimaux pour les prédicteurs. L’ajustement effectif signifie également que les paramètres ajustés et les erreurs-types sont utiles pour l’inférence statistique, comme l’estimation des intervalles de confiance pour les probabilités d’événements prédites.

Parfois, le modèle de régression logistique binaire ne correspond pas bien à un ensemble de données ou les caractéristiques des données empêchent la construction d’un modèle de régression logistique binaire. Voici les cas courants où un modèle de régression logistique binaire présente un mauvais ajustement :

La relation entre la probabilité d’événement d’une réponse binaire et les prédicteurs ne suit pas une fonction paramétrique.
Pour certains ensembles de données, l’algorithme d’estimation de la probabilité maximale ne parvient pas à converger vers des estimations de paramètres uniques.
Les données n’ont pas assez d’observations pour estimer les paramètres de l’expression de probabilité d’événement lorsque le nombre de prédicteurs est important.
Les prédicteurs sont des variables aléatoires.
Les prédicteurs contiennent de nombreuses valeurs manquantes.

Dans de tels cas, les modèles arborescents sont de bons modèles alternatifs à considérer.

Parmi les modèles arborescents, CART utilise un arbre de décision unique. Un seul arbre de décision part de l’ensemble des données en tant que premier nœud parent. Ensuite, l’arborescence divise les données en 2 nœuds enfants plus homogènes à l’aide du critère de division des nœuds. Cette étape se répète de manière itérative jusqu’à ce que tous les nœuds nonpliés répondent aux critères pour être un nœud terminal. Après cela, la validation croisée ou la validation avec un ensemble de tests distinct est utilisée pour couper l’arbre afin d’obtenir l’arbre optimal, qui est le modèle CART. Les arbres de décision uniques sont faciles à comprendre et peuvent s’adapter à des ensembles de données avec une grande variété de caractéristiques.

Les arbres de décision uniques peuvent être moins robustes et moins puissants que les 2 autres méthodes basées sur des arbres. Par exemple, une petite modification des valeurs de prédicteur dans un ensemble de données peut conduire à un modèle CART très différent. Les méthodes TreeNet^® et Random Forests^® utilisent des ensembles d’arbres individuels pour créer des modèles plus robustes et plus précis que les modèles d’arbres de décision uniques.

Pour plus d’informations sur chaque type de modèle, utilisez les liens suivants :