Les modèles issus de l’analyse prédictive fournissent des informations pour un large éventail d’applications, notamment le contrôle de la qualité de fabrication, la découverte de médicaments, la détection des fraudes, la notation de crédit et la prédiction du taux d’attrition. Utilisez les résultats pour identifier les variables importantes, pour identifier les groupes dans les données présentant les caractéristiques souhaitables et pour prédire les valeurs de réponse pour les nouvelles observations. Par exemple, un analyste de marché peut utiliser un modèle d’analyse prédictive pour identifier les clients qui ont des taux de réponse plus élevés à des initiatives spécifiques et pour prédire ces taux de réponse.
Si vous disposez d’une variable de réponse catégorielle avec plus de 2 catégories, créez des modèles un par un.
Un modèle de régression linéaire suppose que la réponse moyenne est une fonction paramétrique des prédicteurs. Le modèle utilise le critère des moindres carrés pour estimer les paramètres d’un ensemble de données. Si un modèle de régression paramétrique s’ajuste à la relation entre la réponse et ses prédicteurs, le modèle prédit avec précision les valeurs de réponse avec de nouvelles observations. Par exemple, la loi de Hooke en physique dit que la force d’extension d’un ressort a une relation linéaire avec la distance d’extension, donc un modèle de régression s’adapte très bien à la relation.
Un modèle de régression linéaire simplifie l’identification des paramètres optimaux pour les prédicteurs. L’ajustement effectif signifie également que les paramètres ajustés et les erreurs-types sont utiles pour l’inférence statistique, comme l’estimation des intervalles de confiance pour les valeurs de réponse prédites.
Dans de tels cas, les modèles arborescents sont de bons modèles alternatifs à considérer.
Dans le module d’analyse prédictive, Minitab Statistical Software ajuste les modèles de régression linéaire aux variables de réponse continues et binaires à l’aide des commandes Découvrir le meilleur modèle. Pour obtenir la liste des autres modèles de régression linéaire dans Minitab Statistical Software, reportez-vous à la section Quelles sont les analyses de régression et de corrélation incluses dans Minitab ?.
CART®, TreeNet® et Random Forests® sont 3 méthodes basées sur des arbres. Parmi les modèles basés sur des arbres, CART® est le plus facile à comprendre CART® utilise un seul arbre de décision. Un arbre de décision unique commence à partir de l’ensemble entier des données en tant que premier nœud parent. Ensuite, l’arbre divise les données en 2 nœuds enfants plus homogènes à l’aide du critère de division des nœuds. Cette étape se répète de manière itérative jusqu’à ce que tous les nœuds non fractionnés répondent à un critère pour être un nœud terminal. Ensuite, la validation croisée ou la validation avec un ensemble de test séparé est utilisée pour élaguer l’arbre afin d’obtenir l’arbre optimal, qui est le modèle CART®. Les arbres de décision uniques sont faciles à comprendre et peuvent s’adapter à des ensembles de données présentant une grande variété de caractéristiques.
Les arbres de décision uniques peuvent être moins robustes et moins puissants que les 2 autres méthodes basées sur des arbres. Par exemple, une petite modification des valeurs de prédiction dans un ensemble de données peut conduire à un modèle CART® très différent. Les méthodes TreeNet® et Random Forests® utilisent des ensembles d’arbres individuels pour créer des modèles plus robustes et plus précis que les modèles issus d’arbres de décision uniques.