Types de modèles d’analyse prédictive dans Minitab Statistical Software

Les modèles issus de l’analyse prédictive fournissent des informations pour un large éventail d’applications, notamment le contrôle qualité de la fabrication, la découverte de médicaments, la détection des fraudes, la notation de crédit et la prédiction de l’attrition. Utilisez les résultats pour identifier des variables importantes, pour identifier les groupes ayant des caractéristiques souhaitables dans les données et pour prédire les valeurs de réponse pour les nouvelles observations. Par exemple, un analyste de marché peut utiliser un modèle d’analyse prédictive pour identifier les clients qui ont des taux de réponse plus élevés à des initiatives spécifiques et pour prédire ces taux de réponse.

Dans de nombreuses applications, une étape importante dans la construction de modèles consiste à considérer différents types de modèles. Les analystes trouvent le meilleur type pour une application à un moment précis, trouvent la version optimale de ce modèle et utilisent le modèle pour générer les prédictions les plus précises possibles. Pour faciliter l’examen de différents modèles, Minitab Statistical Software permet de comparer différents types de modèles dans une seule analyse si vous disposez d’une variable de réponse continue ou d’une variable de réponse binaire.

Si vous avez une variable de réponse catégorielle avec plus de 2 catégories, créez des modèles un par un.

Modèles de régression multiple

Un modèle de régression multiple suppose que la réponse moyenne est une fonction paramétrique des prédicteurs. Le modèle utilise le critère des moindres carrés pour estimer les paramètres d’un ensemble de données. Si un modèle de régression paramétrique correspond à la relation entre la réponse et ses prédicteurs, le modèle prédit les valeurs de réponse avec de nouvelles observations avec précision. Par exemple, la loi de Hooke en physique dit que la force d’extension d’un ressort a une relation linéaire avec la distance d’extension, donc un modèle de régression correspond très bien à la relation.

Un modèle de régression multiple simplifie l’identification des paramètres optimaux pour les prédicteurs. L’ajustement effectif signifie également que les paramètres ajustés et les erreurs-types sont utiles pour l’inférence statistique, telle que l’estimation des intervalles de confiance pour les valeurs de réponse prévues.

Les modèles de régression multiple sont flexibles et correspondent souvent à la véritable forme de relations dans les données. Malgré cela, il arrive parfois qu’un modèle de régression multiple ne corresponde pas bien à un ensemble de données ou que les caractéristiques des données empêchent la construction d’un modèle de régression multiple. Les exemples suivants sont des cas courants où un modèle de régression multiple a un mauvais ajustement :
  • Les relations entre la réponse et le prédicteur ne suivent pas un modèle qu’un modèle de régression multiple peut adapter.
  • Les données n’ont pas assez d’observations pour estimer suffisamment de paramètres pour trouver un modèle de régression multiple qui convient bien.
  • Les prédicteurs sont des variables aléatoires.
  • Les prédicteurs contiennent de nombreuses valeurs manquantes.

Dans de tels cas, les modèles arborescents sont de bons modèles alternatifs à considérer.

Dans le module Analyse prédictive, Minitab Statistical Software adapte plusieurs modèles de régression à des variables de réponse continues et binaires à l’aide des commandes Découvrir le meilleur modèle. Pour obtenir la liste des autres modèles de régression multiple dans Minitab Statistical Software, reportez-vous à Quelles analyses de régression et de corrélation sont comprises dans Minitab ?.

Modèles arborescents

CART®, TreeNet®et Random Forests® sont 3 méthodes basées sur l’arborescence. Parmi les modèles arborescents, CART® est le plus facile à comprendre car CART® utilise un seul arbre de décision. Un arbre de décision unique commence à partir de l’ensemble des données en tant que premier nœud parent. Ensuite, l’arborescence divise les données en 2 nœuds enfants plus homogènes à l’aide du critère de fractionnement des nœuds. Cette étape se répète de manière itérative jusqu’à ce que tous les nœuds non fractionnés répondent à un critère pour être un nœud terminal. Après cela, la validation croisée ou la validation avec un jeu de test séparé est utilisée pour couper l’arbre afin d’obtenir l’arbre optimal, qui est le modèle CART®. Les arbres de décision uniques sont faciles à comprendre et peuvent s’adapter à des ensembles de données présentant une grande variété de caractéristiques.

Les arbres de décision uniques peuvent être moins robustes et moins puissants que les 2 autres méthodes basées sur l’arbre. Par exemple, une petite modification des valeurs prédictives dans un ensemble de données peut conduire à un modèle CART® très différent. Les méthodes TreeNet® et Random Forests® utilisent des ensembles d’arbres individuels pour créer des modèles plus robustes et plus précis que les modèles des arbres de décision uniques.

Minitab Statistical Software adapte les modèles arborescents aux variables de réponse continue, aux variables de réponse binaires et aux variables de réponse nominale. Pour voir un exemple de chaque modèle dans Minitab Statistical Software, sélectionnez un type de modèle :

Régression MARS® modèle

Régression MARS® construit d’abord un ensemble complet de fonctions de base qui s’adaptent le mieux possible aux données. Après avoir formé le modèle étendu, l’analyse réduit le risque de surajustement en recherchant un sous-ensemble optimal des fonctions de base. Le modèle réduit reste adaptable à diverses dépendances non linéaires dans les données. Le modèle résultant est un modèle de régression linéaire multiple dans l’espace de ces fonctions de base. La caractéristique de recherche de différents ajustements pour différentes régions des données de manière progressive se connecte Régression MARS® aux modèles arborescents. En raison des caractéristiques arborescentes, Régression MARS® offre certains des mêmes avantages:
  • Détection automatique du formulaire modèle
  • Gestion automatique des valeurs manquantes
  • Sélection automatique des prédicteurs les plus pertinents
L’utilisation d’une équation est liée Régression MARS® à des modèles de régression multiples. En raison des caractéristiques de régression multiple, Régression MARS® fournit également certains des avantages de ce type de modèle:
  • Une équation de régression rend les effets des variables faciles à comprendre.
  • La fonction continue signifie que de petits changements dans les prédicteurs entraînent de petits changements dans les prédictions.
  • Même pour les petits modèles, différentes valeurs des prédicteurs donnent des prédictions différentes.
Les modèles flexibles de fournissent des prédictions précises et peuvent fournir des informations sur la forme du modèle qui améliorent l’ajustement d’autres types de Régression MARS® modèles. Minitab Statistical Software adapte les modèles de régression MARS® aux variables de réponse continue. Pour voir un exemple de Régression MARS® dans Minitab Statistical Software, reportez-vous à Exemple de Régression MARS®.