Types de modèles d’analyse prédictive dans Minitab Statistical Software

Les modèles issus de l’analyse prédictive fournissent des informations pour un large éventail d’applications, notamment le contrôle de la qualité de fabrication, la découverte de médicaments, la détection des fraudes, la notation de crédit et la prédiction du taux d’attrition. Utilisez les résultats pour identifier les variables importantes, pour identifier les groupes dans les données présentant les caractéristiques souhaitables et pour prédire les valeurs de réponse pour les nouvelles observations. Par exemple, un analyste de marché peut utiliser un modèle d’analyse prédictive pour identifier les clients qui ont des taux de réponse plus élevés à des initiatives spécifiques et pour prédire ces taux de réponse.

Dans de nombreuses applications, une étape importante dans la construction de modèles consiste à prendre en compte différents types de modèles. Les analystes trouvent le meilleur type pour une application à un moment donné, trouvent la version optimale de ce modèle et utilisent le modèle pour générer les prédictions les plus précises possibles. Pour faciliter la prise en compte de différents modèles, Minitab Statistical Software offre la possibilité de comparer différents types de modèles dans une seule analyse si vous avez une variable de réponse continue ou une variable de réponse binaire.

Si vous disposez d’une variable de réponse catégorielle avec plus de 2 catégories, créez des modèles un par un.

Modèles de régression linéaire

Un modèle de régression linéaire suppose que la réponse moyenne est une fonction paramétrique des prédicteurs. Le modèle utilise le critère des moindres carrés pour estimer les paramètres d’un ensemble de données. Si un modèle de régression paramétrique s’ajuste à la relation entre la réponse et ses prédicteurs, le modèle prédit avec précision les valeurs de réponse avec de nouvelles observations. Par exemple, la loi de Hooke en physique dit que la force d’extension d’un ressort a une relation linéaire avec la distance d’extension, donc un modèle de régression s’adapte très bien à la relation.

Un modèle de régression linéaire simplifie l’identification des paramètres optimaux pour les prédicteurs. L’ajustement effectif signifie également que les paramètres ajustés et les erreurs-types sont utiles pour l’inférence statistique, comme l’estimation des intervalles de confiance pour les valeurs de réponse prédites.

Les modèles de régression linéaire sont flexibles et s’adaptent souvent à la forme réelle des relations dans les données. Même ainsi, il arrive qu’un modèle de régression linéaire ne s’adapte pas bien à un ensemble de données ou que les caractéristiques des données empêchent la construction d’un modèle de régression linéaire. Les exemples suivants sont des cas courants où un modèle de régression linéaire est mal ajusté :
  • Les relations entre la réponse et le prédicteur ne suivent pas un modèle qu’un modèle de régression linéaire peut adapter.
  • Les données n’ont pas assez d’observations pour estimer suffisamment de paramètres pour trouver un modèle de régression linéaire qui s’adapte bien.
  • Les prédicteurs sont des variables aléatoires.
  • Les prédicteurs contiennent de nombreuses valeurs manquantes.

Dans de tels cas, les modèles arborescents sont de bons modèles alternatifs à considérer.

Dans le module d’analyse prédictive, Minitab Statistical Software ajuste les modèles de régression linéaire aux variables de réponse continues et binaires à l’aide des commandes Découvrir le meilleur modèle. Pour obtenir la liste des autres modèles de régression linéaire dans Minitab Statistical Software, reportez-vous à la section Quelles sont les analyses de régression et de corrélation incluses dans Minitab ?.

Modèles arborescents

CART®, TreeNet® et Random Forests® sont 3 méthodes basées sur des arbres. Parmi les modèles basés sur des arbres, CART® est le plus facile à comprendre CART® utilise un seul arbre de décision. Un arbre de décision unique commence à partir de l’ensemble entier des données en tant que premier nœud parent. Ensuite, l’arbre divise les données en 2 nœuds enfants plus homogènes à l’aide du critère de division des nœuds. Cette étape se répète de manière itérative jusqu’à ce que tous les nœuds non fractionnés répondent à un critère pour être un nœud terminal. Ensuite, la validation croisée ou la validation avec un ensemble de test séparé est utilisée pour élaguer l’arbre afin d’obtenir l’arbre optimal, qui est le modèle CART®. Les arbres de décision uniques sont faciles à comprendre et peuvent s’adapter à des ensembles de données présentant une grande variété de caractéristiques.

Les arbres de décision uniques peuvent être moins robustes et moins puissants que les 2 autres méthodes basées sur des arbres. Par exemple, une petite modification des valeurs de prédiction dans un ensemble de données peut conduire à un modèle CART® très différent. Les méthodes TreeNet® et Random Forests® utilisent des ensembles d’arbres individuels pour créer des modèles plus robustes et plus précis que les modèles issus d’arbres de décision uniques.

Minitab Statistical Software ajuste les modèles arborescents aux variables de réponse continue, aux variables de réponse binaires et aux variables de réponse nominale. Pour afficher un exemple de chaque modèle dans Minitab Statistical Software, sélectionnez un type de modèle :

Régression MARS® modèle

Régression MARS® construit d’abord un ensemble complet de fonctions de base qui s’adaptent le mieux possible aux données. Après avoir formé le modèle extensif, l’analyse réduit le risque de surajustement en recherchant un sous-ensemble optimal des fonctions de base. Le modèle réduit reste adaptable à diverses dépendances non linéaires dans les données. Le modèle résultant est un modèle de régression linéaire dans l’espace de ces fonctions de base. La caractéristique de rechercher différents ajustements pour différentes régions des données de manière progressive se connecte Régression MARS® aux modèles basés sur des arbres. En raison des caractéristiques arborescentes, Régression MARS® offre certains des mêmes avantages :
  • Détection automatique de la forme du modèle
  • Gestion automatique des valeurs manquantes
  • Sélection automatique des prédicteurs les plus pertinents
L’utilisation d’une équation est liée Régression MARS® à des modèles de régression linéaire. En raison des caractéristiques de régression linéaire, Régression MARS® fournit également certains des avantages de ce type de modèle :
  • Une équation de régression rend les effets des variables faciles à comprendre.
  • La fonction continue signifie que de petits changements dans les prédicteurs entraînent de petits changements dans les prédictions.
  • Même pour les petits modèles, différentes valeurs des prédicteurs produisent des prédictions différentes.
Les modèles flexibles fournissent des Régression MARS® prédictions précises et peuvent fournir des informations sur la forme du modèle qui améliorent l’ajustement d’autres types de modèles. Minitab Statistical Software ajuste les modèles de régression MARS® aux variables de réponse continue. Pour voir un exemple de Régression MARS® dans Minitab Statistical Software, reportez-vous à la section Exemple de Régression MARS®.