Observations relatives aux données pour la fonction Ajuster le modèle de régression

Pour garantir la validité de vos résultats, vérifiez que les règles suivantes sont respectées lorsque vous collectez des données, effectuez une analyse et interprétez vos résultats.

Les prédicteurs peuvent être continus ou de catégorie

Une variable continue peut être mesurée et ordonnée, et dispose d'un nombre infini de valeurs entre deux valeurs quelconques. Par exemple, les diamètres d'un échantillon de pneus représentent une variable continue.

Les variables de catégorie ont un nombre fini et dénombrable de catégories ou de groupes distincts. Les données de catégorie peuvent ne pas présenter d'ordre logique. Par exemple, les prédicteurs de catégorie incluent le sexe d'individus, le type de matériel et le mode de paiement.

Si vos données comportent une variable discrète, vous pouvez décider de la traiter comme un prédicteur continu ou de catégorie. Une variable discrète peut être mesurée et ordonnée, mais ses valeurs son dénombrables. Par exemple, le nombre de personnes vivant dans une maison est une variable discrète. Le choix de traiter une variable discrète comme un prédicteur continu ou de catégorie dépend du nombre de niveaux, ainsi que de l'objectif de l'analyse. Pour plus d'informations, reportez-vous à la rubrique Que sont des variables de catégorie, discrètes et continues ?.

La variable de réponse doit être continue
Si la variable de réponse est une variable de catégorie, le modèle est moins susceptible de satisfaire les hypothèses de l'analyse, de décrire précisément vos données ou de permettre des prévisions utiles.
  • Si la variable de réponse contient deux catégories, comme Réussite et Echec, utilisez la fonction Ajuster le modèle logistique binaire.
  • Si la variable de réponse contient au moins trois catégories dont l'ordre est naturel, par exemple Absolument pas d'accord, Pas d'accord, Sans opinion, D'accord et Tout à fait d'accord, utilisez la fonction Régression logistique ordinale.
  • Si la variable de réponse contient au moins trois catégories qui n'ont pas d'ordre naturel, par exemple Eraflure, Entaille et Déchirure, utilisez la fonction Régression logistique nominale.
  • Si la variable de réponse dénombre des occurrences, comme le nombre de défauts, utilisez la fonction Ajuster le modèle de Poisson.
Suivre les meilleures pratiques pour la collecte des données
Pour garantir la validité de vos résultats, suivez les indications suivantes :
  • Assurez-vous que les données sont représentatives de la population qui vous intéresse.
  • Collectez suffisamment de données pour bénéficier de la précision nécessaire.
  • Mesurez les variables de façon aussi exacte et précise que possible.
  • Enregistrez les données dans leur ordre de collecte.
La corrélation entre les prédicteurs, également appelée multicolinéarité, ne doit pas être trop importante

Si la multicolinéarité est importante, il se peut que vous ne puissiez pas déterminer les prédicteurs à inclure dans le modèle. Pour déterminer la sévérité de la multicolinéarité, utilisez les facteurs d'inflation de la variance (FIV) dans le tableau Coefficients des résultats.

Le modèle doit être bien ajusté aux données

Si le modèle n'est pas bien ajusté aux données, les résultats risquent d'être trompeurs. Dans les résultats, utilisez les graphiques des valeurs résiduelles, les statistiques de diagnostic pour les observations aberrantes, ainsi que les statistiques récapitulatives du modèle pour déterminer l'ajustement du modèle aux données.