Observations relatives aux données pour la fonction Régression sur les meilleurs sous-ensembles

Pour garantir la validité de vos résultats, vérifiez que les règles suivantes sont respectées lorsque vous collectez des données, effectuez une analyse et interprétez vos résultats.

Les données doivent inclure plusieurs prédicteurs continus

Une variable continue peut être mesurée et ordonnée, et dispose d'un nombre infini de valeurs entre deux valeurs quelconques. Par exemple, les diamètres d'un échantillon de pneus représentent une variable continue.

Les variables de catégorie ont un nombre fini et dénombrable de catégories ou de groupes distincts. Les données de catégorie peuvent ne pas présenter d'ordre logique. Par exemple, les prédicteurs de catégorie incluent le sexe d'individus, le type de matériel et le mode de paiement.

Si vos données comportent une variable discrète, vous pouvez décider de la traiter comme un prédicteur continu ou de catégorie. Une variable discrète peut être mesurée et ordonnée, mais ses valeurs son dénombrables. Par exemple, le nombre de personnes vivant dans une maison est une variable discrète. Le choix de traiter une variable discrète comme un prédicteur continu ou de catégorie dépend du nombre de niveaux, ainsi que de l'objectif de l'analyse. Pour plus d'informations, reportez-vous à la rubrique Que sont des variables de catégorie, discrètes et continues ?.

Si vos données contiennent des prédicteurs de catégorie, utilisez la fonction Ajuster le modèle de régression avec une procédure pas à pas afin de sélectionner un modèle de régression en ajoutant ou en supprimant automatiquement des prédicteurs en fonction de leur signification statistique.
Si vous disposez de prédicteurs de catégorie emboîtés ou aléatoires, utilisez Ajuster le modèle linéaire général si tous les facteurs sont fixes ou Ajuster le modèle à effets mixtes si certains facteurs sont aléatoires.

La variable de réponse doit être continue

Si la variable de réponse est une variable de catégorie, le modèle est moins susceptible de satisfaire les hypothèses de l'analyse, de décrire précisément vos données ou de permettre des prévisions utiles.

Si la variable de réponse contient deux catégories, comme Réussite et Echec, utilisez la fonction Ajuster le modèle logistique binaire.
Si la variable de réponse contient au moins trois catégories dont l'ordre est naturel, par exemple Absolument pas d'accord, Pas d'accord, Sans opinion, D'accord et Tout à fait d'accord, utilisez la fonction Régression logistique ordinale.
Si la variable de réponse contient au moins trois catégories qui n'ont pas d'ordre naturel, par exemple Eraflure, Entaille et Déchirure, utilisez la fonction Régression logistique nominale.
Si la variable de réponse dénombre des occurrences, comme le nombre de défauts, utilisez la fonction Ajuster le modèle de Poisson.

Suivre les meilleures pratiques pour la collecte des données

Pour garantir la validité de vos résultats, suivez les indications suivantes :

Assurez-vous que les données sont représentatives de la population qui vous intéresse.
Collectez suffisamment de données pour bénéficier de la précision nécessaire.
Mesurez les variables de façon aussi exacte et précise que possible.
Enregistrez les données dans leur ordre de collecte.

Le modèle doit être bien ajusté aux données

Si le modèle n'est pas bien ajusté aux données, les résultats risquent d'être trompeurs. La procédure sur les meilleurs sous-ensembles propose des modèles candidats et fournit des résultats permettant d'évaluer leur ajustement aux données. Elle ne fournit pas de graphique des valeurs résiduelles ou de résultats permettant d'évaluer des termes spécifiques des modèles. Pour bénéficier de ces informations et analyser les modèles candidats de façon plus approfondie, utilisez la fonction Ajuster le modèle de régression.