Considérations relatives aux données pour Ajuster le modèle de Poisson

Pour vous assurer que vos résultats sont valides, tenez compte des indications suivantes lorsque vous collectez des données, effectuez l'analyse et interprétez vos résultats.

Les prédicteurs peuvent être continus ou de catégorie

Une variable continue peut être mesurée et ordonnée, et a un nombre infini de valeurs entre deux valeurs. Par exemple, le diamètre d'un échantillon de pneus est une variable continue.

Les variables de catégorie contiennent un nombre limité et dénombrable de catégories ou de groupes distincts. Les données de catégorie peuvent ne pas présenter d'ordre logique. Par exemple, les prédicteurs de catégorie incluent le sexe d'individus, le type de matériel et le mode de paiement.

Si vos données comportent une variable discrète, vous pouvez décider de la traiter comme un prédicteur continu ou de catégorie. Une variable discrète peut être mesurée et ordonnée, mais ses valeurs son dénombrables. Par exemple, le nombre de personnes vivant dans une maison est une variable discrète. Le choix de traiter une variable discrète comme un prédicteur continu ou de catégorie dépend du nombre de niveaux, ainsi que de l'objectif de l'analyse. Pour plus d'informations, accédez à Que sont des variables de catégorie, discrètes et continues ?.

Si vous disposez de prédicteurs de catégorie emboîtés ou aléatoires, utilisez Ajuster le modèle linéaire général si tous les facteurs sont fixes ou Ajuster le modèle à effets mixtes si certains facteurs sont aléatoires. Pour la fonction Ajuster le modèle linéaire général, la réponse est continue.

La variable de réponse doit indiquer le nombre d'occurrences d'un événement dans un espace d'observation fini

Une réponse de type Poisson dénombre des événements, comme le nombre de défauts détectés sur un article.

Si la variable de réponse contient deux catégories, comme Réussite et Echec, utilisez la fonction Ajuster le modèle logistique binaire.
Si la variable de réponse contient au moins trois catégories dont l'ordre est naturel, par exemple Absolument pas d'accord, Pas d'accord, Sans opinion, D'accord et Tout à fait d'accord, utilisez la fonction Régression logistique ordinale.
Si la variable de réponse contient au moins trois catégories qui n'ont pas d'ordre naturel, par exemple Eraflure, Entaille et Déchirure, utilisez la fonction Régression logistique nominale.

Envisager l'utilisation d'une technique de validation de modèle

Minitab vous propose de valider le modèle avec un ensemble de données de test ou avec une validation croisée. Les statistiques récapitulatives du modèle destinées aux données du procédé d'ajustement du modèle, telles que le R² de la somme des carrés des écarts, ont tendance à être optimistes. L'utilisation d'un ensemble de données de test ou d'une validation croisée peut donner une représentation plus précise de la performance du modèle avec les nouvelles données.

Suivre les meilleures pratiques pour la collecte des données

Pour garantir la validité de vos résultats, suivez les indications ci-après :

Assurez-vous que les données sont représentatives de la population qui vous intéresse.
Collectez suffisamment de données pour bénéficier de la précision nécessaire.
Mesurez les variables de façon aussi exacte et précise que possible.
Enregistrez les données dans leur ordre de collecte.

La corrélation entre les prédicteurs, également appelée multicolinéarité, ne doit pas être trop importante

Si la multicolinéarité est importante, il se peut que vous ne puissiez pas déterminer les prédicteurs à inclure dans le modèle. Pour déterminer la sévérité de la multicolinéarité, utilisez les facteurs d'inflation de la variance (FIV) dans le tableau Coefficients des résultats.

Le modèle doit être correctement ajusté aux données

Si le modèle n'est pas correctement ajusté aux données, les résultats risquent d'être trompeurs. Dans les résultats, utilisez les graphiques des valeurs résiduelles, les statistiques de diagnostic pour les observations aberrantes, ainsi que les statistiques récapitulatives du modèle pour déterminer l'ajustement du modèle aux données.