Observations relatives aux données pour la fonction Régression par les moindres carrés partiels

Pour garantir la validité de vos résultats, vérifiez que les règles suivantes sont respectées lorsque vous collectez des données, effectuez une analyse et interprétez vos résultats.

Les prédicteurs ne doivent pas être fixes.

PLS ne suppose pas que les prédicteurs sont fixes, ce qui signifie que les prédicteurs peuvent être mesurés avec l'erreur. Si les prédicteurs sont fixes et ne comportent pas d'erreur de mesure majeure, utilisez Ajuster le modèle de régression.

Les données peuvent comporter plus de termes que d'observations, ou les prédicteurs peuvent être hautement colinéaires

Si les prédicteurs ne sont pas hautement colinéaires et que vos données incluent plus d'observations que de prédicteurs, utilisez Ajuster le modèle de régression.

Les prédicteurs peuvent être continus ou de catégorie

Une variable continue peut être mesurée et ordonnée, et dispose d'un nombre infini de valeurs entre deux valeurs quelconques. Par exemple, les diamètres d'un échantillon de pneus représentent une variable continue.

Les variables de catégorie ont un nombre fini et dénombrable de catégories ou de groupes distincts. Les données de catégorie peuvent ne pas présenter d'ordre logique. Par exemple, les prédicteurs de catégorie incluent le sexe d'individus, le type de matériel et le mode de paiement.

Si vos données comportent une variable discrète, vous pouvez décider de la traiter comme un prédicteur continu ou de catégorie. Une variable discrète peut être mesurée et ordonnée, mais ses valeurs son dénombrables. Par exemple, le nombre de personnes vivant dans une maison est une variable discrète. Le choix de traiter une variable discrète comme un prédicteur continu ou de catégorie dépend du nombre de niveaux, ainsi que de l'objectif de l'analyse. Pour plus d'informations, reportez-vous à la rubrique Que sont des variables de catégorie, discrètes et continues ?.

Les variables de réponse doivent être continues

Si vous effectuez l'analyse avec des variables de réponse corrélées, la fonction PLS permet de détecter des schémas de réponses multivariés et des relations plus faibles qu'il n'est possible en effectuant une analyse différente pour chaque réponse.

Si la variable de réponse est une variable de catégorie, le modèle est moins susceptible de satisfaire les hypothèses de l'analyse, de décrire précisément vos données ou de permettre des prévisions utiles.

Si vos prédicteurs ne sont pas fortement corrélés et que leur nombre est inférieur à celui des observations, vous pouvez envisager d'autres analyses.

Si la variable de réponse contient deux catégories, comme Réussite et Echec, utilisez la fonction Ajuster le modèle logistique binaire.
Si la variable de réponse contient au moins trois catégories dont l'ordre est naturel, par exemple Absolument pas d'accord, Pas d'accord, Sans opinion, D'accord et Tout à fait d'accord, utilisez la fonction Régression logistique ordinale.
Si la variable de réponse contient au moins trois catégories qui n'ont pas d'ordre naturel, par exemple Eraflure, Entaille et Déchirure, utilisez la fonction Régression logistique nominale.
Si la variable de réponse dénombre des occurrences, comme le nombre de défauts, utilisez la fonction Ajuster le modèle de Poisson.

Suivre les meilleures pratiques pour la collecte des données

Pour garantir la validité de vos résultats, suivez les indications suivantes :

Assurez-vous que les données sont représentatives de la population qui vous intéresse.
Collectez suffisamment de données pour bénéficier de la précision nécessaire.
Mesurez les variables de façon aussi exacte et précise que possible.
Enregistrez les données dans leur ordre de collecte.

Le modèle doit être bien ajusté aux données

Si le modèle n'est pas bien ajusté aux données, les résultats risquent d'être trompeurs. Dans les résultats, utilisez les graphiques des valeurs résiduelles, les statistiques de sélection et de validation de modèle, ainsi que le diagramme des réponses pour déterminer l'ajustement du modèle aux données.