Observations relatives aux données pour la fonction K-Moyennes en groupes

Pour garantir la validité de vos résultats, examinez les indications suivantes lorsque vous collectez des données, effectuez une analyse et interprétez vos résultats.

Vous devez utiliser des données brutes
Chaque ligne contient des mesures sur un élément ou sujet unique. Vous devez disposer d'au moins deux colonnes numériques, chaque colonne représentant une mesure différente. Avant d'utiliser cette analyse, vous devez éliminer de la feuille de travail les lignes comportant des données manquantes.
Le processus de regroupement fonctionne mieux lorsque vous déterminez les groupes initiaux d'après vos connaissances pratiques et/ou techniques.
Cependant, si vous n'avez aucune connaissance préalable des groupes initiaux, vous pouvez effectuer l'analyse sans lancer le processus en indiquant uniquement le nombre de groupes à former. Pour plus d'informations, reportez-vous à la rubrique Entrée des données pour la fonction K-Moyennes en groupes.
Pour lancer le processus de regroupement avec une colonne de données, vous devez disposer d'une colonne de valeurs pour indiquer l'appartenance aux groupes.
La colonne d'initialisation doit contenir des entiers positifs consécutifs ou des zéros (mais pas exclusivement des zéros). Au départ, chaque observation est affectée au groupe identifié par la valeur correspondante dans cette colonne. Une valeur d'initialisation de zéro signifie qu'une observation n'est pas affectée à un groupe au départ. Le nombre d'entiers positifs distincts figurant dans la colonne de subdivision initiale est égal au nombre de groupes de la subdivision finale.
Les valeurs aberrantes peuvent influencer les résultats de manière significative.
La présence de valeurs aberrantes (valeurs inhabituellement élevées ou faibles) dans vos données peut avoir un impact sur le regroupement des observations. Les groupes sont souvent plus importants lorsque les valeurs aberrantes ne sont pas supprimées et la solution obtenue peut ne pas sembler logique. Examinez les valeurs aberrantes et supprimez celles qui sont dues à des erreurs de mesure ou d'enregistrement. Les valeurs aberrantes extrêmes peuvent aussi indiquer des observations spécifiques qui sont fondamentalement différentes de toutes les autres observations de votre fichier de données, probablement en raison de causes spéciales. S'il existe des raisons pratiques de ne pas inclure les valeurs aberrantes extrêmes dans l'analyse, envisagez de réexécuter l'analyse en les excluant pour connaître leur influence sur les résultats.