Dans Variables, indiquez les colonnes qui contiennent les données de mesure.
Vous devez disposer d'au moins deux colonnes numériques, chaque colonne représentant une mesure différente. Avant d'appliquer cette procédure, vous devez éliminer de la feuille de travail les lignes comportant des données manquantes. Lorsque vous disposez d'un important fichier de données comportant de nombreuses valeurs manquantes, vous pouvez diviser votre feuille de travail en sous-ensembles pour exclure les lignes contenant des valeurs manquantes, au lieu de supprimer manuellement chaque ligne. Pour plus d'informations, reportez-vous à la rubrique Division de la feuille de travail en sous-ensembles - Généralités.
C1 | C2 | C3 | C4 | C5 |
---|---|---|---|---|
Clients | Taux rendement | Ventes | Années | Initiale |
150 | 13,5 | 50400200 | 18 | 1 |
98 | 11,7 | 45665230 | 12 | 2 |
79 | 12,0 | 19800800 | 7 | 0 |
122 | 11,4 | 42560000 | 13 | 0 |
143 | 12,4 | 47635980 | 15 | 0 |
49 | 9,8 | 22342600 | 6 | 3 |
Indiquez les désignations de départ pour les groupes. Les procédures K-Moyennes fonctionnent mieux lorsque vous fournissez de bons points de départ pour les groupes. Déterminez le groupement initial d'après vos connaissances pratiques et/ou techniques relatives aux observations regroupées. Pour plus d'informations, reportez-vous à la rubrique Comment commence le processus de regroupement par les K-Moyennes ?.
Sélectionnez l'option Normaliser les variables pour que Minitab pondère équitablement toutes les variables. Dans la plupart des cas, la normalisation est recommandée, tout particulièrement lorsque les variables utilisent des échelles différentes. Supposons que la variable A soit sur une échelle en dollars allant de 0 $ à 10 000 000 $, et que la variable B corresponde à un rapport sur une échelle allant de 0,0 à 1,0. Si les variables ne sont pas normalisées, la procédure de regroupement place bien plus de poids sur la variable A que sur la variable B, car ses valeurs sont plus élevées, ce qui n'est probablement pas le résultat souhaité. Les variables doivent donc être normalisées.
Minitab normalise toutes les variables par soustraction de la moyenne et division par l'écart type avant de calculer la matrice de distance. Lorsque vous normalisez les variables, le grand centré est égal à 0 pour tous les groupes.