Entrée des données pour la fonction K-Moyennes en groupes

Stat > Multivariée > K-Moyennes en groupes

Entrée des données

Dans Variables, indiquez les colonnes qui contiennent les données de mesure.

Vous devez disposer d'au moins deux colonnes numériques, chaque colonne représentant une mesure différente. Avant d'appliquer cette procédure, vous devez éliminer de la feuille de travail les lignes comportant des données manquantes. Lorsque vous disposez d'un important fichier de données comportant de nombreuses valeurs manquantes, vous pouvez diviser votre feuille de travail en sous-ensembles pour exclure les lignes contenant des valeurs manquantes, au lieu de supprimer manuellement chaque ligne. Pour plus d'informations, reportez-vous à la rubrique Division de la feuille de travail en sous-ensembles - Généralités.

Dans cette feuille de travail, les colonnes C1 à C4 contiennent des mesures pour chaque variable décrivant une caractéristique d'une société. La colonne Première indique l'appartenance des observations aux groupes initiaux. Seules les valeurs non négatives de la colonne Initial sont utilisées pour définir chaque groupe initial (1, 2 et 3). Les autres observations ayant une valeur initiale de 0 ne sont affectées à aucun groupe initial, mais sont affectées à un groupe lors de l'application de l'algorithme de regroupement, par rapport au point central du groupe duquel elles sont le plus proches.
C1 C2 C3 C4 C5
Clients Taux rendement Ventes Années Initiale
150 13,5 50400200 18 1
98 11,7 45665230 12 2
79 12,0 19800800 7 0
122 11,4 42560000 13 0
143 12,4 47635980 15 0
49 9,8 22342600 6 3

Spécifier la subdivision initiale

Indiquez les désignations de départ pour les groupes. Les procédures K-Moyennes fonctionnent mieux lorsque vous fournissez de bons points de départ pour les groupes. Déterminez le groupement initial d'après vos connaissances pratiques et/ou techniques relatives aux observations regroupées. Pour plus d'informations, reportez-vous à la rubrique Comment commence le processus de regroupement par les K-Moyennes ?.

  • Nombre de groupes : sélectionnez cette option si vous n'avez aucune connaissance a priori des groupes initiaux. Saisissez une valeur pour définir le nombre de groupes à former. Les groupes initiaux correspondent aux premières lignes de données dans la feuille de travail. Par exemple, si vous indiquez 3, les trois premières lignes de données correspondent aux points centraux des groupes initiaux.
  • Colonne de subdivision initiale : sélectionnez cette option pour indiquer une colonne contenant l'appartenance aux groupes initiaux. Utilisez des entiers positifs pour les observations qui définissent les groupes initiaux et utilisez des zéros pour les autres observations.

Normaliser les variables

Sélectionnez l'option Normaliser les variables pour que Minitab pondère équitablement toutes les variables. Dans la plupart des cas, la normalisation est recommandée, tout particulièrement lorsque les variables utilisent des échelles différentes. Supposons que la variable A soit sur une échelle en dollars allant de 0 $ à 10 000 000 $, et que la variable B corresponde à un rapport sur une échelle allant de 0,0 à 1,0. Si les variables ne sont pas normalisées, la procédure de regroupement place bien plus de poids sur la variable A que sur la variable B, car ses valeurs sont plus élevées, ce qui n'est probablement pas le résultat souhaité. Les variables doivent donc être normalisées.

Minitab normalise toutes les variables par soustraction de la moyenne et division par l'écart type avant de calculer la matrice de distance. Lorsque vous normalisez les variables, le grand centré est égal à 0 pour tous les groupes.