Déterminer le regroupement final en groupes

Le regroupement final en groupes, que l'on appelle aussi subdivision finale, est le regroupement qui identifiera, dans le meilleur des cas, les groupes dont les observations ou les variables partagent des caractéristiques communes. On désigne également le choix du regroupement final par l'expression "couper le dendrogramme". Le dendrogramme complet (arborescence) est une représentation graphique de la fusion des observations ou des variables en un groupe. Couper le dendrogramme revient à tracer une ligne à travers le dendrogramme pour spécifier le groupement final. Les étapes suivantes peuvent vous aider à déterminer où couper le dendogramme.

  1. Effectuez une analyse hiérarchique avec le paramètre par défaut (1 groupe dans la subdivision finale). Minitab affiche les résultats pour tous les nombres de groupes possibles.
  2. Examinez les niveaux de similarité et de distance dans les résultats sous forme de tableau et dans le dendrogramme. Vous pouvez visualiser les niveaux de similarité en positionnant le pointeur de la souris sur une ligne horizontale du dendrogramme. Pour toute étape, le niveau de similarité est le pourcentage de la distance minimale de cette étape par rapport à la distance inter-observations maximale dans les données.
  3. Choisissez l'emplacement où effectuer la subdivision finale. La configuration de variation des valeurs de similarité ou de distance d'une étape à une autre peut vous aider à sélectionner le groupement final. L'étape comportant un changement brusque des valeurs peut correspondre à un point intéressant pour couper le dendrogramme, si cela est logique pour vos données.
  4. Effectuez la procédure de regroupement à nouveau, en utilisant Nombre de groupes ou Niveau de similarité pour vous donner un nombre défini de groupes ou un niveau de similarité pour couper le dendrogramme.
  5. Examinez les groupes obtenus dans la subdivision finale pour déterminer si le regroupement semble logique. La recherche de différents groupements finaux dans les dendrographies peut vous aider à choisir le plus logique pour vos données.
Remarque

Pour certains fichiers de données, les méthodes moyenne, centroïde, médiane et Ward peuvent ne pas produire de dendrogramme hiérarchique. Autrement dit, les distances de fusion n'augmentent pas automatiquement après chaque étape. Dans le dendrogramme, cela produit une liaison descendante et non ascendante.