Entrée des données pour la fonction Variables de groupes

Stat > Multivarié > Variables de groupes

Entrée des données

Dans la zone Matrice de distance ou variables, entrez les colonnes contenant les données de mesure ou une matrice de distance stockée contenant les distances entre toutes les paires de variables.

Remarque

Si vous entrez une matrice de distance stockée, Minitab ne peut pas calculer de statistiques pour la subdivision finale.

Pour les données de mesure, vous devez disposer d'au moins deux colonnes numériques, chaque colonne représentant une mesure différente. Avant d'effectuer cette analyse, vous devez supprimer de la feuille de travail les lignes contenant des données manquantes. Si vous disposez de plusieurs lignes de données, vous pouvez diviser la feuille de travail en sous-ensembles pour exclure les lignes avec valeurs manquantes. Pour plus d'informations, reportez-vous à la rubrique Diviser la feuille de travail en sous-ensembles - Généralités.

Vous ne pouvez pas indiquer de variable de catégorie pour cette analyse. Si vous disposez d'une variable de catégorie, vous devez d'abord convertir les valeurs de texte vers une échelle numérique, ou effectuer une analyse à part pour chaque niveau de la variable de catégorie. Pour plus d'informations, reportez-vous à la rubrique Observations relatives aux données pour la fonction Variables de groupes.

Pour la matrice de distance stockée, l'entrée dans la cellule à l'intersection de la ligne i et de la colonne j de la matrice de distance D correspond à la distance entre les variables i et j. Pour obtenir des informations sur la création et l'utilisation des matrices stockées dans Minitab, reportez-vous à la rubrique Matrices - Généralités.

Dans cette feuille de travail, chaque colonne contient des mesures relatives à différentes variables, mesurées dans plusieurs villes dans le monde, pouvant être associées aux taux d'admission à l'université. Les variables incluent le nombre de journaux, de radios et de postes de télévision pour 1 000 personnes dans différentes villes, le niveau d'alphabétisation et la présence d'une université. Les chercheurs espèrent réduire le nombre de variables en combinant celles qui présentent des caractéristiques similaires.
C1 C2 C3 C4 C5
Journal Radio Postes de télévision Niveau d'alphabétisation University
279 267 227 0,98 1
143 112 332 0,94 1
9 113 7 0,25 0
391 314 566 0,99 1
112 48 423 0,82 1
67 66 134 0,45 0

Spécifier la méthode de liaison

Dans Méthode de liaison, sélectionnez une méthode pour indiquer comment est définie la distance entre deux groupes. Vous pouvez essayer d'utiliser différentes méthodes de liaison pour déterminer laquelle apporte les résultats les plus utiles pour vos données.

Remarque

Pour la fonction Observations en groupes, la distance fait référence à la distance séparant les observations, et la liaison fait référence à la distance séparant les groupes d'observations. Pour la fonction Variables de groupes, la distance fait référence à la distance séparant les variables, et la liaison fait référence à la distance séparant les groupes de variables.

Moyenne
La distance entre deux groupes est égale à la distance moyenne entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Alors que les méthodes de liaison simple et complète s'appuie sur les distances entre une paire unique d'observations, la liaison moyenne utilise une mesure de position plus centrale.
Centré
La distance séparant deux groupes est la distance entre les points centraux ou les moyennes des groupes. Comme la liaison moyenne, cette méthode est une autre technique basée sur l'établissement de moyennes.
Complet
La distance entre deux groupes est égale à la distance maximale entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Cette méthode, dite du voisin le plus éloigné, garantit que toutes les observations (ou variables) d'un groupe se situent à l'intérieur d'une distance maximale et elle tend à produire des groupes de diamètre similaire. Toutefois, les résultats sont hautement influencés par les valeurs aberrantes.
McQuitty
La distance entre le nouveau groupe et tout autre groupe est calculée comme étant la moyenne des distances entre cet autre groupe et les groupes à réunir prochainement. Par exemple, si les groupes 1 et 3 doivent être réunis en un nouveau groupe, disons 1*, la distance entre 1* et le groupe 4 sera alors la moyenne des distances de 1 à 4 et de 3 à 4. Ici, la distance dépend d'une combinaison de groupes plutôt que des observations (ou variables) individuelles des groupes.
Médiane
La distance entre deux groupes est égale à la distance médiane entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Etant donné que cette technique basée sur l'établissement de moyennes utilise la médiane plutôt que la moyenne, l'effet des valeurs aberrantes est diminué.
Simple
La distance entre deux groupes est égale à la distance minimale entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Cette méthode, également nommée méthode du voisin le plus proche, s'avère judicieuse lorsque les groupes sont clairement séparés. Lorsque les observations (ou variables) sont proches, elle tend à identifier des groupes semblables à de longues chaînes pouvant présenter une distance relativement grande entre les observations à chaque extrémité de la chaîne.
Ward
La distance entre deux groupes est égale à la somme des écarts quadratiques entre les points et les points centraux. Le but de la liaison de Ward est de minimiser la somme des carrés à l'intérieur du groupe. Elle tend à produire des groupes avec des nombres d'observations (ou de variables) similaires, mais elle risque d'être affectée par les observations aberrantes. De plus, la distance entre deux groupes peut être supérieure à dmax, la valeur maximale dans la matrice de distance initiale. Dans ce cas, la valeur de similarité est négative.

Spécifier la mesure de distance

Dans Mesure de distance, sélectionnez la méthode de calcul de la distance entre les variables.
  • Corrélation : la méthode de corrélation donne des distances comprises entre 0 et 1 pour les corrélations positives, et entre 1 et 2 pour les corrélations négatives. Faites appel à la méthode de corrélation s'il est logique de considérer les données corrélées négativement comme étant plus éloignées les unes des autres que les données corrélées positivement.
  • Corrélation absolue : la méthode de corrélation absolue donne des distances comprises entre 0 et 1. Utilisez la méthode de corrélation absolue si vous pensez que c'est la force de la relation et non le signe qui est importante en ce qui concerne la distance.

Spécifier la subdivision finale

Indiquez les critères à utiliser pour déterminer les groupements finaux.
  • Nombre de groupes : sélectionnez cette option pour entrer le nombre de groupes de la subdivision finale.
  • Niveau de similarité : sélectionnez cette option pour entrer le niveau de similarité des groupes dans la subdivision finale.

Pour obtenir les meilleurs résultats possibles, vos critères doivent être flexibles. Par exemple, si vous définissez la subdivision finale à l'aide du nombre de groupes, vous devez également prendre en compte les changements dans le niveau de similarité. Une baisse marquée de la similarité lors de l'ajout d'un groupe particulier peut vous inciter à spécifier la subdivision finale avant ce regroupement. Inversement, si vous définissez la subdivision finale à l'aide du niveau de similarité, il se peut que vous déterminiez que les niveaux de similarité ne changent pas beaucoup sur une étendue de groupes. Par souci de simplicité, il est recommandé de choisir l'étape comportant le moins de groupes.

Remarque

Si vous ne savez pas quelle valeur indiquer pour la subdivision finale, effectuez d'abord l'analyse avec le paramètre par défaut (1 groupe dans la subdivision finale). Minitab affiche les résultats pour tous les nombres de groupes possibles. Utilisez ces résultats pour déterminer une valeur à saisir pour la subdivision finale. Ensuite, répétez l'analyse et spécifiez la subdivision finale déterminée. Pour plus d'informations, reportez-vous à la rubrique Déterminer le regroupement final en groupes.

Montrer le dendrogramme

Sélectionnez cette option pour afficher une arborescence indiquant comment les groupes ont été formés à chaque étape de la procédure de fusion. Le dendrogramme permet de visualiser les valeurs de similarité (ou de distance) des groupes à chaque étape.

Pour modifier l'affichage par défaut du dendrogramme, cliquez sur Personnaliser.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique