Entrée des données pour la fonction Observations en groupes

Stat > Multivariée > Observations en groupes

Spécifiez les données pour votre analyse, sélectionnez les méthodes de liaison et de distance, indiquez si les variables doivent être normalisées, spécifiez la subdivision finale et sélectionnez les options de graphiques.

Entrée des données

Dans Matrice de distance ou variables, entrez les colonnes contenant les données de mesure ou une matrice de distance stockée contenant les distances entre toutes les paires d'observations.

Remarque

Si vous entrez une matrice de distance stockée, Minitab ne peut pas calculer de statistiques pour la subdivision finale.

Pour les données de mesure, vous devez disposer d'au moins deux colonnes numériques, chaque colonne représentant une mesure différente. Avant d'effectuer cette analyse, vous devez supprimer de la feuille de travail les lignes contenant des données manquantes. Si vous disposez de plusieurs lignes de données, vous pouvez diviser la feuille de travail en sous-ensembles pour exclure les lignes ayant des valeurs manquantes. Pour plus d'informations, reportez-vous à la rubrique Division de la feuille de travail en sous-ensembles - Généralités.

Vous ne pouvez pas indiquer de variable de catégorie pour cette analyse. Si vous disposez d'une variable de catégorie, vous devez d'abord convertir les valeurs de texte vers une échelle numérique, ou effectuer une analyse à part pour chaque niveau de la variable de catégorie. Pour plus d'informations, reportez-vous à la rubrique Observations relatives aux données pour la fonction Observations en groupes.

Pour une matrice de distance stockée, l'entrée dans la cellule à l'intersection de la ligne i et de la colonne j de la matrice de distance D correspond à la distance entre les observations i et j. Pour obtenir des informations sur la création et l'utilisation des matrices stockées dans Minitab, reportez-vous à la rubrique Matrices - Généralités.

Dans cette feuille de travail, les colonnes contiennent différentes mesures sur des athlètes.

C1	C2	C3	C4
Sexe	Taille	Poids	Droitier/Gaucher
2	67	155	1
1	74	193	1
2	68	152	1
1	70	172	0
1	72	169	1
2	66	134	0

Spécifier la méthode de liaison

Dans Méthode de liaison, sélectionnez une méthode pour indiquer comment est définie la distance entre deux groupes. Vous pouvez essayer d'utiliser différentes méthodes de liaison pour déterminer laquelle apporte les résultats les plus utiles pour vos données.

Remarque

Pour la fonction Observations en groupes, la distance fait référence à la distance séparant les observations, et la liaison fait référence à la distance séparant les groupes d'observations. Pour la fonction Variables de groupes, la distance fait référence à la distance séparant les variables, et la liaison fait référence à la distance séparant les groupes de variables.

Moyenne: La distance entre deux groupes est égale à la distance moyenne entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Alors que les méthodes de liaison simple et complète s'appuie sur les distances entre une paire unique d'observations, la liaison moyenne utilise une mesure de position plus centrale.
Centré: La distance séparant deux groupes est la distance entre les points centraux ou les moyennes des groupes. Comme la liaison moyenne, cette méthode est une autre technique basée sur l'établissement de moyennes.
Complet: La distance entre deux groupes est égale à la distance maximale entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Cette méthode, dite du voisin le plus éloigné, garantit que toutes les observations (ou variables) d'un groupe se situent à l'intérieur d'une distance maximale et elle tend à produire des groupes de diamètre similaire. Toutefois, les résultats sont hautement influencés par les valeurs aberrantes.
McQuitty: La distance entre le nouveau groupe et tout autre groupe est calculée comme étant la moyenne des distances entre cet autre groupe et les groupes à réunir prochainement. Par exemple, si les groupes 1 et 3 doivent être réunis en un nouveau groupe, disons 1*, la distance entre 1* et le groupe 4 sera alors la moyenne des distances de 1 à 4 et de 3 à 4. Ici, la distance dépend d'une combinaison de groupes plutôt que des observations (ou variables) individuelles des groupes.
Médiane: La distance entre deux groupes est égale à la distance médiane entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Etant donné que cette technique basée sur l'établissement de moyennes utilise la médiane plutôt que la moyenne, l'effet des valeurs aberrantes est diminué.
Simple: La distance entre deux groupes est égale à la distance minimale entre une observation (ou variable) d'un groupe et une observation (ou variable) de l'autre. Cette méthode, également nommée méthode du voisin le plus proche, s'avère judicieuse lorsque les groupes sont clairement séparés. Lorsque les observations (ou variables) sont proches, elle tend à identifier des groupes semblables à de longues chaînes pouvant présenter une distance relativement grande entre les observations à chaque extrémité de la chaîne.
Ward: La distance entre deux groupes est égale à la somme des écarts quadratiques entre les points et les points centraux. Le but de la liaison de Ward est de minimiser la somme des carrés à l'intérieur du groupe. Elle tend à produire des groupes avec des nombres d'observations (ou de variables) similaires, mais elle risque d'être affectée par les observations aberrantes. De plus, la distance entre deux groupes peut être supérieure à dmax, la valeur maximale dans la matrice de distance initiale. Dans ce cas, la valeur de similarité est négative.

Spécifier la mesure de distance

Dans Mesure de distance, sélectionnez la méthode de calcul de la distance entre les paires d'observations.

Euclidienne: Mesure de distance la plus courante, qui calcule la racine carrée de la somme des différences quadratiques.
Quadratique euclidienne: Carré de la distance calculé à l'aide de la méthode euclidienne. Cette méthode donne plus de poids aux valeurs aberrantes.
Pearson: Racine carrée de la somme des distances carrées divisée par les variances. Cette méthode égalise les variances et peut être utilisée pour la normalisation.
Quadratique de Pearson: Carré de la distance calculé à l'aide de la méthode de Pearson. Cette méthode donne plus de poids aux valeurs aberrantes et égalise les variances.
Manhattan: Somme des distances absolues. Cette méthode donne moins de poids aux valeurs aberrantes.

Conseil

Si vous avez sélectionné Moyenne, Centré, Médiane ou Ward en tant que méthode de liaison, vous devez généralement utiliser l'une des mesures de distance quadratique.

Normaliser les variables

Sélectionnez Normaliser les variables pour que Minitab pondère équitablement toutes les variables. Dans la plupart des cas, la normalisation est recommandée, tout particulièrement lorsque les variables utilisent des échelles différentes. Supposons que la variable A soit sur une échelle en dollars allant de 0 $ à 10 000 000 $, et que la variable B corresponde à un rapport sur une échelle allant de 0,0 à 1,0. Si les variables ne sont pas normalisées, la procédure de regroupement des observations place bien plus de poids sur la variable A que sur la variable B car ses valeurs sont plus élevées, ce qui n'est probablement pas le résultat souhaité. Les variables doivent donc être normalisées.

Lorsque vous normalisez les variables, Minitab égalise toutes les moyennes à 0 et toutes les variances à 1. Pour égaliser uniquement les variances, ne sélectionnez pas l'option de normalisation, mais sélectionnez plutôt l'option Pearson ou Quadratique de Pearson sous Mesure de distance.

Spécifier la subdivision finale

Indiquez les critères à utiliser pour déterminer les groupements finaux.

Nombre de groupes : sélectionnez cette option pour entrer le nombre de groupes de la subdivision finale.
Niveau de similarité : sélectionnez cette option pour entrer le niveau de similarité des groupes dans la subdivision finale.

Pour obtenir les meilleurs résultats possibles, vos critères doivent être flexibles. Par exemple, si vous définissez la subdivision finale à l'aide du nombre de groupes, vous devez également prendre en compte les changements dans le niveau de similarité. Une baisse marquée de la similarité lors de l'ajout d'un groupe particulier peut vous inciter à spécifier la subdivision finale avant ce regroupement. Inversement, si vous définissez la subdivision finale à l'aide du niveau de similarité, il se peut que vous déterminiez que les niveaux de similarité ne changent pas beaucoup sur une étendue de groupes. Par souci de simplicité, il est recommandé de choisir l'étape comportant le moins de groupes.

Remarque

Si vous ne savez pas quelle valeur indiquer pour la subdivision finale, effectuez d'abord l'analyse avec le paramètre par défaut (1 groupe dans la subdivision finale). Minitab affiche les résultats pour tous les nombres de groupes possibles. Utilisez ces résultats pour déterminer une valeur à saisir pour la subdivision finale. Ensuite, répétez l'analyse et spécifiez la subdivision finale déterminée. Pour plus d'informations, reportez-vous à la rubrique Déterminer le regroupement final en groupes.

Montrer le dendrogramme

Sélectionnez cette option pour afficher une arborescence indiquant comment les groupes ont été formés à chaque étape de la procédure de fusion. Le dendrogramme permet de visualiser les valeurs de similarité (ou de distance) des groupes à chaque étape.

Pour modifier l'affichage par défaut du dendrogramme, cliquez sur Personnaliser.