Interpretar todas as estatísticas e gráficos para Agrupamento de variáveis

Encontre definições e orientações de interpretação para cada estatística e gráfico fornecido com a análise de variáveis de agrupamento.

Etapa

O número do passo no procedimento de amalgamação para unir os agrupamentos. Em cada passo, um novo agrupamento é unido a um agrupamento existente e seu nível de similaridade e o nível de distância são calculados.

Número de agrupamentos

O número de agrupamentos que são formados em cada passo do processo de amalgamação. Antes do primeiro passo, o número de agrupamentos é igual ao número total de observações (para observações de agrupamentos) ou o número total de variáveis (para agrupamento de variáveis). No primeiro passo, dois agrupamentos são unidos para formar um novo agrupamento. Em cada passo subsequente, outro agrupamento é unido a um agrupamento existente para formar um novo agrupamento. No passo final, todas as observações ou variáveis são combinadas em um agrupamento único.

Você pode inserir o número de agrupamentos na caixa de diálogo principal, para especificar a partição final dos seus dados. Sua escolha do método de ligação e medida de distância influencia enormemente o resultado do agrupamento.

Nível de similaridade

A porcentagem da distância mínima entre agrupamentos de cada passo de amalgamação relativo à distância interobservação máxima nos dados. A similaridade, s(ij), entre dois agrupamentos i e j é dada por s(ij) = 100 * [1 - d(ij)) / d(max)], onde d(max) é o valor máximo na matriz da distância original, D, com entrada d(ij) para a distância entre i e j.

Interpretação

Use o nível de similaridade para os agrupamentos que estão unidos em cada passo para ajudar a determinar os agrupamentos finais dos dados.Procure uma mudança abrupta no nível de similaridade entre passos. O passo que precede a mudança abrupta na similaridade pode fornecer um bom ponto de corte para a partição final. Para a partição final, os agrupamentos devem ter um nível de similaridade razoavelmente altos. Você deve usar também seu conhecimento prático dos dados para determinar os agrupamentos finais que fazem mais sentido para sua aplicação.

Por exemplo, a seguinte tabela de amalgamação mostra que o nível de similaridade diminui ligeiramente do passo 1 (93,9666) para o passo (93,1548). A similaridade diminui mais abruptamente no passo 3 (87,3150), quando o número de agrupamentos muda de 3 para 2. Esses resultados indicam que 3 agrupamentos podem ser apropriados para a partição final. Se este agrupamento fizer sentido intuitivo, ele é provavelmente uma boa escolha.

Distância do Coeficiente de Correlação, Ligação Média

Passos de Amalgamação

PassoNúmero de
agrupados
Nível de
similaridade
Nível de
distância
Agrupados
reunidos
Novo
agrupado
Número de
obs. no
novo
agrupado
1493,96660,1206692322
2393,15480,1369044542
3287,31500,2537001413
4179,81130,4037751215

Nível de distância

A distância entre agrupamentos (usando-se o método de ligação escolhido) ou variáveis (usando-se a medição da distância escolhida) que são unidos em cada passo. O Minitab calcula o nível da distância com base no método de ligação e na medição da distância que você selecionou na caixa de diálogo principal.

A distância entre duas variáveis esta diretamente relacionados à sua correlação. Isto é, para duas variáveis, X1 e X2, a distância é igual a 1− correlação. Por exemplo, se Corr(X1,X2) = 0,879, então a distância(X1,X2) = 1 − 0,879 = 0.121.

Interpretação

Use o nível de distância para os agrupamentos que são unidos em cada passo para ajudar a determinar os agrupamentos finais dos dados. Procure uma mudança abrupta no nível da distância entre passos. O passo que precede a mudança abrupta na distância pode fornecer um bom ponto de corte para a partição final. Para a partição final, os agrupamentos devem ter um nível de distância razoavelmente pequeno. Você deve usar também seu conhecimento prático dos dados para determinar os agrupamentos finais que fazem mais sentido para sua aplicação.

Por exemplo, a tabela de amalgamação a seguir mostra que o nível de distância aumenta ligeiramente do passo 1 (0,120669) para o passo 2 (0,136904). A distância então aumenta mais abruptamente na etapa 3 (0,253700), quando o número de agrupamentos muda de 3 para 2. Esses resultados indicam que 3 agrupamentos podem ser apropriados para a partição final. Se este agrupamento fizer sentido intuitivo, ele é provavelmente uma boa escolha.

Distância do Coeficiente de Correlação, Ligação Média

Passos de Amalgamação

PassoNúmero de
agrupados
Nível de
similaridade
Nível de
distância
Agrupados
reunidos
Novo
agrupado
Número de
obs. no
novo
agrupado
1493,96660,1206692322
2393,15480,1369044542
3287,31500,2537001413
4179,81130,4037751215

Agrupamentos unidos

Os dois agrupamentos que estão unidos para formar um novo agrupamento em cada passo no processo de amalgamação.

Novo agrupamento

O número de identificação do novo agrupamento que é formado em cada passo no processo de amalgamação. O número de identificação do novo agrupamento é sempre o menor dos números de identificação dos dois agrupamentos que estão unidos. Por exemplo, se o agrupamento 2 e o agrupamento 9 estiverem unidos, o novo agrupamento que é formado é chamado agrupamento 2.

Número de observações no novo agrupamento

O número de observações em cada novo agrupamento em cada passo no processo de amalgamação. No passo final, todas as observações são combinadas em um agrupamento simples. Portanto, o número de observações no novo agrupamento para o último passo iguala o número total de observações nos dados.

Observação

Para Agrupamento de variáveis, o número de observações é o número de variáveis no novo agrupamento.

Partição final

Se você especificar uma partição final na caixa de diálogo principal, o Minitab exibe uma lista das variáveis em cada agrupamento. As variáveis dentro de cada agrupamento na partição final devem fazer sentido intuitivo, com base em sua aplicação específica.

Dendrograma

O dendrograma é um diagrama de árvore que exibe os grupos formados por agrupamento de variáveis em cada etapa e em seus níveis de similaridade. O nível de similaridade é medido ao longo do eixo vertical (alternativamente, você pode exibir o nível de distância) e as variáveis diferentes são listadas ao longo do eixo horizontal.

Interpretação

Use o dendrograma para visualizar como os agrupamentos foram formados em cada passo e para avaliar os níveis de similaridade (ou distância) dos agrupamentos formados.

Para exibir os níveis de similaridade (ou distância), mantenha seu ponteiro sobre uma linha horizontal no dendrograma. O padrão de como a similaridade ou os valores de distância mudam de um passo para outro pode ajudar a escolher o agrupamento final dos seus dados. O passo onde os valores mudam abruptamente podem identificar um bom ponto para definir o agrupamento final.

A decisão sobre o agrupamento final também é chamado corte do dendrograma. O corte do dendrograma é parecido com o desenho de uma linha por todo o dendrograma para especificar o agrupamento final. Você também pode comparar os dendrogramas para agrupamentos finais diferentes para ajudá-lo a decidir qual faz mais sentido para os dados.

Este dendrograma foi criado usando-se uma partição final de 3 agrupamentos. Cada agrupamento final é indicado por uma cor separada. O dendrograma foi "cortado" em um nível de similaridade de aproximadamente 88. Se o dendrograma tiver sido cortado mais alto, haveria menos agrupamentos finais, mas o nível de similaridade teria sido reduzido. Se o dendrograma tiver sido cortado mais baixo, o nível de similaridade teria sido maior, mas haveria mais agrupamentos finais.

Observação

Para alguns conjuntos de dados, os métodos da média, do centróide, da mediana e de Ward podem não gerar um dendrograma hierárquico. Ou seja, as distâncias de amalgamação nem sempre aumentam com cada passo. No dendrograma, esse passo produziria uma junção para baixo em vez de para cima.