Insira seus dados para Agrupamento de K médias

Estat > Multivariada > Agrupamento de K médias

Inserir seus dados

Em Variáveis, insira as colunas que contêm os dados de medição.

Você deve ter duas ou mais colunas numéricas, com cada coluna representando uma medição diferente. Você deve deletar linhas com dados faltantes da worksheet antes de usar este procedimento. Quando você tem um conjunto de dados grande com diversos valores faltantes, pode ser mais conveniente criar subconjuntos da sua worksheet para excluir as linhas com valores faltantes, em vez de deletar cada linha manualmente. Para obter mais informações, acesse Visão geral da worksheet de subconjunto.

Nesta worksheet, as colunas C1 a C4 contêm medições para cada variável que descreve uma característica de uma empresa. A coluna Inicial indica os identificadores dos agrupamentos iniciais para as observações. Observe que apenas os valores não zero na coluna inicial são usados para definir cada agrupamento inicial (1, 2 e 3). As observações restantes com um valor inicial de 0 não são atribuídas a um agrupamento inicial, mas, em vez disso, são atribuídas a um agrupamento durante o processo do algoritmo de agrupamento, com base no centróide do agrupamento do qual estão mais próximas.
C1 C2 C3 C4 C5
Clientes Taxa de retorno Vendas Anos Inicial
150 13,5 50400200 18 1
98 11,7 45665230 12 2
79 12,0 19800800 7 0
122 11,4 42560000 13 0
143 12,4 47635980 15 0
49 9,8 22342600 6 3

Especificar a partição inicial

Indicar as designações de agrupamento inicial. Os procedimentos de K-médias funcionam melhor quando você fornece pontos iniciais para agrupamentos. Baseie os agrupamentos iniciais em conhecimento prático e/ou de engenharia sobre as observações que estão sendo agrupadas. Para obter mais informações, vá para Como o processo de agrupamento de K-médias é iniciado.

  • Número de agrupamentos: Selecione se você não tiver, dedutivamente, nenhum conhecimento de agrupamentos iniciais. Insira um valor para especificar o número de agrupamentos a formar. Os agrupamentos iniciais são as primeiras linhas de dados na worksheet. Por exemplo, se você inserir 3, as primeiras três linhas de dados são os centróides de agrupamentos iniciais.
  • Coluna da partição inicial: Selecione para especificar uma coluna que contém os identificadores de agrupamentos iniciais. Use inteiros positivos para as observações que definem os agrupamentos iniciais e use zeros para as observações restantes.

Padronizar variáveis

Selecione Padronizar variáveis para que o Minitab pondere todas as variáveis igualmente. A padronização é uma boa prática na maioria dos casos, e é particularmente importante quando as variáveis usam diferentes escalas. Suponha que a variável A está em uma escala em dólares a partir de $0 até $10.000.000, e a variável B é uma razão em uma escala de 0,0 a 1,0. Se as variáveis não forem padronizadas, o procedimento do agrupamento coloca muito mais peso na variável A do que na variável B devido aos valores maiores de sua escala, o que, provavelmente, não é o resultado desejado. Portanto, as variáveis devem ser padronizadas.

O Minitab padroniza todas as variáveis subtraindo as médias e dividindo pelo desvio padrão antes de calcular a matriz de distâncias. Ao padronizar variáveis, o centróide geral é 0 para todos os agrupamentos.