Considerações de dados para Agrupamento de K médias

Para garantir que seus resultados sejam válidos, considere as seguintes diretrizes ao coletar dados, realizar a análise, e interpretar os resultados.

Você deve usar dados brutos
Cada linha contém medições sobre um assunto ou item único. Você deve ter duas ou mais colunas numéricas, com cada coluna representando uma medição diferente. Você deve deletar linhas com dados faltantes da worksheet antes de usar esta análise.
O processo de agrupamento funciona melhor quando você baseia o agrupamento inicial em conhecimento prático e/ou de engenharia
Contudo, se você não tiver, pressupostamente, nenhum conhecimento dos agrupamentos iniciais, poderá realizar a análise sem iniciar o processo indicando somente o número de agrupamentos a formar. Para obter mais informações, vá para Insira seus dados para Agrupamento de K médias.
Para iniciar o processo de agrupamento usando uma coluna de dados, você deve ter uma coluna e valores para indicar o identificador do agrupamento
A coluna de inicialização deve conter inteiros positivos, consecutivos ou zeros (ela não deve conter somente zeros). Inicialmente, cada observação é atribuída ao agrupamento identificado pelo valor correspondente nesta coluna. Uma inicialização de zero significa que uma observação é inicialmente não atribuída a um grupo. O número de inteiros positivos distintos na coluna da partição inicial igual o número de agrupamentos na partição final.
Os outliers podem influenciar significativamente os resultados
A presença de outliers, que são atipicamente valores grandes ou pequenos em seus dados, podem afetar os resultados do agrupamento. Os agrupamentos são frequentemente maiores quando os outliers não são removidos, e a solução resultante pode não parecer lógica. Investigue outliers e remova quaisquer valores que são devidos à medição ou erros de gravação. Outliers extremos também podem ser uma indicação de observações específicas que são fundamentalmente diferentes de todas as outras observações em seu conjunto de dados, talvez devido a alguma causa especial. Se houver razões práticas, para não incluir outliers extremos na análise, considere realizar a análise novamente sem eles, para ver como eles influenciam os resultados.