Para asegurar que los resultados sean válidos, considere las siguientes pautas al recopilar datos, realizar el análisis e interpretar los resultados.
Se deben usar datos sin procesar
Cada fila contiene mediciones de un solo elemento o sujeto. Debe tener dos o más columnas numéricas, donde cada columna represente una medición diferente. Debe eliminar las filas con datos faltantes de la hoja de trabajo antes de utilizar este análisis.
El proceso de creación de conglomerados funciona mejor cuando los conglomerados iniciales se basan en el conocimiento práctico y/o de ingeniería
Sin embargo, si usted no tiene conocimiento a priori de los conglomerados iniciales, puede realizar el análisis sin inicializar el proceso al indicar solamente el número de conglomerados que desea formar. Para obtener más información, vaya a Ingresar los datos para Conglomerados de k-medias.
Para inicializar el proceso de creación de conglomerados utilizando una columna de datos, debe tener una columna de valores que indique los miembros de los conglomerados
La columna de inicialización debe contener enteros positivos consecutivos o ceros (no debe contener solamente ceros). Inicialmente, cada observación se asigna al conglomerado identificado por el valor correspondiente en esta columna. Una inicialización de cero significa que una observación no se asignó inicialmente a un grupo. El número de enteros positivos distintos en la columna de partición inicial es igual al número de conglomerados en la partición final.
Los valores atípicos pueden influir significativamente en los resultados
La presencia de valores atípicos, que son valores extrañamente grandes o pequeños en los datos, puede afectar los resultados de la creación de conglomerados. Los conglomerados suelen ser más grandes cuando no se eliminan los valores atípicos, y la solución resultante pudiera no parecer lógica. Investigue los valores atípicos y elimine los valores que se deban a errores de medición o registro. Los valores atípicos extremos también pueden indicar observaciones específicas que son fundamentalmente diferentes de todas las demás observaciones del conjunto de datos, tal vez debido a alguna causa especial. Si hay razones prácticas para no incluir los valores atípicos extremos en el análisis, considere la posibilidad de volver a ejecutar el análisis sin esos valores para ver cómo influyen en los resultados.