Interpretar todos los estadísticos y gráficas para Análisis de los componentes principales

Encuentre definiciones y ayuda para interpretar cada uno de los estadísticos y gráficas que se proporcionan con el análisis de componentes principales.

Valor propio

Los valores propios (también llamados valores característicos o raíces latentes) son las varianzas de los componentes principales.

Interpretación

Usted puede utilizar el tamaño del valor propio para determinar el número de componentes principales. Conserve los componentes principales con los valores propios más grandes. Por ejemplo, según el criterio de Kaiser, se usan solo los componentes principales con valores propios que son mayores que 1.

Para comparar visualmente el tamaño de los valores propios, utilice la gráfica de sedimentación. La gráfica de sedimentación puede ayudarle a determinar el número de componentes con base en el tamaño de los valores propios.

Análisis de los valores y vectores propios de la matriz de correlación

Valor propio3.54762.13201.04470.53150.41120.16650.12540.0411
Proporción0.4430.2660.1310.0660.0510.0210.0160.005
Acumulada0.4430.7100.8410.9070.9580.9790.9951.000

Vectores propios

VariablePC1PC2PC3PC4PC5PC6PC7PC8
Ingresos0.3140.145-0.676-0.347-0.2410.4940.018-0.030
Educación0.2370.444-0.4010.2400.622-0.3570.1030.057
Edad0.484-0.135-0.004-0.212-0.175-0.487-0.657-0.052
Residencia0.466-0.2770.0910.116-0.035-0.0850.487-0.662
Empleo0.459-0.3040.122-0.017-0.014-0.0230.3680.739
Ahorros0.4040.2190.3660.4360.1430.568-0.348-0.017
Deuda-0.067-0.585-0.078-0.2810.6810.245-0.196-0.075
Tarj Crédito-0.123-0.452-0.4680.703-0.195-0.022-0.1580.058

En estos resultados, los tres primeros componentes principales tienen valores propios mayores que 1. Estos tres componentes explican 84,1% de la variación en los datos. La gráfica de sedimentación muestra que los valores propios comienzan a formar una línea recta después del tercer componente principal. Si 84,1% es una cantidad adecuada de variación explicada en los datos, entonces debe utilizar los tres primeros componentes principales.

Proporción

Proporción se refiere a la proporción de la variabilidad en los datos que explica cada componente principal.

Interpretación

Usted puede utilizar la proporción para determinar cuáles componentes principales explican la mayor parte de la variabilidad en los datos. Cuanto mayor sea la proporción, en mayor cantidad explicará ese componente principal la variabilidad. El tamaño de la proporción puede ayudarle a decidir si el componente principal es suficientemente importante para conservarlo.

Por ejemplo, un componente principal con una proporción de 0.621 explica 62.1% de la variabilidad en los datos. Por lo tanto, es importante incluir este componente. Otro componente tiene una proporción de 0.005, por lo que explica solo 0.5% de la variabilidad de los datos. Este componente pudiera no ser suficientemente importante para incluirse.

Acumulada

Acumulada se refiere a la proporción acumulada de la variabilidad de la muestra explicada por los componentes principales consecutivos.

Interpretación

Utilice la proporción acumulada para evaluar la cantidad total de varianza que explican los componentes principales consecutivos. La proporción acumulada puede ayudarle a determinar el número de componentes principales que se usará. Conserve los componentes principales que explican un nivel aceptable de varianza. El nivel aceptable depende de su aplicación.

Por ejemplo, probablemente solo se necesite que los componentes principales expliquen el 80% de la varianza si se utilizan solo para efectos descriptivos. Sin embargo, si usted desea realizar otros análisis en los datos, se recomienda que los componentes principales expliquen por lo menos 90% de la varianza.

Componentes principales (PC)

Los componentes principales son las combinaciones lineales de las variables originales que explican la varianza en los datos. El número máximo de componentes extraídos siempre es igual al número de variables. Los vectores propios, compuestos por los coeficientes que corresponden a cada variable, se utilizan para calcular las puntuaciones de los componentes principales. Los coeficientes indican la ponderación relativa de cada variable en el componente.
Nota

Si utiliza la matriz de correlación, usted debe estandarizar las variables para obtener la puntuación correcta de los componentes.

Interpretación

Para interpretar cada componente principal, examine la magnitud y la dirección de los coeficientes de las variables originales. Cuanto mayor sea el valor absoluto del coeficiente, más importante será la variable correspondiente en el cálculo del componente. Qué tan grande debe ser el valor absoluto de un coeficiente para ser considerado importante es subjetivo. Utilice su conocimiento especializado para determinar en qué nivel el valor de correlación es importante.

Análisis de los valores y vectores propios de la matriz de correlación

Valor propio3.54762.13201.04470.53150.41120.16650.12540.0411
Proporción0.4430.2660.1310.0660.0510.0210.0160.005
Acumulada0.4430.7100.8410.9070.9580.9790.9951.000

Vectores propios

VariablePC1PC2PC3PC4PC5PC6PC7PC8
Ingresos0.3140.145-0.676-0.347-0.2410.4940.018-0.030
Educación0.2370.444-0.4010.2400.622-0.3570.1030.057
Edad0.484-0.135-0.004-0.212-0.175-0.487-0.657-0.052
Residencia0.466-0.2770.0910.116-0.035-0.0850.487-0.662
Empleo0.459-0.3040.122-0.017-0.014-0.0230.3680.739
Ahorros0.4040.2190.3660.4360.1430.568-0.348-0.017
Deuda-0.067-0.585-0.078-0.2810.6810.245-0.196-0.075
Tarj Crédito-0.123-0.452-0.4680.703-0.195-0.022-0.1580.058

En estos resultados, el primer componente principal tiene asociaciones positivas grandes con Edad, Residencia, Empleo y Ahorros. Usted puede interpretar este componente principalmente como una medición de la estabilidad financiera a largo plazo de un solicitante. El segundo componente tiene asociaciones negativas grandes con Deudas y Tarj Crédito, así que este componente mide principalmente el historial crediticio de un solicitante. El tercer componente tiene asociaciones negativas grandes con ingresos, educación y tarj crédito, así que este componente mide principalmente las calificaciones académicas y de ingresos de un solicitante.

Puntuaciones

Las puntuaciones son combinaciones lineales de los datos que se determinan por los coeficientes de cada componente principal. Para obtener la puntuación de una observación, sustituya sus valores en la ecuación lineal del componente principal. Si utiliza la matriz de correlación, usted debe estandarizar las variables para obtener la puntuación correcta de los componentes cuando usa la ecuación lineal.

Nota

Para obtener la puntuación calculada de cada observación, haga clic en Almacenamiento e ingrese una columna para almacenar las puntuaciones en la hoja de trabajo cuando realiza el análisis. Para mostrar visualmente las puntuaciones del primero y del segundo componente en una gráfica, haga clic en Gráficas y seleccione la gráfica de puntuaciones cuando realiza el análisis.

Análisis de los valores y vectores propios de la matriz de correlación

Valor propio3.54762.13201.04470.53150.41120.16650.12540.0411
Proporción0.4430.2660.1310.0660.0510.0210.0160.005
Acumulada0.4430.7100.8410.9070.9580.9790.9951.000

Vectores propios

VariablePC1PC2PC3PC4PC5PC6PC7PC8
Ingresos0.3140.145-0.676-0.347-0.2410.4940.018-0.030
Educación0.2370.444-0.4010.2400.622-0.3570.1030.057
Edad0.484-0.135-0.004-0.212-0.175-0.487-0.657-0.052
Residencia0.466-0.2770.0910.116-0.035-0.0850.487-0.662
Empleo0.459-0.3040.122-0.017-0.014-0.0230.3680.739
Ahorros0.4040.2190.3660.4360.1430.568-0.348-0.017
Deuda-0.067-0.585-0.078-0.2810.6810.245-0.196-0.075
Tarj Crédito-0.123-0.452-0.4680.703-0.195-0.022-0.1580.058

En estos resultados, la puntuación del primer componente principal se puede calcular a partir de los datos estandarizados utilizando los coeficientes indicados en PC1:

PC1 = 0.314 Ingresos + 0.237 Educación + 0.484 Edad + 0.466 Residencia + 0.459 Empleo + 0.404 Ahorros - 0.067 Deudas - 0.123 Tarj crédito

Distancias

La distancia de Mahalanobis es la distancia entre un punto de los datos y el centroide de un espacio multivariado (la media general).

Nota

Para calcular la distancia de cada observación, haga clic en Almacenamiento e ingrese una columna en la hoja de trabajo para almacenar las distancias cuando realiza el análisis. Para mostrar las distancias en una gráfica, haga clic en Gráficas y seleccione la gráfica de valores atípicos cuando realiza el análisis.

Interpretación

Utilice la distancia de Mahalanobis para identificar valores atípicos. Examinar la distancia de Mahalanobis es un método multivariado más potente para detectar valores atípicos que examinar una variable a la vez, porque la distancia toma en cuenta las diferentes escalas entre las variables y las correlaciones entre estas.

Por ejemplo, al considerarse individualmente, ni el valor x ni el valor y del punto de datos encerrado en un círculo es poco usual. Sin embargo, el punto de datos no se ajusta a la estructura de correlación de las dos variables. Por lo tanto, la distancia de Mahalanobis para este punto es inusualmente grande.

Para evaluar si un valor de distancia es suficientemente grande para que la observación se considere un valor atípico, utilice la gráfica de valores atípicos.

Gráfica de sedimentación

La gráfica de sedimentación muestra el número del componente principal versus su valor propio correspondiente. La gráfica de sedimentación ordena los valores propios desde el más grande hasta el más pequeño. Los valores propios de la matriz de correlación son iguales a las varianzas de los componentes principales.

Para mostrar la gráfica de sedimentación, haga clic en Gráficas y seleccione la gráfica de sedimentación cuando realice el análisis.

Interpretación

Utilice la gráfica de sedimentación para seleccionar el número de componentes que se usarán con base en el tamaño de los valores propios. El patrón ideal es una curva pronunciada, seguida de una inflexión y luego de una línea recta. Utilice los componentes en la curva pronunciada antes del primer punto que inicia la tendencia de línea.

Esta gráfica de sedimentación muestra que los valores propios comienzan a formar una línea recta después del tercer componente principal. Por lo tanto, los componentes principales restantes explican una proporción muy pequeña de la variabilidad (cercana a cero) y probablemente carezcan de importancia.

Gráfica de puntuaciones

La gráfica de puntuaciones representa visualmente las puntuaciones del segundo componente principal versus las puntuaciones del primer componente principal.

Para mostrar la gráfica de puntuaciones, haga clic en Gráficas y seleccione la gráfica de puntuaciones cuando realice el análisis.

Interpretación

Si los dos primeros componentes explican la mayor parte de la varianza en los datos, usted puede utilizar la gráfica de puntuaciones para evaluar la estructura de los datos y detectar conglomerados, valores atípicos y tendencias. Las agrupaciones de datos en la gráfica pudieran indicar dos o más distribuciones separadas en los datos. Si los datos siguen una distribución normal y no hay valores atípicos presentes, los puntos están distribuidos aleatoriamente alrededor de cero.

En esta gráfica de puntuaciones, el punto en la esquina inferior podría ser un valor atípico. Usted debe investigar este punto.

Sugerencia

Para ver la puntuación calculada de cada observación, mantenga el cursor sobre un punto de los datos en la gráfica. Para crear gráficas de puntuaciones para otros componentes, almacene las puntuaciones y utilice Gráfica > Gráfica de dispersión.

Gráfica de influencias

La gráfica de influencias grafica los coeficientes de cada variable para el primer componente versus los coeficientes para el segundo componente. Los coeficientes son los valores que componen los vectores propios para cada componente principal. Los coeficientes indican la ponderación relativa de cada variable en el componente.

Para mostrar la gráfica de influencias, haga clic en Gráficas y seleccione la gráfica de influencias cuando realice el análisis.

Interpretación

Utilice la gráfica influencias para identificar cuáles variables tienen el mayor efecto en cada componente. Las influencias pueden ir de -1 a 1. Los coeficientes pueden oscilar entre -1 y 1. Los coeficientes cercanos a -1 o 1 indican que la variable influye fuertemente en el componente. Los coeficientes cercanos a 0 indican que la variable tiene una influencia débil en el componente. La evaluación de los coeficientes también puede ayudarle a caracterizar cada componente en términos de variables.

En esta gráfica de influencias, Edad, Residencia, Empleo y Ahorros tienen influencias positivas grandes en el componente 1, así que este componente mide principalmente la estabilidad financiera del solicitante. Las deudas y las tarjetas de crédito tienen grandes coeficientes negativos en el componente 2, por lo que este componente mide principalmente el historial crediticio de un solicitante.

Gráfica de doble proyección

La gráfica de doble proyección sobrepone la gráfica de puntuaciones y la gráfica de influencias.

Para mostrar la gráfica de doble proyección, haga clic en Gráficas y seleccione la gráfica de doble proyección cuando realice el análisis.

Interpretación

Utilice la gráfica de doble proyección para evaluar la estructura de los datos y las influencias de los dos primeros componentes en una gráfica. Minitab grafica las puntuaciones del segundo componentes principal versus las puntuaciones del primer componente principal, así como las influencias de ambos componentes.

Esta gráfica de doble proyección muestra lo siguiente:
  • Edad, Residencia, Empleo y Ahorros tienen influencias positivas grandes en el componente 1. Por lo tanto, este componente se centra en la estabilidad financiera a largo plazo de un solicitante.
  • Deudas y Tarj Crédito tienen influencias negativas grandes en el componente 2. Por lo tanto, este componente se centra en el historial crediticio de un solicitante.
  • El punto en la esquina inferior derecha podría ser un valor atípico. Usted debe investigar este punto.

Gráfica de valores atípicos

La gráfica de valores atípicos muestra la distancia de Mahalanobis para cada observación y una línea de referencia para identificar los valores atípicos. La distancia de Mahalanobis es la distancia entre cada punto de los datos y el centroide de un espacio multivariado (la media general). Examinar las distancias de Mahalanobis es un método más efectivo para detectar valores atípicos que examinar una variable a la vez, porque considera las diferentes escalas entre las variables y las correlaciones entre estas.

Para mostrar la gráfica de valores atípicos, debe hacer clic en Gráficas y seleccionar la gráfica de valores atípicos cuando realice el análisis.

Interpretación

Utilice la gráfica de valores atípicos para identificar valores atípicos. Cualquier punto que se encuentre por encima de la línea de referencia es un valor atípico.

Los valores atípicos pueden afectar significativamente los resultados de su análisis. Por lo tanto, si identifica un valor atípico en los datos, debe examinar la observación para determinar por qué se trata de un valor poco común. Corrija cualquier error de entrada de datos o de medición. Considere eliminar los datos que estén asociados a causas especiales y repetir el análisis.

En estos resultados, no hay valores atípicos. Todos los puntos están por debajo de la línea de referencia.

Sugerencia

Mantenga el cursor sobre cualquier punto en una gráfica de valores atípicos para identificar la observación. Utilice Editor > Destacar para destacar múltiples valores atípicos en la gráfica y marcar las observaciones en la hoja de trabajo.