Una gráfica de caja proporciona un resumen gráfico de la distribución de una muestra. La gráfica de caja muestra la forma, tendencia central y variabilidad de los datos.
Utilice una gráfica de caja para examinar la dispersión de los datos y para identificar cualquier posible valor atípico. Las gráficas de caja funcionan mejor cuando el tamaño de la muestra es mayor que 20.
Examine la dispersión de los datos para determinar si los datos parecen ser asimétricos. Cuando los datos son asimétricos, la mayoría de los datos se ubican en la parte superior o inferior de la gráfica. Con frecuencia, es fácil detectar la asimetría con un histograma o una gráfica de caja.
Los valores atípicos, que son valores de datos que están muy distantes de otros valores de datos, pueden afectar considerablemente los resultados de un análisis. Con frecuencia, es fácil identificar los valores atípicos en una gráfica de caja.
Trate de identificar la causa de cualquier valor atípico. Corrija cualquier error de entrada de datos o de medición. Considere eliminar los valores de datos asociados con eventos anormales y únicos (también conocidos como causas especiales). Luego, repita el análisis. Para obtener más información, vaya a Identificar valores atípicos.
Un histograma divide los valores de la muestra en muchos intervalos y representa la frecuencia de los valores de datos en cada intervalo con una barra.
Utilice un histograma para evaluar la forma y dispersión de los datos. Los histogramas funcionan mejor cuando el tamaño de la muestra es mayor que 20.
Usted puede utilizar un histograma de los datos con una curva normal sobrepuesta para examinar la normalidad de los datos. Una distribución normal es simétrica y tiene forma de campana, como lo indica la curva. Comúnmente es difícil evaluar la normalidad con muestras pequeñas. Una gráfica de probabilidad es la mejor opción para determinar el ajuste de la distribución.
Los valores atípicos, que son valores de datos que están muy distantes de otros valores de datos, pueden afectar considerablemente los resultados de un análisis. Con frecuencia, es fácil identificar los valores atípicos en una gráfica de caja.
Trate de identificar la causa de cualquier valor atípico. Corrija cualquier error de entrada de datos o de medición. Considere eliminar los valores de datos asociados con eventos anormales y únicos (también conocidos como causas especiales). Luego, repita el análisis. Para obtener más información, vaya a Identificar valores atípicos.
Los datos multimodales tienen múltiples picos, también denominados modas. Los datos multimodales suelen indicar que aún no se han considerado variables importantes.
Si usted tiene información adicional que le permita clasificar las observaciones en grupos, puede crear una variable de grupo con esta información. Luego, puede crear la gráfica con los grupos para determinar si la variable de grupo explica los picos en los datos.
Una gráfica de valores individuales muestra los valores individuales en la muestra. Cada círculo representa una observación. Una gráfica de valores individuales es especialmente útil cuando usted tiene relativamente pocas observaciones y cuando también necesita evaluar el efecto de cada observación.
Utilice una gráfica de valores individuales para examinar la dispersión de los datos y para identificar cualquier posible valor atípico. Las gráficas de valores individuales funcionan mejor cuando el tamaño de la muestra es menor que 50.
Examine la dispersión de los datos para determinar si los datos parecen ser asimétricos. Cuando los datos son asimétricos, la mayoría de los datos se ubican en la parte superior o inferior de la gráfica. Con frecuencia, es fácil detectar la asimetría con un histograma o una gráfica de caja.
Los valores atípicos, que son valores de datos que están muy distantes de otros valores de datos, pueden afectar considerablemente los resultados de un análisis. Con frecuencia, es fácil identificar los valores atípicos en una gráfica de caja.
Trate de identificar la causa de cualquier valor atípico. Corrija cualquier error de entrada de datos o de medición. Considere eliminar los valores de datos asociados con eventos anormales y únicos (también conocidos como causas especiales). Luego, repita el análisis. Para obtener más información, vaya a Identificar valores atípicos.
Los cuartiles son los tres valores –el primer cuartil en 25% (Q1), el segundo cuartil en 50% (Q2 o mediana) y el tercer cuartil en 75% (Q3)– que dividen una muestra de datos ordenados en cuatro partes iguales.
El primer cuartil es el percentil 25 e indica que 25% de los datos es menor que o igual a este valor.
El rango intercuartil (IQR) es la distancia entre el primer cuartil (Q1) y el tercer cuartil (Q3). El 50% de los datos está dentro de este rango.
Utilice el rango intercuartil para describir la dispersión de los datos. A medida que aumenta la dispersión de los datos, el IQR se hace más grande.
El máximo es el valor más grande de los datos.
En estos datos, el máximo es 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilice el máximo para identificar un posible valor atípico o error de entrada de datos. Una de las maneras más sencillas de evaluar la dispersión de los datos consiste en comparar el mínimo y el máximo. Si el valor máximo es muy alto, incluso cuando considere el centro, la dispersión y la forma de los datos, investigue la causa del valor extremo.
La mediana es el punto medio del conjunto de datos. El valor de este punto medio es el punto en el cual la mitad de las observaciones está por encima del valor y la otra mitad está por debajo del valor. La mediana se determina jerarquizando las observaciones y hallando la observación que ocupe el número [N + 1] / 2 en el orden jerarquizado. Si el número de observaciones es par, entonces la mediana es el valor promedio de las observaciones jerarquizadas en los números N / 2 y [N / 2] + 1.
El mínimo es el valor más pequeño de los datos.
En estos datos, el mínimo es 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilice el mínimo para identificar un posible valor atípico o un error de entrada de datos. Una de las maneras más sencillas de evaluar la dispersión de los datos consiste en comparar el mínimo y el máximo. Si el valor mínimo es muy bajo, incluso cuando considere el centro, la dispersión y la forma de los datos, investigue la causa del valor extremo.
El rango es la diferencia entre los valores más grande y más pequeño de los datos. El rango representa el intervalo que contiene todos los valores de los datos.
Utilice el rango para entender la cantidad de dispersión en los datos. Un valor de rango grande indica mayor dispesión en los datos. Un valor de rango pequeño indica que hay menos dispersión en los datos. Puesto que el rango se calcula usando solo dos valores de los datos, es más útil con conjuntos de datos pequeños.
Los cuartiles son los tres valores –el primer cuartil en 25% (Q1), el segundo cuartil en 50% (Q2 o mediana) y el tercer cuartil en 75% (Q3)– que dividen una muestra de datos ordenados en cuatro partes iguales.
El tercer cuartil es el percentil 75 e indica que 75% de los datos es menor que o igual a este valor.
La media es el promedio de los datos, que es la suma de todas las observaciones dividida entre el número de observaciones.
Utilice la media para describir la muestra con un solo valor que representa el centro de los datos. Muchos análisis estadísticos utilizan la media como una medida estándar del centro de la distribución de los datos.
El error estándar de la media (EE de la media) estima la variabilidad entre las medias de las muestras que usted obtendría si tomara muestras repetidas de la misma población. Mientras que el error estándar de la media estima la variabilidad entre las muestras, la desviación estándar mide la variabilidad dentro de una misma muestra.
Por ejemplo, usted tiene un tiempo de entrega medio de 3.80 días, con una desviación estándar de 1.43 días, de una muestra aleatoria de 312 tiempos de entrega. Estos números producen un error estándar de la media de 0.08 días (1.43 dividido entre la raíz cuadrada de 312). De haber tomado múltiples muestras aleatorias del mismo tamaño y de la misma población, la desviación estándar de esas medias diferentes de las muestras habría sido aproximadamente 0.08 días.
Utilice el error estándar de la media para determinar el grado de precisión con el que la media de la muestra estima la media de la población.
Un valor del error estándar de la media más bajo indica una estimación más precisa de la media de la población. Por lo general, una desviación estándar más grande se traducirá en un mayor error estándar de la media y una estimación menos precisa de la media de la población. Un tamaño de muestra más grande dará como resultado un menor error estándar de la media y una estimación más precisa de la media de la población.
Minitab utiliza el error estándar de la media para calcular el intervalo de confianza.
La media de los datos sin el 5% superior ni el 5% inferior de los valores.
Utilice la media recortada para eliminar el impacto de los valores muy grandes o muy pequeños sobre la media. Cuando los datos contienen valores atípicos, la media recortada puede ser una mejor medida de la tendencia central que la media.
Nivel de grado | Conteo | NAcum | Cálculo |
---|---|---|---|
1 | 49 | 49 | 49 |
2 | 58 | 107 | 49 + 58 |
3 | 52 | 159 | 49 + 58 + 52 |
4 | 60 | 219 | 49 + 58 + 52 + 60 |
5 | 48 | 267 | 49 + 58 + 52 + 60 + 48 |
6 | 55 | 322 | 49 + 58 + 52 + 60 + 48 + 55 |
El número de valores faltantes en la muestra. El número de valores faltantes se refiere a las celdas que contienen el símbolo de valor faltante *.
Conteo total | N | N* |
---|---|---|
149 | 141 | 8 |
El número de valores presentes en la muestra.
Conteo total | N | N* |
---|---|---|
149 | 141 | 8 |
El número total de observaciones en la columna. Utilícese para representar la suma de N valores faltantes y N valores presentes.
Conteo total | N | N* |
---|---|---|
149 | 141 | 8 |
El porcentaje acumulado es la suma acumulada de los porcentajes para cada grupo de la Por variable. En el siguiente ejemplo, la Por variable tiene 4 grupos: Línea 1, Línea 2, Línea 3 y Línea 4.
Grupo (por variable) | Porcentaje | PctAcum |
---|---|---|
Línea 1 | 16 | 16 |
Línea 2 | 20 | 36 |
Línea 3 | 36 | 72 |
Línea 4 | 28 | 100 |
El porcentaje de observaciones en cada grupo de la Por variable. En el siguiente ejemplo, hay cuatro grupos: Línea 1, Línea 2, Línea 3 y Línea 4.
Grupo (por variable) | Porcentaje |
---|---|
Línea 1 | 16 |
Línea 2 | 20 |
Línea 3 | 36 |
Línea 4 | 28 |
La curtosis indica la manera en que las colas de una distribución difieren de la distribución normal.
La asimetría es el grado en que los datos no son simétricos.
El coeficiente de variación (CoefVar) es una medida de dispersión que describe la variación en los datos en relación con la media. El coeficiente de variación se ajusta de manera que los valores estén en una escala sin unidades. Gracias a este ajuste, usted puede utilizar el coeficiente de variación en lugar de la desviación estándar para comparar la variación de los datos que tienen unidades diferentes o medias muy diferentes.
Mientras mayor sea el coeficiente de variación, mayor será la dispersión en los datos.
Recipiente grande | Recipiente pequeño |
---|---|
CoefVar = 100 * 0.4 tazas / 16 tazas = 2.5 | CoefVar = 100 * 0.08 tazas / 1 taza = 8 |
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos alrededor de la media. El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido.
Debido a que la desviación estándar utiliza las mismas unidades que los datos, generalmente es más fácil de interpretar que la varianza.
Utilice la desviación estándar para determinar qué tan dispersos están los datos con respecto a la media. Un valor de desviación estándar más alto indica una mayor dispersión de los datos. Una buena regla empírica para una distribución normal es que aproximadamente 68% de los valores se ubican dentro de una desviación estándar de la media, 95% de los valores se ubican dentro de dos desviaciones estándar y 99.7% de los valores se ubican dentro de tres desviaciones estándar.
La varianza mide qué tan dispersos están los datos alrededor de su media. La varianza es igual a la desviación estándar elevada al cuadrado.
Mientras mayor sea la varianza, mayor será la dispersión de los datos.
Puesto que la varianza (σ2) es una cantidad elevada al cuadrado, sus unidades también están elevadas al cuadrado, lo que puede dificultar el uso de la varianza en la práctica. La desviación estándar generalmente es más fácil de interpretar porque utiliza las mismas unidades que los datos. Por ejemplo, una muestra del tiempo de espera en una parada de autobuses puede tener una media de 15 minutos y una varianza de 9 minutos2. Debido a que la varianza no está en las mismas unidades que los datos, la varianza suele mostrarse con su raíz cuadrada, la desviación estándar. Una varianza de 9 minutos2 es equivalente a una desviación estándar de 3 minutos.
La moda es el valor que ocurre con más frecuencia en un conjunto de observaciones. Minitab también muestra cuántos puntos de los datos son iguales a la moda.
La media y la mediana requieren un cálculo, pero la moda se determina contando el número de veces que cada valor ocurre en un conjunto de datos.
La moda se puede utilizar con la media y la mediana para proporcionar una caracterización general de la distribución de los datos. La moda también se puede usar para identificar problemas en los datos.
Por ejemplo, una distribución que tiene más de una moda puede identificar que la muestra incluye datos de dos poblaciones. Si los datos contienen dos modas, la distribución es bimodal. Si los datos contienen más de dos modas, la distribución es multimodal.
La MSSD es la media de las diferencias sucesivas cuadráticas. La MSSD es una estimación de la varianza. Un posible uso de la MSSD es para probar si una secuencia de observaciones es aleatoria. En control de calidad, un posible uso de la MSSD es para estimar la varianza cuando el tamaño del subgrupo = 1.
La suma es el total de todos los valores de los datos. La suma también se utiliza en cálculos estadísticos, como por ejemplo la media y la desviación estándar.
La suma de los cuadrados no corregida se calcula elevando al cuadrado cada uno de los valores de la columna y sumando luego esos valores elevados al cuadrado. Por ejemplo, si la columna contiene x1, x2, ... , xn, entonces la suma de los cuadrados calcula (x12 + x22 + ... + xn2). A diferencia de la suma de los cuadrados corregida, la suma de los cuadrados no corregida incluye el error. Los valores de datos se elevan al cuadrado sin antes restar la media.