A média é a média dos dados, que é a soma de todas as observações divididas pelo número de observações.
Use a média para descrever a amostra com um único valor que representa o centro dos dados. Diversas análises estatísticas usam a média como uma média padrão do centro da distribuição dos dados.
O erro padrão da média (SE Média) estima a variabilidade entre a amostra média que você obteria se você tivesse extraído repetidas amostras da mesma população. Considerando-se que o erro padrão da média estima a variabilidade entre as amostras, o desvio padrão mede a variabilidade dentro de uma única amostra.
Por exemplo, você tem um tempo médio de entrega de 3,80 dias, com um desvio padrão de 1,43 dias, a partir de uma amostra aleatória de 312 prazos de entrega. Estes números produzem um erro padrão da média de 0,08 dias (1,43 dividido pela raiz quadrada de 312). Se você extraiu várias amostras aleatórias do mesmo tamanho da mesma população, o desvio padrão dessas médias diferentes de amostra seria de cerca de 0,08 dias.
Use o erro padrão da média para determinar o quão precisamente a média da amostra estima a média da população.
Um valor menor do erro padrão da média indica uma estimativa mais precisa da média da população. Normalmente, um desvio padrão maior resulta em um erro padrão maior da média e uma estimativa menos precisa da média da população. A amostra de tamanho maior resulta em um erro padrão menor da média e uma estimativa mais precisa da média da população.
O Minitab utiliza o erro padrão da média para calcular o intervalo de confiança.
O desvio padrão é a medida mais comum de dispersão, ou o quanto os dados estão dispersos sobre a média. O símbolo σ (sigma) é frequentemente usado para representar o desvio padrão de uma população, enquanto s é usado para representar o desvio padrão de uma amostra. A variação que é aleatória ou natural de um processo é frequentemente referida como ruído.
Como o desvio padrão está nas mesmas unidades que os dados, ele é normalmente mais fácil de interpretar do que a variância.
Use o desvio padrão para determinar o grau de dispersão dos dados a partir da média. Um valor de desvio padrão mais alto indica maior dispersão nos dados. Uma boa regra de ouro de uma distribuição normal é que aproximadamente 68% dos valores estão dentro de um desvio padrão da média, 95% dos valores estão dentro de dois desvios padrão e 99,7% dos valores estão dentro de três desvios padrão.
A variância mede o quanto os dados estão dispersos em relação à sua média. A variância é igual ao desvio padrão ao quadrado.
Quanto maior a variância, maior a dispersão nos dados.
Como a variância (σ2) é uma quantidade quadrada, suas unidades também são quadradas, o que torna a variância difícil de usar, na prática. O desvio padrão é normalmente mais fácil de interpretar porque ele está nas mesmas unidades que os dados. Por exemplo, uma amostra de tempos de espera em uma parada de ônibus pode ter uma média de 9 minutos2. Como a variância não está nas mesmas unidades que os dados, com frequência, ela é exibida com sua raiz quadrada, o desvio padrão. Uma variância de 9 minutos2 é equivalente a um desvio padrão de 3 minutos.
O coeficiente de variação (COV como denotado) é uma medida da dispersão que descreve a variação nos dados em relação à média. O coeficiente de variação é ajustado de modo que os valores estão em uma escala sem unidade. Devido a esse ajuste, é possível usar o coeficiente de variação, em vez de o desvio padrão para comparar a variação nos dados que tem unidades diferentes ou que tem médias muito diferentes.
Quanto maior for o coeficiente de variação, maior será a dispersão nos dados.
Pacote grande | Pacote pequeno |
---|---|
COV = 100 * 0,4 xícaras / 16 xícaras = 2,5 | COV = 100 * 0,08 xícaras / 1 xícara = 8 |
Quartis são os três valores — o primeiro quartil a 25% (Q1), o segundo quartil a 50% (Q2 ou mediana) e o terceiro quartil a 75% (Q3)— que dividem uma amostra de dados ordenados em quatro partes iguais.
O primeiro quartil o 25o percentil e indica que 25% dos dados são menores ou iguais a este valor.
A mediana é o ponto médio do conjunto de dados. Este valor do ponto médio é o ponto em que metade das observações estão acima do valor e metade das observações estão abaixo do valor. A mediana é determinada por classificar as observações e encontrar a observação que está no número [N + 1] / 2 na ordem de grandeza. Se o número de observações for ímpar, a mediana é o valor médio das observações que são classificadas com números de N / 2 e [N / 2] + 1.
Quartis são os três valores — o primeiro quartil a 25% (Q1), o segundo quartil a 50% (Q2 ou mediana) e o terceiro quartil a 75% (Q3)— que dividem uma amostra de dados ordenados em quatro partes iguais.
O terceiro quartil é o 75o percentil e indica que 75% dos dados são menores ou iguais a este valor.
O intervalo interquartil (IIR) é a distância entre o primeiro quartil (Q1) e o terceiro quartil (Q3). 50% dos dados estão dentro deste intervalo.
Utilize o intervalo interquartil para descrever a dispersão dos dados. Como a dispersão dos dados aumenta, o IIQ torna-se maior.
A média dos dados sem os 5% maiores e os 5% menores valores.
Use médias aparadas para eliminar o impacto de valores muito maiores ou muito menores da média. Quando os dados contêm outliers, a média aparada pode ser uma medida melhor da tendência central do que a média.
A soma é o total de todos os valores de dados. A soma também é usada em cálculos estatísticos, como a média e o desvio padrão.
O mínimo é o menor valor de dados.
Em nesses dados, o mínimo é 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o mínimo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor mínimo for muito baixo, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
O valor máximo é o maior valor de dados.
Nesses dados, o máximo é 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o máximo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor máximo for muito elevado, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
O intervalo é a diferença entre o maior e o menor valores de dados na amostra. O intervalo representa o menor intervalo que contém todos os valores de dados.
Utilize um intervalo para entender a quantidade de dispersão nos dados. Um valor grande valor no intervalo indica uma maior dispersão nos dados. Um valor pequeno no intervalo indica que há menor dispersão nos dados. Como o intervalo é calculado utilizando apenas dois valores de dados, ele é ainda mais útil nos conjuntos de dados pequenos.
A soma dos quadrados não corrigida é a soma dos quadrados de cada valor na coluna. Por exemplo, se a coluna contiver x1, x2, ... , xn, a soma dos quadrados é calculada como (x12 + x22 + ... + xn2). Ao contrário da soma dos quadrados corrigida, a soma dos quadrados não corrigida inclui erro. Os valores dos dados são elevados ao quadrado sem subtrair primeiro a média.
A assimetria é a medida em que os dados não são simétricos.
A curtose indica como as caudas de uma distribuição diferem da distribuição normal.
O MSSD é a média da diferença sucessiva ao quadrado. O MSSD é uma estimativa da variância. Um possível uso do MSSD é testar se uma sequência de observações é aleatória. No controle de qualidade, uma possibilidade de utilização de MSSD é estimar a variância quando o tamanho do subgrupo = 1.
O número de valores não faltantes na amostra.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |
Número de valores faltantes na amostra. O número de valores faltantes se refere às células que contêm o símbolo de valor faltante *.
Contagem total | N | NMissing |
---|---|---|
149 | 141 | 8 |
O número total de observações na coluna. Use para representar a soma de N faltantes e N não faltantes.
Contagem | N | NMissing |
---|---|---|
149 | 141 | 8 |
Série | Contagem | CumN | Cálculo |
---|---|---|---|
1 | 49 | 49 | 49 |
2 | 58 | 107 | 49 + 58 |
3 | 52 | 159 | 49 + 58 + 52 |
4 | 60 | 219 | 49 + 58 + 52 + 60 |
5 | 48 | 267 | 49 + 58 + 52 + 60 + 48 |
6 | 55 | 322 | 49 + 58 + 52 + 60 + 48 + 55 |
O percentual de observações em cada grupo de Por variável. No exemplo a seguir, existem quatro grupos: Linha 1, Linha 2, Linha 3 e Linha 4.
Grupo (por variável) | Percentual |
---|---|
Linha 1 | 16 |
Linha 2 | 20 |
Linha 3 | 36 |
Linha 4 | 28 |
A porcentagem acumulada é a soma acumulada das percentagens para cada grupo de Por variável. No exemplo a seguir, a Por variável tem 4 grupos: Linha 1, Linha 2, Linha 3 e Linha 4.
Grupo (por variável) | Percentual | CumP |
---|---|---|
Linha 1 | 16 | 16 |
Linha 2 | 20 | 36 |
Linha 3 | 36 | 72 |
Linha 4 | 28 | 100 |