A soma é o total de todos os valores de dados. A soma também é usada em cálculos estatísticos, como a média e o desvio padrão.
A média é a média dos dados, que é a soma de todas as observações divididas pelo número de observações.
Use a média para descrever a amostra com um único valor que representa o centro dos dados. Diversas análises estatísticas usam a média como uma média padrão do centro da distribuição dos dados.
Para a distribuição simétrica, a média (linha azul) e a mediana (linha laranja) são tão similares que você não pode ver facilmente as linhas. Mas a distribuição não simétrica é assimétrica à direita.
O desvio padrão é a medida mais comum de dispersão, ou o quanto os dados estão dispersos sobre a média. O símbolo σ (sigma) é frequentemente usado para representar o desvio padrão de uma população, enquanto s é usado para representar o desvio padrão de uma amostra. A variação que é aleatória ou natural de um processo é frequentemente referida como ruído.
Como o desvio padrão está nas mesmas unidades que os dados, ele é normalmente mais fácil de interpretar do que a variância.
Use o desvio padrão para determinar o grau de dispersão dos dados a partir da média. Um valor de desvio padrão mais alto indica maior dispersão nos dados. Uma boa regra de ouro de uma distribuição normal é que aproximadamente 68% dos valores estão dentro de um desvio padrão da média, 95% dos valores estão dentro de dois desvios padrão e 99,7% dos valores estão dentro de três desvios padrão.
Os administradores controlam o tempo gasto na alta de pacientes tratados nos departamentos de emergência de dois hospitais. Apesar de os tempos médios de alta serem quase os mesmos (35 minutos), os desvios padrão são significativamente diferentes. O desvio padrão do hospital 1 é de cerca de 6. Em média, o tempo de alta de um paciente se desvia da média (linha tracejada) em cerca de 6 minutos. O desvio padrão do hospital 2 é de cerca de 20. Na média, um tempo de alta de um paciente se desvia da média (linha tracejada) em cerca de 20 minutos.
O mínimo é o menor valor de dados.
Em nesses dados, o mínimo é 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o mínimo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor mínimo for muito baixo, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
O valor máximo é o maior valor de dados.
Nesses dados, o máximo é 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o máximo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor máximo for muito elevado, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
O intervalo é a diferença entre o maior e o menor valores de dados na amostra. O intervalo representa o menor intervalo que contém todos os valores de dados.
Utilize um intervalo para entender a quantidade de dispersão nos dados. Um valor grande valor no intervalo indica uma maior dispersão nos dados. Um valor pequeno no intervalo indica que há menor dispersão nos dados. Como o intervalo é calculado utilizando apenas dois valores de dados, ele é ainda mais útil nos conjuntos de dados pequenos.
A mediana é o ponto médio do conjunto de dados. Este valor do ponto médio é o ponto em que metade das observações estão acima do valor e metade das observações estão abaixo do valor. A mediana é determinada por classificar as observações e encontrar a observação que está no número [N + 1] / 2 na ordem de grandeza. Se o número de observações for ímpar, a mediana é o valor médio das observações que são classificadas com números de N / 2 e [N / 2] + 1.
Para esses dados ordenados, a mediana é 13. Isto é, metade dos valores é menor ou igual a 13, e metade dos valores é maior ou igual a 13. Se você adicionar outra observação igual a 20, a mediana será 13,5, que é a média entre a 5a observação (13) e a 6a observação (14).
Para a distribuição simétrica, a média (linha azul) e a mediana (linha laranja) são tão similares que você não pode ver facilmente as linhas. Mas a distribuição não simétrica é assimétrica à direita.
A soma dos quadrados sem correção são calculados elevando-se ao quadrado cada valor na coluna, e calculando-se a soma desses valores ao quadrado. Por exemplo, se a coluna contiver x1, x2, ... , xn, a soma dos quadrados é calculada como (x12 + x22 + ... + xn2). Ao contrário da soma dos quadrados corrigida, a soma dos quadrados não corrigida inclui erro. Os valores dos dados são elevados ao quadrado sem subtrair primeiro a média.
O número total de observações na coluna. Use para representar a soma de N faltantes e N não faltantes.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |
O número de valores não faltantes na amostra.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |
Número de valores faltantes na amostra. O número de valores faltantes se refere às células que contêm o símbolo de valor faltante *.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |