A soma é o total de todos os valores de dados. A soma também é usada em cálculos estatísticos, como a média e o desvio padrão.
A média é a média dos dados, que é a soma de todas as observações divididas pelo número de observações.
Use a média para descrever a amostra com um único valor que representa o centro dos dados. Diversas análises estatísticas usam a média como uma média padrão do centro da distribuição dos dados.
O desvio padrão é a medida mais comum de dispersão, ou o quanto os dados estão dispersos sobre a média. O símbolo σ (sigma) é frequentemente usado para representar o desvio padrão de uma população, enquanto s é usado para representar o desvio padrão de uma amostra. A variação que é aleatória ou natural de um processo é frequentemente referida como ruído.
Como o desvio padrão está nas mesmas unidades que os dados, ele é normalmente mais fácil de interpretar do que a variância.
Use o desvio padrão para determinar o grau de dispersão dos dados a partir da média. Um valor de desvio padrão mais alto indica maior dispersão nos dados. Uma boa regra de ouro de uma distribuição normal é que aproximadamente 68% dos valores estão dentro de um desvio padrão da média, 95% dos valores estão dentro de dois desvios padrão e 99,7% dos valores estão dentro de três desvios padrão.
O mínimo é o menor valor de dados.
Em nesses dados, o mínimo é 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o mínimo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor mínimo for muito baixo, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
O valor máximo é o maior valor de dados.
Nesses dados, o máximo é 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o máximo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor máximo for muito elevado, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
O intervalo é a diferença entre o maior e o menor valores de dados na amostra. O intervalo representa o menor intervalo que contém todos os valores de dados.
Utilize um intervalo para entender a quantidade de dispersão nos dados. Um valor grande valor no intervalo indica uma maior dispersão nos dados. Um valor pequeno no intervalo indica que há menor dispersão nos dados. Como o intervalo é calculado utilizando apenas dois valores de dados, ele é ainda mais útil nos conjuntos de dados pequenos.
A mediana é o ponto médio do conjunto de dados. Este valor do ponto médio é o ponto em que metade das observações estão acima do valor e metade das observações estão abaixo do valor. A mediana é determinada por classificar as observações e encontrar a observação que está no número [N + 1] / 2 na ordem de grandeza. Se o número de observações for ímpar, a mediana é o valor médio das observações que são classificadas com números de N / 2 e [N / 2] + 1.
A soma dos quadrados sem correção são calculados elevando-se ao quadrado cada valor na coluna, e calculando-se a soma desses valores ao quadrado. Por exemplo, se a coluna contiver x1, x2, ... , xn, a soma dos quadrados é calculada como (x12 + x22 + ... + xn2). Ao contrário da soma dos quadrados corrigida, a soma dos quadrados não corrigida inclui erro. Os valores dos dados são elevados ao quadrado sem subtrair primeiro a média.
O número total de observações na coluna. Use para representar a soma de N faltantes e N não faltantes.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |
O número de valores não faltantes na amostra.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |
Número de valores faltantes na amostra. O número de valores faltantes se refere às células que contêm o símbolo de valor faltante *.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |