Estatísticas descritivas para Identificação de distribuição individual

N

O número de valores não faltantes na amostra. N é a contagem de todos os valores observados.

Neste exemplo, há 141 observações registradas.

Total	N	N*
149	141	8

Interpretação

Use N para avaliar o tamanho da amostra.

Geralmente, amostras maiores produzem resultados mais confiáveis para avaliar o ajuste de distribuição.

Importante

Tenha cuidado ao interpretar os resultados a partir de uma amostra muito pequena ou muito grande. Se você tem uma amostra muito pequena, um teste de qualidade de ajuste pode não ter poder suficiente para detectar desvios significativos da distribuição. Se você tem uma amostra muito grande, o teste pode ser tão poderosa a ponto de detectar até mesmo pequenos desvios da distribuição que não têm nenhuma significância prática. Além dos gráficos de probabilidade, utilize os valores de p para avaliar o ajuste de distribuição.

N*

Número de valores faltantes na amostra. N* é a contagem das células na worksheet que contêm o símbolo de valor faltante *.

Neste exemplo, ocorreram 8 erros durante a coleta de dados e são registrados como valores faltantes.

Total	N	N*
149	141	8

Média

A média é calculada como a média dos dados, que é a soma de todas as observações divididas pelo número de observações.

Por exemplo, os tempos de espera (em minutos) de cinco clientes em um banco são: 3, 2, 4, 1 e 2. O tempo de espera médio é calculado da seguinte maneira:

Em média, um cliente aguarda 2,4 minutos para ser atendido no banco.

Interpretação

Use a média descreve para descrever a amostra com um único valor que representa o centro dos dados. Muitas análises estatísticas utilizam a média como um ponto de referência padrão.

A mediana e a média medem a tendência central. Mas os valores anormais, chamados de outliers, geralmente afetam a mediana menos do que afetam a média. Se seus dados forem simétricos, a média e a mediana são semelhantes.

Para a distribuição simétrica, a média (linha azul) e a mediana (linha laranja) são quase iguais. Portanto, as linhas se sobrepõem e não podem ser distinguidas uma da outra. Para a distribuição não simétrica, os dados são assimétricos à direita, o que faz com que o valor médio seja para maior do que a mediana.

StDev

O desvio padrão (StDev) é a medida mais comum de dispersão, ou o quanto os dados estão dispersos sobre a média. O símbolo σ (sigma) é frequentemente usado para representar o desvio padrão de uma população, e s é usado para representar o desvio padrão de uma amostra.

Interpretação

Use o desvio padrão para determinar o grau de dispersão dos dados a partir da média. A maior desvio padrão da amostra indica que os seus dados estão espalhados mais amplamente em torno da média.

Também é possível usar o desvio padrão para estabelecer um benchmark para uma estimativa da variação global de um processo. A variação que é aleatória ou natural de um processo é frequentemente chamada de ruído.

Tempos de alta de hospital
Os administradores controlam o tempo gasto na alta de pacientes tratados nos departamentos de emergência de dois hospitais. Apesar de os tempos médios de alta serem quase os mesmos (35 minutos), os desvios padrão são significativamente diferentes. O desvio padrão do hospital 1 é de cerca de 6. Em média, o tempo de alta de um paciente se desvia da média (linha tracejada) em cerca de 6 minutos. O desvio padrão do hospital 2 é de cerca de 20. Na média, um tempo de alta de um paciente se desvia da média (linha tracejada) em cerca de 20 minutos.

Mediana

A mediana é o ponto médio do conjunto de dados. Este valor é o ponto médio em que metade das observações estão acima do valor e metade das observações estão abaixo do valor. A mediana é determinada por classificar as observações e encontrar a observação com o número [N + 1] / 2 na ordem de grandeza. Se o número de observações for par, a mediana é o valor entre as observações classificada com números de N / 2 e [N / 2] + 1.

Interpretação

A mediana e a média medem a tendência central. Mas os valores anormais, chamados de outliers, geralmente afetam a mediana menos do que afetam a média. Se seus dados forem simétricos, a média e a mediana são semelhantes.

Mínimo

O menor valor de dados.

Em nesses dados, o mínimo é 7.

13

17

18

19

12

10

7

9

14

Interpretação

Use o mínimo para identificar um possível outlier. Se o valor for anormalmente baixo, investigue suas possíveis causas, como um erro de entrada de dados ou um erro de medição.

Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo para avaliar sua amplitude. A amplitude é a diferença entre os valores máximo e mínimo no conjunto de dados. Quando você avalia a dispersão dos dados, também considera outras medidas, como o desvio padrão.

Máximo

O maior valor de dados.

Nesses dados, o máximo é 19.

13

17

18

19

12

10

7

9

14

Interpretação

Use o máximo para identificar um possível outlier. Se o valor for anormalmente alto, investigue suas possíveis causas, como um erro de entrada de dados ou um erro de medição.

Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo para avaliar sua amplitude. A amplitude é a diferença entre o máximo e mínimo no conjunto de dados. Quando você avalia a dispersão dos dados, também considera outras medidas, como o desvio padrão.

Assimetria

A assimetria é a medida em que os dados não são simétricos.

Interpretação

Use assimetria de obter uma compreensão inicial da simetria de seus dados.

Distribuições simétricas ou não assimétricas
Conforme os dados se tornam mais simétricos, seu valor se aproxima da assimetria 0. A Figura A mostra os dados distribuídos normalmente, o que, por definição, exibe relativamente pouca assimetria. A linha central do histograma de dados normais mostra que os dois lados refletem um ao outro. A falta de assimetria por si, contudo, não implica normalidade. A Figura B mostra uma distribuição onde os dois lados ainda refletem um ao outro, mas os dados não são normalmente distribuídos.

Curtose

A curtose indica como as caudas de uma distribuição diferem da distribuição normal.

Interpretação

Use curtose para ajudar você a entender inicialmente as características gerais sobre a distribuição de seus dados.

Linha de base: valor da curtose de 0
Os dados que seguem uma distribuição normal perfeitamente têm um valor de 0. Normalmente, os dados distribuídos estabelecem a linha de base para curtose. A curtose que se desvia significativamente de 0 pode indicar que os dados não estão normalmente distribuídos.

Curtose positiva
Uma distribuição com um valor de curtose positiva indica que a distribuição tem caudas mais pesadas do que a distribuição normal. Por exemplo, os dados que se seguem à distribuição T têm um valor de curtose positivo. A linha contínua mostra a distribuição normal e a linha pontilhada mostra uma distribuição T com uma curtose positiva.

Curtose negativa
Uma distribuição que tem um valor de curtose negativo indica que a distribuição tem caudas mais leves do que a distribuição normal. Por exemplo, os dados que seguem uma distribuição beta com primeiro e segundo parâmetros de forma igual a 2 têm um valor de curtose negativo. A linha contínua mostra a distribuição normal e a linha pontilhada mostra uma distribuição beta com uma curtose negativa.

Estatísticas descritivas para Identificação de distribuição individual

Neste tópico

N

Interpretação

Importante

N*

Média

Interpretação

Média e mediana em uma distribuição simétrica

Média e mediana em uma distribuição não simétrica

StDev

Interpretação

Hospital 1

Hospital 2

Tempos de alta de hospital

Mediana

Interpretação

Média e mediana em uma distribuição simétrica

Média e mediana em uma distribuição não simétrica

Mínimo

Interpretação

Máximo

Interpretação

Assimetria

Interpretação

Figura A: Dados simétricos e distribuídos normalmente

Figura B: Dados simétricos distribuídos não normalmente

Distribuições simétricas ou não assimétricas

Distribuições com assimetria positiva ou à direita

Distribuições com assimetria negativa ou à esquerda

Curtose

Interpretação

Linha de base: valor da curtose de 0

Curtose positiva

Curtose negativa