A estatística de qualidade de ajuste de Anderson-Darling (A ao quadrado) mede a área entre a linha ajustada (com base na distribuição normal) e a função de distribuição empírica (que tem por base os pontos de dados). A estatística Anderson-Darling é uma distância ao quadrado que é ponderada mais pesadamente nas caudas da distribuição.
O Minitab usa a estatística de Anderson-Darling para calcular o valor de p. O valor de p é uma probabilidade que mede a evidência contra a hipótese nula. Um valor de p menor fornece uma evidência mais forte contra a hipótese nula. Um valor menor para a estatística Anderson-Darling indica que os dados seguem a distribuição normal mais de perto.
O valor de p é uma probabilidade que mede a evidência contra a hipótese nula. Um valor de p menor fornece uma evidência mais forte contra a hipótese nula.
Use o valor de p para determinar se os dados não seguem uma distribuição normal.
A média é a média dos dados, que é a soma de todas as observações divididas pelo número de observações.
Use a média para descrever a amostra com um único valor que representa o centro dos dados. Diversas análises estatísticas usam a média como uma média padrão do centro da distribuição dos dados.
O desvio padrão é a medida mais comum de dispersão, ou o quanto os dados estão dispersos sobre a média. O símbolo σ (sigma) é frequentemente usado para representar o desvio padrão de uma população, enquanto s é usado para representar o desvio padrão de uma amostra. A variação que é aleatória ou natural de um processo é frequentemente referida como ruído.
Como o desvio padrão está nas mesmas unidades que os dados, ele é normalmente mais fácil de interpretar do que a variância.
Use o desvio padrão para determinar o grau de dispersão dos dados a partir da média. Um valor de desvio padrão mais alto indica maior dispersão nos dados. Uma boa regra de ouro de uma distribuição normal é que aproximadamente 68% dos valores estão dentro de um desvio padrão da média, 95% dos valores estão dentro de dois desvios padrão e 99,7% dos valores estão dentro de três desvios padrão.
A variância mede o quanto os dados estão dispersos em relação à sua média. A variância é igual ao desvio padrão ao quadrado.
Quanto maior a variância, maior a dispersão nos dados.
Como a variância (σ2) é uma quantidade quadrada, suas unidades também são quadradas, o que torna a variância difícil de usar, na prática. O desvio padrão é normalmente mais fácil de interpretar porque ele está nas mesmas unidades que os dados. Por exemplo, uma amostra de tempos de espera em uma parada de ônibus pode ter uma média de 9 minutos2. Como a variância não está nas mesmas unidades que os dados, com frequência, ela é exibida com sua raiz quadrada, o desvio padrão. Uma variância de 9 minutos2 é equivalente a um desvio padrão de 3 minutos.
A assimetria é a medida em que os dados não são simétricos.
A curtose indica como as caudas de uma distribuição diferem da distribuição normal.
O número de valores não faltantes na amostra.
Contagem total | N | N* |
---|---|---|
149 | 141 | 8 |
O mínimo é o menor valor de dados.
Em nesses dados, o mínimo é 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o mínimo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor mínimo for muito baixo, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
Quartis são os três valores — o 1o quartil a 25% (Q1), o segundo quartil a 50% (Q2 ou mediana) e o terceiro quartil a 75% (Q3)— que dividem uma amostra de dados ordenados em quatro partes iguais.
O 1o quartil o 25o percentil e indica que 25% dos dados são menores ou iguais a este valor.
A mediana é o ponto médio do conjunto de dados. Este valor do ponto médio é o ponto em que metade das observações estão acima do valor e metade das observações estão abaixo do valor. A mediana é determinada por classificar as observações e encontrar a observação que está no número [N + 1] / 2 na ordem de grandeza. Se o número de observações for ímpar, a mediana é o valor médio das observações que são classificadas com números de N / 2 e [N / 2] + 1.
Quartis são os três valores — o 1o quartil a 25% (Q1), o segundo quartil a 50% (Q2 ou mediana) e o terceiro quartil a 75% (Q3)— que dividem uma amostra de dados ordenados em quatro partes iguais.
O terceiro quartil é o 75o percentil e indica que 75% dos dados são menores ou iguais a este valor.
O valor máximo é o maior valor de dados.
Nesses dados, o máximo é 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Use o máximo para identificar um possível outlier ou um erro de entrada de dados. Uma das maneiras mais simples para avaliar a dispersão de seus dados é comparar o mínimo e o máximo. Se o valor máximo for muito elevado, mesmo quando se considerar o centro, a dispersão e o formato dos dados, investigue a causa do valor extremo.
O intervalo de confiança fornece um intervalo de valores possíveis para o parâmetro da população. Como as amostras são aleatórias, é improvável que duas amostras de uma população produzam intervalos de confiança idênticos. Porém, se você repetir sua amostra muitas vezes, uma certa porcentagem dos intervalos ou fronteiras de confiança resultantes contém o parâmetro de população desconhecida. A porcentagem destes intervalos de confiança ou fronteiras que contêm o parâmetro é o nível de confiança do intervalo. Por exemplo, um nível de confiança de 95% indica que, se você extrair 100 amostras aleatórias da população, poderia esperar que, aproximadamente, 95 das amostras produza intervalos que contêm o parâmetro da população.
Um limite superior define um valor provável que o parâmetro da população seja menor. Um limite inferior define um valor provável que o parâmetro da população seja maior.
O intervalo de confiança ajuda a avaliar a significância prática de seus resultados. Use seu conhecimento especializado para determinar se o intervalo de confiança inclui valores que tenham significância prática para a sua situação. Se o intervalo for muito amplo para ser útil, pense em aumentar o tamanho da amostra. Para obter mais informações, vá para Como obter um intervalo de confiança mais preciso.
Um histograma divide valores de amostra para muitos intervalos e representa a frequência de valores de dados em cada intervalo com uma barra.
Utilize um histograma para avaliar a forma e a dispersão dos dados. Os histogramas são melhores quando o tamanho amostral for superior a 20.
Você pode usar um histograma dos dados sobrepostos por uma curva normal para analisar a normalidade de seus dados. Uma distribuição normal é simétrica e em forma de sino, como indicada pela curva. Muitas vezes, é difícil de avaliar a normalidade com amostras pequenas. É melhor usar um gráfico de probabilidade para determinar o ajuste de distribuição.
Outliers, que são valores de dados que estão distantes de outros valores de dados, podem afetar fortemente os resultados de sua análise. Muitas vezes, os outliers são mais fáceis de serem identificados em um boxplot.
Tente identificar a causa de todos os outliers. Corrija todos os erros de entrada de dados ou de medição. Considere a remoção de valores de dados para eventos anormais de ocorrência única (também chamados de causas especiais). Depois, repita a análise. Para obter mais informações, acesse Identificação de outliers.
Os dados multimodais têm vários picos, também chamados de modos. Os dados multimodais, muitas vezes, indicam que variáveis importantes ainda não foram contabilizadas.
Se você tiver informações adicionais que lhe permitam classificar as observações em grupos, pode criar uma variável de grupo com estas informações. Em seguida, pode criar o gráfico com grupos para determinar se a variável de grupo representa os picos nos dados.
Um boxplot fornece um resumo gráfico da distribuição de uma amostra. O boxplot mostra a forma, a tendência central e a variabilidade dos dados.
Utilize um boxplot para examinar a dispersão dos dados e identificar todos os outliers potenciais. Os boxplots são melhores quando o tamanho amostral for superior a 20.
Examine a dispersão de seus dados para determinar se eles parecem ser assimétricos. Quando os dados são assimétricos, a maioria dos dados está localizada no lado alto ou baixo do gráfico. Muitas vezes, é mais fácil detectar a assimetria com um histograma ou boxplot.
Outliers, que são valores de dados que estão distantes de outros valores de dados, podem afetar fortemente os resultados de sua análise. Muitas vezes, os outliers são mais fáceis de serem identificados em um boxplot.
Tente identificar a causa de todos os outliers. Corrija todos os erros de entrada de dados ou de medição. Considere a remoção de valores de dados para eventos anormais de ocorrência única (também chamados de causas especiais). Depois, repita a análise. Para obter mais informações, acesse Identificação de outliers.