Qualidade do ajuste para Identificação de distribuição individual

Encontre definições e orientações interpretação para cada estatística e gráfico fornecido com a identificação individual de distribuição.

Gráfico de probabilidade

Um gráfico de probabilidade exibe cada ponto de dados versus a percentagem de valores na amostra que são menores ou iguais ao ponto de dados.
O gráfico inclui:
Linha central
O percentil esperado a partir da distribuição com base em estimativas de parâmetros de máxima verossimilhança.
Linhas do limite de confiança
A linha curva à esquerda indica os limites inferiores dos intervalos de confiança para os percentis. A linha curva direita indica os limites superiores dos intervalos de confiança para os percentis.

Interpretação

Use o gráfico de probabilidade normal para avaliar o quanto seus dados se aproximam de cada distribuição.

Se a distribuição for um bom ajuste para os dados, os pontos devem cair próximos à linha de distribuição ajustada. Pontos distantes da linha reta indicam que o ajuste é inaceitável.

Bom ajuste
Ajuste ruim

Além do gráfico de probabilidade, use as medidas de qualidade do ajuste, como os valores de p de AD e os valores de p de LRT para avaliar o ajuste de distribuição.

Ao selecionar uma distribuição para modelar seus dados, também confie em seu conhecimento do processo. Se várias distribuições fornecem um bom ajuste, use as seguintes estratégias para escolher uma distribuição:
  • Escolha a distribuição que seja mais comumente usada em seu setor ou aplicativo.
  • Escolha a distribuição que fornece os resultados mais conservadores. Por exemplo, se você está realizando análise de capacidade, pode realizá-la usando diferentes distribuições e, em seguida, escolher a distribuição que produz a maioria dos índices de capacidade conservadores. Para obter mais informações, acesse Percentis de distribuição para Identificação de distribuição individual e clique em "Porcentagens e percentis".
  • Escolha a distribuição mais simples que se ajusta bem os seus dados. Por exemplo, se distribuições de 2 parâmetros e de 3 parâmetros fornecem ambas um bom ajuste, é possível escolher a distribuição de 2 parâmetros mais simples.

P

Para cada distribuição, o Minitab relata um valor de p (P) para o teste de Anderson-Darling (AD). O valor de p é uma probabilidade que mede a evidência contra a hipótese nula. Para um teste de AD, a hipótese nula é que os dados seguem a distribuição. Portanto, os valores de p inferiores fornecem evidência mais forte de que os dados não seguem a distribuição.
Observação

Nenhum valor de p para o teste do AD está disponível para as distribuições para 3 parâmetros, com exceção para a distribuição Weibull.

Interpretação

Use o valor de p para avaliar o ajuste da distribuição.

Para cada distribuição ou transformação, compare o valor de p com o nível de significância. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de concluir que os dados não seguem a distribuição quando eles realmente a seguem.
P ≤ α: Os dados não seguem a distribuição (Rejeitar H0)
Se o valor de p for menor ou igual ao nível de significância, você deve rejeitar a hipótese nula e concluir que os seus dados não seguem a distribuição.
P > α: Não é possível concluir que os dados não seguem a distribuição (Falha ao rejeitar H0)
Se o valor de p for maior do que o nível de significância, você não deve rejeitar a hipótese nula. Não há evidências suficientes para concluir que os dados não seguem a distribuição. É possível assumir que os dados seguem a distribuição.
Ao selecionar uma distribuição para modelar seus dados, também confie em seu conhecimento do processo. Se várias distribuições fornecem um bom ajuste, use as seguintes estratégias para escolher uma distribuição:
  • Escolha a distribuição que seja mais comumente usada em seu setor ou aplicativo.
  • Escolha a distribuição que fornece os resultados mais conservadores. Por exemplo, se você está realizando análise de capacidade, pode realizá-la usando diferentes distribuições e, em seguida, escolher a distribuição que produz a maioria dos índices de capacidade conservadores. Para obter mais informações, acesse Percentis de distribuição para Identificação de distribuição individual e clique em "Porcentagens e percentis".
  • Escolha a distribuição mais simples que se ajusta bem os seus dados. Por exemplo, se distribuições de 2 parâmetros e de 3 parâmetros fornecem ambas um bom ajuste, é possível escolher a distribuição de 2 parâmetros mais simples.
Importante

Tenha cuidado ao interpretar os resultados a partir de uma amostra muito pequena ou muito grande. Se você tem uma amostra muito pequena, um teste de qualidade de ajuste pode não ter poder suficiente para detectar desvios significativos da distribuição. Se você tem uma amostra muito grande, o teste pode ser tão poderosa a ponto de detectar até mesmo pequenos desvios da distribuição que não têm nenhuma significância prática. Além dos gráficos de probabilidade, utilize os valores de p para avaliar o ajuste de distribuição.

Teste de Qualidade de Ajuste

DistribuiçãoADPTRV P
Normal0,7540,046 
Transformação de Box-Cox0,4140,324 
Lognormal0,6500,085 
Lognormal de 3 Parâmetros0,341*0,017
Exponencial20,614<0,003 
Exponencial de 2 Parâmetros1,6840,0140,000
Weibull1,442<0,010 
Weibull de 3 Parâmetros0,230>0,5000,000
Menor Valor Extremo1,656<0,010 
Maior Valor Extremo0,394>0,250 
Gama0,7020,071 
Gama de 3 Parâmetros0,268*0,006
Logística0,7260,034 
Loglogística0,6590,050 
Loglogística de 3 Parâmetros0,432*0,027
Transformação de Johnson0,1240,986 

Nestes resultados, várias distribuições têm um valor de p que é maior do que 0,05. A distribuição Weibull para 3 parâmetros (P > 0,50) e a distribuição de maior valor extremo (P > 0,25) têm os maiores valores de p, e parecem ajustar os dados de amostra melhor do que as outras distribuições. Além disso, a transformação de Box-Cox (P = 0,324) e a transformação Johnson (P = 0,986) são eficazes na transformação dos dados para seguir uma distribuição normal.

Observação

Para várias distribuições, o Minitab também exibe resultados para a distribuição de um parâmetro adicional. Por exemplo, para a distribuição lognormal, o Minitab exibe resultados para ambas as versões de 2 parâmetros e de 3 parâmetros da distribuição. Para distribuições que tenham parâmetros adicionais, use o valor de p do teste da razão de verossimilhança (LRT P) para determinar se a adição de outro parâmetro melhora significativamente o ajuste da distribuição. Um valor de p de LRT que seja inferior a 0,05 indica que a melhoria no ajuste é significativa. Para obter mais informações, consulte a seção sobre LRT P.

LRT P

Para várias distribuições, o Minitab também exibe resultados para a distribuição de um parâmetro adicional. Para cada versão de parâmetro extra de uma distribuição, o Minitab relata um valor de p para o teste da razão de verossimilhança (LRT P). O valor de p é uma probabilidade que mede a evidência contra a hipótese nula. Para o teste da razão de verossimilhança na identificação da distribuição individual, a hipótese nula é que os dados seguem a menor (parâmetro inferior) distribuição. Portanto, os valores de p do LRT mais baixo fornecem evidências mais fortes de que o ajuste de distribuição sejam significativamente melhorados através da utilização de um parâmetro adicional.

Interpretação

Use o valor de p do LRT para determinar se a adição do parâmetro extra melhora significativamente o ajuste sobre a distribuição sem o parâmetro extra.

Para cada distribuição ou transformação, compare o valor de p de LRT com o nível de significância. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de concluir que o parâmetro extra melhora significativamente o ajuste de distribuição, quando, na verdade, não.
P ≤ α: A maior distribuição (parâmetro superior) fornece um ajuste significativamente melhor. (Rejeite H0)
Se o valor de p for menor ou igual ao nível de significância, rejeite a hipótese nula e conclua que o ajuste de distribuição está significativamente melhorado pela utilização de um parâmetro adicional.
P > α: Não é possível concluir que a maior distribuição (parâmetro superior) fornece um ajuste significativamente melhor (falha em rejeitar H0)
Se o valor de p for maior do que o nível de significância, você deixa de rejeitar a hipótese nula. Não há evidências suficientes para concluir que o ajuste de distribuição é significativamente melhorado utilizando-se um parâmetro adicional.

O LRT do valor de p também é útil para distribuições para 3 parâmetros para as quais não exista nenhum método estabelecido para o cálculo do valor de p. Nestes casos, primeiro examine o valor de p para a distribuição para dois parâmetros correspondente. Em seguida, examine o valor de p de LRT para a distribuição para 3 parâmetros para determinar se a distribuição para 3 parâmetros é significativamente melhor do que a distribuição para dois parâmetros.

Nestes resultados, os valores de p de LRT para as distribuições lognormais para 3 parâmetros (0,017), Weibull para 3 parâmetros (0,000), gama para 3 parâmetros (0,006), e loglogísticas para 3 parâmetros (0,027) sugerem que estas distribuições melhoram significativamente o ajuste em comparação com suas contrapartes de 2 parâmetros.

Teste de Qualidade de Ajuste

DistribuiçãoADPTRV P
Normal0,7540,046 
Transformação de Box-Cox0,4140,324 
Lognormal0,6500,085 
Lognormal de 3 Parâmetros0,341*0,017
Exponencial20,614<0,003 
Exponencial de 2 Parâmetros1,6840,0140,000
Weibull1,442<0,010 
Weibull de 3 Parâmetros0,230>0,5000,000
Menor Valor Extremo1,656<0,010 
Maior Valor Extremo0,394>0,250 
Gama0,7020,071 
Gama de 3 Parâmetros0,268*0,006
Logística0,7260,034 
Loglogística0,6590,050 
Loglogística de 3 Parâmetros0,432*0,027
Transformação de Johnson0,1240,986