4.3.2 - Teste de Qualidade de Ajuste de Anderson Darling

Você está aqui

Uma outra forma de checar a adequação do modelo probabilístico aos dados é testando a hipótese de que uma dada amostra tenha sido retirada de uma população com função de distribuição acumulada (f.d.a.) contínua F(x).

Seja x1, x2, ..., xn uma amostra aleatória e suponha que um provável candidato para a f.d.a. dos dados seja F(x), o teste de hipóteses para verificar a adequação da distribuição $ F(x) $ aos dados é


~\mbox{a amostra não tem distribuição~} F(x).\end{array}\right~~~~~~~~~~~~~~(4.3.2.1)$$

Anderson e Darling (1952, 1954) propuseram a seguinte estatística para testar (4.3.2.1)


$$A^{2} = n~\int_{-\infty}^{\infty} \dfrac{\left[F_{n}(x)-F(x)\right]}{F(x)(1-F(x))}dF(x),$$

sendo Fn(x) a função de distribuição acumulada empírica definida por


$$F_{n}(x)=\dfrac{1}{n}\sum_{i=1}^{n}1\!\!1_{\{x_i\leq x\}}=\left\{\begin{array}{ll}0,~~\hbox{se}~x~\textless~x_{(1)},\\\\ \dfrac{k}{n},~~\hbox{se}~x_{(k)} \leq x~\textless~x_{(k + 1)},\\\\1,~~\hbox{se}~x~\textgreater~x_{(n)},\end{array}\right$$

sendo $ x_{(1)}\leq x_{(2)}\leq ...\leq x_{(n)}, $ as estatísticas de ordem da amostra aleatória e $ 1\!\!1_{\{x_i \leq x\}} $ a função indicadora que vale 1 se $ x_i \leq x $ e 0 se $ x_i~\textgreater~x $, i = 1, ..., n.

A estatística A2 pode ser representada numa forma equivalente como


$$A^{2}=-n-\dfrac{1}{n}\sum^{n}_{i=1}\left[(2i-1)\ln(~F(x_{(i)})~)+(~2(n-i)+1~)\ln(1-F(x_{(i)})~)\right]$$

A transformação F(x(i)) leva x(i) em U(i), sendo U(1), ..., U(n) uma amostra de tamanho n com distribuição uniforme em (0,1). Logo,


$$A^{2} = - n - \dfrac{1}{n}\sum^{n}_{i=1}\left[(2i - 1)\ln(~U_{(i)}~)+ (~2(n-i) + 1~)\ln(1 - U_{(i)}~) \right]~~~~~~~~~~~~~~(4.3.2.2)$$

Para calcular o valor da estatística A2, devemos seguir os passos abaixo:

1. Ordene os valores da amostra: x(1) ≤ x(2) ≤ ... ≤ x(n);

2. Quando necessário, estime os parâmetros da distribuição de interesse;

3. Calcule Ui = F(x(i)) e calcule o valor da estatística de Anderson Darling (4.3.2.2):


$$A^{2} = - n - \dfrac{1}{n}\sum^{n}_{i=1}\left[(2i - 1)\left(\ln(~U_{i})+ \ln(1 - U_{n+1-i}~)\right) \right]$$

(observe que esta é uma forma equivalente à (4.3.2.2))

4. Para cada uma das distribuições calcule, se for o caso, o valor da estatística modificada de acordo com as tabelas dadas para cada uma delas.

Para uma distribuição com parâmetros conhecidos podemos encontrar os valores da função de distribuição acumulada da estatística A2 tabulados em Peter and Lewis(1960). No entanto, surge um problema quando um ou dois dos parâmetros da distribuição precisam ser estimados, para contornar esse problema Stephens(1974, 1976, 1977) utilizou métodos assintóticos para tabular os valores dessas probabilidades quando os parâmetros das distribuições são desconhecidos.

 

Aplicação

Vamos aplicar o teste de qualidade de ajuste de Anderson Darling a algumas das distribuições de probabilidade mais conhecidas tais como a Normal, Exponencial, Weibull, Lognormal e Valor Extremo. Para essas distribuições o parâmetro θ pode ser univariado ou bivariado, isto é, ele terá no máximo duas componentes, conforme os seguintes casos:

  • Caso 0: O parâmetro $ \theta = (\alpha, \beta) $ é totalmente conhecido;
  • Caso 1: $ \alpha $ é conhecido;
  • Caso 2: $ \beta $ é conhecido;
  • Caso 3: Nenhum dos componentes de $ \theta= (\alpha, \beta) $ é conhecido.

• Distribuição Normal

Para a distribuição Normal com função densidade de probabilidade dada por


$$f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left(-\dfrac{(x-\mu)^{2}}{2 \sigma^{2}}\right), \qquad -\infty~\textless~x~\textless~\infty.$$

A Tabela 4.3.2.1 fornece alguns valores para os quantis da distribuição da estatística de Anderson Darling modificada de acordo com cada um dos casos:

  • Caso 0: O parâmetro θ = (μ, σ) é totalmente conhecido;
  • Caso 1: μ é conhecido e σ é estimado por s2;
  • Caso 2: σ é conhecido e μ é estimado por $ \overline{x} $;
  • Caso 3: Nenhum dos componentes de θ = (μ, σ) é conhecido e são estimados por $ (\overline{x}, s^{2}) $.

A Tabela 4.3.2.1 fornece os quantis $ 1- \alpha $ da distribuição de A2, ou seja, fornecem pontos $ q_{(1-\alpha)} $ para os quais a probabilidade de A2 ser maior que $ q_{(1-\alpha)} $ é igual a $ \alpha $.

Tabela 4.3.2.1: Tabela de pontos percentis de A2 para a distribuição Normal.

Pontos percentis para cada $ \alpha $ (%)
Caso Modificação 15,0 10,0 5,0 2,5 1,0
0 Nenhuma 1,610 1,933 2,492 3,070 3,857
1 - 0,784 0,897 1,088 1,281 1,541
2 - 1,443 1,761 2,315 2,890 3,682
3 $ A^{2}(1 + (4/n) - (25/n^{2})) $ 0,560 0,632 0,751 0,870 1,029

 

Exemplo 4.3.2.1: 

Considere as seguintes medidas correspondentes ao peso de homens (em pounds): 148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Desejamos testar a seguinte hipótese:


~~\mbox{Os dados não seguem distribuição Normal~} - N(\mu, \sigma)\end{array}\right.$$

A média dos dados é $ \overline{x} = 172 $ e o desvio padrão é s = 24,9520.

Tabela 4.3.2.2: Calculando o valor de A2. 

dados dados ordenados F(xi) ln(F(xi)) ln(1-F(xi))
148 148 0,168063 -1,78341 -0,184
154 154 0,235336 -1,44674 -0,26832
158 158 0,287372 1,24698 -0,3388
160 160 0,315285 -1,15428 0,37875
161 161 0,329662 -1,10969 -0,39997
162 162 0,344295 -1,06626 -0,42204
166 166 0,404986 -0,9039 -0,51917
170 170 0,468057 -0,75916 -0,63122
182 182 0,655705 -0,42204 -1,06626
195 195 0,821676 -0,19641 -1,72415
236 236 0,99484 -0,00517 -5,26684

Utilizando a fórmula (4.3.2.2), temos que

D = (2×1 - 1)×(-1,78341) + (2×(11 - 1) + 1)×(-0,184)

   + (2×2 - 1)×(-1,44674) + (2×(11 - 2) + 1)×(-0,26832)

   +(2×3 - 1)×(-1,24698) + (2×(11 - 3) + 1)×(-0,3388)

   +(2×4 - 1)×(-1,15428) + (2×(11 - 4) + 1)×(-0,37875)

   +(2×5 - 1)×(-1,10969) + (2×(11 - 5) + 1)×(-0,39997)

   +(2×6 - 1)×(-1,06626) + (2×(11 - 6) + 1)×(-0,42204)

   +(2×7 - 1)×(-0,9039) + (2×(11 - 7) + 1)×(-0,51917)

   +(2×8 - 1)×(-0,75916) + (2×(11 - 8) + 1)×(-0,63122)

   +(2×9 - 1)×(-0,42204) + (2×(11 - 9) + 1)×(-1,06626)

   +(2×10 - 1)×(-0,19641) + (2×(11-10) + 1)×(-1,72415)

   +(2×11 - 1)×(-0,00517) + (2×(11-11) + 1)×(-5,26684)

   = -131,4145

Com isso, temos


$$A^{2} = -\dfrac{D}{n} - n = \dfrac{131,4145}{11} - 11 = 0,9467719.$$

A estatística de Anderson Darling modificada para o Caso 3 (μ e σ desconhecidos) é dada por:


$$A^{2}_{m} = A^{2} \times (1 + (4/n) - (25/n^{2}))= A^{2} \times (1 + (4/n) - (25/n^{2}))=0,94677 \times 1,15703 = 1,0954.$$

A partir da Tabela 4.3.2.1 concluímos que o p-valor do teste é menor que 0,01. Portanto, assumindo um nível de significância igual a 0,05 rejeitamos a hipótese dos dados serem provenientes de uma distribuição normal.

• Distribuição Log-Normal

Para realizar o teste de Anderson Darling quando a distribuição dada é Log-normal devemos considerar o logaritmo dos dados e proceder como no caso da distribuição Normal.

• Distribuição Exponencial

Considere o teste como em (4.3.2.1) e a distribuição Exponencial com função de distribuição acumulada dada por


$$F(x) = 1- \exp\left(-\dfrac{x}{\alpha}\right), \qquad x~\textgreater~0.$$

Os seguintes casos podem ocorrer durante a realização do teste:

  • Caso 0: O parâmetros $ \alpha $ é conhecido;
  • Caso 1: O parâmetro $ \alpha $ precisa ser estimado.

A Tabela 4.3.2.3 apresenta os valores da estatística A2 com modificações apropriadas para cada um dos casos citados acima.

Tabela 4.3.2.3: Tabela de pontos percentis de A2 para a distribuição Exponencial.

Pontos percentis para cada $ \alpha $ (%)
Caso Modificação 15,0 10,0 5,0 2,5 1,0
0 Nenhuma 1,610 1,933 2,492 3,070 3,857
1 $ A^{2}(1 + (0,6/n)) $ 0,922 1,078 1,341 1,606 1,957

 

Exemplo 4.3.2.2:

Os dados a seguir se referem aos tempos de vida (em horas) de 15 componentes eletrônicos colocados em teste. Sejam eles: 7,134; 1,157; 103,507; 64,707; 48,826; 72,332; 155,894; 83,653; 5,729; 4,472; 14,578; 42,833; 45,118; 223,395; 3,055. A média dos dados é $ \overline{x}=58.4260 $.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Desejamos realizar o seguinte teste:


~\mbox{Os dados não seguem uma distribuição Exponencial~}-\mbox{Exp}(\lambda)\end{array}\right.$$

Assim, para calcular o valor da estatística A2 procedemos como na Tabela 4.3.2.4.

Tabela 4.3.2.4: Calculando o valor de A2.

dados dados ordenados F(xi) ln(F(xi)) ln(1-F(xi))
7,134 1,157 0,019603 -3,93208 -0,0198
1,157 3,055 0,050948 -2,97696 -0,05229
103,507 4,472 0,073685 -2,60796 -0,07654
64,707 5,729 0,0934 -2,37086 -0,09805
48,826 7,134 0,114939 -2,16336 -0,1221
72,332 14,578 0,220821 -1,5104 -0,24952
155,894 42,833 0,519593 -0,65471 -0,73312
83,653 45,118 0,538019 -0,61986 -0,77223
5,729 48,826 0,566423 -0,56841 -0,83569
4,472 64,707 0,669617 -0,40105 -1,1075
14,578 72,332 0,710041 -0,34243 -1,23802
42,833 83,653 0,761115 -0,27297 -1,43177
45,118 103,507 0,829938 -0,1864 -1,77159
223,395 155,894 0,930625 -0,0719 -2,66823
3,055 223,395 0,97815 -0,02209 -3,82356

Com isso, temos

D = (2×1 - 1)×(-3,93208) + (2×(15 - 1) + 1)(-0,01980)
   + (2
×2 - 1)×(-2,97696) + (2×(15 - 2) + 1)(-0,05229)
   + (2
×3 - 1)×(-2,60796) + (2×(15 - 3) + 1)(-0,07654)
   + (2
×4 - 1)×(-2,37086) + (2×(15 - 4) + 1)(-0,09805)
   + (2
×5 - 1)×(-2,16336) + (2×(15 - 5) + 1)(-0,12210)
   + (2
×6 - 1)×(-1,51040) + (2×(15 - 6) + 1)(-0,24952)
   + (2
×7 - 1)×(-0,65471) + (2×(15 - 7) + 1)(-0,73312)
   + (2
×8 - 1)×(-0,61986) + (2×(15 - 8) + 1)(-0,77223)
   + (2
×9 - 1)×(-0,56841) + (2×(15 - 9) + 1)(-0,83569)
   + (2
×10 - 1)×(-0,40105) + (2×(15 - 10) + 1)(-1,10750)
   + (2
×11 - 1)×(-0,34243) + (2×(15 - 11) + 1)(-1,23802)
   + (2
×12 - 1)×(-0,27297) + (2×(15 - 12) + 1)(-1,43177)
   + (2
×13 - 1)×(-0,18640) + (2×(15 - 13) + 1)(-1,77159)
   + (2
×14 - 1)×(-0,07190) + (2×(15 - 14) + 1)(-2,66823)
   + (2
×15 - 1)×(-0,02209) + (2×(15 - 15) + 1)(-3,82356)
   = -236,79011

Assim, temos que


$$A^{2} = -\dfrac{D}{n} - n = -\dfrac{-236,79011}{15} - 15 = 0,786007333$$

Logo, a estatística de Anderson Darling modificada de acordo com a Tabela 4.3.2.3 é dada por:


$$A^{2}_{m} = A^{2}(1 + (0,6/n)) = 0,786007333\times(1+(0,6/15)) = 0,8174$$

Com isso, a partir da Tabela 4.3.2.3 concluímos que o p-valor é maior que 0,15.

• Distribuição Valor Extremo

Para realizar o teste (4.3.2.1) para a distribuição de Valor Extremo com função de distribuição acumulada dada por


$$F(y) = 1 - \exp \left[-\exp\left(\dfrac{y-\mu}{\sigma}\right)\right], \qquad -\infty~\textless~y~\textless~\infty, ~~~~~~~~~~~~~~(4.3.2.3)$$

Os seguintes casos podem ocorrer:

  • Caso 0: O parâmetro θ = (μ, σ) é totalmente conhecido;
  • Caso 1: O parâmetro μ é conhecido e σ precisa ser estimado;
  • Caso 2: O parâmetro σ é conhecido e μ precisa ser estimado;
  • Caso 3: Nenhum dos componentes de  θ = (μ, σ) é conhecido e portanto ambos precisam ser estimados.

A seguinte tabela apresenta os valores da estatística A2 com modificações apropriadas para cada um dos casos citados acima.

Tabela 4.3.2.5: Tabela de pontos percentis de A2 para a Valor Extremo.

Pontos percentis para cada $ \alpha $ (%)
Caso Modificação 15,0 10,0 5,0 2,5 1,0
0 Nenhuma - 1,933 2,492 3,070 3,857
1 $ A^{2}(1 + (0,3/n)) $ 0,736 1,062 1,321 1,591 1,959
2 Nenhuma 1,060 1,725 2,277 2,854 3,640
3 $ A^{2}(1 + (0,2/\sqrt{n})) $ 0,474 0,637 0,757 0,877 1,038

 

Exemplo 4.3.2.3: 

Considere os dados a seguir provenientes de uma distribuição de Valor Extremo: 84,01; 75,498; 79,356; 72,635; 104,052; 102,56; 91,458; 90,546; 78,932; 90,18; 76,828; 93,905; 75,433; 85,35; 102,64.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Os parâmetros estimados são: locação μ = 92,162789 e escala σ = 9,976448.

O objetivo é realizar o seguinte teste:


~\mbox{Os dados não seguem distribuição Valor Extremo~}-~\mbox{VE}(\mu,\sigma)\end{array}\right.$$

Assim, vamos calcular o valor da estatística A2 procedendo como na Tabela 4.3.2.6.

Tabela 4.3.2.6: Calculando o valor de A2.

dados dados ordenados F(xi) ln(F(xi)) ln(1-F(xi))
84,01 72,635 0,131708 -2,02717 -0,14123
75,498 75,433 0,170513 -1,76895 -0,18695
79,356 75,498 0,171526 -1,76302 -0,18817
72,635 76,828 0,193462 -1,64268 -0,21500
104,052 78,932 0,233165 -1,45601 -0,26548
102,56 79,356 0,241953 -1,41901 -0,27701
91,458 84,01 0,357035 -1,02992 -0,44167
90,546 85,35 0,396589 -0,92486 -0,50516
78,932 90,18 0,559461 -0,58078 -0,81976
90,18 90,546 0,572752 -0,55730 -0,85039
76,828 91,458 0,606153 -0,50062 -0,93179
93,905 93,905 0,696025 -0,36237 -1,19081
75,433 102,56 0,941304 -0,06049 -2,83538
85,35 102,64 0,942629 -0,05908 -2,85821
102,64 104,052 0,962849 -0,03786 -3,29277

Assim, temos que


$$A^{2} = 0,6421041$$

Logo, a estatística de Anderson Darling modificada de acordo com a Tabela 4.3.2.5 é dada por:


$$A^{2}_{m} = A^{2}(1 + (0,2/\sqrt{15}))= 0,6421041\times 1,051640= 0,6753.$$

A partir da Tabela 4.3.2.5, concluímos que o p-valor está entre 0,05 e 0,10. Para obtermos um valor exato, podemos fazer uma interpolação entre esses valores a partir da equação que fornece a inclinação da reta, dada por


$$\dfrac{0,757 - 0,637}{5 - 10} = \dfrac{0,6753 - 0,637}{x - 10}.$$

Dessa equação, concluímos que o p-valor é de 8,4042 % ou 0,0840. Portanto, para um nível de significância igual a 0,05, não rejeitamos a hipótese H0.

• Distribuição Weibull

Para realizar o teste (4.3.2.1) para a distribuição de Weibull, tomamos o logaritmo dos dados e procedemos como no caso da distribuição de Valor Extremo. Por exemplo, se a variável aleatória X tem distribuição Weibull com função distribuição acumulada dada por:


$$F(x) = 1 - \exp\left\{-\left(\dfrac{x}{\alpha}\right)^{\delta}\right\}, \qquad x~\textgreater~0,$$

então a variável aleatória Y = log(X) tem distribuição Valor Extremo, dada por (4.3.2.3), com parâmetros de locação μ e de escala σ ($ \sigma = 1/\delta $ e $ \mu = \log(\alpha) $).

 

Confiabilidade

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]