Skip to main content

6.3 - Teste de Anderson-Darling

O problema de inferência estatística que vamos considerar aqui é o de testar a hipótese de que uma dada amostra tenha sido retirada de uma dada população com função de distribuição acumulada contínua $ F(x) $, isto é, seja $ x_1,x_2,\ldots,x_n $ uma amostra aleatória e suponha que um provável candidato para a FDA dos dados seja $ F(x) $, então, o teste de hipóteses para verificar a adequabilidade da distribuição é:

\[\left\{\begin{array}{l}H_0: \ \hbox{a amostra tem distribuição} \ F(x) \\ H_1: \ \hbox{a amostra não tem distribuição} \ F(x) \end{array}\right.\]

Anderson e Darling (1952, 1954) propuseram a seguinte estatística para este teste

\[\displaystyle A^2=n\int_{-\infty}^{\infty}\frac{[F_n(x)-F(x)]}{F(x)(1-F(x))}dF(x)\]

onde $ F_n(x) $ é a função de distribuição acumulada empírica definida como

\[F_{n}(x)=\left\{\begin{array}{l}0,\mbox{se}~x \ \textless \ x_{(1)}\\\cfrac{k}{n},\mbox{se}~x_{(k)}\leq x \ \textless \ x_{(k + 1)}\\1,\hbox{se}~x\geq~x_{(n)}\end{array}~~(7.3.1)\right.\]


e $ x_{(1)}\leq x_{(2)}\leq\ldots\leq x_{(n)} $, são as estatísticas de ordem da amostra aleatória.

A estatística $ A^2 $ pode ser colocada numa forma equivalente:

\[A^2=-n-\frac{1}{n}\sum_{i=1}^n[(2i-1)\ln(F(x_{(i)}))+(2(n-i)+1)\ln(1-F(x_{(i)}))]\]

A transformação $ F(x_{(i)}) $ leva $ x_{(i)} $ em $ U_{(i)} $ de uma amostra de tamanho n com distribuição uniforme em $ (0,1) $. Logo,

\[A^2=-n-\frac{1}{n}D\qquad(\star)\]

em que $ D $ é dado por

\[D=\sum_{i=1}^n[(2i-1)\ln(U_{(i)})+(2(n-i)+1)\ln(1-U_{(i)})]\]

Para calcular o valor da estatística $ A^2 $ procedemos da seguinte forma:

  • Ordenamos os valores da amostra: $ x_{(1)}\leq x_{(2)}\leq \ldots\leq x_{(n)} $;
  • Quando necessário, estime os parâmetros da distribuição de interesse;
  • Calcule $ U_i = F(x_{(i)}) $ e calcule o valor da estatística de Anderson Darling

\[\displaystyle A^2=-n-\frac{1}{n}\sum_{i=1}^n[(2i-1)(\ln(U_{(i)})+(2(n-i)+1)\ln(1-U_{(i)})]\]

  • Para cada uma das distribuições calcule, se for o caso, o valor da estatística modificada de acordo com as tabelas dadas para cada uma delas.

Para uma distribuição com parâmetros conhecidos temos os valores da função de distribuição acumulada da estatística $ A^2 $ tabulados em Peter and Lewis(1960). O problema surge quando um ou dois dos parâmetros da distribuição precisam ser estimados. Para contornar esse problema Stephens (1974, 1976, 1977) utilizou métodos assintóticos para tabular os valores dessas probabilidades quando os parâmetros das distribuições são desconhecidos.

Para a distribuição Normal com função densidade de probabilidade

\[f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \ (-\infty \textless x \textless \infty).\]

a seguinte tabela fornece alguns valores de quantis e a estatística de Anderson Darling modificada, dada por

\[A^2_m=\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)A^2.\]

Caso 0: O parâmetro $ \theta (\mu,\sigma^2) $ é totalmente conhecido.

Caso 1: $ \mu $ é  conhecido e $ \sigma^2 $ é estimado por $ s^2 $.

Caso 2:  $ \sigma^2 $ é conhecido e $ \mu $ é estimado por $ \overline{X} $.

Caso 3: Nenhum dos componentes de $ \theta = (\mu,\sigma^2) $ é conhecido e são estimados por ($ \overline{X},s^2 $)

Caso Modificação 15,0 10,0 5,0 2,5 1,0
Caso 0 - 1,610 1,933 2,492 3,070 3,857
Caso 1 - 0,784 0,897 1,088 1,281 1,541
Caso 2 - 1,443 1,761 2,315 2,890 3,682
Caso 3 $ A^2(1+(0,75/n)+(2,25/n^2)) $ 0,560 0,632 0,751 0,870 1,029

Exemplo 6.3.1: Considere novamente o Exemplo 6.1.1 sobre a medição de 10 peças.

1,90642 2,22488
2,10288 1,69742
1,52229 3,15435
2,61826 1,98492
1,42738 1,99568

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Vamos testar

\[\left\{\begin{array}{l}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \\ H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{array}\right.\]

A média dos dados é $ \bar{X} = 2,0634 $ e o desvio padrão é $ s = 0,5156 $.

Dados Dados ordenados $ F(x_i) $ $ \ln(F(x_i)) $ $ \ln(1-F(x_i)) $
1,90642 1,42738 0,10865 -2,21958 -0,11502
2,10288 1,52229 0,14694 -1,91770 -0,15893
1,52229 1,69742 0,23887 -1,43184 -0,27295
2,61826 1,90642 0,38035 -0,96667 -0,47860
1,42738 1,98492 0,43947 -0,82219 -0,57887
2,22488 1,99568 0,44771 -0,80360 -0,59369
1,69742 2,10288 0,53048 -0,63397 -0,75605
3,15435 2,22488 0,62290 -0,47337 -0,97523
1,98492 2,61826 0,85906 -0,15192 -1,95942
1,99568 3,15435 0,98282 -0,01733 -4,06422

Utilizando a fórmula $ (\star) $, temos que

\[D = -103,4169.\]

\[A^2=-n-\frac{D}{n}=-10+\frac{103,4169}{10}=0,3416856.\]

A estatística de Anderson Darling modificada para este caso (Caso 3 com μ e σ desconhecidos) é dada por:

\[A_m^2=A^2\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)=0,375.\]

Através da tabela dos valores críticos concluímos que o P-valor deve ser superior a $ 15\% $. Então, existe forte evidência de que os dados provém de uma distribuição Normal. Na verdade, para o cálculo do p-valor é utilizada uma interpolação que aproxima uma função exponencial.

Veja a seguir, os resultados obtidos a partir do software Action.


Exemplo 6.3.2: Considere as seguintes medidas de peso de homens (em pounds): 148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236. Vamos testar:

\[\left\{\begin{array}{l}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \\ H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{array}\right.\]

clique aqui para efetuar o download dos dados utilizados nesse exemplo

A média dos dados é $ \bar{x} = 172 $ e o desvio padrão é $ s = 24,9520 $.

Calculando o valor de $ A^2 $
Dados Dados ordenados $ F(x_i) $ $ \ln(F(x_i)) $ $ \ln(1-F(x_i)) $
154 148 0,168063 -1,78341 -0,184
148 154 0,235336 -1,44674 -0,26832
170 158 0,287372 -1,24698 -0,3388
161 160 0,315285 -1,15428 -0,37875
160 161 0,329662 -1,10969 -0,39997
166 162 0,344295 -1,06626 -0,42204
162 166 0,404986 -0,9039 -0,51917
158 170 0,468057 -0,75916 -0,63122
182 182 0,655705 -0,42204 -1,06626
195 195 0,821676 -0,19641 -1,72415
236 236 0,99484 -0,00517 -5,26684

Utilizando a fórmula $ (\star) $, temos:

\[D= -131,4145.\]

\[A^2=-\frac{D}{n}-n=\frac{131,4145}{11}-11=0,9467719.\]

A estatística de Anderson Darling modificada para esse caso (Caso 3 com $ \mu $ e $ \sigma $ desconhecidos) é dada por:

\[A_m^2=A^2\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)=0,9467719\times(1+0,06818182+0,01859504)=1,02893.\]

Para obter o p-valor aproximado vamos fazer uma interpolação com os dados da Tabela anterior.

\[\frac{1,029-0,870}{1,0-2,5}=\frac{1,02893-0,870}{x-2,5}\]

Assim, temos

\[(x-2,5)\times (-0,106)=0,15893\]

o que implica que

\[x=\frac{015893}{-0,106}+2,5=1,000660\simeq 1\%.\]

Portanto, o p-valor é aproximadamente 1%. Então, existe forte evidência de que os dados não provém de uma distribuição Normal. Na verdade, para o cálculo do p-valor é utilizada uma interpolação que aproxima uma função exponencial.

Veja a seguir os resultados obtidos pelo software Action.


 

 

 

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.