- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
Uma outra forma de checar a adequação do modelo probabilístico aos dados é testando a hipótese de que uma dada amostra tenha sido retirada de uma população com função de distribuição acumulada (f.d.a.) contínua F(x).
Seja x1, x2, ..., xn uma amostra aleatória e suponha que um provável candidato para a f.d.a. dos dados seja F(x), o teste de hipóteses para verificar a adequação da distribuição $F(x)$ aos dados é
$$\left\{\begin{array}{ll}H_{0}:~\mbox{a amostra tem distribuição~} F(x),\\H_{1}:~\mbox{a amostra não tem distribuição~} F(x).\end{array}\right~~~~~~~~~~~~~~(4.3.2.1)$$
Anderson e Darling (1952, 1954) propuseram a seguinte estatística para testar (4.3.2.1)
$$A^{2} = n~\int_{-\infty}^{\infty} \dfrac{\left[F_{n}(x)-F(x)\right]}{F(x)(1-F(x))}dF(x),$$
sendo Fn(x) a função de distribuição acumulada empírica definida por
$$F_{n}(x)=\dfrac{1}{n}\sum_{i=1}^{n}1\!\!1_{\{x_i\leq x\}}=\left\{\begin{array}{ll}0,~~\hbox{se}~x~\textless~x_{(1)},\\\\ \dfrac{k}{n},~~\hbox{se}~x_{(k)} \leq x~\textless~x_{(k + 1)},\\\\1,~~\hbox{se}~x~\textgreater~x_{(n)},\end{array}\right$$
sendo $x_{(1)}\leq x_{(2)}\leq ...\leq x_{(n)},$ as estatísticas de ordem da amostra aleatória e $1\!\!1_{\{x_i \leq x\}}$ a função indicadora que vale 1 se $x_i \leq x$ e 0 se $x_i~\textgreater~x$, i = 1, ..., n.
A estatística A2 pode ser representada numa forma equivalente como
$$A^{2}=-n-\dfrac{1}{n}\sum^{n}_{i=1}\left[(2i-1)\ln(~F(x_{(i)})~)+(~2(n-i)+1~)\ln(1-F(x_{(i)})~)\right]$$
A transformação F(x(i)) leva x(i) em U(i), sendo U(1), ..., U(n) uma amostra de tamanho n com distribuição uniforme em (0,1). Logo,
$$A^{2} = - n - \dfrac{1}{n}\sum^{n}_{i=1}\left[(2i - 1)\ln(~U_{(i)}~)+ (~2(n-i) + 1~)\ln(1 - U_{(i)}~) \right]~~~~~~~~~~~~~~(4.3.2.2)$$
Para calcular o valor da estatística A2, devemos seguir os passos abaixo:
1. Ordene os valores da amostra: x(1) ≤ x(2) ≤ ... ≤ x(n);
2. Quando necessário, estime os parâmetros da distribuição de interesse;
3. Calcule Ui = F(x(i)) e calcule o valor da estatística de Anderson Darling (4.3.2.2):
$$A^{2} = - n - \dfrac{1}{n}\sum^{n}_{i=1}\left[(2i - 1)\left(\ln(~U_{i})+ \ln(1 - U_{n+1-i}~)\right) \right]$$
(observe que esta é uma forma equivalente à (4.3.2.2))
4. Para cada uma das distribuições calcule, se for o caso, o valor da estatística modificada de acordo com as tabelas dadas para cada uma delas.
Para uma distribuição com parâmetros conhecidos podemos encontrar os valores da função de distribuição acumulada da estatística A2 tabulados em Peter and Lewis(1960). No entanto, surge um problema quando um ou dois dos parâmetros da distribuição precisam ser estimados, para contornar esse problema Stephens(1974, 1976, 1977) utilizou métodos assintóticos para tabular os valores dessas probabilidades quando os parâmetros das distribuições são desconhecidos.
Vamos aplicar o teste de qualidade de ajuste de Anderson Darling a algumas das distribuições de probabilidade mais conhecidas tais como a Normal, Exponencial, Weibull, Lognormal e Valor Extremo. Para essas distribuições o parâmetro θ pode ser univariado ou bivariado, isto é, ele terá no máximo duas componentes, conforme os seguintes casos:
Para a distribuição Normal com função densidade de probabilidade dada por
$$f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left(-\dfrac{(x-\mu)^{2}}{2 \sigma^{2}}\right), \qquad -\infty~\textless~x~\textless~\infty.$$
A Tabela 4.3.2.1 fornece alguns valores para os quantis da distribuição da estatística de Anderson Darling modificada de acordo com cada um dos casos:
A Tabela 4.3.2.1 fornece os quantis $1- \alpha$ da distribuição de A2, ou seja, fornecem pontos $q_{(1-\alpha)}$ para os quais a probabilidade de A2 ser maior que $q_{(1-\alpha)}$ é igual a $\alpha$.
Tabela 4.3.2.1: Tabela de pontos percentis de A2 para a distribuição Normal.
Pontos percentis para cada $\alpha$ (%) | ||||||
Caso | Modificação | 15,0 | 10,0 | 5,0 | 2,5 | 1,0 |
0 | Nenhuma | 1,610 | 1,933 | 2,492 | 3,070 | 3,857 |
1 | - | 0,784 | 0,897 | 1,088 | 1,281 | 1,541 |
2 | - | 1,443 | 1,761 | 2,315 | 2,890 | 3,682 |
3 | $A^{2}(1 + (4/n) - (25/n^{2}))$ | 0,560 | 0,632 | 0,751 | 0,870 | 1,029 |
Considere as seguintes medidas correspondentes ao peso de homens (em pounds): 148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236.
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Desejamos testar a seguinte hipótese:
$$\left\{\begin{array}{ll}H_{0}:~~\mbox{Os dados seguem distribuição Normal~} - N(\mu, \sigma)\\H_{1}:~~\mbox{Os dados não seguem distribuição Normal~} - N(\mu, \sigma)\end{array}\right.$$
A média dos dados é $\overline{x} = 172$ e o desvio padrão é s = 24,9520.
Tabela 4.3.2.2: Calculando o valor de A2.
dados | dados ordenados | F(xi) | ln(F(xi)) | ln(1-F(xi)) |
148 | 148 | 0,168063 | -1,78341 | -0,184 |
154 | 154 | 0,235336 | -1,44674 | -0,26832 |
158 | 158 | 0,287372 | 1,24698 | -0,3388 |
160 | 160 | 0,315285 | -1,15428 | 0,37875 |
161 | 161 | 0,329662 | -1,10969 | -0,39997 |
162 | 162 | 0,344295 | -1,06626 | -0,42204 |
166 | 166 | 0,404986 | -0,9039 | -0,51917 |
170 | 170 | 0,468057 | -0,75916 | -0,63122 |
182 | 182 | 0,655705 | -0,42204 | -1,06626 |
195 | 195 | 0,821676 | -0,19641 | -1,72415 |
236 | 236 | 0,99484 | -0,00517 | -5,26684 |
Utilizando a fórmula (4.3.2.2), temos que
D = (2×1 - 1)×(-1,78341) + (2×(11 - 1) + 1)×(-0,184)
+ (2×2 - 1)×(-1,44674) + (2×(11 - 2) + 1)×(-0,26832)
+(2×3 - 1)×(-1,24698) + (2×(11 - 3) + 1)×(-0,3388)
+(2×4 - 1)×(-1,15428) + (2×(11 - 4) + 1)×(-0,37875)
+(2×5 - 1)×(-1,10969) + (2×(11 - 5) + 1)×(-0,39997)
+(2×6 - 1)×(-1,06626) + (2×(11 - 6) + 1)×(-0,42204)
+(2×7 - 1)×(-0,9039) + (2×(11 - 7) + 1)×(-0,51917)
+(2×8 - 1)×(-0,75916) + (2×(11 - 8) + 1)×(-0,63122)
+(2×9 - 1)×(-0,42204) + (2×(11 - 9) + 1)×(-1,06626)
+(2×10 - 1)×(-0,19641) + (2×(11-10) + 1)×(-1,72415)
+(2×11 - 1)×(-0,00517) + (2×(11-11) + 1)×(-5,26684)
= -131,4145
Com isso, temos
$$A^{2} = -\dfrac{D}{n} - n = \dfrac{131,4145}{11} - 11 = 0,9467719.$$
A estatística de Anderson Darling modificada para o Caso 3 (μ e σ desconhecidos) é dada por:
$$A^{2}_{m} = A^{2} \times (1 + (4/n) - (25/n^{2}))= A^{2} \times (1 + (4/n) - (25/n^{2}))=0,94677 \times 1,15703 = 1,0954.$$
A partir da Tabela 4.3.2.1 concluímos que o p-valor do teste é menor que 0,01. Portanto, assumindo um nível de significância igual a 0,05 rejeitamos a hipótese dos dados serem provenientes de uma distribuição normal.
Para realizar o teste de Anderson Darling quando a distribuição dada é Log-normal devemos considerar o logaritmo dos dados e proceder como no caso da distribuição Normal.
Considere o teste como em (4.3.2.1) e a distribuição Exponencial com função de distribuição acumulada dada por
$$F(x) = 1- \exp\left(-\dfrac{x}{\alpha}\right), \qquad x~\textgreater~0.$$
Os seguintes casos podem ocorrer durante a realização do teste:
A Tabela 4.3.2.3 apresenta os valores da estatística A2 com modificações apropriadas para cada um dos casos citados acima.
Tabela 4.3.2.3: Tabela de pontos percentis de A2 para a distribuição Exponencial.
Pontos percentis para cada $\alpha$ (%) | ||||||
Caso | Modificação | 15,0 | 10,0 | 5,0 | 2,5 | 1,0 |
0 | Nenhuma | 1,610 | 1,933 | 2,492 | 3,070 | 3,857 |
1 | $A^{2}(1 + (0,6/n))$ | 0,922 | 1,078 | 1,341 | 1,606 | 1,957 |
Os dados a seguir se referem aos tempos de vida (em horas) de 15 componentes eletrônicos colocados em teste. Sejam eles: 7,134; 1,157; 103,507; 64,707; 48,826; 72,332; 155,894; 83,653; 5,729; 4,472; 14,578; 42,833; 45,118; 223,395; 3,055. A média dos dados é $\overline{x}=58.4260$.
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Desejamos realizar o seguinte teste:
$$\left\{\begin{array}{ll}H_{0}:~\mbox{Os dados seguem distribuição Exponencial~}-\mbox{Exp}(\lambda)\\H_{1}:~\mbox{Os dados não seguem uma distribuição Exponencial~}-\mbox{Exp}(\lambda)\end{array}\right.$$
Assim, para calcular o valor da estatística A2 procedemos como na Tabela 4.3.2.4.
Tabela 4.3.2.4: Calculando o valor de A2.
dados | dados ordenados | F(xi) | ln(F(xi)) | ln(1-F(xi)) |
7,134 | 1,157 | 0,019603 | -3,93208 | -0,0198 |
1,157 | 3,055 | 0,050948 | -2,97696 | -0,05229 |
103,507 | 4,472 | 0,073685 | -2,60796 | -0,07654 |
64,707 | 5,729 | 0,0934 | -2,37086 | -0,09805 |
48,826 | 7,134 | 0,114939 | -2,16336 | -0,1221 |
72,332 | 14,578 | 0,220821 | -1,5104 | -0,24952 |
155,894 | 42,833 | 0,519593 | -0,65471 | -0,73312 |
83,653 | 45,118 | 0,538019 | -0,61986 | -0,77223 |
5,729 | 48,826 | 0,566423 | -0,56841 | -0,83569 |
4,472 | 64,707 | 0,669617 | -0,40105 | -1,1075 |
14,578 | 72,332 | 0,710041 | -0,34243 | -1,23802 |
42,833 | 83,653 | 0,761115 | -0,27297 | -1,43177 |
45,118 | 103,507 | 0,829938 | -0,1864 | -1,77159 |
223,395 | 155,894 | 0,930625 | -0,0719 | -2,66823 |
3,055 | 223,395 | 0,97815 | -0,02209 | -3,82356 |
Com isso, temos
D = (2×1 - 1)×(-3,93208) + (2×(15 - 1) + 1)(-0,01980)
+ (2×2 - 1)×(-2,97696) + (2×(15 - 2) + 1)(-0,05229)
+ (2×3 - 1)×(-2,60796) + (2×(15 - 3) + 1)(-0,07654)
+ (2×4 - 1)×(-2,37086) + (2×(15 - 4) + 1)(-0,09805)
+ (2×5 - 1)×(-2,16336) + (2×(15 - 5) + 1)(-0,12210)
+ (2×6 - 1)×(-1,51040) + (2×(15 - 6) + 1)(-0,24952)
+ (2×7 - 1)×(-0,65471) + (2×(15 - 7) + 1)(-0,73312)
+ (2×8 - 1)×(-0,61986) + (2×(15 - 8) + 1)(-0,77223)
+ (2×9 - 1)×(-0,56841) + (2×(15 - 9) + 1)(-0,83569)
+ (2×10 - 1)×(-0,40105) + (2×(15 - 10) + 1)(-1,10750)
+ (2×11 - 1)×(-0,34243) + (2×(15 - 11) + 1)(-1,23802)
+ (2×12 - 1)×(-0,27297) + (2×(15 - 12) + 1)(-1,43177)
+ (2×13 - 1)×(-0,18640) + (2×(15 - 13) + 1)(-1,77159)
+ (2×14 - 1)×(-0,07190) + (2×(15 - 14) + 1)(-2,66823)
+ (2×15 - 1)×(-0,02209) + (2×(15 - 15) + 1)(-3,82356)
= -236,79011
Assim, temos que
$$A^{2} = -\dfrac{D}{n} - n = -\dfrac{-236,79011}{15} - 15 = 0,786007333$$
Logo, a estatística de Anderson Darling modificada de acordo com a Tabela 4.3.2.3 é dada por:
$$A^{2}_{m} = A^{2}(1 + (0,6/n)) = 0,786007333\times(1+(0,6/15)) = 0,8174$$
Com isso, a partir da Tabela 4.3.2.3 concluímos que o p-valor é maior que 0,15.
Para realizar o teste (4.3.2.1) para a distribuição de Valor Extremo com função de distribuição acumulada dada por
$$F(y) = 1 - \exp \left[-\exp\left(\dfrac{y-\mu}{\sigma}\right)\right], \qquad -\infty~\textless~y~\textless~\infty, ~~~~~~~~~~~~~~(4.3.2.3)$$
Os seguintes casos podem ocorrer:
A seguinte tabela apresenta os valores da estatística A2 com modificações apropriadas para cada um dos casos citados acima.
Tabela 4.3.2.5: Tabela de pontos percentis de A2 para a Valor Extremo.
Pontos percentis para cada $\alpha$ (%) | ||||||
Caso | Modificação | 15,0 | 10,0 | 5,0 | 2,5 | 1,0 |
0 | Nenhuma | - | 1,933 | 2,492 | 3,070 | 3,857 |
1 | $A^{2}(1 + (0,3/n))$ | 0,736 | 1,062 | 1,321 | 1,591 | 1,959 |
2 | Nenhuma | 1,060 | 1,725 | 2,277 | 2,854 | 3,640 |
3 | $A^{2}(1 + (0,2/\sqrt{n}))$ | 0,474 | 0,637 | 0,757 | 0,877 | 1,038 |
Considere os dados a seguir provenientes de uma distribuição de Valor Extremo: 84,01; 75,498; 79,356; 72,635; 104,052; 102,56; 91,458; 90,546; 78,932; 90,18; 76,828; 93,905; 75,433; 85,35; 102,64.
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Os parâmetros estimados são: locação μ = 92,162789 e escala σ = 9,976448.
O objetivo é realizar o seguinte teste:
$$\left\{\begin{array}{ll}H_{0}:~\mbox{Os dados seguem distribuição Valor Extremo~}-~\mbox{VE}(\mu,\sigma)\\H_{1}:~\mbox{Os dados não seguem distribuição Valor Extremo~}-~\mbox{VE}(\mu,\sigma)\end{array}\right.$$
Assim, vamos calcular o valor da estatística A2 procedendo como na Tabela 4.3.2.6.
Tabela 4.3.2.6: Calculando o valor de A2.
dados | dados ordenados | F(xi) | ln(F(xi)) | ln(1-F(xi)) |
84,01 | 72,635 | 0,131708 | -2,02717 | -0,14123 |
75,498 | 75,433 | 0,170513 | -1,76895 | -0,18695 |
79,356 | 75,498 | 0,171526 | -1,76302 | -0,18817 |
72,635 | 76,828 | 0,193462 | -1,64268 | -0,21500 |
104,052 | 78,932 | 0,233165 | -1,45601 | -0,26548 |
102,56 | 79,356 | 0,241953 | -1,41901 | -0,27701 |
91,458 | 84,01 | 0,357035 | -1,02992 | -0,44167 |
90,546 | 85,35 | 0,396589 | -0,92486 | -0,50516 |
78,932 | 90,18 | 0,559461 | -0,58078 | -0,81976 |
90,18 | 90,546 | 0,572752 | -0,55730 | -0,85039 |
76,828 | 91,458 | 0,606153 | -0,50062 | -0,93179 |
93,905 | 93,905 | 0,696025 | -0,36237 | -1,19081 |
75,433 | 102,56 | 0,941304 | -0,06049 | -2,83538 |
85,35 | 102,64 | 0,942629 | -0,05908 | -2,85821 |
102,64 | 104,052 | 0,962849 | -0,03786 | -3,29277 |
Assim, temos que
$$A^{2} = 0,6421041$$
Logo, a estatística de Anderson Darling modificada de acordo com a Tabela 4.3.2.5 é dada por:
$$A^{2}_{m} = A^{2}(1 + (0,2/\sqrt{15}))= 0,6421041\times 1,051640= 0,6753.$$
A partir da Tabela 4.3.2.5, concluímos que o p-valor está entre 0,05 e 0,10. Para obtermos um valor exato, podemos fazer uma interpolação entre esses valores a partir da equação que fornece a inclinação da reta, dada por
$$\dfrac{0,757 - 0,637}{5 - 10} = \dfrac{0,6753 - 0,637}{x - 10}.$$
Dessa equação, concluímos que o p-valor é de 8,4042 % ou 0,0840. Portanto, para um nível de significância igual a 0,05, não rejeitamos a hipótese H0.
Para realizar o teste (4.3.2.1) para a distribuição de Weibull, tomamos o logaritmo dos dados e procedemos como no caso da distribuição de Valor Extremo. Por exemplo, se a variável aleatória X tem distribuição Weibull com função distribuição acumulada dada por:
$$F(x) = 1 - \exp\left\{-\left(\dfrac{x}{\alpha}\right)^{\delta}\right\}, \qquad x~\textgreater~0,$$
então a variável aleatória Y = log(X) tem distribuição Valor Extremo, dada por (4.3.2.3), com parâmetros de locação μ e de escala σ ($\sigma = 1/\delta$ e $\mu = \log(\alpha)$).
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.