3.1 Diagnóstico de Normalidade

Você está aqui

A normalidade dos resíduos é uma suposição essencial para que os resultados do ajuste do modelo de regressão linear sejam confiáveis. Podemos verificar essa suposição por meio do gráfico de Papel de Probabilidade e por meio de testes tais como Shapiro-Wilk, Anderson-Darling e Kolmogorov-Smirnov. Para maiores detalhes, ver Testes de Normalidade no conteúdo de Inferência.

Exemplo 3.1.1

  • Motivação 1:

Considerando o ajuste do modelo linear simples para os dados do exemplo na "Motivação 1", vamos fazer o gráfico de Papel de Probabilidade e os testes de Shapiro-Wilk, Anderson-Darling e Kolmogorov-Smirnov para testar a normalidade dos resíduos.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:

  • Papel de Probabilidade

O vetor com os resíduos ordenados em ordem crescente, considerando o ajuste do modelo linear, é dado por  

$$e=(-2,82; -2,66; -2,14; -1,14; -0,82; -0,82; -0,14; -0,14; -0,14; 0,02; 0,34; 0,34; 0,34; 0,34; $$

 

$$\quad 1,02; 1,02; 1,02; 1,18; 2,18; 3,02).$$

O vetor com os valores de $ \Phi^{-1}(d_i)^\prime s $ é dado por  

$$\Phi^{-1}(d)=(-1,82; -1,38; -1,12; -0,91; -0,74; -0,58; -0,44; -0,31; -0,19; -0,06; 0,06; 0,19; 0,31;$$

 

$$\quad 0,44; 0,58; 0,74; 0,91; 1,12; 1,38; 1,82),$$

em que $ d_i=(i-0,3)/(n+0,4) $ para $ i=1,\dots,n $ e $ \Phi^{-1}(d_{(i)}) $ é o quantil da distribuição normal padrão calculado em $ d_{(i)} $. Neste exemplo, $ n=20 $. Assim, desenhando os pontos $ (e_i,\Phi^{-1}(d_i)) $, $ i=1,\dots,20 $, obtemos o gráfico de Papel de Probabilidade. Se a suposição de normalidade for adequada, esperamos um comportamento linear dos pontos.

Usando o software Action temos o seguinte resultado:

Figura 3.1.1: Gráfico de Papel de Probabilidade para os resíduos do modelo linear simples ajustado - Motivação 1.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Como os pontos seguem o comportamento da reta (não estão distantes dela), temos indícios de que os erros são normalmente distribuídos.

Testes de Normalidade

Em relação aos Testes de Normalidade, precisamos encontrar os valores de $ F_{n}(e_i) $ e $ F(e_i), $$ i=1,\dots,n. $$ F_{n}(e_{(i)}) $ representa a função de distribuição acumulada empírica dos dados e é dada pela razão entre a posição i e o valor total de resíduos, isto é,  

$$F_{n}(e_{(i)})=i/n \mbox{~~(distribuição~empírica~acumulada)}.$$

$ F(e_{(i)}) $ representa a função de distribuição acumulada assumida para os dados e seu valor é obtido da tabela da distribuição normal padrão após transformarmos os dados pela relação


\[Z_{(i)}=\dfrac{e_{(i)}-\overline{e}}{s},\]

em que $ \overline{e} $ é a média aritmética e s é o desvio padrão dos resíduos. Na tabela 3.1.1 apresentamos os valores de $ F_{n}(e_{(i)}) $ e $ F(e_{(i)}) $ para os resíduos analisados.

$ e $ $ F(e) $ $ F_n(e) $ $ F_n(e)-F(e) $ $ F(e)-F_n(e-1) $ $ ln(F(e)) $ $ ln(1-F(e)) $
-2,82 0,028 0,05 0,022 0,028 -3,587 -0,028
-2,66 0,035 0,1 0,065 -0,015 -3,342 -0,036
-2,14 0,073 0,15 0,077 -0,027 -2,618 -0,076
-1,14 0,219 0,2 -0,019 0,069 -1,517 -0,248
-0,82 0,289 0,25 -0,039 0,089 -1,242 -0,341
-0,82 0,289 0,3 0,011 0,039 -1,242 -0,341
-0,14 0,462 0,35 -0,112 0,162 -0,772 -0,620
-0,14 0,462 0,4 -0,062 0,112 -0,772 -0,620
-0,14 0,462 0,45 -0,012 0,062 -0,772 -0,620
0,02 0,505 0,5 -0,005 0,055 -0,682 -0,704
0,34 0,591 0,55 -0,041 0,091 -0,525 -0,895
0,34 0,591 0,6 0,009 0,041 -0,525 -0,895
0,34 0,591 0,65 0,059 -0,009 -0,525 -0,895
0,34 0,591 0,7 0,109 -0,059 -0,525 -0,895
1,02 0,756 0,75 -0,006 0,056 -0,280 -1,410
1,02 0,756 0,8 0,044 0,006 -0,280 -1,410
1,02 0,756 0,85 0,094 -0,044 -0,280 -1,410
1,18 0,789 0,9 0,111 -0,061 -0,237 -1,554
2,18 0,931 0,95 0,019 0,031 -0,072 -2,670
3,02 0,980 1 0,020 0,030 -0,020 -3,90

Tabela 3.1.1: Valores para cálculo das estatísticas de teste de Normalidade no exemplo da "Motivação1".

  • Kolmogorov-Smirnov

A estatística de teste para o teste de Kolmogorov-Smirnov é dada por  

\[D_n=\max(0,11;0,162)=0,162.\]

Considerando $ \alpha = 0,05 $ e n = 20, encontramos pela tabela de valores críticos que o valor crítico neste caso é de aproximadamente 0,29. Como Dn = 0,162 < 0,29, não temos evidências para rejeitar a hipótese de normalidade dos resíduos.

  • Anderson-Darling

Utilizando a fórmula $ (\star) $ no teste de Anderson-Darling no conteúdo de Inferência, temos que 

\[D=\sum_{i=1}^n[(2i-1)\ln(F(e_i))+(2(n-i)+1)\ln(1-F(e_i))]=-408,11.\]

Assim,  

\[\displaystyle A^2=-n-\frac{D}{n}=-20-\frac{(-408,11)}{20}=0,405.\]

Para o cálculo do p-valor, precisamos encontrar a estatística de Anderson Darling modificada. Considerando μ e σ desconhecidos, temos que 

\[A_m^2=A^2\times(1+(0,75/n)+(2,25/n^2))=0,405\times(1+(0,75/20)+(2,25/20^2))=0,405\times 1,043=0,422.\]

Desta forma, obtemos o p-valor aproximado analisamos a Tabela com quantis e valores da estatística de Anderson Darling. Como $ A_m^2=0,422~\textless~0,56 $ temos que p_valor é maior do que 15%. No R um valor aproximado do p-valor é encontrado por meio de interpolação.

Como p_valor é maior do que 15%, existe forte evidência pelo teste de Anderson-Darling de que os resíduos são normalmente distribuídos.

  • Shapiro-Wilk

Para o cálculo da estatística teste de Shapiro-Wilk, precisamos dos valores contidos na Tabela 3.2.1.2, conforme apresentamos no teste de Shapiro-Wilk no conteúdo de Inferência.

$ i $ $ n-i+1 $ $ a $ $ e_{n-i+1} $ $ e_i $ $ a(e_{n-i+1}-e_i) $
1 20 0,4734 3,02 -2,82 2,76
2 19 0,3211 2,18 -2,66 1,55
3 18 0,2565 1,18 -2,14 0,85
4 17 0,2085 1,02 -1,14 0,45
5 16 0,1686 1,02 -0,82 0,31
6 15 0,1334 1,02 -0,82 0,25
7 14 0,1013 0,34 -0,14 0,05
8 13 0,0711 0,34 -0,14 0,03
9 12 0,0422 0,34 -0,14 0,02
10 11 0,014 0,34 0,02  

Tabela 3.1.2: Medidas para o cálculo da estatística de Shapiro-Wilk

A estatística de teste é dada por 

\[W=\dfrac{b^2}{\sum\limits_{i=1}^n(e_i-\bar{e})^2},\]

em que

\[b=\sum_{i=1}^{n/2}a_{n-i+1}\times (e_{n-i+1}-e_i).\]

Assim, segue que 

\[W=\dfrac{(6,2839)^2}{41,16}=\dfrac{39,4872}{41,16}=0,959.\]

Como $ W_{calc}=0,959 \textgreater W_{(0,05;20)}=0,905 $, em que $ W_{(0,05;20)} $ é obtido na tabela de valores críticos, dizemos que os resíduos são normalmente distribuídos com nível de significância de 5%.

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

 

  • Motivação 2:

Considerando agora os dados na "Motivação 2", verificamos se os resíduos obtidos pelo ajuste do modelo de regressão linear múltipla segue distribuição normal utilizando o gráfico de Papel de Probabilidade e os testes de normalidade, como citados acima.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

  • Papel de Probabilidade

Para o gráfico de Papel de Probabilidade, devemos primeiramente ordenar os resíduos $ e_i $, encontrar os valores de $ \Phi^{-1}(d_i) $ e então apresentar no gráfico os pontos $ (e_i,\Phi^{-1}(d_i)) $, $ i=1,\dots,n. $ Se a suposição de normalidade for adequada, esperamos um comportamento linear dos pontos no gráfico. O vetor com os resíduos ordenados, para os dados na "Motivação 2" é  

$$e=(-44,58; -37,09; -30,36; -25,01; -23,23; -19,88; -11,87; 5,34; 15,48; 15,65; 24,56; 30,35;$$


$$37,46; 63,20).$$

Já o vetor com os valores de $ \Phi^{-1}(d_i) $ é dado por   

$$\Phi^{-1}(d)=(-1,66;-1,18;-0,89;-0,65;-0,45;-0,26;-0,09; 0,09; 0,26; 0,45; 0,65; 0,89; 1,18; 1,66),$$

em que $ d_i=(i-0,3)/(n+0,4) $ para $ i=1,\dots,n $ e $ \Phi^{-1}(d_{(i)}) $ é o quantil da distribuição normal padrão calculado no ponto $ d_{(i)} $.

Usando o software Action temos o seguinte resultado:

Figura 3.1.2: Gráfico de Papel de Probabilidade para os resíduos do modelo linear simples ajustado - Motivação 2.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Como os pontos seguem o comportamento da reta (não estão distantes dela), temos indícios de que os erros são normalmente distribuídos.

Testes de Normalidade

Em relação aos testes de normalidade, precisamos obter os valores de $ F_{n}(e_{(i)}) $ e de $ F(e_{(i)}) $. O primeiro é calculado fazendo a razão entre a posição i e o valor total de resíduos, no caso $ n=14 $ (distribuição empírica acumulada). O segundo é encontrado na tabela da distribuição normal padrão, considerando a transformação dos dados dada pela relação 

\[Z_{(i)}=\frac{e_{(i)}-\overline{e}}{s},\]

em que $ \overline{e} $ é a média aritmética e s é o desvio padrão dos resíduos. Resumimos na tabela 3.1.3 os valores utilizados no cálculo das estatísticas de teste de normalidade.

$ e $ $ F(e_i) $ $ F_n(e) $ $ F_n(e_i)-F(e_i) $ $ F(e_i)-F_n(e_{i-1}) $ $ ln(F(e_i)) $ $ ln(1-F(e_i)) $
-44,58 0,0826 0,0714 -0,0112 0,0826 -2,493 -0,086
-37,08 0,1242 0,1428 0,0187 0,0528 -2,086 -0,132
-30,36 0,1723 0,2143 0,0419 0,0295 -1,758 -0,189
-25 0,2181 0,2857 0,0675 0,0038 -1,5224 -0,246
-23,23 0,2348 0,3571 0,1223 -0,0509 -1,449 -0,267
-19,87 0,268 0,4286 0,1605 -0,0891 -1,316 -0,312
-11,87 0,3558 0,5 0,1441 -0,0728 -1,033 -0,439
5,34 0,5660 0,5714 0,0054 0,066 -0,569 -0,835
15,47 0,685 0,6428 -0,0421 0,1136 -0,378 -1,155
15,65 0,6869 0,7142 0,0274 0,0441 -0,376 -1,161
24,55 0,7776 0,7857 0,0081 0,0634 -0,251 -1,503
30,34 0,8275 0,8571 0,0296 0,0418 -0,189 -1,757
37,45 0,8781 0,9286 0,0504 0,021 -0,129 -2,105
63,2 0,9754 1 0,0246 0,0468 -0,0249 -3,705

 Tabela 3.1.3: Valores para cálculo das estatísticas de teste de Normalidade

  • Kolmogorov-Smirnov

Para o teste de Kolmogorov-Smirnov, temos que a estatística de teste é dada por 

\[D_n=\max(0,1605;0,1136)=0,1605.\]

Considerando $ \alpha=0,05 $ e n = 14, encontramos pela tabela de valores críticos que o valor crítico é de aproximadamente 0,34. Como Dn = 0,1605 < 0,34, não temos evidências para rejeitar a hipótese de normalidade dos resíduos.

  • Anderson-Darling

Utilizando a fórmula $ (\star) $ no teste de Anderson-Darling no conteúdo de Inferência, temos que 

\[D=\sum_{i=1}^n[(2i-1)\ln(F(e_i))+(2(n-i)+1)\ln(1-F(e_i))]= -200,3.\]

Assim, segue que 

\[\displaystyle A^2=-n-\frac{D}{n}=-14-\frac{(-200,3)}{14}=0,308.\]

Para o cálculo do p-valor, precisamos encontrar a estatística de Anderson Darling modificada. Considerando μ e σ desconhecidos, temos que a estatística modificada é dada por 

\[A_m^2=A^2\times(1+(0,75/n)+(2,25/n^2))=0,308^2\times(1+(0,75/14)+(2,25/14^2))=0,308\times 1,065=0,328.\]

Novamente, para obter o P-valor aproximado analisamos a Tabela com quantis e valores da estatística de Anderson Darling. Como $ A_m^2=0,328~\textless~0,56 $ temos que p_valor é maior do que 15%. No R um valor aproximado do p-valor é obtido fazendo interpolação.

Como p_valor é maior do que 15%, existe forte evidência pelo teste de Anderson-Darling de que os resíduos são normalmente distribuídos.

  • Shapiro Wilk

Para o cálculo da estatística de teste, precisamos dos valores contidos na Tabela 3.1.4.

$ i $ $ n-i+1 $ $ a $ $ e_{n-i+1} $ $ e_i $ $ a(e_{n-i+1}-e_i) $
1 14 0,5251 63,201 -44,5841 56,59796
2 13 0,3318 37,4588 -37,0884 24,73476
3 12 0,246 30,3464 -30,3643 14,93483
4 11 0,1802 24,5563 -25,009 8,931667
5 10 0,124 15,6505 -23,2338 4,821653
6 9 0,0727 15,4769 -19,8784 2,57033
7 8 0,024 5,3414 -11,8735 0,413158

Tabela 3.1.4: Medidas para cálculo da estatística de Shapiro-Wilk da Motivação 2

A estatística do teste de Shapiro-Wilk é dada por 

\[W=\frac{b^2}{\sum\limits_{i=1}^n(e_i-\bar{e})^2},\]

em que

\[b=\sum_{i=1}^{n/2}a_{n-i+1}\times (e_{n-i+1}-e_i).\]

Assim, temos que 

\[W=\frac{113,0043^2}{13.421,12}=0,9515,\]

Como $ W_{calc}=0,9515 \textgreater W_{(0,05;14)}=0,874 $, em que $ W_{(0,05;14)} $ é dada pela tabela de valores críticos, não rejeitamos a suposição de normalidade. Portanto, concluímos que com um nível de significância de 5%, os resíduos são normalmente distribuídos.

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]