- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
A normalidade dos resíduos é uma suposição essencial para que os resultados do ajuste do modelo de regressão linear sejam confiáveis. Podemos verificar essa suposição por meio do gráfico de Papel de Probabilidade e por meio de testes tais como Shapiro-Wilk, Anderson-Darling e Kolmogorov-Smirnov. Para maiores detalhes, ver Testes de Normalidade no conteúdo de Inferência.
Considerando o ajuste do modelo linear simples para os dados do exemplo na "Motivação 1", vamos fazer o gráfico de Papel de Probabilidade e os testes de Shapiro-Wilk, Anderson-Darling e Kolmogorov-Smirnov para testar a normalidade dos resíduos.
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
O vetor com os resíduos ordenados em ordem crescente, considerando o ajuste do modelo linear, é dado por $$e=(-2,82; -2,66; -2,14; -1,14; -0,82; -0,82; -0,14; -0,14; -0,14; 0,02; 0,34; 0,34; 0,34; 0,34; $$ $$\quad 1,02; 1,02; 1,02; 1,18; 2,18; 3,02).$$
O vetor com os valores de $\Phi^{-1}(d_i)^\prime s$ é dado por $$\Phi^{-1}(d)=(-1,82; -1,38; -1,12; -0,91; -0,74; -0,58; -0,44; -0,31; -0,19; -0,06; 0,06; 0,19; 0,31;$$ $$\quad 0,44; 0,58; 0,74; 0,91; 1,12; 1,38; 1,82),$$
em que $d_i=(i-0,3)/(n+0,4)$ para $i=1,\dots,n$ e $\Phi^{-1}(d_{(i)})$ é o quantil da distribuição normal padrão calculado em $d_{(i)}$. Neste exemplo, $n=20$. Assim, desenhando os pontos $(e_i,\Phi^{-1}(d_i))$, $i=1,\dots,20$, obtemos o gráfico de Papel de Probabilidade. Se a suposição de normalidade for adequada, esperamos um comportamento linear dos pontos.
Usando o software Action temos o seguinte resultado:
Figura 3.1.1: Gráfico de Papel de Probabilidade para os resíduos do modelo linear simples ajustado - Motivação 1.
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
Como os pontos seguem o comportamento da reta (não estão distantes dela), temos indícios de que os erros são normalmente distribuídos.
Em relação aos Testes de Normalidade, precisamos encontrar os valores de $F_{n}(e_i)$ e $F(e_i),$ $i=1,\dots,n.$ $F_{n}(e_{(i)})$ representa a função de distribuição acumulada empírica dos dados e é dada pela razão entre a posição i e o valor total de resíduos, isto é, $$F_{n}(e_{(i)})=i/n \mbox{~~(distribuição~empírica~acumulada)}.$$
$F(e_{(i)})$ representa a função de distribuição acumulada assumida para os dados e seu valor é obtido da tabela da distribuição normal padrão após transformarmos os dados pela relação
\[Z_{(i)}=\dfrac{e_{(i)}-\overline{e}}{s},\]
em que $\overline{e}$ é a média aritmética e s é o desvio padrão dos resíduos. Na tabela 3.1.1 apresentamos os valores de $F_{n}(e_{(i)})$ e $F(e_{(i)})$ para os resíduos analisados.
$e$ | $F(e)$ | $F_n(e)$ | $F_n(e)-F(e)$ | $F(e)-F_n(e-1)$ | $ln(F(e))$ | $ln(1-F(e))$ |
-2,82 | 0,028 | 0,05 | 0,022 | 0,028 | -3,587 | -0,028 |
-2,66 | 0,035 | 0,1 | 0,065 | -0,015 | -3,342 | -0,036 |
-2,14 | 0,073 | 0,15 | 0,077 | -0,027 | -2,618 | -0,076 |
-1,14 | 0,219 | 0,2 | -0,019 | 0,069 | -1,517 | -0,248 |
-0,82 | 0,289 | 0,25 | -0,039 | 0,089 | -1,242 | -0,341 |
-0,82 | 0,289 | 0,3 | 0,011 | 0,039 | -1,242 | -0,341 |
-0,14 | 0,462 | 0,35 | -0,112 | 0,162 | -0,772 | -0,620 |
-0,14 | 0,462 | 0,4 | -0,062 | 0,112 | -0,772 | -0,620 |
-0,14 | 0,462 | 0,45 | -0,012 | 0,062 | -0,772 | -0,620 |
0,02 | 0,505 | 0,5 | -0,005 | 0,055 | -0,682 | -0,704 |
0,34 | 0,591 | 0,55 | -0,041 | 0,091 | -0,525 | -0,895 |
0,34 | 0,591 | 0,6 | 0,009 | 0,041 | -0,525 | -0,895 |
0,34 | 0,591 | 0,65 | 0,059 | -0,009 | -0,525 | -0,895 |
0,34 | 0,591 | 0,7 | 0,109 | -0,059 | -0,525 | -0,895 |
1,02 | 0,756 | 0,75 | -0,006 | 0,056 | -0,280 | -1,410 |
1,02 | 0,756 | 0,8 | 0,044 | 0,006 | -0,280 | -1,410 |
1,02 | 0,756 | 0,85 | 0,094 | -0,044 | -0,280 | -1,410 |
1,18 | 0,789 | 0,9 | 0,111 | -0,061 | -0,237 | -1,554 |
2,18 | 0,931 | 0,95 | 0,019 | 0,031 | -0,072 | -2,670 |
3,02 | 0,980 | 1 | 0,020 | 0,030 | -0,020 | -3,90 |
Tabela 3.1.1: Valores para cálculo das estatísticas de teste de Normalidade no exemplo da "Motivação1".
A estatística de teste para o teste de Kolmogorov-Smirnov é dada por \[D_n=\max(0,11;0,162)=0,162.\]
Considerando $\alpha = 0,05$ e n = 20, encontramos pela tabela de valores críticos que o valor crítico neste caso é de aproximadamente 0,29. Como Dn = 0,162 < 0,29, não temos evidências para rejeitar a hipótese de normalidade dos resíduos.
Utilizando a fórmula $(\star)$ no teste de Anderson-Darling no conteúdo de Inferência, temos que \[D=\sum_{i=1}^n[(2i-1)\ln(F(e_i))+(2(n-i)+1)\ln(1-F(e_i))]=-408,11.\]
Assim, \[\displaystyle A^2=-n-\frac{D}{n}=-20-\frac{(-408,11)}{20}=0,405.\]
Para o cálculo do p-valor, precisamos encontrar a estatística de Anderson Darling modificada. Considerando μ e σ desconhecidos, temos que \[A_m^2=A^2\times(1+(0,75/n)+(2,25/n^2))=0,405\times(1+(0,75/20)+(2,25/20^2))=0,405\times 1,043=0,422.\]
Desta forma, obtemos o p-valor aproximado analisamos a Tabela com quantis e valores da estatística de Anderson Darling. Como $A_m^2=0,422~\textless~0,56$ temos que p_valor é maior do que 15%. No R um valor aproximado do p-valor é encontrado por meio de interpolação.
Como p_valor é maior do que 15%, existe forte evidência pelo teste de Anderson-Darling de que os resíduos são normalmente distribuídos.
Para o cálculo da estatística teste de Shapiro-Wilk, precisamos dos valores contidos na Tabela 3.2.1.2, conforme apresentamos no teste de Shapiro-Wilk no conteúdo de Inferência.
$i$ | $n-i+1$ | $a$ | $e_{n-i+1}$ | $e_i$ | $a(e_{n-i+1}-e_i)$ |
1 | 20 | 0,4734 | 3,02 | -2,82 | 2,76 |
2 | 19 | 0,3211 | 2,18 | -2,66 | 1,55 |
3 | 18 | 0,2565 | 1,18 | -2,14 | 0,85 |
4 | 17 | 0,2085 | 1,02 | -1,14 | 0,45 |
5 | 16 | 0,1686 | 1,02 | -0,82 | 0,31 |
6 | 15 | 0,1334 | 1,02 | -0,82 | 0,25 |
7 | 14 | 0,1013 | 0,34 | -0,14 | 0,05 |
8 | 13 | 0,0711 | 0,34 | -0,14 | 0,03 |
9 | 12 | 0,0422 | 0,34 | -0,14 | 0,02 |
10 | 11 | 0,014 | 0,34 | 0,02 |
Tabela 3.1.2: Medidas para o cálculo da estatística de Shapiro-Wilk
A estatística de teste é dada por \[W=\dfrac{b^2}{\sum\limits_{i=1}^n(e_i-\bar{e})^2},\]
em que \[b=\sum_{i=1}^{n/2}a_{n-i+1}\times (e_{n-i+1}-e_i).\]
Assim, segue que \[W=\dfrac{(6,2839)^2}{41,16}=\dfrac{39,4872}{41,16}=0,959.\]
Como $W_{calc}=0,959 \textgreater W_{(0,05;20)}=0,905$, em que $W_{(0,05;20)}$ é obtido na tabela de valores críticos, dizemos que os resíduos são normalmente distribuídos com nível de significância de 5%.
Usando o software Action temos os seguintes resultados:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
Considerando agora os dados na "Motivação 2", verificamos se os resíduos obtidos pelo ajuste do modelo de regressão linear múltipla segue distribuição normal utilizando o gráfico de Papel de Probabilidade e os testes de normalidade, como citados acima.
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Para o gráfico de Papel de Probabilidade, devemos primeiramente ordenar os resíduos $e_i$, encontrar os valores de $\Phi^{-1}(d_i)$ e então apresentar no gráfico os pontos $(e_i,\Phi^{-1}(d_i))$, $i=1,\dots,n.$ Se a suposição de normalidade for adequada, esperamos um comportamento linear dos pontos no gráfico. O vetor com os resíduos ordenados, para os dados na "Motivação 2" é $$e=(-44,58; -37,09; -30,36; -25,01; -23,23; -19,88; -11,87; 5,34; 15,48; 15,65; 24,56; 30,35;$$
$$37,46; 63,20).$$
Já o vetor com os valores de $\Phi^{-1}(d_i)$ é dado por $$\Phi^{-1}(d)=(-1,66;-1,18;-0,89;-0,65;-0,45;-0,26;-0,09; 0,09; 0,26; 0,45; 0,65; 0,89; 1,18; 1,66),$$
em que $d_i=(i-0,3)/(n+0,4)$ para $i=1,\dots,n$ e $\Phi^{-1}(d_{(i)})$ é o quantil da distribuição normal padrão calculado no ponto $d_{(i)}$.
Usando o software Action temos o seguinte resultado:
Figura 3.1.2: Gráfico de Papel de Probabilidade para os resíduos do modelo linear simples ajustado - Motivação 2.
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
Como os pontos seguem o comportamento da reta (não estão distantes dela), temos indícios de que os erros são normalmente distribuídos.
Em relação aos testes de normalidade, precisamos obter os valores de $F_{n}(e_{(i)})$ e de $F(e_{(i)})$. O primeiro é calculado fazendo a razão entre a posição i e o valor total de resíduos, no caso $n=14$ (distribuição empírica acumulada). O segundo é encontrado na tabela da distribuição normal padrão, considerando a transformação dos dados dada pela relação \[Z_{(i)}=\frac{e_{(i)}-\overline{e}}{s},\]
em que $\overline{e}$ é a média aritmética e s é o desvio padrão dos resíduos. Resumimos na tabela 3.1.3 os valores utilizados no cálculo das estatísticas de teste de normalidade.
$e$ | $F(e_i)$ | $F_n(e)$ | $F_n(e_i)-F(e_i)$ | $F(e_i)-F_n(e_{i-1})$ | $ln(F(e_i))$ | $ln(1-F(e_i))$ |
-44,58 | 0,0826 | 0,0714 | -0,0112 | 0,0826 | -2,493 | -0,086 |
-37,08 | 0,1242 | 0,1428 | 0,0187 | 0,0528 | -2,086 | -0,132 |
-30,36 | 0,1723 | 0,2143 | 0,0419 | 0,0295 | -1,758 | -0,189 |
-25 | 0,2181 | 0,2857 | 0,0675 | 0,0038 | -1,5224 | -0,246 |
-23,23 | 0,2348 | 0,3571 | 0,1223 | -0,0509 | -1,449 | -0,267 |
-19,87 | 0,268 | 0,4286 | 0,1605 | -0,0891 | -1,316 | -0,312 |
-11,87 | 0,3558 | 0,5 | 0,1441 | -0,0728 | -1,033 | -0,439 |
5,34 | 0,5660 | 0,5714 | 0,0054 | 0,066 | -0,569 | -0,835 |
15,47 | 0,685 | 0,6428 | -0,0421 | 0,1136 | -0,378 | -1,155 |
15,65 | 0,6869 | 0,7142 | 0,0274 | 0,0441 | -0,376 | -1,161 |
24,55 | 0,7776 | 0,7857 | 0,0081 | 0,0634 | -0,251 | -1,503 |
30,34 | 0,8275 | 0,8571 | 0,0296 | 0,0418 | -0,189 | -1,757 |
37,45 | 0,8781 | 0,9286 | 0,0504 | 0,021 | -0,129 | -2,105 |
63,2 | 0,9754 | 1 | 0,0246 | 0,0468 | -0,0249 | -3,705 |
Tabela 3.1.3: Valores para cálculo das estatísticas de teste de Normalidade
Para o teste de Kolmogorov-Smirnov, temos que a estatística de teste é dada por \[D_n=\max(0,1605;0,1136)=0,1605.\]
Considerando $\alpha=0,05$ e n = 14, encontramos pela tabela de valores críticos que o valor crítico é de aproximadamente 0,34. Como Dn = 0,1605 < 0,34, não temos evidências para rejeitar a hipótese de normalidade dos resíduos.
Utilizando a fórmula $(\star)$ no teste de Anderson-Darling no conteúdo de Inferência, temos que \[D=\sum_{i=1}^n[(2i-1)\ln(F(e_i))+(2(n-i)+1)\ln(1-F(e_i))]= -200,3.\]
Assim, segue que \[\displaystyle A^2=-n-\frac{D}{n}=-14-\frac{(-200,3)}{14}=0,308.\]
Para o cálculo do p-valor, precisamos encontrar a estatística de Anderson Darling modificada. Considerando μ e σ desconhecidos, temos que a estatística modificada é dada por \[A_m^2=A^2\times(1+(0,75/n)+(2,25/n^2))=0,308^2\times(1+(0,75/14)+(2,25/14^2))=0,308\times 1,065=0,328.\]
Novamente, para obter o P-valor aproximado analisamos a Tabela com quantis e valores da estatística de Anderson Darling. Como $A_m^2=0,328~\textless~0,56$ temos que p_valor é maior do que 15%. No R um valor aproximado do p-valor é obtido fazendo interpolação.
Como p_valor é maior do que 15%, existe forte evidência pelo teste de Anderson-Darling de que os resíduos são normalmente distribuídos.
Para o cálculo da estatística de teste, precisamos dos valores contidos na Tabela 3.1.4.
$i$ | $n-i+1$ | $a$ | $e_{n-i+1}$ | $e_i$ | $a(e_{n-i+1}-e_i)$ |
1 | 14 | 0,5251 | 63,201 | -44,5841 | 56,59796 |
2 | 13 | 0,3318 | 37,4588 | -37,0884 | 24,73476 |
3 | 12 | 0,246 | 30,3464 | -30,3643 | 14,93483 |
4 | 11 | 0,1802 | 24,5563 | -25,009 | 8,931667 |
5 | 10 | 0,124 | 15,6505 | -23,2338 | 4,821653 |
6 | 9 | 0,0727 | 15,4769 | -19,8784 | 2,57033 |
7 | 8 | 0,024 | 5,3414 | -11,8735 | 0,413158 |
Tabela 3.1.4: Medidas para cálculo da estatística de Shapiro-Wilk da Motivação 2
A estatística do teste de Shapiro-Wilk é dada por \[W=\frac{b^2}{\sum\limits_{i=1}^n(e_i-\bar{e})^2},\]
em que \[b=\sum_{i=1}^{n/2}a_{n-i+1}\times (e_{n-i+1}-e_i).\]
Assim, temos que \[W=\frac{113,0043^2}{13.421,12}=0,9515,\]
Como $W_{calc}=0,9515 \textgreater W_{(0,05;14)}=0,874$, em que $W_{(0,05;14)}$ é dada pela tabela de valores críticos, não rejeitamos a suposição de normalidade. Portanto, concluímos que com um nível de significância de 5%, os resíduos são normalmente distribuídos.
Usando o software Action temos os seguintes resultados:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.