1.5 - Análise de Resíduos

Você está aqui

A decomposição da variabilidade na análise de variância é puramente algébrica. Entretanto para realização de testes estatísticos e a obtenção de intervalos de confiança, utilizamos as seguintes hipóteses:

  1. Os erros $ \varepsilon_{ij} $ são normais e independentes, com média $ 0 $ e variância $ \sigma^2, $ constante; e
  2. As observações são descritas por meio de modelo


$$y_{ij}=\mu+\alpha_{i}+\varepsilon_{ij}.$$

Na prática, precisamos verificar se estas suposições são válidas. Violações nestas suposições são verificadas através dos resíduos.

O resíduo para a j-ésima observação do nível i é definido por


$$e_{ij}=y_{ij}-\widehat{y}_{ij}$$

em que $ \widehat{y}_{ij} $ é uma estimativa da observação $ y_{ij}, $


$$\widehat{y}_{ij}=\overline{y}_{..}+ (\overline{y}_{i.}-\overline{y}_{..})=\widehat{\mu}+\widehat{\alpha}_{i}=\overline{y}_{i.}$$

Exemplo 1.5.1:

Cálculo dos resíduos para os dados do Exemplo 1.1.

Algodão Resíduos $ \widehat{y}_{ij}=\overline{y}_{i.} $
15 -2,8 -2,8 1,2 -0,8 9,8
20 -3,4 1,6 2,6 2,6 15,4
25 -3,6 0,4 1,4 1,4 17,6
30 -2,6 3,4 -2,6 1,4 21,6
35 -3,8 -0,8 4,2 0,2 10,8

Tabela 1.5.1: Resíduos para a Resistência da Fibra.

 

Figura 1.5.1: Gráfico dos resíduos versus ordem de coleta dos dados ( Exemplo 1)

Influência do $ R^2 $ na ANOVA

Uma maneira de verificarmos se o modelo ajustado é adequado é olharmos o resultado do coeficiente de determinação (R2). Este coeficiente mede o quanto a variável resposta é explicada pelo modelo. Quanto maior o valor de $ R^2 $ melhor! Dizemos que, com um valor de R2 acima de 70%, o modelo está explicando bem a variação na variável resposta. A expressão usada para calcular o R2 é dada por:


$$R^2~=~1 - \frac{SQE}{SQT}$$

Em uma análise de variância com efeito fixo, estamos interessado em determinar se existe diferença entre os níveis dos fatores. Aqui, não temos interesse em utilizar o modelo para previsão. Assim, a adequabilidade do modelo linear não é crucial para aplicação da ANOVA. Para comprovarmos a afirmação, realizamos um estudo de simulação, conforme abaixo:

  • Utilizamos um fator com 4 níveis, com 10 réplicas em cada nível;
  • Para cada nível geramos uma distribuição Normal com médias $ 12; 12,3; 11,5 \mbox{ e } 17 $, respectivamente e desvio padrão 1;
  • Logo após, realizamos uma ANOVA e registramos os valores de p (p-value) e do R2;
  • Repetimos o procedimento acima 10.000 vezes, obtendo os seguinte resultados:


$$\mbox{Média do $R^2$} = 0,4339$$


$$\mbox{Porcentagem dos P-valor maiores do que 0,05} = 0,00$$

Conclusão:

Portanto, a não adequabilidade do modelo (R2< 0,70) não influencia de forma significativa o resultado do teste F da ANOVA.

Análise dos resíduos

Na sequência, vamos fazer a análise de normalidade, independência e igualdade da variância dos resíduos. Grande parte dos problemas que encontramos na prática, são solucionados, considerando algumas suposições iniciais, tais como, assumir uma função de distribuição para os dados amostrados. Nesse sentido, surge a necessidade de certificarmos se essas suposições podem, realmente, ser assumidas. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar sua análise. Para dar suporte a esta suposição, consideramos, o teste Anderson-Darling, o teste Kolmogorov - Smirnov e o teste Shapiro - Wilk. Além disso, fazemos o gráfico  "papel de probabilidade".

Para mais detalhes verificar o conteúdo de Testes de Normalidade (Inferência Estatística).

Exemplo 1.5.2:

Avaliar a normalidade dos resíduos ( Exemplo 1.1).

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Resíduos
-2,8 -2,8 5,2 1,2 -0,8
-3,4 1,6 -3,4 2,6 2,6
-3,6 0,4 0,4 1,4 1,4
-2,6 3,4 0,4 -2,6 1,4
-3,8 -0,8 0,2 4,2 0,2

Resultados obtidos pelo software Action

Figura 1.5.2: Resultados obtidos pelo método da ANOVA.

Após as tabelas da ANOVA, fazemos uma análise da normalidade dos resíduos através dos seguintes gráficos:

Papel de probabilidade e Teste de Anderson-Darling

Avaliamos a normalidade dos resíduos através do gráfico "papel de probabilidade" e do teste de Anderson-Darling. No nosso caso, tomamos como hipótese nula a normalidade dos resíduos, e utilizamos a estatística de Anderson-Darling para testar esta hipótese. Para o exemplo, como o P-valor é alto (aproximadamente 0,16) não rejeitamos a hipótese de normalidade dos resíduos.

 

 

Figura 1.5.2: Papel de Probabilidade do Teste Anderson-Darling.

Também desenvolvemos o histograma dos resíduos para avaliar sua dispersão e distribuição.

  

Figura 1.5.3: Histograma de Resíduos versus frequências.

Resíduos versus valores ajustados

Com esse gráfico temos indícios sobre o comportamento da variância dos resíduos com relação aos valores ajustados. Uma análise mais detalhada sobre a igualdade da variância pode ser obtida através dos testes de igualdade das variâncias, ver módulo testes de igualdade das variâncias. 

 

Figura 1.5.4: Gráfico de Resíduos versus Valores Ajustados.

Resíduos versus a ordem de coleta dos dados

A seguir elaboramos o gráfico dos Resíduos versus a Ordem de Coleta dos dados. Com esse gráfico obtemos indícios da independência ou não entre os resíduos. Se algum comportamento sistemático for observado no gráfico, temos indícios de que alguma variável "extra" influenciou nos resultados do experimento, fato que viola uma das premissas básicas da ANOVA e compromete nossas conclusões. 

 

 

Figura 1.5.5: Gráfico de Resíduos versus Ordem de Coleta.

 

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Dúvidas sobre esse conteúdo? Comente:

ANOVA

Sobre o Portal Action

O Portal Action é mantido por Estatcamp - Consultoria Estatística e Qualidade e por DIGUP - Desenvolvimento de Sistemas e Consultoria Estatística, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  28 de Setembro,2066 - B, São Carlos - SP | CEP 13560-270
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]