3.2 Diagnóstico de Homocedasticidade

Você está aqui

Homocedasticidade é o termo para designar variância constante dos erros experimentais$ \varepsilon_i $ para observações distintas. Caso a suposição de homocedasticidade não seja válida, podemos listar alguns efeitos no ajuste do modelo:

  • Os erros padrões dos estimadores, obtidos pelo Método dos Mínimos Quadrados, são incorretos e portanto a inferência estatística não é válida.
  • Não podemos mais dizer que os Estimadores de Mínimos Quadrados são os melhores estimadores de mínima variância para β, embora ainda possam ser não viciados.

Vale ressaltar que a ausência de homoscedasticidade é chamada de heteroscedasticidade. Com isso, testamos as hipóteses: 

~\mbox{pelo menos um dos}~\sigma_i^2^\prime \mbox{s}~\mbox{diferente,} \quad i=1,\ldots,n.\\\end{array}\right.$$

 

Dado um modelo de regressão linear

$$y_i = \beta_0 + \beta_1 x_{1,i} + \cdots + \beta_p x_{p,i} + \varepsilon_i, \quad i=1, \cdots , n,$$

a hipótese de homocedasticidade implica que

$$Var(\varepsilon \mid x_{1,i}, \cdots , x_{p,i}) = \sigma^2.$$

  Neste caso, a variância do erro experimental é a mesma para todas as observações. Ao longo desta seção, vamos apresentar os diversos testes propostos na literatura. Quando a hipótese de homocedasticidade é violada temos que 

$$Var(\varepsilon \mid x_{1,i}, \cdots , x_{p,i}) = \sigma^2_i, \quad i=1, \cdots , n.$$

Neste caso, a vari6ancia de cada observação pode ser diferente.  Visualmente, isto significa que se realizarmos o gráfico dos resíduos pelos valor ajustados, o comportamento não deve ser o mesmo ao longo dos valores ajustados.

3.2.1 Gráfico dos Resíduos versus Valores Ajustados

O gráfico dos resíduos versus valores ajustados (valores preditos) é uma das principais técnicas utilizadas para verificar as suposições dos resíduos. Além da detecção de heteroscedasticidade, esse gráfico pode indicar que não existe uma relação linear entra as variáveis explicativas com a variável resposta por meio de alguma tendência nos pontos. Por exemplo, se os pontos do gráfico formam uma parábola, é indicativo que termos de segundo grau sejam necessários.

Para o diagnóstico de heteroscedasticidade, tentamos encontrar alguma tendência no gráfico. Por isso, se os pontos estão aleatoriamente distribuídos em torno do 0, sem nenhum comportamento ou tendência, temos indícios de que a variância dos resíduos é homoscedástica. Já a presença de "funil" é um indicativo da presença de heteroscedasticidade.

Exemplo 3.2.1.1

Considerando o exemplo na "Motivação 1", vamos fazer o gráfico dos resíduos versus valores ajustados.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Usando o software Action temos o seguinte resultado:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Exemplo 3.2.1.2

Considerando o exemplo na "Motivação 2", vamos fazer o gráfico dos resíduos versus valores ajustados. 

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Usando o software Action temos o seguinte resultado:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

3.2.2 Teste de Breusch-Pagan

Baseado no teste multiplicador de Lagrange, o teste de Breusch-Pagan é bastante utilizado para testar a hipótese nula de que as variâncias dos erros são iguais (homoscedasticidade) versus a hipótese alternativa de que as variâncias dos erros são uma função multiplicativa de uma ou mais variáveis, sendo que esta(s) variável(eis) pode(m) pertencer ou não ao modelo em questão. É indicado para grandes amostras e quando a suposição de normalidade nos erros é assumida.

A estatística de teste neste caso é obtida da seguinte maneira:

Inicialmente, ajustamos o modelo de regressão linear (simples ou múltiplo) e encontramos os resíduos $ e=(e_1,\dots,e_n) $ e os valores ajustados $ \widehat{y}=(\widehat{y_1},\dots,\widehat{y}_n) $. Em seguida, consideramos os resíduos ao quadrado e os padronizamos de modo que a média do vetor de resíduos padronizados, que denotaremos por u, seja 1. Esta padronização é feita dividindo cada resíduo ao quadrado pela SQE/n em que SQE é a Soma de Quadrados dos Resíduos do modelo ajustado e n é o número de observações. Desta forma, temos que cada resíduo padronizado é dado por 

$$u_i=\dfrac{e_i^2}{SQE/n},~~i=1,\dots,n,$$

em que $ SQE=\displaystyle\sum\limits_{i=1}^{n}{e_i^2}. $

Por fim, fazemos a regressão entre $ u=(u_1,...,u_n) $ (variável resposta) e o vetor $ \widehat{y} $ (variável explicativa) e obtemos a estatística $ \chi^2_{BP} $ calculando a Soma de Quadrados da Regressão de u sobre $ \widehat{y} $ e dividindo o valor encontrado por 2. A estatística usada no teste é a $ \chi_{B P}^{2} $ studentizada que édada por 

$$\chi_{B P \text { studentizada}}^{2}=\frac{\chi_{B P}^{2}}{\lambda}$$

, em que $ \lambda=\frac{\operatorname{Var}\left(\varepsilon^{2}\right)}{2 \operatorname{Var}(\varepsilon)^{2}} $.

Sob a hipótese nula, esta estatística tem distribuição qui-quadrada com 1 grau de liberdade. Resumidamente, se não existe heteroscedasticidade, é de se esperar que os resíduos ao quadrado não aumentem ou diminuam com o aumento do valor predito, $ \widehat{y} $ e assim, a estatística de teste deveria ser insignificante. 

Exemplo 3.2.2.1

Considerando o exemplo na "Motivação 1", vamos realizar o teste de Breusch Pagan para testar a homocedasticidade dos resíduos.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

A SQE (Soma de Quadrados do Erro) da regressão da variável Dureza (resposta) sobre a variável explicativa Temperatura é 41,16. Além disso, temos que n=20. Assim, dividindo os resíduos ao quadrado por $ \dfrac{41,16}{20}=2,058 $, encontramos os resíduos padronizados.

A SQR (Soma de Quadrados da Regressão) obtida da regressão de $ u $ (vetor de resíduos padronizados) sobre o valor ajustado da regressão da variável Dureza sobre a variável Temperatura, $ \widehat{y} $, é dada por 0,151. Logo, o valor da estatística de teste é dado por $ \chi^2_{BP}=\dfrac{0,151}{2}=0,0784 $.

Já o p_valor para este exemplo, isto é, $ P(\chi^2\textgreater 0,0784) $ é 0,7794. Considerando um nível de significância de 5%, não rejeitamos a hipótese de homoscedasticidade dos erros.

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Exemplo 3.2.2.2

No exemplo na "Motivação 2", vamos calcular a estatística de Breusch Pagan para testar a homoscedasticidade dos resíduos.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

A SQE (Soma de Quadrados do Erro) da regressão da variável Ganho (resposta) sobre as variáveis explicativas Tempo e Dose_de_íons é 13.421. Além disso, temos que n=14. Assim, dividindo os resíduos ao quadrado por $ \dfrac{13.421}{14}=958,643 $, encontramos os resíduos padronizados.

A SQR (Soma de Quadrados da Regressão) obtida da regressão de $ u $ (vetor de resíduos padronizados) sobre o valor ajustado da regressão da variável Ganho sobre as variáveis Tempo e Dose_de_íons, $ \widehat{y} $, é dada por 0,866. Logo, o valor da estatística de teste é dado por $ \chi^2_{BP studentizada}=0,7993 $.

Já o p_valor para este exemplo, isto é, $ P(\chi^2 \textgreater 0,7993) $ é 0,3713. Considerando um nível de significância de 5%, não rejeitamos a hipótese de homoscedasticidade dos erros.

Usando o software Action temos os seguintes resultados:

 

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

3.2.3 Teste de Goldfeld-Quandt

O teste de Goldfeld-Quandt também é utilizado para testar a homoscedasticidade dos resíduos. Entre as limitações deste teste está a exigência de que a amostra seja relativamente grande.

O teste consiste inicialmente em ordenar as observações de acordo com a variável explicativa que se acredita a responsável pela heteroscedasticidade. Após isso, divide-se a amostra ordenada em 3 partes de tal forma que a parte do meio tenha aproximadamente 20% dos dados e que as partes 1 e 3 tenham quantidade de dados semelhantes. Então, ajusta-se um modelo de regressão com os dados da parte 1 (contendo os menores valores da variável explicativa utilizada na ordenação) e outro modelo de regressão com os dados da parte 3 (contendo os maiores valores da variável explicativa utilizada na ordenação). Por fim, testa-se a hipótese de que as variâncias dos erros em ambas regressões são iguais contra a hipótese de que a variância dos erros na parte 3 é maior do que a variância dos erros na parte 1, utilizando o teste F.

A estatística de teste neste caso é dada por 

$$F_{GQ}=\frac{SQE^b/(n_{3}-(p+1))}{SQE^a/(n_{1}-(p+1))},$$

em que $ SQE^a $ e $ SQE^b $ são as somas de quadrados dos resíduos da regressão para o grupo inferior  (parte 1) e para o grupo superior (parte 3), respectivamente, $ n_{1} $ é o número de observações da parte 1 e $ n_{3} $ é o número de observações da parte 3. Chamamos de d o número de observações omitidas (parte 2). Essa estatística tem distribuição $ F_{(n_{3}-(p+1),n_{1}-(p+1))} $. Desta forma, considerando um nível de significância $ \alpha=0,05 $, rejeitamos a hipótese nula, ou seja, a hipótese de que as variâncias são iguais se $ F_{GQ} \textgreater F_{\frac{\alpha}{2}} $.

Exemplo 3.2.3.1

Considerando o exemplo na "Motivação 1", vamos realizar o teste de Goldfeld-Quandt para testar a homocedasticidade dos resíduos.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Temos apenas uma variável explicativa, Temperatura (p=1). Desta forma, vamos ordenar os dados em relação a essa variável. Como n=20, descartamos d=4 observações, ou seja, 20% dos dados. Desta forma, a parte 1 possui n1=8 observações e a parte 3 possui n3=8 observações. A soma de quadrados dos resíduos do grupo superior (parte 3) é 13,2 enquanto que a soma de quadrados dos resíduos do grupo inferior (parte 1) é 7,867. Logo, a estatística de teste é 

$$F_{GQ}=\frac{13,2/(8-2)}{7,867/(8-2))}=1,678.$$

\[\text{p-valor} = 2\min\{\mathbb{P}[F \ \textgreater \ 1,678 | H_0];\mathbb{P}[F \ \textless \ 1,678 | H_0]\}=0,545208844.\]

O p-valor do teste é 0,5452. Considerando um nível de confiança de 95%, não rejeitamos a hipótese de homoscedasticidade dos resíduos.

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Exemplo 3.2.3.2

No exemplo na "Motivação 2", vamos calcular a estatística de Goldfeld-Quandt para testar a homoscedasticidade dos resíduos.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Neste exemplo temos duas variáveis explicativas (p=2). Desta forma, aplicamos o teste de Goldfeld-Quandt inicialmente ordenando os dados em relação a variável Tempo e posteriormente ordenando em relação a variável Dose_de_íons. Desta forma, conseguimos detectar qual das duas variáveis explicativas é a responsável pela heteroscedasticidade, caso exista.

Em ambos os casos (ordenação por Tempo ou Dose_de_íons), descartamos aproximadamente 20% das observações, isto é, d=3 observações. Desta forma, temos que o número de observações restantes é 11. Quando o número de observações é impar, sempre deixamos a parte 3 com uma observação a mais do que a parte 1. Desta forma, temos n1=5 e n3=6.

Considerando a variável Tempo na ordenação dos dados, temos que a soma de quadrados dos resíduos do grupo inferior (parte 1) é 780,126 enquanto que a do grupo superior (parte 3) é 849,822. Logo, a estatística de teste fica 

$$F_{GQ}=\frac{849,822/(6-3)}{780,126/(5-3)}=0,726.$$

\[\text{p-valor} = 2\min\{\mathbb{P}[F \ \textgreater \ 0,726 | H_0];\mathbb{P}[F \ \textless \ 0,726 | H_0]\}=0,752941559.\]

O p-valor do teste é 0,753. Logo, a um nível de confiança de 95%, não rejeitamos a hipótese de homoscedasticidade dos resíduos da Motivação 2.

Em relação a ordenação dos dados pela variável Dose_de_íons, temos que a soma de quadrados dos resíduos do grupo inferior (parte 1) é 2.592 enquanto que a do grupo superior (parte 3) é 8.837,965. Logo, a estatística de teste fica 

$$F_{GQ}=\frac{8.837,965/(6-3)}{2.592/(5-3)}=2,286.$$

\[\text{p-valor} = 2\min\{\mathbb{P}[F \ \textgreater \ 2,286 | H_0];\mathbb{P}[F \ \textless \ 2,286 | H_0]\}=0,637566748.\]

O p-valor do teste é 0,638. Logo, a um nível de confiança de 95%, também não rejeitamos a hipótese de homoscedasticidade dos resíduos da Motivação 2.

Usando o software Action temos os seguintes resultados:

 

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]