2.4 Análise de Variância (Teste F) - Medidas de Associação

Você está aqui

2.4.1 Notação Matricial das Somas de Quadrados

Como visto na "Análise de Variância" no Modelo de Regressão Linear Simples, podemos decompor a variabilidade total na variabilidade do modelo mais a variabilidade dos erros.

A soma de quadrados total (SQT), considerando a notação matricial do modelo 2.2, é dada por 

$$SQT=\dispalystyle\sum\limits_{i=1}^n(Y_i-\overline{Y})^2=Y^\prime Y-\dfrac{Y^\prime J Y}{n}=Y^\prime\left(I-\dfrac{J}{n}\right)Y,$$

em que 

$$J =\left[\begin{array}{cccc}1~~1~~ \ldots~~1\\1~~1~~\ldots~~1\\\vdots~~\vdots~~\ddots~~\vdots\\1~~1~~\ldots~~1\\\end{array}\right]_{n \times n}.$$

Além disso, de "Propriedades dos Estimadores" temos que a soma de quadrados dos erros (dos resíduos) é dada por 

$$SQE=Y^\prime Y-\widehat{\beta}^\prime X^\prime Y=Y^\prime (I-X (X^\prime X )^{-1}X^\prime )Y=Y^\prime(I-H)Y.$$

A matriz $ I $ é a matriz identidade com dimensão n x n e a matriz $ H=X [X^\prime X]^{-1}X^\prime $ é chamada matriz chapéu que transforma o vetor de respostas Y no vetor de valores ajustados $ \widehat{Y} $, pois 

$$\widehat{Y}=X\widehat{\beta}=X[X^\prime X]^{-1}X^\prime Y=HY.$$

Desta forma, obtemos que a soma de quadrados da regressão é dada por 

$$SQR=SQT-SQE=\left(Y^\prime Y-\dfrac{Y^\prime JY}{n}\right)-(Y^\prime Y-\widehat{\beta}^\prime X^\prime Y)=\widehat{\beta}^\prime X^\prime Y-\dfrac{Y^\prime JY}{n}$$

 

$$=Y^\prime X(X^\prime X)^{-1}X^\prime Y-\dfrac{Y^\prime JY}{n}=Y^\prime \left(X(X^\prime X)^{-1}X^\prime -\dfrac{J}{n}\right)Y=Y^\prime \left(H-\dfrac{J}{n}\right)Y.$$

Notemos que as somas de quadrados da Análise de Variância no caso do MRLM são representadas na forma quadrática Y'AY, em que A é uma matriz simétrica.

Vale ressaltar que

  • H é quadrada de dimensão n x n e envolve apenas X (as variáveis independentes assumidas como constantes). 
  • H é idempotente, isto é, HH=H.
  • As matrizes $ \left(I-\dfrac{J}{n}\right) $, $ \left(H-\dfrac{J}{n}\right) $ e $ (I-H) $ são idempotentes.

Com os valores das somas de quadrados, podemos obter a Tabela Anova.

Fonte Soma de quadrados GL Quadrado Médio
Regressão $ SQR $ $ p $ $ \dfrac{SQR}{p} $
Erro (Resíduo) $ SQE $ $ n-p-1 $ $ \dfrac{SQE}{n-p-1} $
Total $ SQT $ $ n-1 $  

Tabela 2.4.1: Tabela da ANOVA

 

2.4.2 Teste F

Em problemas de regressão linear múltipla, certos testes de hipóteses sobre os parâmetros do modelo são úteis para verificar a "adequabilidade" do modelo.

2.4.2.1 Teste para significância da regressão

O teste para significância da regressão é um teste para determinar se há uma relação linear entre a variável resposta $ Y $ e algumas das variáveis regressora $ x_1,x_2,\dots,x_p $. Consideremos as hipóteses 

~~\beta_j\neq 0 ~~\mbox{ para qualquer}~j~=~1, \cdots, p\\\end{array}\right.$$

Se rejeitamos $ H_0 $, temos que ao menos uma variável explicativa $ x_1,x_2,\dots,x_p $ contribui significativamente para o modelo.

Sob $ H_0, $ temos pelo "Teorema - Distribuição de forma quadrática" que 

$$\dfrac{SQR}{\sigma^2} \sim \chi^2_{(p)}~~~~\mbox{e~que}~~~~\dfrac{SQE}{\sigma^2} \sim \chi^2_{(n-p-1)}.$$

Além disso, temos que $ SQR $ e $ SQE $ são independentes. Logo, concluímos sob $ H_0 $ que

$$F_0=\dfrac{\dfrac{SQR}{p}}{\dfrac{SQE}{n-p-1}}= \dfrac{QMR}{QME}~\sim ~F_{(p ; \, n-p-1)}.$$

Portanto, rejeitamos $ H_0 $ se $ F_0 \textgreater F_{(1-\alpha ; \, p ; \, n-p-1)} $ e se $ p-valor=P[F_{p;n-p-1} \textgreater F_0]\textless\alpha, $ em que $ \alpha $ é o nível de significância considerado. Geralmente adotamos $ \alpha=5\%. $

A Tabela Anova com a estatística F é dada por

Fonte Soma de quadrados GL Quadrado Médio $ F_0 $
Regressão $ SQR $ $ p $ $ QMR=\dfrac{SQR}{p} $ $ F_0=\dfrac{QMR}{QME} $
Erro (Resíduo) $ SQE $ $ n-p-1 $ $ QME=\dfrac{SQE}{n-p-1} $
Total $ SQT $ $ n-1 $    

Tabela 2.4.2: Tabela da ANOVA.

Exemplo 2.4.1

Construir a tabela da ANOVA considerando os dados transformados no "Exemplo 2.2.3".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:

Temos as hipóteses:

~~\beta_j\neq 0 ~~\mbox{para qualquer}~j~=~1, \cdots, p\end{array}\right.$$

As somas de quadrados são

$$SQT=y^\prime y-\dfrac{\left( \displaystyle\sum\limits_{i=1}^{14} y_i\right)^2}{14}$$

$$=22.527.889 - \dfrac{(17.495)^2}{14}$$

$$= 665.387,2.$$

$$SQR= \widehat{\beta}^\prime X^\prime y - \dfrac{\left(\displaystyle\sum\limits_{i=1}^{14}y_i\right)^2}{14}$$

$$= 22.514.467,9 - 21.862.501,8$$

$$= 651.966,1.$$

$$SQE= SQT-SQR$$

$$= 665.387,2 - 651.966,1$$

$$= 13.421,1.$$

Resumidamente temos,

Fonte Soma de quadrados GL Quadrado Médio $ F_0 $ $ P-Valor $
Regressão $ 651.966,1 $ $ ~2~ $ $ \dfrac{651.966,1}{2}=325.983,0 $ $ 267,18 $ $ 0,00 $
Erro (Resíduo) $ 13.421,2 $ $ ~11~ $ $ \dfrac{13.421,2}{11}=1.220,1 $    
Total $ 655.387,2 $ $ ~13~ $      

Tabela 2.4.3: Tabela da ANOVA

Para $ \alpha=0,05 $, temos que $ F_0 = 267,18 \textgreater F_{0,95;2;11}=3,98 $. Analisando o p-valor, temos que p_valor$ = P[F_{2;11} \textgreater F_0] = 0,000 $. Assim, rejeitamos $ H_0 $ com um nível de confiança de 95%.

2.4.3 Medidas de Associação

2.4.3.1 Coeficiente de Determinação Múltiplo - $ R^2 $

O coeficiente de determinação múltiplo é dado por 

$$R^2 = \frac{SQR}{SQT} = 1-\frac{SQE}{SQT}.$$

Ele representa a proporção da variabilidade de Y explicada pelas variáveis regressoras. Assim, quanto mais próximo $ R^2 $ estiver de 1, maior é a explicação da variável resposta pelo modelo ajustado.

2.4.3.2 Coeficiente de Determinação Ajustado - $ R^2_a $

O coeficiente de determinação ajustado é definido como 

$$R^2_a=1-\left(\frac{n-1}{n-p}\right)(1-R^2).$$

Este coeficiente ajustado pode ser menor quando outra variável X entra no modelo, pois a diminuição na SQE pode ser compensada pela perda de 1 grau de liberdade no denominador n-p.

Exemplo 2.4.2

Considerando o exemplo na "Motivação 2", calcular o coeficiente de determinação $ (R^2) $ e o coeficiente de determinação ajustado $ (R^2_{a}) $.

Solução: 

$$R^2 = \frac{SQR}{SQT} = \frac{651.966,1}{665.387,2}=0,9798$$


$$R^2_{a}=1-\left(\frac{13}{11}\right)(1-0,9798)= 0,9762.$$

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

O Action constrói a tabela da ANOVA de forma diferente da calculada no exemplo 2.4.1. Para obtermos os mesmos resultados do exemplo 2.4.1, basta proceder da seguinte forma:

  • Soma de quadrados da regressão: $ SQR=SQ_{x_1}+SQ_{x_2}=630976,866+20998,23=651966,1 $
  • Graus de liberdade: $ GL=1+1=2 $
  • Quadrado médio da regressão: $ QMR=\frac{SQR}{2}=\frac{651966,1}{2}=325983 $
  • Estatística F: $ F_0=\frac{QMR}{QME}=\frac{325983}{1220,1}=267,18 $

 

 

 

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]