2.4 Análise de Variância (Teste F) - Medidas de Associação

Você está aqui

2.4.1 Notação Matricial das Somas de Quadrados

Como visto na "Análise de Variância" no Modelo de Regressão Linear Simples, podemos decompor a variabilidade total na variabilidade do modelo mais a variabilidade dos erros.

A soma de quadrados total (SQT), considerando a notação matricial do modelo 2.2, é dada por $$SQT=\dispalystyle\sum\limits_{i=1}^n(Y_i-\overline{Y})^2=Y^\prime Y-\dfrac{Y^\prime J Y}{n}=Y^\prime\left(I-\dfrac{J}{n}\right)Y,$$

em que $$J =\left[\begin{array}{cccc}1~~1~~ \ldots~~1\\1~~1~~\ldots~~1\\\vdots~~\vdots~~\ddots~~\vdots\\1~~1~~\ldots~~1\\\end{array}\right]_{n \times n}.$$

Além disso, de "Propriedades dos Estimadores" temos que a soma de quadrados dos erros (dos resíduos) é dada por $$SQE=Y^\prime Y-\widehat{\beta}^\prime X^\prime Y=Y^\prime (I-X (X^\prime X )^{-1}X^\prime )Y=Y^\prime(I-H)Y.$$

A matriz $I$ é a matriz identidade com dimensão n x n e a matriz $H=X [X^\prime X]^{-1}X^\prime$ é chamada matriz chapéu que transforma o vetor de respostas Y no vetor de valores ajustados $\widehat{Y}$, pois $$\widehat{Y}=X\widehat{\beta}=X[X^\prime X]^{-1}X^\prime Y=HY.$$

Desta forma, obtemos que a soma de quadrados da regressão é dada por $$SQR=SQT-SQE=\left(Y^\prime Y-\dfrac{Y^\prime JY}{n}\right)-(Y^\prime Y-\widehat{\beta}^\prime X^\prime Y)=\widehat{\beta}^\prime X^\prime Y-\dfrac{Y^\prime JY}{n}$$ $$=Y^\prime X(X^\prime X)^{-1}X^\prime Y-\dfrac{Y^\prime JY}{n}=Y^\prime \left(X(X^\prime X)^{-1}X^\prime -\dfrac{J}{n}\right)Y=Y^\prime \left(H-\dfrac{J}{n}\right)Y.$$

Notemos que as somas de quadrados da Análise de Variância no caso do MRLM são representadas na forma quadrática Y'AY, em que A é uma matriz simétrica.

Vale ressaltar que

  • H é quadrada de dimensão n x n e envolve apenas X (as variáveis independentes assumidas como constantes). 
  • H é idempotente, isto é, HH=H.
  • As matrizes $\left(I-\dfrac{J}{n}\right)$, $\left(H-\dfrac{J}{n}\right)$ e $(I-H)$ são idempotentes.

Com os valores das somas de quadrados, podemos obter a Tabela Anova.

Fonte Soma de quadrados GL Quadrado Médio
Regressão $SQR$ $p$ $\dfrac{SQR}{p}$
Erro (Resíduo) $SQE$ $n-p-1$ $\dfrac{SQE}{n-p-1}$
Total $SQT$ $n-1$  

Tabela 2.4.1: Tabela da ANOVA

 

2.4.2 Teste F

Em problemas de regressão linear múltipla, certos testes de hipóteses sobre os parâmetros do modelo são úteis para verificar a "adequabilidade" do modelo.

2.4.2.1 Teste para significância da regressão

O teste para significância da regressão é um teste para determinar se há uma relação linear entre a variável resposta $Y$ e algumas das variáveis regressora $x_1,x_2,\dots,x_p$. Consideremos as hipóteses $$\left\lbrace \begin{array}{ll}H_0 :~~\beta_1=\beta_2=\ldots=\beta_p=0\\H_1:~~\beta_j\neq 0 ~~\mbox{ para qualquer}~j~=~1, \cdots, p\\\end{array}\right.$$

Se rejeitamos $H_0$, temos que ao menos uma variável explicativa $x_1,x_2,\dots,x_p$ contribui significativamente para o modelo.

Sob $H_0,$ temos pelo "Teorema - Distribuição de forma quadrática" que $$\dfrac{SQR}{\sigma^2} \sim \chi^2_{(p)}~~~~\mbox{e~que}~~~~\dfrac{SQE}{\sigma^2} \sim \chi^2_{(n-p-1)}.$$

Além disso, temos que $SQR$ e $SQE$ são independentes. Logo, concluímos sob $H_0$ que
$$F_0=\dfrac{\dfrac{SQR}{p}}{\dfrac{SQE}{n-p-1}}= \dfrac{QMR}{QME}~\sim ~F_{(p ; \, n-p-1)}.$$

Portanto, rejeitamos $H_0$ se $F_0 \textgreater F_{(1-\alpha ; \, p ; \, n-p-1)}$ e se $p-valor=P[F_{p;n-p-1} \textgreater F_0]\textless\alpha,$ em que $\alpha$ é o nível de significância considerado. Geralmente adotamos $\alpha=5\%.$

A Tabela Anova com a estatística F é dada por

Fonte Soma de quadrados GL Quadrado Médio $F_0$
Regressão $SQR$ $p$ $QMR=\dfrac{SQR}{p}$ $F_0=\dfrac{QMR}{QME}$
Erro (Resíduo) $SQE$ $n-p-1$ $QME=\dfrac{SQE}{n-p-1}$
Total $SQT$ $n-1$    

Tabela 2.4.2: Tabela da ANOVA.

Exemplo 2.4.1

Construir a tabela da ANOVA considerando os dados transformados no "Exemplo 2.2.3".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:

Temos as hipóteses: $$\left\lbrace \begin{array}{ll}H_0:~~\beta_1=\beta_2=0\\H_1:~~\beta_j\neq 0 ~~\mbox{para qualquer}~j~=~1, \cdots, p\end{array}\right.$$

As somas de quadrados são $$SQT=y^\prime y-\dfrac{\left( \displaystyle\sum\limits_{i=1}^{14} y_i\right)^2}{14}$$
$$=22.527.889 - \dfrac{(17.495)^2}{14}$$
$$= 665.387,2.$$

$$SQR= \widehat{\beta}^\prime X^\prime y - \dfrac{\left(\displaystyle\sum\limits_{i=1}^{14}y_i\right)^2}{14}$$
$$= 22.514.467,9 - 21.862.501,8$$
$$= 651.966,1.$$
$$SQE= SQT-SQR$$
$$= 665.387,2 - 651.966,1$$
$$= 13.421,1.$$

Resumidamente temos,

Fonte Soma de quadrados GL Quadrado Médio $F_0$ $P-Valor$
Regressão $651.966,1$ $~2~$ $\dfrac{651.966,1}{2}=325.983,0$ $267,18$ $0,00$
Erro (Resíduo) $13.421,2$ $~11~$ $\dfrac{13.421,2}{11}=1.220,1$    
Total $655.387,2$ $~13~$      

Tabela 2.4.3: Tabela da ANOVA

Para $\alpha=0,05$, temos que $F_0 = 267,18 \textgreater F_{0,95;2;11}=3,98$. Analisando o p-valor, temos que p_valor$= P[F_{2;11} \textgreater F_0] = 0,000$. Assim, rejeitamos $H_0$ com um nível de confiança de 95%.

2.4.3 Medidas de Associação

2.4.3.1 Coeficiente de Determinação Múltiplo - $R^2$

O coeficiente de determinação múltiplo é dado por $$R^2 = \frac{SQR}{SQT} = 1-\frac{SQE}{SQT}.$$

Ele representa a proporção da variabilidade de Y explicada pelas variáveis regressoras. Assim, quanto mais próximo $R^2$ estiver de 1, maior é a explicação da variável resposta pelo modelo ajustado.

2.4.3.2 Coeficiente de Determinação Ajustado - $R^2_a$

O coeficiente de determinação ajustado é definido como $$R^2_a=1-\left(\frac{n-1}{n-p}\right)(1-R^2).$$

Este coeficiente ajustado pode ser menor quando outra variável X entra no modelo, pois a diminuição na SQE pode ser compensada pela perda de 1 grau de liberdade no denominador n-p.

Exemplo 2.4.2

Considerando o exemplo na "Motivação 2", calcular o coeficiente de determinação $(R^2)$ e o coeficiente de determinação ajustado $(R^2_{a})$.

Solução: $$R^2 = \frac{SQR}{SQT} = \frac{651.966,1}{665.387,2}=0,9798$$

$$R^2_{a}=1-\left(\frac{13}{11}\right)(1-0,9798)= 0,9762.$$

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

O Action constrói a tabela da ANOVA de forma diferente da calculada no exemplo 2.4.1. Para obtermos os mesmos resultados do exemplo 2.4.1, basta proceder da seguinte forma:

  • Soma de quadrados da regressão: $SQR=SQ_{x_1}+SQ_{x_2}=630976,866+20998,23=651966,1$
  • Graus de liberdade: $GL=1+1=2$
  • Quadrado médio da regressão: $QMR=\frac{SQR}{2}=\frac{651966,1}{2}=325983$
  • Estatística F: $F_0=\frac{QMR}{QME}=\frac{325983}{1220,1}=267,18$

 

 

 

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]