Skip to main content

Para avaliarmos a significância do modelo como um todo utilizamos a análise de variância (ANOVA). Para isso, consideremos o "Modelo de Regressão Linear Simples" com a suposição de que os erros tem distribuição Normal.

A análise de variância é baseada na decomposição da soma de quadrados e nos graus de liberdade associados a variável resposta Y. Em palavras, o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média, isto é, podemos escrever $ (Y_i-\bar{Y}) $ como

$$(Y_i-\bar{Y})=(Y_i-\bar{Y}+\widehat{Y}_i-\widehat{Y}_i)=(\widehat{Y}_i-\bar{Y})+(Y_i-\widehat{Y}_i), ~~~~~~(1.3.1).$$


1.5.1 Soma de Quadrados

Elevando cada componente de (1.3.1) ao quadrado e somando para todo o conjunto de observações, obtemos

$$\sum_{i=1}^n(Y_i-\bar{Y})^{2} = \sum_{i=1}^n(\widehat{Y}_i - \bar{Y})^2 + \sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2},$$

em que

$$\sum_{i=1}^n(Y_i-\bar{Y})^{2}=SQT~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ Total);$$

$$\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^2=SQR~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ da\ Regressão)\ e$$

$$\sum_{i=1}^n(Y_i-\widehat{Y}_i)^2=SQE~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ dos\ Erros\ (dos\ Resíduos)).$$

Desta forma, escrevemos

$$SQT=SQR+SQE,$$

em que decompomos a Soma de Quadrados Total em Soma de Quadrados da Regressão e Soma de Quadrados dos Erros. 

Prova:

$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^{2}=\sum_{i=1}^n(Y_i-\bar{Y}+\widehat{Y}_i-\widehat{Y}_i)^{2}=\sum_{i=1}^n((Y_i-\widehat{Y}_i)+(\widehat{Y}_i-\bar{Y}))^{2}$$

$$=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^{2}+\sum_{i=1}^n2(Y_i-\widehat{Y}_i)(\widehat{Y}_i-\bar{Y})+\sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2}.$$

Notemos que

$$\sum_{i=1}^n2(Y_i-\widehat{Y}_i)(\widehat{Y}_i-\bar{Y})=\sum_{i=1}^n2(Y_i\widehat{Y}_i-Y_i\bar{Y}-\widehat{Y}_i^2+\widehat{Y}_i\bar{Y}).$$

Como visto em "Algumas propriedades do ajuste de mínimos quadrados"

$$\sum_{i=1}^n e_i=\sum_{i=1}^n(Y_i-\widehat{Y}_i)=0\Rightarrow\sum_{i=1}^n Y_i=\sum_{i=1}^n \widehat{Y}_i$$

e

$$\sum_{i=1}^n(\widehat{Y}_ie_i)=\sum_{i=1}^n\widehat{Y}_i(Y_i-\widehat{Y}_i)=0\Rightarrow\sum_{i=1}^n(\widehat{Y}_iY_i)=\sum_{i=1}^n(\widehat{Y}_i^2).$$

Desta forma, 

$$\sum_{i=1}^n2(Y_i\widehat{Y}_i-Y_i\bar{Y}-\widehat{Y}_i^2+\widehat{Y}_i\bar{Y})=2(\sum_{i=1}^n\widehat{Y}_i^2-\bar{Y}\sum_{i=1}^nY_i-\sum_{i=1}^n\widehat{Y}_i^2+\bar{Y}\sum_{i=1}^n\widehat{Y}_i)=$$

$$=2(-\bar{Y}\sum_{i=1}^nY_i+\bar{Y}\sum_{i=1}^n\widehat{Y}_i)=2(-\bar{Y}\sum_{i=1}^nY_i+\bar{Y}\sum_{i=1}^nY_i)=0.$$

e portanto,

$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^{2}=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^{2}+\sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2}=SQR+SQE.$$


1.5.2 Partição dos Graus de Liberdade

Assim como há uma decomposição da soma de quadrados total, existe uma decomposição dos graus de liberdade associados (abreviados por gl). A decomposição é a seguinte:

  • gl da SQT: (n-1);
  • gl da SQR: 1;
  • gl da SQE: (n-2).

 

1.5.3 Quadrado Médio

A divisão da soma de quadrados pelos respectivos graus de liberdade é o quadrado médio. A relação da decomposição da variabilidade não existe mais nesse caso.

$$QMR=\dfrac{SQR}{1}=SQR=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^2~~~~\mbox(é\ o\ Quadrado\ Médio\ da\ Regressão)\ e$$

$$QME=\dfrac{SQE}{n-2}=\dfrac{\displaystyle\sum\limits_{i=1}^n(Y_i-\widehat{Y}_i)^2}{n-2}~~~~\mbox(é\ o\ Quadrado\ Médio\ dos\ Erros\ (dos\ Resíduos)).$$

Como visto em "Propriedades dos Estimadores",

$$SQE=\sum_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i.$$

Além disso,

$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^2.$$

Desta forma, 

$$SQR=SQT-SQE=\sum_{i=1}^n(Y_i-\bar{Y})^2-\left(\sum_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_ 1\sum_{i=1}^n(x_i-\bar{x})Y_i\right)=\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i,$$

e portanto,

$$QMR=\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i~~\mbox{e}$$

$$QME=\dfrac{\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_1\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i}{n-2}.$$


1.5.4 Tabela de Análise de Variância

Resumidamente temos:

Fonte GL Soma de Quadrados Quadrado Médio
Regressão 1 $ SQR=\widehat{\beta}_1\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i $ $ QMR=SQR $
Resíduo $ n-2 $ $ SQE=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_1\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i $ $ QME=\displaystyle{\dfrac{SQE}{(n-2)}} $
Total $ n-1 $ $ SQT=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2 $  

Tabela: ANOVA

 

1.5.5 Teste F

Considerando o Modelo de Regressão Linear Simples, a análise de regressão estabelece um teste para avaliar o parâmetro $ \beta_1 $, isto é, testar as hipóteses

$$\left\{\begin{array}{ll}\mbox{H}_{0}:\beta_1=0\\\mbox {H}_{1}:\beta_1 \neq 0 \\\end{array}\right.$$

Seja

$$\dfrac{SQT}{\sigma^2}=\dfrac{SQR}{\sigma^2}+\dfrac{SQE}{\sigma^2}$$

e consideremos o seguinte teorema:

 

Teorema de Cochran

Sejam $ Z_1,~Z_2,~...,~Z_p $ variáveis aleatórias independentes com distribuição $ N(0,1) $. Então

$$\sum_{i=1}^{p}Z_{i}^{2}~~\mbox{possui distribuição}~~\chi^{2}_{(p)}.$$

Se tivermos

$$Q=Q_1 + Q_2 + ... + Q_q,$$

em que $ Q_i~,~i = 1, 2,...,q~~(q \leq p) $ são somas de quadrados, cada um com $ p_i $ graus de liberdade, tal que

$$p=\sum^{q}_{i=1}p_i,$$

então obtemos que $ Q_i\sim \chi^{2}_{(p_i)} $ e são independentes para qualquer $ i=1, 2,..., q $.

 

Sob $ \mbox{H}_0, $ $ Y_i\sim N(\beta_0,\sigma^2) $. Então, segue pelo teorema de Cochran que

$$\chi_T=\dfrac{SQT}{\sigma^2}\sim\chi_{(n-1)}^2;$$

$$\chi_E=\dfrac{SQE}{\sigma^2}\sim\chi_{(n-2)}^2\,\mbox { e}$$

$$\chi_R=\dfrac{SQR}{\sigma^2}\sim\chi_{(1)}^2,$$

com as distribuições Qui-Quadradas $ \chi_E $ e $ \chi_R $ independentes.

Desta forma, propomos a estatística do teste

$$F_0=\dfrac{\dfrac{\chi_R}{1}}{\dfrac{\chi_E}{n-2}}=\dfrac{\dfrac{SQR}{\sigma^2}}{\dfrac{SQE}{(n-2)\sigma^2}} = \dfrac{QMR}{QME}.$$

Como $ F_0 $ é uma proporção de duas variáveis $ \chi^2 $, cada uma dividida pelos seus graus de liberdade, segue que $ F_0\sim F_{(1,n-2)} $.

Uma motivação, baseada nas esperanças dos quadrados médios sugere que valores grandes de $ F_0 $ levem a $ H_1 $ e valores de $ F_0 $ próximos de 1 levem a $ H_0 $. Logo, rejeitamos $ \mbox{H}_0 $ com um nível de significância $ \alpha $ se $ F_0\textgreater F_{(1-\alpha,1,n-2)} $. Outra maneira é analisar o p_valor. Neste caso, rejeitamos $ \mbox{H}_0 $ se $ \mbox{p\_valor}=P[F_{(1;n-2)} \textgreater F_0]\textless\alpha. $ 

Na tabela a seguir apresentamos a tabela ANOVA com a Estatística do Teste F.

Fonte GL Soma de Quadrados Quadrado Médio $ F_0 $
Regressão 1 $ SQR=\widehat{\beta}_1 \displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i $
$ QMR=SQR $ $ F_0=\dfrac{QMR}{QME} $

Resíduo $ n-2 $ $ SQE=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2 - \widehat{\beta}_1 \displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i $
$ QME=\displaystyle{\dfrac{SQE}{(n-2)}} $
Total $ n-1 $ $ SQT=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2 $    

Tabela: Análise de significância usando ANOVA.

 

Exemplo 1.5.1

Construir a tabela da ANOVA para o exemplo dado na "Motivação 1"

clique aqui para efetuar o download dos dados utilizados nesse exemplo


Solução:

$$SQT = S_{yy} = 706,80;$$
$$SQE = S_{yy}-\widehat{\beta}_1 S{xy} = 41,16\quad\mbox{e}$$
$$SQR=SQT-SQE=706,80-41,16=665,64.$$

Assim, 

$$F_0=\dfrac{QMR}{QME}=\dfrac{\dfrac{665,64}{1}}{\dfrac{41,16}{18}}=\dfrac{665,64}{2,29}=291,10.$$

A tabela da ANOVA é então, dada por

Fonte GL Soma de Quadrados Quadrado Médio $ F_0 $
Regressão 1 665,64
$ \dfrac{665,64}{1}=665,64 $ $ \dfrac{665,64}{2,29}=291,10 $

Resíduo 18 41,16
$ \dfrac{41,16}{18}=2,29 $
Total 19 706,80  

Tabela: Análise de significância usando ANOVA.

Para $ \alpha=0,05 $, obtemos que $ F_{(0,95;1;18)}=4,4138. $

Logo, 

$$F_0=291,1\textgreater 4,4138=F_{(0,95;1;18)}$$

Além disso, 

$$\mbox{P\_valor}=P[F_{1;18}\textgreater F_0]=0,000\textless 0,05=\alpha.$$

Portanto, rejeitamos $ \mbox{H}_0 $ com um nível de confiança de $ 95\% $ e concluímos que a variável explicativa tem correlação com a variável resposta.

 

Interpretação do P-valor

Obtemos um nível de significância (ou P-valor) para o teste F, por exemplo, comparando o valor $ \text{F}_0 $ com o quantil da distribuição F,  $ F(1, n - 2). $ A maioria dos programas computacionais, que ajustam modelos de regressão incluem o cálculo do $ F $ na tabela ANOVA. Quando o p-valor é aproximadamente zero significa que, se a hipótese nula $ (\text{H}_0) $ for verdadeira, a chance de F exceder o valor observado $ (\text{F}_0) $ é praticamente nula. Esta é uma evidência muito forte, contra $ \text{H}_0. $ O p-valor é uma probabilidade condicional de observar um valor da estatística computada, nesse caso $ \text{F}, $ como maior do que o valor observado, sob $ \text{H}_0. $ Um p-valor pequeno fornece evidências contra $ \text{H}_0. $ Em algumas áres de pesquisa, é adotado um nível de significância fixo para examinar o p-valor. Por exemplo, se fixarmos um nível de significância  ($ \alpha $), então poderemos dizer que uma hipótese nula é rejeitada a este nível, quando o p-valor é menor do que esse nível. A escolha mais comum para $ \alpha $ é 0,05, isto significa que quando $ \text{H}_0 $ é verdadeira encontraremos evidências contra essa hipótese em aproximadamente 5% dos elementos da amostra. 

Denominamos significância estatística a observação de um P-valor suficientemente pequeno, porém essa significância necessita de outros métodos para ser determinada, além do P-valor.


Usando o Software Action temos os seguintes resultados:


 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.