1.5 Análise de Variância

Você está aqui

No caso de um modelo linear simples, no qual temos apenas uma variável explicativa, testar a significância do modelo corresponde ao seguinte teste de hipóteses

$$\left\{\begin{array}{ll}\mbox{H}_{0}:\beta_1=0\\\mbox {H}_{1}:\beta_1 \neq 0.\\\end{array}\right.$$  Na seção sobre os testes dos parâmetros do modelo, utilizamos a estatística t-student realizar este teste de hipóteses. Aqui, vamos introduzir de análise de variância (ANOVA) para testarmos a hipótese $\mbox{H}_0$. Além disso, mostraremos que os dois testes são iguais. Assumimos  o "Modelo de Regressão Linear Simples" com a suposição de que os erros tem distribuição Normal.

A análise de variância é baseada na decomposição da soma de quadrados. Em outras palavras, o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média, isto é, podemos escrever $(Y_i-\bar{Y})$ como

$$(Y_i-\bar{Y})=(Y_i-\bar{Y}+\widehat{Y}_i-\widehat{Y}_i)=(\widehat{Y}_i-\bar{Y})+(Y_i-\widehat{Y}_i), ~~~~~~(1.3.1).$$

 

1.5.1 Soma de Quadrados

Elevando cada componente de (1.3.1) ao quadrado e somando para todo o conjunto de observações, obtemos

$$\sum_{i=1}^n(Y_i-\bar{Y})^{2} = \sum_{i=1}^n(\widehat{Y}_i - \bar{Y})^2 + \sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2},$$

em que

$$\sum_{i=1}^n(Y_i-\bar{Y})^{2}=SQT~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ Total);$$

$$\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^2=SQR~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ da\ Regressão)\ e$$

$$\sum_{i=1}^n(Y_i-\widehat{Y}_i)^2=SQE~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ dos\ Erros\ (dos\ Resíduos)).$$

Desta forma, escrevemos

$$SQT=SQR+SQE,$$

em que decompomos a Soma de Quadrados Total em Soma de Quadrados da Regressão e Soma de Quadrados dos Erros. 

Prova:

$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^{2}=\sum_{i=1}^n(Y_i-\bar{Y}+\widehat{Y}_i-\widehat{Y}_i)^{2}=\sum_{i=1}^n((Y_i-\widehat{Y}_i)+(\widehat{Y}_i-\bar{Y}))^{2}$$

$$=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^{2}+\sum_{i=1}^n2(Y_i-\widehat{Y}_i)(\widehat{Y}_i-\bar{Y})+\sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2}.$$

Notemos que

$$\sum_{i=1}^n2(Y_i-\widehat{Y}_i)(\widehat{Y}_i-\bar{Y})=\sum_{i=1}^n2(Y_i\widehat{Y}_i-Y_i\bar{Y}-\widehat{Y}_i^2+\widehat{Y}_i\bar{Y}).$$

Como visto em "Algumas propriedades do ajuste de mínimos quadrados"

$$\sum_{i=1}^n e_i=\sum_{i=1}^n(Y_i-\widehat{Y}_i)=0\Rightarrow\sum_{i=1}^n Y_i=\sum_{i=1}^n \widehat{Y}_i$$

e

$$\sum_{i=1}^n(\widehat{Y}_ie_i)=\sum_{i=1}^n\widehat{Y}_i(Y_i-\widehat{Y}_i)=0\Rightarrow\sum_{i=1}^n(\widehat{Y}_iY_i)=\sum_{i=1}^n(\widehat{Y}_i^2).$$

Desta forma, 

$$\sum_{i=1}^n2(Y_i\widehat{Y}_i-Y_i\bar{Y}-\widehat{Y}_i^2+\widehat{Y}_i\bar{Y})=2(\sum_{i=1}^n\widehat{Y}_i^2-\bar{Y}\sum_{i=1}^nY_i-\sum_{i=1}^n\widehat{Y}_i^2+\bar{Y}\sum_{i=1}^n\widehat{Y}_i)=$$

$$=2(-\bar{Y}\sum_{i=1}^nY_i+\bar{Y}\sum_{i=1}^n\widehat{Y}_i)=2(-\bar{Y}\sum_{i=1}^nY_i+\bar{Y}\sum_{i=1}^nY_i)=0.$$

e portanto,

$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^{2}=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^{2}+\sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2}=SQR+SQE.$$ Conforme demonstramos na seção propriedade dos estimadores, ao tomarmos os pares $\{(x_i,y_i):i=1,\cdots ,n\}$, temos que $SQT=S_{yy}$ e $SQE=S_{yy}-\hat{\beta}_1S_{xy}$. Portanto, concluímos que $SQR=\hat{\beta}_1S_{xy}$.

 

1.5.2 Partição dos Graus de Liberdade

Assim como temos a decomposição da soma de quadrados total, vamos derivar uma decomposição para os graus de liberdade. ë importante ressaltarmos que os graus de liberdade são definidos como a constante que multiplica $\sigma^2$ para definir o valor esperado da soma de quadrados. Conforme demonstrado na seção propriedade dos estimadores, temos que $\mathbb{E} [SQE]=(n-2)\sigma^2$.  Assim, os graus de liberdade relacionado com a $SQE$ é dado por $n-2$. 

Agora, sob $\mbox{H}_0: \beta_1=0$, temos que $Y_1, \cdots , Y_n$ é uma amostra aleatória simples de uma população com média $\beta_0$ e variância $\sigma^2$. Conforme demonstrado no módulo de inferência sobre propriedades gerais dos estimadores, temos que $\mathbb{E} [SQT]=(n-1)\sigma^2$.  Então, como a soma de quadrados total foi decomposta na soma de quadrados dos erros mais a soma de quadrados da regressão, concluímos que sob $\mbox{H}_0$, $$\mathbb{E}[SQR]=\mathbb{E}[SQT]-\mathbb{E}[SQE]=(n-1)\sigma^2+(n-2)\sigma^2=\sigma^2.$$ Com isso, concluímos que a $SQR$ tem um grau de liberdade. Assim, sob $\mbox{H}_0$, obtemos a seguinte decomposição dos graus de liberdade:

(1) $SQT$ tem $n-1$ graus de liberdade;

(2) $SQR$ tem $1$ grau de liberdade;

(3) $SQE$ tem $n-2$ graus de liberdade.

De forma geral, não necessariamente sob $\mbox{H}_0$, também podemos calcular facilmente o valor esperado da soma de quadrado total. Para isto, temos que $$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^2=\sum_{i=1}^nY_{i}^2-n(\bar{Y})^2.$$ A partir da definição de variância de uma variável aleatória, concluímos que $$\mathbb{E}(Y_{i}^2) = Var(Y_{i}) + (\mathbb{E}(Y_{i}))^2 = \sigma ^2 + (\beta_0 + \beta_1 x_{i})^2$$. Da mesma forma, temos que $$\mathbb{E}(\bar{Y^2}) = Var(\bar{Y}) + (\mathbb{E}(\bar{Y}))^2 = \frac{\sigma^2}{n} + (\beta_0 + \beta_1\bar{x})^2$$. Portanto, obtemos que $$\mathbb{E}(SQT) = (n-1)\sigma^2 + \sum_{i=1}^{n}(\beta_0 + \beta_1 x_{i})^2 - n (\beta_0 + \beta_1 \bar{x})^2$$. Observe que sob $\mbox{H}_0$, obtemos que $\mathbb{E}[SQT]=(n-1)\sigma^2$. Por outro lado, o valor esperado do quadrado médio da regressão é dado por,$$\mathbb{E}(SQR) = (n-1)\sigma^2 + \sum_{i=1}^{n}(\beta_0 + \beta_1 x_{i})^2 - n (\beta_0 + \beta_1 \bar{x})^2-(n-2)\sigma^2 =$$ $$\sigma^2 + \sum_{i=1}^{n}(\beta_0 + \beta_1 x_{i})^2 - n (\beta_0 + \beta_1 \bar{x})^2 =$$ $$ \sigma^2 + \beta_1^2 S_{xx}$$.

1.5.3 Quadrado Médio

A ideia básica do quadrado médio está em tornarmos as somas de quadrados comparáveis. Sabemos que, sob $\mbox{H}_0$, os graus de liberdade são constantes que vem muliplicando o $\sigma^2$ no cálculo do valor esperado  da soma de quadrados. A partir da partição dos graus de liberdade obtidos na seção anterior,  estimadores de momentos para $\sigma^2$ são dados pela divisão da soma de quadrados pelo seu respectivo grau de liberdade. Com isso, chegamos a definição dos quadrados médios:

$$QMR=\dfrac{SQR}{1}=SQR=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^2~~~~\mbox(é\ o\ Quadrado\ Médio\ da\ Regressão)\ e$$

$$QME=\dfrac{SQE}{n-2}=\dfrac{\displaystyle\sum\limits_{i=1}^n(Y_i-\widehat{Y}_i)^2}{n-2}~~~~\mbox(é\ o\ Quadrado\ Médio\ dos\ Erros\ (dos\ Resíduos)).$$

Sob $\mbox{H}_0$, tanto o quadrado médio dos erros (QME) quanto o quadrado médio da regressão (QMR) são estimadores de momento para $\sigma^2$. Portanto, eles são comparáveis. A seguir, apresentamos algumas formas simplificados para o cálculo das somas de quadrados.  Como visto em "Propriedades dos Estimadores",

$$SQE=\sum_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i=S_{YY}-\widehat{\beta}_1S_{xY}.$$

Além disso,

$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^2=S_{YY}.$$

Desta forma, 

$$SQR=SQT-SQE=\sum_{i=1}^n(Y_i-\bar{Y})^2-\left(\sum_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_ 1\sum_{i=1}^n(x_i-\bar{x})Y_i\right)=\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i=\widehat{\beta}_1S_{xY},$$

e portanto,

$$QMR=\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i~~\mbox{e}$$

$$QME=\dfrac{\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_1\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i}{n-2}.$$

 

1.5.4 Teste F

Considerando o Modelo de Regressão Linear Simples, a siginificância do modelo linear pode ser avaliada através do seguinte teste de hipóteses

$$\left\{\begin{array}{ll}\mbox{H}_{0}:\beta_1=0\\\mbox {H}_{1}:\beta_1 \neq 0.\\\end{array}\right.$$ Se não rejeitamos $\mbox{H}_0$, concluímos que não existe relação linear significativa entre as variáveis explicativa (x) e dependente (Y). A estratégia para testarmos a hipótese $\mbox{H}_0$ consiste em compararmos o quadrado médio da regressão com o quadrado médio dos erros, pois sob $\mbox{H}_0$, ambos quadrados médios são estimadores de momentos para o parâmetro $\sigma^2$. Para isto precisamos do teorema de Cochran.  

Teorema de Cochran

Sejam $Z_1,~Z_2,~...,~Z_p$ variáveis aleatórias independentes com distribuição $N(0,1)$. Conforme demonstrado na seção sobre a distribuição qui-quadrado, sabemos que
$$\sum_{i=1}^{p}Z_{i}^{2}~~\mbox{possui distribuição}~~\chi^{2}_{(p)}.$$

Se tivermos

$$\sum_{i=1}^{p}Z_{i}^{2}=Q_1 + Q_2 + ... + Q_q,$$

em que $Q_i~,~i = 1, 2,...,q~~(q \leq p)$ são somas de quadrados, cada um com $p_i$ graus de liberdade, tal que

$$p=\sum^{q}_{i=1}p_i,$$

então obtemos que $Q_i\sim \sigma^2\chi^{2}_{(p_i)}$ e são independentes para qualquer $i=1, 2,..., q$.

 

Sob $\mbox{H}_0,$ temos que $Y_1,\cdots ,Y_n$ é uma amostra aleatória simples da $N(\beta_0,\sigma^2)$. Com isso, obtemos da seção que aborda as propriedades dos estimadores da média e variância de uma população normal, que 

$$\chi_T=\dfrac{SQT}{\sigma^2}\sim\chi_{(n-1)}^2.$$ Assim, através do teorema de Cochran, concluímos que

$$\chi_E=\dfrac{SQE}{\sigma^2}\sim\chi_{(n-2)}^2\,\mbox { e}$$

$$\chi_R=\dfrac{SQR}{\sigma^2}\sim\chi_{(1)}^2,$$

tem distribuição  qui-quadrado com $n-2$ e $1$ graus de liberdade, respectivamente. Além disso, temos que $\chi_E$ e $\chi_R$ são independentes. Desta forma, propomos a estatística do teste

$$F_0=\dfrac{\dfrac{\chi_R}{1}}{\dfrac{\chi_E}{n-2}}=\dfrac{\dfrac{SQR}{\sigma^2}}{\dfrac{SQE}{(n-2)\sigma^2}} = \dfrac{QMR}{QME}.$$

Como $F_0$ é a divisão de duas variáveis qui-quadrado, cada uma dividida pelos seus graus de liberdade e são independentes, segue que $F_0$ tem distribuição F com $1$ grau de liberdade no numerador e $n-2$ graus de liberdade no denominador, denotada por $F_{(1,n-2)}$. Através da partição dos graus de liberdade obtido na seçao 1.5.2, obtemos que $$\mathbb{E}[QME]=\sigma^2 \quad \mbox{e} \quad \mathbb{E}[QMR]=\sigma^2+\beta^2_1S_{xx}.$$

Estes valores esperados nos sugerem que que valores grandes de $F_0$ nos indiam que $\beta_1$ deve ser diferente de zero, ou seja, devemos rejeitar $H_0$. Logo, rejeitamos $\mbox{H}_0$ com um nível de significância $\alpha$ se $F_0> F_{(1-\alpha,1,n-2)}$, no qual $F_{(1-\alpha,1,n-2)}$ representa o quantil $(1-\alpha)$ da distribuição $F(1,n-1)$. Outra maneira é analisar o p_valor. Neste caso, rejeitamos $\mbox{H}_0$ se $\mbox{p\_valor}=P[F_{(1;n-2)} > F_0]<\alpha$, no qual $\alpha$ é o nível de significância estabelecido para o teste. 

Na tabela a seguir apresentamos a tabela ANOVA com a Estatística do Teste F.

Fonte GL Soma de Quadrados Quadrado Médio $F_0$
Regressão 1 $SQR=\widehat{\beta}_1 \displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i$ $QMR=SQR$ $F_0=\dfrac{QMR}{QME}$
 
Resíduo $n-2$ $SQE=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2 - \widehat{\beta}_1 \displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i$ $QME=\displaystyle{\dfrac{SQE}{(n-2)}}$
Total $n-1$ $SQT=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2$    

Tabela: Análise de significância usando ANOVA.

 

Exemplo 1.5.1

Construir a tabela da ANOVA para o exemplo dado na "Motivação 1"

clique aqui para efetuar o download dos dados utilizados nesse exemplo


Solução:

$$SQT = S_{yy} = 706,80;$$

$$SQE = S_{yy}-\widehat{\beta}_1 S{xy} = 41,16\quad\mbox{e}$$

$$SQR=SQT-SQE=706,80-41,16=665,64.$$

Assim, 

$$F_0=\dfrac{QMR}{QME}=\dfrac{\dfrac{665,64}{1}}{\dfrac{41,16}{18}}=\dfrac{665,64}{2,29}=291,10.$$

A tabela da ANOVA é então, dada por

Fonte GL Soma de Quadrados Quadrado Médio $F_0$
Regressão 1 665,64 $\dfrac{665,64}{1}=665,64$ $\dfrac{665,64}{2,29}=291,10$
 
Resíduo 18 41,16 $\dfrac{41,16}{18}=2,29$
Total 19 706,80  

Tabela: Análise de significância usando ANOVA.

Para $\alpha=0,05$, obtemos que $F_{(0,95;1;18)}=4,4138.$

Logo, 

$$F_0=291,1> 4,4138=F_{(0,95;1;18)}$$

Além disso, 

$$\mbox{P\_valor}=P[F_{1;18}> F_0]=0,000< 0,05=\alpha.$$

Portanto, rejeitamos $\mbox{H}_0$ com um nível de confiança de $95\%$ e concluímos que a variável explicativa tem correlação com a variável resposta.

 

Interpretação do P-valor

Quando o p-valor é aproximadamente zero significa que, se a hipótese nula $(\text{H}_0)$ for verdadeira, a chance de $F$ exceder o valor observado $(\text{F}_0)$ é praticamente nula. Esta é uma evidência muito forte, contra $\text{H}_0.$ Um p-valor pequeno fornece evidências contra $\text{H}_0.$ Por exemplo, se fixarmos um nível de significância  ($\alpha$), então poderemos dizer que uma hipótese nula é rejeitada a este nível, quando o p-valor é menor do que esse $\alpha$.  

 

Usando o Software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]