- Estatcamp: (16) 3376-2047 [email protected]
- [email protected] https://www.actionstat.com.br
No caso de um modelo linear simples, no qual temos apenas uma variável explicativa, testar a significância do modelo corresponde ao seguinte teste de hipóteses
$$\left\{\begin{array}{ll}\mbox{H}_{0}:\beta_1=0\\\mbox {H}_{1}:\beta_1 \neq 0.\\\end{array}\right.$$ Na seção sobre os testes dos parâmetros do modelo, utilizamos a estatística t-student realizar este teste de hipóteses. Aqui, vamos introduzir de análise de variância (ANOVA) para testarmos a hipótese $\mbox{H}_0$. Além disso, mostraremos que os dois testes são iguais. Assumimos o "Modelo de Regressão Linear Simples" com a suposição de que os erros tem distribuição Normal.
A análise de variância é baseada na decomposição da soma de quadrados. Em outras palavras, o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média, isto é, podemos escrever $(Y_i-\bar{Y})$ como
$$(Y_i-\bar{Y})=(Y_i-\bar{Y}+\widehat{Y}_i-\widehat{Y}_i)=(\widehat{Y}_i-\bar{Y})+(Y_i-\widehat{Y}_i), ~~~~~~(1.3.1).$$
Elevando cada componente de (1.3.1) ao quadrado e somando para todo o conjunto de observações, obtemos
$$\sum_{i=1}^n(Y_i-\bar{Y})^{2} = \sum_{i=1}^n(\widehat{Y}_i - \bar{Y})^2 + \sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2},$$
em que
$$\sum_{i=1}^n(Y_i-\bar{Y})^{2}=SQT~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ Total);$$
$$\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^2=SQR~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ da\ Regressão)\ e$$
$$\sum_{i=1}^n(Y_i-\widehat{Y}_i)^2=SQE~~~~\mbox(é\ a\ Soma\ de\ Quadrados\ dos\ Erros\ (dos\ Resíduos)).$$
Desta forma, escrevemos
$$SQT=SQR+SQE,$$
em que decompomos a Soma de Quadrados Total em Soma de Quadrados da Regressão e Soma de Quadrados dos Erros.
$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^{2}=\sum_{i=1}^n(Y_i-\bar{Y}+\widehat{Y}_i-\widehat{Y}_i)^{2}=\sum_{i=1}^n((Y_i-\widehat{Y}_i)+(\widehat{Y}_i-\bar{Y}))^{2}$$
$$=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^{2}+\sum_{i=1}^n2(Y_i-\widehat{Y}_i)(\widehat{Y}_i-\bar{Y})+\sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2}.$$
Notemos que
$$\sum_{i=1}^n2(Y_i-\widehat{Y}_i)(\widehat{Y}_i-\bar{Y})=\sum_{i=1}^n2(Y_i\widehat{Y}_i-Y_i\bar{Y}-\widehat{Y}_i^2+\widehat{Y}_i\bar{Y}).$$
Como visto em "Algumas propriedades do ajuste de mínimos quadrados",
$$\sum_{i=1}^n e_i=\sum_{i=1}^n(Y_i-\widehat{Y}_i)=0\Rightarrow\sum_{i=1}^n Y_i=\sum_{i=1}^n \widehat{Y}_i$$
e
$$\sum_{i=1}^n(\widehat{Y}_ie_i)=\sum_{i=1}^n\widehat{Y}_i(Y_i-\widehat{Y}_i)=0\Rightarrow\sum_{i=1}^n(\widehat{Y}_iY_i)=\sum_{i=1}^n(\widehat{Y}_i^2).$$
Desta forma,
$$\sum_{i=1}^n2(Y_i\widehat{Y}_i-Y_i\bar{Y}-\widehat{Y}_i^2+\widehat{Y}_i\bar{Y})=2(\sum_{i=1}^n\widehat{Y}_i^2-\bar{Y}\sum_{i=1}^nY_i-\sum_{i=1}^n\widehat{Y}_i^2+\bar{Y}\sum_{i=1}^n\widehat{Y}_i)=$$
$$=2(-\bar{Y}\sum_{i=1}^nY_i+\bar{Y}\sum_{i=1}^n\widehat{Y}_i)=2(-\bar{Y}\sum_{i=1}^nY_i+\bar{Y}\sum_{i=1}^nY_i)=0.$$
e portanto,
$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^{2}=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^{2}+\sum_{i=1}^n(Y_i-\widehat{Y}_i)^{2}=SQR+SQE.$$ Conforme demonstramos na seção propriedade dos estimadores, ao tomarmos os pares $\{(x_i,y_i):i=1,\cdots ,n\}$, temos que $SQT=S_{yy}$ e $SQE=S_{yy}-\hat{\beta}_1S_{xy}$. Portanto, concluímos que $SQR=\hat{\beta}_1S_{xy}$.
Assim como temos a decomposição da soma de quadrados total, vamos derivar uma decomposição para os graus de liberdade. ë importante ressaltarmos que os graus de liberdade são definidos como a constante que multiplica $\sigma^2$ para definir o valor esperado da soma de quadrados. Conforme demonstrado na seção propriedade dos estimadores, temos que $\mathbb{E} [SQE]=(n-2)\sigma^2$. Assim, os graus de liberdade relacionado com a $SQE$ é dado por $n-2$.
Agora, sob $\mbox{H}_0: \beta_1=0$, temos que $Y_1, \cdots , Y_n$ é uma amostra aleatória simples de uma população com média $\beta_0$ e variância $\sigma^2$. Conforme demonstrado no módulo de inferência sobre propriedades gerais dos estimadores, temos que $\mathbb{E} [SQT]=(n-1)\sigma^2$. Então, como a soma de quadrados total foi decomposta na soma de quadrados dos erros mais a soma de quadrados da regressão, concluímos que sob $\mbox{H}_0$, $$\mathbb{E}[SQR]=\mathbb{E}[SQT]-\mathbb{E}[SQE]=(n-1)\sigma^2+(n-2)\sigma^2=\sigma^2.$$ Com isso, concluímos que a $SQR$ tem um grau de liberdade. Assim, sob $\mbox{H}_0$, obtemos a seguinte decomposição dos graus de liberdade:
(1) $SQT$ tem $n-1$ graus de liberdade;
(2) $SQR$ tem $1$ grau de liberdade;
(3) $SQE$ tem $n-2$ graus de liberdade.
De forma geral, não necessariamente sob $\mbox{H}_0$, também podemos calcular facilmente o valor esperado da soma de quadrado total. Para isto, temos que $$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^2=\sum_{i=1}^nY_{i}^2-n(\bar{Y})^2.$$ A partir da definição de variância de uma variável aleatória, concluímos que $$\mathbb{E}(Y_{i}^2) = Var(Y_{i}) + (\mathbb{E}(Y_{i}))^2 = \sigma ^2 + (\beta_0 + \beta_1 x_{i})^2$$. Da mesma forma, temos que $$\mathbb{E}(\bar{Y^2}) = Var(\bar{Y}) + (\mathbb{E}(\bar{Y}))^2 = \frac{\sigma^2}{n} + (\beta_0 + \beta_1\bar{x})^2$$. Portanto, obtemos que $$\mathbb{E}(SQT) = (n-1)\sigma^2 + \sum_{i=1}^{n}(\beta_0 + \beta_1 x_{i})^2 - n (\beta_0 + \beta_1 \bar{x})^2$$. Observe que sob $\mbox{H}_0$, obtemos que $\mathbb{E}[SQT]=(n-1)\sigma^2$. Por outro lado, o valor esperado do quadrado médio da regressão é dado por,$$\mathbb{E}(SQR) = (n-1)\sigma^2 + \sum_{i=1}^{n}(\beta_0 + \beta_1 x_{i})^2 - n (\beta_0 + \beta_1 \bar{x})^2-(n-2)\sigma^2 =$$ $$\sigma^2 + \sum_{i=1}^{n}(\beta_0 + \beta_1 x_{i})^2 - n (\beta_0 + \beta_1 \bar{x})^2 =$$ $$ \sigma^2 + \beta_1^2 S_{xx}$$.
A ideia básica do quadrado médio está em tornarmos as somas de quadrados comparáveis. Sabemos que, sob $\mbox{H}_0$, os graus de liberdade são constantes que vem muliplicando o $\sigma^2$ no cálculo do valor esperado da soma de quadrados. A partir da partição dos graus de liberdade obtidos na seção anterior, estimadores de momentos para $\sigma^2$ são dados pela divisão da soma de quadrados pelo seu respectivo grau de liberdade. Com isso, chegamos a definição dos quadrados médios:
$$QMR=\dfrac{SQR}{1}=SQR=\sum_{i=1}^n(\widehat{Y}_i-\bar{Y})^2~~~~\mbox(é\ o\ Quadrado\ Médio\ da\ Regressão)\ e$$
$$QME=\dfrac{SQE}{n-2}=\dfrac{\displaystyle\sum\limits_{i=1}^n(Y_i-\widehat{Y}_i)^2}{n-2}~~~~\mbox(é\ o\ Quadrado\ Médio\ dos\ Erros\ (dos\ Resíduos)).$$
Sob $\mbox{H}_0$, tanto o quadrado médio dos erros (QME) quanto o quadrado médio da regressão (QMR) são estimadores de momento para $\sigma^2$. Portanto, eles são comparáveis. A seguir, apresentamos algumas formas simplificados para o cálculo das somas de quadrados. Como visto em "Propriedades dos Estimadores",
$$SQE=\sum_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i=S_{YY}-\widehat{\beta}_1S_{xY}.$$
Além disso,
$$SQT=\sum_{i=1}^n(Y_i-\bar{Y})^2=S_{YY}.$$
Desta forma,
$$SQR=SQT-SQE=\sum_{i=1}^n(Y_i-\bar{Y})^2-\left(\sum_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_ 1\sum_{i=1}^n(x_i-\bar{x})Y_i\right)=\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i=\widehat{\beta}_1S_{xY},$$
e portanto,
$$QMR=\widehat{\beta}_1\sum_{i=1}^n(x_i-\bar{x})Y_i~~\mbox{e}$$
$$QME=\dfrac{\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2-\widehat{\beta}_1\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i}{n-2}.$$
Considerando o Modelo de Regressão Linear Simples, a siginificância do modelo linear pode ser avaliada através do seguinte teste de hipóteses
$$\left\{\begin{array}{ll}\mbox{H}_{0}:\beta_1=0\\\mbox {H}_{1}:\beta_1 \neq 0.\\\end{array}\right.$$ Se não rejeitamos $\mbox{H}_0$, concluímos que não existe relação linear significativa entre as variáveis explicativa (x) e dependente (Y). A estratégia para testarmos a hipótese $\mbox{H}_0$ consiste em compararmos o quadrado médio da regressão com o quadrado médio dos erros, pois sob $\mbox{H}_0$, ambos quadrados médios são estimadores de momentos para o parâmetro $\sigma^2$. Para isto precisamos do teorema de Cochran.
Sejam $Z_1,~Z_2,~...,~Z_p$ variáveis aleatórias independentes com distribuição $N(0,1)$. Conforme demonstrado na seção sobre a distribuição qui-quadrado, sabemos que
$$\sum_{i=1}^{p}Z_{i}^{2}~~\mbox{possui distribuição}~~\chi^{2}_{(p)}.$$
Se tivermos
$$\sum_{i=1}^{p}Z_{i}^{2}=Q_1 + Q_2 + ... + Q_q,$$
em que $Q_i~,~i = 1, 2,...,q~~(q \leq p)$ são somas de quadrados, cada um com $p_i$ graus de liberdade, tal que
$$p=\sum^{q}_{i=1}p_i,$$
então obtemos que $Q_i\sim \sigma^2\chi^{2}_{(p_i)}$ e são independentes para qualquer $i=1, 2,..., q$.
Sob $\mbox{H}_0,$ temos que $Y_1,\cdots ,Y_n$ é uma amostra aleatória simples da $N(\beta_0,\sigma^2)$. Com isso, obtemos da seção que aborda as propriedades dos estimadores da média e variância de uma população normal, que
$$\chi_T=\dfrac{SQT}{\sigma^2}\sim\chi_{(n-1)}^2.$$ Assim, através do teorema de Cochran, concluímos que
$$\chi_E=\dfrac{SQE}{\sigma^2}\sim\chi_{(n-2)}^2\,\mbox { e}$$
$$\chi_R=\dfrac{SQR}{\sigma^2}\sim\chi_{(1)}^2,$$
tem distribuição qui-quadrado com $n-2$ e $1$ graus de liberdade, respectivamente. Além disso, temos que $\chi_E$ e $\chi_R$ são independentes. Desta forma, propomos a estatística do teste
$$F_0=\dfrac{\dfrac{\chi_R}{1}}{\dfrac{\chi_E}{n-2}}=\dfrac{\dfrac{SQR}{\sigma^2}}{\dfrac{SQE}{(n-2)\sigma^2}} = \dfrac{QMR}{QME}.$$
Como $F_0$ é a divisão de duas variáveis qui-quadrado, cada uma dividida pelos seus graus de liberdade e são independentes, segue que $F_0$ tem distribuição F com $1$ grau de liberdade no numerador e $n-2$ graus de liberdade no denominador, denotada por $F_{(1,n-2)}$. Através da partição dos graus de liberdade obtido na seçao 1.5.2, obtemos que $$\mathbb{E}[QME]=\sigma^2 \quad \mbox{e} \quad \mathbb{E}[QMR]=\sigma^2+\beta^2_1S_{xx}.$$
Estes valores esperados nos sugerem que que valores grandes de $F_0$ nos indiam que $\beta_1$ deve ser diferente de zero, ou seja, devemos rejeitar $H_0$. Logo, rejeitamos $\mbox{H}_0$ com um nível de significância $\alpha$ se $F_0> F_{(1-\alpha,1,n-2)}$, no qual $F_{(1-\alpha,1,n-2)}$ representa o quantil $(1-\alpha)$ da distribuição $F(1,n-1)$. Outra maneira é analisar o p_valor. Neste caso, rejeitamos $\mbox{H}_0$ se $\mbox{p\_valor}=P[F_{(1;n-2)} > F_0]<\alpha$, no qual $\alpha$ é o nível de significância estabelecido para o teste.
Na tabela a seguir apresentamos a tabela ANOVA com a Estatística do Teste F.
Fonte | GL | Soma de Quadrados | Quadrado Médio | $F_0$ |
Regressão | 1 | $SQR=\widehat{\beta}_1 \displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i$ | $QMR=SQR$ | $F_0=\dfrac{QMR}{QME}$ |
Resíduo | $n-2$ | $SQE=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2 - \widehat{\beta}_1 \displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i$ | $QME=\displaystyle{\dfrac{SQE}{(n-2)}}$ | |
Total | $n-1$ | $SQT=\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2$ |
Tabela: Análise de significância usando ANOVA.
Construir a tabela da ANOVA para o exemplo dado na "Motivação 1".
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
$$SQT = S_{yy} = 706,80;$$
$$SQE = S_{yy}-\widehat{\beta}_1 S{xy} = 41,16\quad\mbox{e}$$
$$SQR=SQT-SQE=706,80-41,16=665,64.$$
Assim,
$$F_0=\dfrac{QMR}{QME}=\dfrac{\dfrac{665,64}{1}}{\dfrac{41,16}{18}}=\dfrac{665,64}{2,29}=291,10.$$
A tabela da ANOVA é então, dada por
Fonte | GL | Soma de Quadrados | Quadrado Médio | $F_0$ |
Regressão | 1 | 665,64 | $\dfrac{665,64}{1}=665,64$ | $\dfrac{665,64}{2,29}=291,10$ |
Resíduo | 18 | 41,16 | $\dfrac{41,16}{18}=2,29$ | |
Total | 19 | 706,80 |
Tabela: Análise de significância usando ANOVA.
Para $\alpha=0,05$, obtemos que $F_{(0,95;1;18)}=4,4138.$
Logo,
$$F_0=291,1> 4,4138=F_{(0,95;1;18)}$$
Além disso,
$$\mbox{P\_valor}=P[F_{1;18}> F_0]=0,000< 0,05=\alpha.$$
Portanto, rejeitamos $\mbox{H}_0$ com um nível de confiança de $95\%$ e concluímos que a variável explicativa tem correlação com a variável resposta.
Quando o p-valor é aproximadamente zero significa que, se a hipótese nula $(\text{H}_0)$ for verdadeira, a chance de $F$ exceder o valor observado $(\text{F}_0)$ é praticamente nula. Esta é uma evidência muito forte, contra $\text{H}_0.$ Um p-valor pequeno fornece evidências contra $\text{H}_0.$ Por exemplo, se fixarmos um nível de significância ($\alpha$), então poderemos dizer que uma hipótese nula é rejeitada a este nível, quando o p-valor é menor do que esse $\alpha$.
Usando o Software Action temos os seguintes resultados:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.