- Estatcamp: (16) 3376-2047 [email protected]
- [email protected] https://www.actionstat.com.br
Como visto na "Análise de Variância" no Modelo de Regressão Linear Simples, podemos decompor a variabilidade total na variabilidade do modelo mais a variabilidade dos erros.
A soma de quadrados total (SQT), considerando a notação matricial do modelo 2.2, é dada por $$SQT=\dispalystyle\sum\limits_{i=1}^n(Y_i-\overline{Y})^2=Y^\prime Y-\dfrac{Y^\prime J Y}{n}=Y^\prime\left(I-\dfrac{J}{n}\right)Y,$$
em que $$J =\left[\begin{array}{cccc}1~~1~~ \ldots~~1\\1~~1~~\ldots~~1\\\vdots~~\vdots~~\ddots~~\vdots\\1~~1~~\ldots~~1\\\end{array}\right]_{n \times n}.$$
Além disso, de "Propriedades dos Estimadores" temos que a soma de quadrados dos erros (dos resíduos) é dada por $$SQE=Y^\prime Y-\widehat{\beta}^\prime X^\prime Y=Y^\prime (I-X (X^\prime X )^{-1}X^\prime )Y=Y^\prime(I-H)Y.$$
A matriz $I$ é a matriz identidade com dimensão n x n e a matriz $H=X [X^\prime X]^{-1}X^\prime$ é chamada matriz chapéu que transforma o vetor de respostas Y no vetor de valores ajustados $\widehat{Y}$, pois $$\widehat{Y}=X\widehat{\beta}=X[X^\prime X]^{-1}X^\prime Y=HY.$$
Desta forma, obtemos que a soma de quadrados da regressão é dada por $$SQR=SQT-SQE=\left(Y^\prime Y-\dfrac{Y^\prime JY}{n}\right)-(Y^\prime Y-\widehat{\beta}^\prime X^\prime Y)=\widehat{\beta}^\prime X^\prime Y-\dfrac{Y^\prime JY}{n}$$ $$=Y^\prime X(X^\prime X)^{-1}X^\prime Y-\dfrac{Y^\prime JY}{n}=Y^\prime \left(X(X^\prime X)^{-1}X^\prime -\dfrac{J}{n}\right)Y=Y^\prime \left(H-\dfrac{J}{n}\right)Y.$$
Notemos que as somas de quadrados da Análise de Variância no caso do MRLM são representadas na forma quadrática Y'AY, em que A é uma matriz simétrica.
Vale ressaltar que
Com os valores das somas de quadrados, podemos obter a Tabela Anova.
Fonte | Soma de quadrados | GL | Quadrado Médio |
Regressão | $SQR$ | $p$ | $\dfrac{SQR}{p}$ |
Erro (Resíduo) | $SQE$ | $n-p-1$ | $\dfrac{SQE}{n-p-1}$ |
Total | $SQT$ | $n-1$ |
Tabela 2.4.1: Tabela da ANOVA
Em problemas de regressão linear múltipla, certos testes de hipóteses sobre os parâmetros do modelo são úteis para verificar a "adequabilidade" do modelo.
2.4.2.1 Teste para significância da regressão
O teste para significância da regressão é um teste para determinar se há uma relação linear entre a variável resposta $Y$ e algumas das variáveis regressora $x_1,x_2,\dots,x_p$. Consideremos as hipóteses $$\left\lbrace \begin{array}{ll}H_0 :~~\beta_1=\beta_2=\ldots=\beta_p=0\\H_1:~~\beta_j\neq 0 ~~\mbox{ para qualquer}~j~=~1, \cdots, p\\\end{array}\right.$$
Se rejeitamos $H_0$, temos que ao menos uma variável explicativa $x_1,x_2,\dots,x_p$ contribui significativamente para o modelo.
Sob $H_0,$ temos pelo "Teorema - Distribuição de forma quadrática" que $$\dfrac{SQR}{\sigma^2} \sim \chi^2_{(p)}~~~~\mbox{e~que}~~~~\dfrac{SQE}{\sigma^2} \sim \chi^2_{(n-p-1)}.$$
Além disso, temos que $SQR$ e $SQE$ são independentes. Logo, concluímos sob $H_0$ que
$$F_0=\dfrac{\dfrac{SQR}{p}}{\dfrac{SQE}{n-p-1}}= \dfrac{QMR}{QME}~\sim ~F_{(p ; \, n-p-1)}.$$
Portanto, rejeitamos $H_0$ se $F_0 \textgreater F_{(1-\alpha ; \, p ; \, n-p-1)}$ e se $p-valor=P[F_{p;n-p-1} \textgreater F_0]\textless\alpha,$ em que $\alpha$ é o nível de significância considerado. Geralmente adotamos $\alpha=5\%.$
A Tabela Anova com a estatística F é dada por
Fonte | Soma de quadrados | GL | Quadrado Médio | $F_0$ |
Regressão | $SQR$ | $p$ | $QMR=\dfrac{SQR}{p}$ | $F_0=\dfrac{QMR}{QME}$ |
Erro (Resíduo) | $SQE$ | $n-p-1$ | $QME=\dfrac{SQE}{n-p-1}$ | |
Total | $SQT$ | $n-1$ |
Tabela 2.4.2: Tabela da ANOVA.
Construir a tabela da ANOVA considerando os dados transformados no "Exemplo 2.2.3".
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
Temos as hipóteses: $$\left\lbrace \begin{array}{ll}H_0:~~\beta_1=\beta_2=0\\H_1:~~\beta_j\neq 0 ~~\mbox{para qualquer}~j~=~1, \cdots, p\end{array}\right.$$
As somas de quadrados são $$SQT=y^\prime y-\dfrac{\left( \displaystyle\sum\limits_{i=1}^{14} y_i\right)^2}{14}$$
$$=22.527.889 - \dfrac{(17.495)^2}{14}$$
$$= 665.387,2.$$
$$SQR= \widehat{\beta}^\prime X^\prime y - \dfrac{\left(\displaystyle\sum\limits_{i=1}^{14}y_i\right)^2}{14}$$
$$= 22.514.467,9 - 21.862.501,8$$
$$= 651.966,1.$$
$$SQE= SQT-SQR$$
$$= 665.387,2 - 651.966,1$$
$$= 13.421,1.$$
Resumidamente temos,
Fonte | Soma de quadrados | GL | Quadrado Médio | $F_0$ | $P-Valor$ |
Regressão | $651.966,1$ | $~2~$ | $\dfrac{651.966,1}{2}=325.983,0$ | $267,18$ | $0,00$ |
Erro (Resíduo) | $13.421,2$ | $~11~$ | $\dfrac{13.421,2}{11}=1.220,1$ | ||
Total | $655.387,2$ | $~13~$ |
Tabela 2.4.3: Tabela da ANOVA
Para $\alpha=0,05$, temos que $F_0 = 267,18 \textgreater F_{0,95;2;11}=3,98$. Analisando o p-valor, temos que p_valor$= P[F_{2;11} \textgreater F_0] = 0,000$. Assim, rejeitamos $H_0$ com um nível de confiança de 95%.
2.4.3.1 Coeficiente de Determinação Múltiplo - $R^2$
O coeficiente de determinação múltiplo é dado por $$R^2 = \frac{SQR}{SQT} = 1-\frac{SQE}{SQT}.$$
Ele representa a proporção da variabilidade de Y explicada pelas variáveis regressoras. Assim, quanto mais próximo $R^2$ estiver de 1, maior é a explicação da variável resposta pelo modelo ajustado.
2.4.3.2 Coeficiente de Determinação Ajustado - $R^2_a$
O coeficiente de determinação ajustado é definido como $$R^2_a=1-\left(\frac{n-1}{n-p}\right)(1-R^2).$$
Este coeficiente ajustado pode ser menor quando outra variável X entra no modelo, pois a diminuição na SQE pode ser compensada pela perda de 1 grau de liberdade no denominador n-p.
Considerando o exemplo na "Motivação 2", calcular o coeficiente de determinação $(R^2)$ e o coeficiente de determinação ajustado $(R^2_{a})$.
Solução: $$R^2 = \frac{SQR}{SQT} = \frac{651.966,1}{665.387,2}=0,9798$$
$$R^2_{a}=1-\left(\frac{13}{11}\right)(1-0,9798)= 0,9762.$$
Usando o software Action temos os seguintes resultados:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
O Action constrói a tabela da ANOVA de forma diferente da calculada no exemplo 2.4.1. Para obtermos os mesmos resultados do exemplo 2.4.1, basta proceder da seguinte forma:
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.