- Estatcamp: (16) 3376-2047 [email protected]
- [email protected] https://www.actionstat.com.br
Neste módulo apresentamos um teste estatístico para avaliar a falta de ajuste em um modelo de regressão. O teste assume que a normalidade, independência e homocedasticiade da variância dos resíduos sejam válidos. Assim, após o ajuste, é importante verificar se o modelo linear é adequado. As Figuras 3.5.1 e 3.5.2 exemplificam modelos de regressão que ficaram bem ajustados e modelos com problema de ajuste.
Na Figura 3.5.1, o valor esperado de $Y$ dado $X$ ($E[Y\mid X]$) está alinhado com a média amostral de cada nível. Nesta situação, dizemos que a falta de ajuste de um modelo linear praticamente não existe, pois a variação da amostra em torno da reta de regressão é o erro aleatório devido a variação das observações das replicas.
Figura 3.5.1: Reta de regressão perfeitamente ajustada sem Falta de Ajuste
Na Figura 3.5.2 a reta de regressão não se ajusta perfeitamente aos dados e existe uma variância grande em torno do ajuste equivocado, neste caso observamos uma falta de ajuste. Observe que a reta não passa pela média de cada réplica.
Figura 3.5.2: Reta de regressão com Falta de Ajuste
Uma maneira formal de verificar o ajuste de um modelo linear é por meio do teste de falta de ajuste.
Esse teste requer medidas repetidas para um ou mais níveis de X. A seguir apresentamos o teste tanto para o modelo linear quanto para o múltiplo.
O modelo linear simples é: $$Y_{ij}=\beta_0+\beta_1~x_i + \varepsilon ~~\left \{\begin{array}{c}i=1,2,\ldots,m\\ j=1,2,\ldots,n_i\\\end{array} \right.~~~~~(3.5.1)$$
em que,
Supondo que temos $m$ diferentes valores da variável explicativa $(x_1,~x_2,~\ldots,~x_m)$ e que temos $n_i$ réplicas da variável resposta para cada valor da variável explicativa, ou seja,
$$\left\{\begin{array}{ccccccc}x_1~~\Longrightarrow~~Y_{11}~~Y_{12}~~Y_{13}~~\ldots~~Y_{1n_1}\\x_2~~\Longrightarrow~~Y_{21}~~Y_{22}~~Y_{23}~~\ldots~~Y_{1n_2}\\x_3~~\Longrightarrow~~Y_{31}~~Y_{32}~~Y_{33}~~\ldots~~Y_{1n_3}\\\vdots~~~~~~\vdots~~~~~~\vdots~~~~~~\vdots~~~~~~\vdots~~~~~~\ddots~~~~~~\vdots\\x_m~~\Longrightarrow~~Y_{m1}~~Y_{m2}~~Y_{m3}~~\ldots~~Y_{mn_m}\\\end{array}\right.$$
Vamos quebrar a soma de quadrados do erro em dois componentes.
Para entendermos a quebra, tomamos, $$Y_{ij}-\hat{Y}_i= (Y_{ij}-\bar{Y}_{i.})+(\bar{Y}_{i.}-\hat{Y}_{i}).$$
A primeira parte reflete a variabilidade entre as observações da variável resposta para o mesmo $x_i$, enquanto que a segunda parte reflete os desvios das médias das observações (em cada $x_i$) para o modelo.
Assim, associamos a primeira parte ao erro puro (PE) e a segunda parte à falta de ajuste do modelo (lof). $$SQE=\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\hat{Y}_{i})^2$$
$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_{i.}+\bar{Y}_{i.}-\hat{Y}_i)^2$$
$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i}( (Y_{ij}-\bar{Y}_{i.})-(\hat{Y}_i - \bar{Y}_{i.}))^2$$
$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_{i.})^2-2~\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\bar{Y}_{i.})(\hat{Y}_{i}-\bar{Y}_{i.})+\sum_{i=1}^{m}\sum_{j=1}^{n_i}(\hat{Y}_{i}-\bar{Y}_{i.})^2$$
$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\bar{Y}_{i.})^2+\sum_{i=1}^{m}n_i(\hat{Y}_{i}-\bar{Y}_{i.})^2~,~~\mbox{pois}~~2~\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\bar{Y}_{i.})(\hat{Y}_{i}-\bar{Y}_{i.})~=0$$
$$=SQ_{PE}+SQ_{LOF}.$$
Assim, $$SQ_{PE}=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_{i.})^2~~~\mbox{ e }~~~SQ_{LOF} =\sum_{i=1}^{m}n_i(\hat{Y}_{i}-\bar{Y}_{i.})^2.$$
O quadrado médio devido ao Falta de Ajuste é dado por $$QM_{LOF}=\frac{SQ_{LOF}}{m-2}.$$
Assim o teste para a falta de ajuste é dada por
$$F_0=\frac{QM_{LOF}}{QM_{PE}}=\frac{\frac{(SQ_{LOF})}{(m-2)}}{\frac{SQ_{PE}}{(n-m)}}~~~~\sim ~~~~ F_{(m - 2; n - m)}$$
Temos que
$$E[QM_{LOF}] =\sigma^2 + \frac{\displaystyle\sum_{i=1}^{m}n_i [E(Y_i) - \beta_0 -\beta_1~x_i]^2}{m-2}.~~~~~(3.5.2)$$
Se a regressão linear for perfeita obtemos que $E(Y_i)=\beta_0+\beta_1~x_i$ e o segundo termos da equação (3.5.2) é zero. Neste caso, $$E[QM_{LOF}]=\sigma^2$$
Se o modelo linear não for adequado, obtemos que $E(Y_i)\neq\beta_0+\beta_1~x_i$. Neste caso, $$E[QM_{LOF}]\textgreater \sigma^2$$
Seja,
$$\left\{\begin{array}{cccl}H_0:E(Y_i)=\beta_0+\beta_1~x_i ~~\mbox{modelo linear adequado}\\H_1: E(Y_i) \neq\beta_0+\beta_1~x_i~~\mbox{modelo linear inadequado}\\\end{array}\right.$$
Se $H_0$ é verdadeiro, obtemos que $F_0 \sim F_{(m - 2; n - m)}.$
Com isso, rejeitamos $H_0$ se $F_0\textgreater F_{(\alpha,m - 2; n - m)}.$
O P-valor é dado por $$\text{P-valor}=P[F_{(m - 2; n - m)}\textgreater F_0].$$
A tabela ANOVA se resume em:
Fonte | SQ | GL | QM | Estatística |
Regressão | $SQR$ | 1 | $SQR$ | $\frac{SQR}{\frac{SQE}{n-2}}$ |
Resíduo | $SQE$ | n-2 | $\frac{SQE}{n-2}$ | |
Falta de Ajuste | $SQE - SQE(\text{puro})$ | m-2 | $\dfrac{SQE - SQE(\text{puro})}{m-2}$ | $\frac{\dfrac{SQE - SQE(\text{puro})}{m-2}}{\dfrac{SQE(\text{puro})}{n-m}}$ |
Erro Puro | $SQE(\text{puro})$ | n-m | $\dfrac{SQE(\text{puro})}{n-m}$ | |
Total | $SQT$ | n-1 |
Tabela 3.5.1: ANOVA para o teste de linearidade da regressão.
Vamos fazer a aplicação do Teste da Falta de Ajuste ao exemplo da "Motivação 1". Nesse caso de regressão simples, temos quatro níveis (m=4) da variável explicativa temperatura, com quatro replicações cada um.
Solução:
$$S_{xx}=\sum_{i=1}^{n}\sum_{j=0}^{n_i}(x_{ij}-\bar{x_{i.}})^2= 625$$
$$S_{yy}=\sum_{i=1}^{n}\sum_{j=0}^{n_i}(y_{ij}-\bar{y_{i.}})^2= 706,8$$
$$S_{xy}=\sum_{i=1}^{n}\sum_{j=0}^{n_i}(x_{ij}-\bar{x_{i.}})(y_{ij}-\bar{y_{i.}})=-645$$
Temos inicialmente $$(y_{ij}-\hat{y}_i)=(y_{ij}-\bar{y}_{i.})-(\bar{y}_{i.}-\hat{y}_{i}).$$
A partir daí podemos chegar na soma de quadrados separada para o Teste da Falta de Ajuste. $$SQE=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(y_{ij}-\bar{y}_{i.})^2 +\sum_{i=1}^{m}\sum_{j=1}^{n_i}(\hat{y}_{i}-\bar{y}_{i.})^2$$
$$=30,40+10,76=41,16.$$
$$QM_{LOF}=\frac{SQ_{LOF}}{m-2}=\frac{10,76}{2}=5,38.$$
$$QM_{PE}=\frac{SQ_{PE}}{n-m}=\frac{30,4}{16}=1,9.$$
Podemos então calcular a estatística F com base nos quadrados médios, sabendo que neste exemplo os valores de $m = 4$ e $n = 20.$ $$F_0=\frac{QM_{LOF}}{QM_{PE}}=\frac{5,38}{1,9}= 2,83~~~~\sim ~~~~F_{(2;16)}$$
Se $H_0$ é verdadeiro, obtemos que $F_0 \sim F_{(2;16)}.$ Com isso, rejeitamos $H_0$ se $F_0\textgreater F_{(2,83;2; 16)}.$
O p-valor é dado por $$\text{P-valor}=P[F_{(2; 16)}\textgreater F_0]= 0,089.$$
Fonte | SQ | GL | QM | Estatística | P-valor |
Regressão | 665,64 | 1 | 665,64 | 350,3368 | 0 |
Resíduo | 41,16 | 18 | |||
Falta de Ajuste | 10,76 | 2 | 5,38 | 2,8316 | 0,089 |
Erro Puro | 30,4 | 16 | 1,9 | ||
Total | 706,8 | 19 |
Tabela 3.5.2: Tabela da ANOVA.
Portanto, não rejeitamos a hipótese de que o modelo linear é adequado.
Usando o software Action temos os seguintes resultados:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
No caso da regressão linear múltipla, nosso modelo é dado por $$Y_{ij}=\beta_0+\beta_i~x_{ij}+\varepsilon_{ij} ~~\left \{\begin{array}{c}i=1,2,\ldots,m\\ j=1,2,\ldots,n_i\\\end{array} \right.~~~~~(3.5.3)$$
em que,
Como temos $n_i$ observações para cada combinação i das variáveis explicativas, $x_i$, temos $n=\displaystyle\sum_{i=1}^{n}n_i$ observações.
O procedimento do teste envolve particionar a soma dos quadrados dos resíduos em dois componentes (da mesma forma que no caso linear simples), $$SQ_E = SQ_{PE}+SQ_{LOF}.$$
em que $SQ_{PE}$ é a soma dos quadrados devido ao Erro Puro e $SQ_{LOF}$ é a soma dos quadrados
devido ao Falta de Ajuste.
Para desenvolver esta partição de $SQ_E$, note que o (i j)-ésimo resíduo é, $$e_{ij}=Y_{ij}-\hat{Y}_i= (Y_{ij}-\bar{Y}_{i.})+(\bar{Y}_{i.}-\hat{Y}_{i}). ~~~~~~(3.5.4)$$
em que $\bar{Y}_i$ é a média de $n_i$ observações em $x_i$.
Com os dois lados elevados ao quadrado da equação (3.5.4) e somando através de i e j, temos: $$\sum_{i=1}^m \sum_{j=1}^{n_i} (Y_{ij}-\hat{Y}_i)^2=\sum_{i=1}^m\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_i)^2+\sum_{i=1}^{m}n_i(\bar{Y}_i-\hat{Y})^2. ~~~~(3.5.5)$$
O lado esquerdo da equação (3.5.5) é a soma dos quadrados dos resíduos tradicional. Os dois componentes do lado direito medem o puro erro e o Falta de Ajuste.
A soma dos quadrados do puro erro, $$SQ_{PE}=\sum_{i=1}^m\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_i)^2, ~~~~(3.5.6)$$
é obtido através da soma dos quadrados corrigidos das observações repetidas em cada nível $x_i$ e então somamos para todos os m níveis de x.
Como temos $(n_i - 1)$ graus de liberdade para a soma dos quadrados do puro erro em cada nível $x_i$, o total de graus de liberdade associados com a soma dos quadrados do puro erro é,$\displaystyle\sum_{i=1}^m (n_i -1)=n-m.$
A soma dos quadrados da Falta de Ajuste, $$\sum_{i=1}^{m}n_i(\bar{Y}_i-\hat{Y})^2. ~~~~(3.5.7)$$
é uma soma dos desvios quadráticos ponderada entre a resposta média $\bar{Y}_i$ em cada nível e seu
correspondente valor ajustado.
Se o valor ajustado $\hat{Y}_i$ está próximo das correspondentes médias respostas $\bar{Y}_i$ então existe um grande indicativo de que o modelo linear é adequado. Se $\hat{Y}_i$ desvia muito de $\bar{Y}_i$, este por sua vez é um forte indício de que a regressão não é linear.
O valor esperado de $QM_{PE}$ é $\sigma^2$, e o valor esperado do $QM_{LOF}$ é dado por: $$E(QM_{LOF})=\sigma^2+\frac{\sum_{i=1}^m n_i \left[ E(Y_i)-\beta_0-\sum_{j=1}^k \beta_j x_{ij} \right]^2}{m-p-1}.$$
em que $p$ é o número de variáveis explicativas da regressão.
O teste estatístico para o Falta de Ajuste é, $$F_0=\frac{\frac{SQ_{LOF}}{(m-p-1)}}{\frac{SQ_{PE}}{(n-m)}}=\frac{QM_{LOF}}{QM_{PE}}.$$
Se a regressão linear for perfeita obtemos que $E(Y_i)=\beta_0+\beta_1~x_i$ e o segundo termos da equação é zero. Neste caso, $$E[QM_{LOF}]=\sigma^2.$$
Se o modelo linear não for adequado, obtemos que $E(Y_i)\neq\beta_0+\beta_1~x_i$. Neste caso, $$E[QM_{LOF}]\textgreater \sigma^2.$$
Seja, $$\left\{\begin{array}{cccl}H_0:E(Y_i) = \beta_0+\beta_1~x_i~~\mbox{modelo linear adequado}\\H_1 : E(Y_i) \neq \beta_0+\beta_1~x_i ~~\mbox{modelo linear inadequado}\\\end{array}\right.$$
Se $H_0$ é verdadeiro, obtemos que $F_0 \sim F_{(m - p-1; n - m)}.$ Com isso, rejeitamos $H_0$ se $F_0 \textgreater F_{(\alpha,m - p-1; n - m)}$. O P-valor é dado por: $$\text{P-valor}=P[F_{(m - p -1; n - m)}\textgreater F_0].$$
A Tabela ANOVA se resume em
Fonte | SQ | GL | QM | Estatística |
Regressão | $SQR$ | p | $QMR$ | $\frac{SQR}{s^2}$ |
Resíduo | $SQE$ | n-p-1 | ||
Falta de Ajuste | $SQE - SQE(puro)$ | m-p-1 | $\frac{SQE - SQE(puro)}{m-p-1}$ | $\frac{SQE - SQE(puro)}{s^2(m-p-1)}$ |
Erro Puro | $SQE(puro)$ | n-m | $\frac{SQE(puro)}{n-m}$ | |
Total | $SQT$ | n-1 |
Tabela 3.5.3: ANOVA para o teste de linearidade da regressão.
Vamos fazer a aplicação do Falta de Ajuste ao problema dado na "Motivação 2". Como necessitamos de réplicas nos níveis, vamos considerar um novo conjunto de dados conforme a Tabela 3.5.4.
Observação | Tempo | Dose | Ganho | Observação | Tempo | Dose | Ganho |
1 | 195 | 4 | 1004 | 16 | 225 | 4,7 | 1160 |
2 | 195 | 4 | 1010 | 17 | 225 | 4,3 | 1276 |
3 | 195 | 4,6 | 852 | 18 | 225 | 4,3 | 1270 |
4 | 195 | 4,6 | 849 | 19 | 225 | 4,72 | 1225 |
5 | 195 | 4,3 | 903 | 20 | 225 | 4,72 | 1220 |
6 | 195 | 4,3 | 920 | 21 | 230 | 4,3 | 1321 |
7 | 225 | 4,2 | 1272 | 22 | 230 | 4,3 | 1330 |
8 | 225 | 4,2 | 1285 | 23 | 230 | 4,5 | 1340 |
9 | 225 | 4,1 | 1270 | 24 | 230 | 4,5 | 1345 |
10 | 225 | 4,1 | 1280 | 25 | 255 | 4 | 1636 |
11 | 225 | 4,6 | 1269 | 26 | 255 | 4 | 1640 |
12 | 225 | 4,6 | 1200 | 27 | 255 | 4,6 | 1506 |
13 | 225 | 4 | 1260 | 28 | 255 | 4,6 | 1510 |
14 | 225 | 4 | 1250 | 29 | 255 | 4,3 | 1555 |
15 | 225 | 4,7 | 1146 | 30 | 255 | 4,3 | 1550 |
Tabela 3.5.4: Dados da "Motivação 2" com réplicas
Solução:
Temos inicialmente
$$ (y_{ij}-\hat{y}_i)=(y_{ij}-\bar{y}_{i.})-(\bar{y}_{i.}-\hat{y}_{i}).$$
A partir daí podemos chegar na soma de quadrados separada para o Falta de Ajuste. $$SQE=\sum_{i=1}^m\sum_{j=1}^{n_i}(y_{ij}-\bar{y}_{i.})^2 +\sum_{i=1}^m \sum_{j=1}^{n_i}(\hat{y}_{ij}-\bar{y}_{i})^2$$
$$=2942+28587=31529.$$
$$QM_{LOF}=\frac{SQ_{LOF}}{m-p-1}=\frac{28587}{12}= 2382.$$
$$QM_{PE}=\frac{SQ_{PE}}{n-m}=\frac{2942}{15} =196.$$
Podemos então, calcular a estatística F, com base nos quadrados médios, sabendo que neste exemplo os valores de m=15 e n=30. $$F_0=\frac{QM_{LOF}}{QM_{PE}} = \frac{2382}{196}= 12,15.$$
Se $H_0$ é verdadeiro, obtemos que $F_0 \sim F_{(12;15)}.$
Com isso, rejeitamos $H_0$ se $F_0\textgreater F_{(12; 15)}$.
O p-valor é dado por $$\text{P-valor}=P[F_{(12; 15)}\textgreater F_0]= 0,000.$$
Temos a seguir a Tabela ANOVA com o Falta de Ajuste dos dados do exemplo da Motivação 2, com réplicas.
Fonte | SQ | GL | QM | Estatística | P-valor |
Regressão | 1307620 | 2 | 653810 | 559,89 | 0 |
Resíduo | 31529 | 27 | 1168 | ||
Falta de Ajuste | 28587 | 12 | 2382 | 12,15 | 0 |
Erro Puro | 2942 | 15 | 196 | ||
Total | 133914 | 29 |
Tabela 3.5.5: Tabela da ANOVA.
Usando o software Action temos os seguintes resultados:
- Sem réplicas:
- Com réplicas:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.