3.5 Teste da Falta de Ajuste (Lack of Fit)

Você está aqui

Neste módulo apresentamos um teste estatístico para avaliar a falta de ajuste em um modelo de regressão. O teste assume que a normalidade, independência e homocedasticiade da variância dos resíduos sejam válidos. Assim, após o ajuste, é importante verificar se o modelo linear é adequado. As Figuras 3.5.1 e 3.5.2  exemplificam modelos de regressão que ficaram bem ajustados e modelos com problema de ajuste. 

Na Figura 3.5.1, o valor esperado de $ Y $ dado $ X $ ($ E[Y\mid X] $) está alinhado com a média amostral de cada nível. Nesta situação, dizemos que a falta de ajuste de um modelo linear praticamente não existe, pois a variação da amostra em torno da reta de regressão é o erro aleatório devido a variação das observações das replicas.

Figura 3.5.1: Reta de regressão perfeitamente ajustada sem Falta de Ajuste

Na Figura 3.5.2 a reta de regressão não se ajusta perfeitamente aos dados e existe uma variância grande em torno do ajuste equivocado, neste caso observamos uma falta de ajuste. Observe que a reta não passa pela média de cada réplica.

Figura 3.5.2: Reta de regressão com Falta de Ajuste

Uma maneira formal de verificar o ajuste de um modelo linear é por meio do teste de falta de ajuste.

Esse teste requer medidas repetidas para um ou mais níveis de X. A seguir apresentamos o teste tanto para o modelo linear quanto para o múltiplo.

3.5.1 Análise da falta de ajuste nos modelos de Regressão Linear Simples

O modelo linear simples é: 

$$Y_{ij}=\beta_0+\beta_1~x_i + \varepsilon ~~\left \{\begin{array}{c}i=1,2,\ldots,m\\ j=1,2,\ldots,n_i\\\end{array} \right.~~~~~(3.5.1)$$

em que,

  • $ Y_{ij} $ : representa a j-ésima observação para o i-ésimo valor da variável;
  • $ \beta_0 $ : onde a reta intercepta o eixo y;
  • $ \beta_1 $ : representa a inclinação da reta de regressão;
  • $ x_i $: representa o i-ésimo valor da variável explicativa;
  • $ \varepsilon_{ij} $: representa o erro aleatório associado à i-ésima e j-ésima observação;
  • $ n_i $ representa o número de observações para o i-ésimo valor de x.

Supondo que temos $ m $ diferentes valores da variável explicativa $ (x_1,~x_2,~\ldots,~x_m) $ e que temos $ n_i $ réplicas da variável resposta para cada valor da variável explicativa, ou seja,

$$\left\{\begin{array}{ccccccc}x_1~~\Longrightarrow~~Y_{11}~~Y_{12}~~Y_{13}~~\ldots~~Y_{1n_1}\\x_2~~\Longrightarrow~~Y_{21}~~Y_{22}~~Y_{23}~~\ldots~~Y_{1n_2}\\x_3~~\Longrightarrow~~Y_{31}~~Y_{32}~~Y_{33}~~\ldots~~Y_{1n_3}\\\vdots~~~~~~\vdots~~~~~~\vdots~~~~~~\vdots~~~~~~\vdots~~~~~~\ddots~~~~~~\vdots\\x_m~~\Longrightarrow~~Y_{m1}~~Y_{m2}~~Y_{m3}~~\ldots~~Y_{mn_m}\\\end{array}\right.$$

Vamos quebrar a soma de quadrados do erro em dois componentes.

Para entendermos a quebra, tomamos, 

$$Y_{ij}-\hat{Y}_i= (Y_{ij}-\bar{Y}_{i.})+(\bar{Y}_{i.}-\hat{Y}_{i}).$$

A primeira parte reflete a variabilidade entre as observações da variável resposta para o mesmo $ x_i $, enquanto que a segunda parte reflete os desvios das médias das observações (em cada $ x_i $) para o modelo.

Assim, associamos a primeira parte ao erro puro (PE) e a segunda parte à falta de ajuste do modelo (lof).    

$$SQE=\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\hat{Y}_{i})^2$$

$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_{i.}+\bar{Y}_{i.}-\hat{Y}_i)^2$$

$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i}( (Y_{ij}-\bar{Y}_{i.})-(\hat{Y}_i - \bar{Y}_{i.}))^2$$

$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_{i.})^2-2~\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\bar{Y}_{i.})(\hat{Y}_{i}-\bar{Y}_{i.})+\sum_{i=1}^{m}\sum_{j=1}^{n_i}(\hat{Y}_{i}-\bar{Y}_{i.})^2$$

$$=\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\bar{Y}_{i.})^2+\sum_{i=1}^{m}n_i(\hat{Y}_{i}-\bar{Y}_{i.})^2~,~~\mbox{pois}~~2~\sum_{i=1}^{m}\sum_{j=1}^{n_i} (Y_{ij}-\bar{Y}_{i.})(\hat{Y}_{i}-\bar{Y}_{i.})~=0$$

$$=SQ_{PE}+SQ_{LOF}.$$

Assim, 

$$SQ_{PE}=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_{i.})^2~~~\mbox{ e }~~~SQ_{LOF} =\sum_{i=1}^{m}n_i(\hat{Y}_{i}-\bar{Y}_{i.})^2.$$

O quadrado médio devido ao Falta de Ajuste é dado por 

$$QM_{LOF}=\frac{SQ_{LOF}}{m-2}.$$

Assim o teste para a falta de ajuste é dada por

$$F_0=\frac{QM_{LOF}}{QM_{PE}}=\frac{\frac{(SQ_{LOF})}{(m-2)}}{\frac{SQ_{PE}}{(n-m)}}~~~~\sim ~~~~ F_{(m - 2; n - m)}$$

Temos que

$$E[QM_{LOF}] =\sigma^2 + \frac{\displaystyle\sum_{i=1}^{m}n_i [E(Y_i) - \beta_0 -\beta_1~x_i]^2}{m-2}.~~~~~(3.5.2)$$

Se a regressão linear for perfeita obtemos que $ E(Y_i)=\beta_0+\beta_1~x_i $ e o segundo termos da equação (3.5.2) é zero. Neste caso,

$$E[QM_{LOF}]=\sigma^2$$

Se o modelo linear não for adequado, obtemos que $ E(Y_i)\neq\beta_0+\beta_1~x_i $. Neste caso, 

$$E[QM_{LOF}]\textgreater \sigma^2$$

Seja,

 E(Y_i) \neq\beta_0+\beta_1~x_i~~\mbox{modelo linear inadequado}\\\end{array}\right.$$

Se $ H_0 $ é verdadeiro, obtemos que $ F_0 \sim F_{(m - 2; n - m)}. $

Com isso, rejeitamos $ H_0 $ se $ F_0\textgreater F_{(\alpha,m - 2; n - m)}. $

O P-valor é dado por 

$$\text{P-valor}=P[F_{(m - 2; n - m)}\textgreater F_0].$$

A tabela ANOVA se resume em:

Fonte SQ GL QM Estatística
Regressão $ SQR $ 1 $ SQR $ $ \frac{SQR}{\frac{SQE}{n-2}} $
Resíduo $ SQE $ n-2  $ \frac{SQE}{n-2} $  
Falta de Ajuste $ SQE - SQE(\text{puro}) $ m-2 $ \dfrac{SQE - SQE(\text{puro})}{m-2} $ $ \frac{\dfrac{SQE - SQE(\text{puro})}{m-2}}{\dfrac{SQE(\text{puro})}{n-m}} $
Erro Puro $ SQE(\text{puro}) $ n-m $ \dfrac{SQE(\text{puro})}{n-m} $  
Total $ SQT $ n-1    

Tabela 3.5.1: ANOVA para o teste de linearidade da regressão.

Exemplo 3.5.1

Vamos fazer a aplicação do Teste da Falta de Ajuste ao exemplo da "Motivação 1". Nesse caso de regressão simples, temos quatro níveis (m=4) da variável explicativa temperatura, com quatro replicações cada um.

Solução:


$$S_{xx}=\sum_{i=1}^{n}\sum_{j=0}^{n_i}(x_{ij}-\bar{x_{i.}})^2= 625$$

$$S_{yy}=\sum_{i=1}^{n}\sum_{j=0}^{n_i}(y_{ij}-\bar{y_{i.}})^2= 706,8$$

$$S_{xy}=\sum_{i=1}^{n}\sum_{j=0}^{n_i}(x_{ij}-\bar{x_{i.}})(y_{ij}-\bar{y_{i.}})=-645$$

Temos inicialmente 

$$(y_{ij}-\hat{y}_i)=(y_{ij}-\bar{y}_{i.})-(\bar{y}_{i.}-\hat{y}_{i}).$$

A partir daí podemos chegar na soma de quadrados separada para o Teste da Falta de Ajuste. 

$$SQE=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(y_{ij}-\bar{y}_{i.})^2 +\sum_{i=1}^{m}\sum_{j=1}^{n_i}(\hat{y}_{i}-\bar{y}_{i.})^2$$


$$=30,40+10,76=41,16.$$


$$QM_{LOF}=\frac{SQ_{LOF}}{m-2}=\frac{10,76}{2}=5,38.$$


$$QM_{PE}=\frac{SQ_{PE}}{n-m}=\frac{30,4}{16}=1,9.$$

Podemos então calcular a estatística F com base nos quadrados médios, sabendo que neste exemplo os valores de $ m = 4 $ e $ n = 20. $ 

$$F_0=\frac{QM_{LOF}}{QM_{PE}}=\frac{5,38}{1,9}= 2,83~~~~\sim ~~~~F_{(2;16)}$$

Se $ H_0 $ é verdadeiro, obtemos que $ F_0 \sim F_{(2;16)}. $ Com isso, rejeitamos $ H_0 $ se $ F_0\textgreater F_{(2,83;2; 16)}. $

O p-valor é dado por 

$$\text{P-valor}=P[F_{(2; 16)}\textgreater F_0]= 0,089.$$

Fonte SQ GL QM Estatística P-valor
Regressão 665,64 1 665,64 350,3368 0
Resíduo 41,16 18      
Falta de Ajuste 10,76 2 5,38 2,8316 0,089
Erro Puro 30,4 16 1,9    
Total 706,8 19  

Tabela 3.5.2: Tabela da ANOVA.

Portanto, não rejeitamos a hipótese de que o modelo linear é adequado.

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

 

3.5.2 Análise da falta de ajuste nos modelos na Regressão Linear Múltipla

No caso da regressão linear múltipla, nosso modelo é dado por 

$$Y_{ij}=\beta_0+\beta_i~x_{ij}+\varepsilon_{ij} ~~\left \{\begin{array}{c}i=1,2,\ldots,m\\ j=1,2,\ldots,n_i\\\end{array} \right.~~~~~(3.5.3)$$

em que,

  • $ Y_{ij} $ : representa a j-ésima observação para o i-ésimo valor da variável;
  • $ \beta_0 $ : onde o hiperplano intercepta o eixo y;
  • $ \beta_i $ : é o coeficiente da i-ésima variável regressora ($ x_i $);
  • $ x_{ij} $: o j-ésimo valor da variável explicativa $ i $;
  • $ \varepsilon_{ij} $: erro aleatório associado à j-ésima observação;
  • $ n_i $ representa o número de observações para o i-ésimo valor de x.

Como temos $ n_i $ observações para cada combinação i das variáveis explicativas, $ x_i $, temos $ n=\displaystyle\sum_{i=1}^{n}n_i $ observações.

O procedimento do teste envolve particionar a soma dos quadrados dos resíduos em dois componentes (da mesma forma que no caso linear simples), 

$$SQ_E = SQ_{PE}+SQ_{LOF}.$$

em que $ SQ_{PE} $ é a soma dos quadrados devido ao Erro Puro e $ SQ_{LOF} $ é a soma dos quadrados
devido ao Falta de Ajuste.

Para desenvolver esta partição de $ SQ_E $, note que o (i j)-ésimo resíduo é,  

$$e_{ij}=Y_{ij}-\hat{Y}_i= (Y_{ij}-\bar{Y}_{i.})+(\bar{Y}_{i.}-\hat{Y}_{i}). ~~~~~~(3.5.4)$$

em que $ \bar{Y}_i $ é a média de $ n_i $ observações em $ x_i $.

Com os dois lados elevados ao quadrado da equação (3.5.4) e somando através de i e j, temos: 

$$\sum_{i=1}^m \sum_{j=1}^{n_i} (Y_{ij}-\hat{Y}_i)^2=\sum_{i=1}^m\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_i)^2+\sum_{i=1}^{m}n_i(\bar{Y}_i-\hat{Y})^2. ~~~~(3.5.5)$$

O lado esquerdo da equação (3.5.5) é a soma dos quadrados dos resíduos tradicional. Os dois componentes do lado direito medem o puro erro e o Falta de Ajuste.

A soma dos quadrados do puro erro,  

$$SQ_{PE}=\sum_{i=1}^m\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y}_i)^2, ~~~~(3.5.6)$$

é obtido através da soma dos quadrados corrigidos das observações repetidas em cada nível $ x_i $ e então somamos para todos os m níveis de x.

Como temos $ (n_i - 1) $ graus de liberdade para a soma dos quadrados do puro erro em cada nível $ x_i $, o total de graus de liberdade associados com a soma dos quadrados do puro erro é,$ \displaystyle\sum_{i=1}^m (n_i -1)=n-m. $

A soma dos quadrados da Falta de Ajuste, 

$$\sum_{i=1}^{m}n_i(\bar{Y}_i-\hat{Y})^2. ~~~~(3.5.7)$$

é uma soma dos desvios quadráticos ponderada entre a resposta média $ \bar{Y}_i $ em cada nível e seu
correspondente valor ajustado.

Se o valor ajustado $ \hat{Y}_i $ está próximo das correspondentes médias respostas $ \bar{Y}_i $ então existe um grande indicativo de que o modelo linear é adequado. Se $ \hat{Y}_i $ desvia muito de $ \bar{Y}_i $, este por sua vez é um forte indício de que a regressão não é linear.

O valor esperado de $ QM_{PE} $ é $ \sigma^2 $, e o valor esperado do $ QM_{LOF} $ é dado por: 

$$E(QM_{LOF})=\sigma^2+\frac{\sum_{i=1}^m n_i \left[ E(Y_i)-\beta_0-\sum_{j=1}^k \beta_j x_{ij} \right]^2}{m-p-1}.$$

em que $ p $ é o número de variáveis explicativas da regressão.

O teste estatístico para o Falta de Ajuste é, 

$$F_0=\frac{\frac{SQ_{LOF}}{(m-p-1)}}{\frac{SQ_{PE}}{(n-m)}}=\frac{QM_{LOF}}{QM_{PE}}.$$

Se a regressão linear for perfeita obtemos que $ E(Y_i)=\beta_0+\beta_1~x_i $ e o segundo termos da equação é zero. Neste caso,

$$E[QM_{LOF}]=\sigma^2.$$

Se o modelo linear não for adequado, obtemos que $ E(Y_i)\neq\beta_0+\beta_1~x_i $. Neste caso, 

$$E[QM_{LOF}]\textgreater \sigma^2.$$

Seja, 

 E(Y_i) \neq \beta_0+\beta_1~x_i ~~\mbox{modelo linear inadequado}\\\end{array}\right.$$

Se $ H_0 $ é verdadeiro, obtemos que $ F_0 \sim F_{(m - p-1; n - m)}. $ Com isso, rejeitamos $ H_0 $ se $ F_0 \textgreater F_{(\alpha,m - p-1; n - m)} $. O P-valor é dado por: 

$$\text{P-valor}=P[F_{(m - p -1; n - m)}\textgreater F_0].$$

A Tabela ANOVA se resume em

Fonte SQ GL QM Estatística
Regressão $ SQR $ p $ QMR $ $ \frac{SQR}{s^2} $
Resíduo $ SQE $ n-p-1    
Falta de Ajuste $ SQE - SQE(puro) $ m-p-1 $ \frac{SQE - SQE(puro)}{m-p-1} $ $ \frac{SQE - SQE(puro)}{s^2(m-p-1)} $
Erro Puro $ SQE(puro) $ n-m $ \frac{SQE(puro)}{n-m} $  
Total $ SQT $ n-1  

Tabela 3.5.3: ANOVA para o teste de linearidade da regressão.

 

Exemplo 3.5.2

Vamos fazer a aplicação do Falta de Ajuste ao problema dado na "Motivação 2". Como necessitamos de réplicas nos níveis, vamos considerar um novo conjunto de dados conforme a Tabela 3.5.4.

Observação Tempo Dose Ganho Observação Tempo Dose Ganho
1 195 4 1004 16 225 4,7 1160
2 195 4 1010 17 225 4,3 1276
3 195 4,6 852 18 225 4,3 1270
4 195 4,6 849 19 225 4,72 1225
5 195 4,3 903 20 225 4,72 1220
6 195 4,3 920 21 230 4,3 1321
7 225 4,2 1272 22 230 4,3 1330
8 225 4,2 1285 23 230 4,5 1340
9 225 4,1 1270 24 230 4,5 1345
10 225 4,1 1280 25 255 4 1636
11 225 4,6 1269 26 255 4 1640
12 225 4,6 1200 27 255 4,6 1506
13 225 4 1260 28 255 4,6 1510
14 225 4 1250 29 255 4,3 1555
15 225 4,7 1146 30 255 4,3 1550

Tabela 3.5.4: Dados da "Motivação 2" com réplicas

Solução:

Temos inicialmente

$$ (y_{ij}-\hat{y}_i)=(y_{ij}-\bar{y}_{i.})-(\bar{y}_{i.}-\hat{y}_{i}).$$

A partir daí podemos chegar na soma de quadrados separada para o Falta de Ajuste. 

$$SQE=\sum_{i=1}^m\sum_{j=1}^{n_i}(y_{ij}-\bar{y}_{i.})^2 +\sum_{i=1}^m \sum_{j=1}^{n_i}(\hat{y}_{ij}-\bar{y}_{i})^2$$

$$=2942+28587=31529.$$

$$QM_{LOF}=\frac{SQ_{LOF}}{m-p-1}=\frac{28587}{12}= 2382.$$

$$QM_{PE}=\frac{SQ_{PE}}{n-m}=\frac{2942}{15} =196.$$

Podemos então, calcular a estatística F, com base nos quadrados médios, sabendo que neste exemplo os valores de m=15 e n=30. 

$$F_0=\frac{QM_{LOF}}{QM_{PE}} = \frac{2382}{196}= 12,15.$$

Se $ H_0 $ é verdadeiro, obtemos que $ F_0 \sim F_{(12;15)}. $

Com isso, rejeitamos $ H_0 $ se $ F_0\textgreater F_{(12; 15)} $.

O p-valor é dado por 

$$\text{P-valor}=P[F_{(12; 15)}\textgreater F_0]= 0,000.$$

Temos a seguir a Tabela ANOVA com o Falta de Ajuste dos dados do exemplo da Motivação 2, com réplicas.

Fonte SQ GL QM Estatística P-valor
Regressão 1307620 2 653810 559,89 0
Resíduo 31529 27  1168    
Falta de Ajuste 28587 12 2382 12,15 0
Erro Puro 2942 15 196    
Total 133914 29  

Tabela 3.5.5: Tabela da ANOVA.

Usando o software Action temos os seguintes resultados:

- Sem réplicas:

- Com réplicas:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]