1.7 Intervalo de Confiança para Resposta Média e Predição

Você está aqui

1.7.1 Intervalo de confiança para a resposta média

A estimativa de um intervalo de confiança para $ E\left(Y \mid X=x_0 \right)=\mu_{Y \mid x_0}= \beta_0+\beta_1 x_0 $ é de grande interesse.

Um estimador pontual de $ \mu_{Y \mid x_0} $ pode ser obtido a partir do modelo ajustado, isto é,


$$\widehat{\mu}_{Y \mid x_0}=\widehat{\beta}_0+\widehat{\beta}_1 x_0=\widehat{Y}(x_0).$$

Notemos que $ \widehat{\mu}_{Y \mid x_0} $ é uma variável aleatória normalmente distribuída já que é uma combinação linear das observações $ Y_i $. Além disso, temos que


$$E(\widehat{\mu}_{Y \mid x_0})=\beta_0+\beta_1 x_0 =\mu_{Y\mid x_0}\,\mbox{e}$$

$$Var(\widehat{\mu}_{Y\mid x_0})=Var[\bar{Y}+\widehat{\beta}_1(x_0-\bar{x})]=Var[\bar{Y}]+Var[\widehat{\beta}_1(x_0-\bar{x})]=\dfrac{\sigma^2}{n}+(x_0-\bar{x})^2\dfrac{\sigma^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}$$


$$=\sigma^2\left[\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right],$$

ou seja, $ \widehat{\mu}_{Y \mid x_0} $ é um estimador não viciado para $ E\left( Y \mid X=x_0 \right). $

Assim, temos que


$$\dfrac{\widehat{Y}(x_0)-\mu_{Y \mid x_0}}{\sqrt{\sigma^2\left(\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}}\sim N(0,1).$$

Temos também que


$$\dfrac{(n-2)QME}{\sigma^2}\sim \chi_{(n-2)}^2.$$

 

Logo,


$$t=\dfrac{N(0,1)}{\sqrt{\dfrac{\chi_{(n-2)}^2}{(n-2)}}}=\dfrac{\dfrac{\widehat{Y}(x_0)-\mu_{Y \mid x_0}}{\sqrt{\sigma^2\left(\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}}}{\sqrt{\dfrac{\dfrac{(n-2)QME}{\sigma^2}}{(n-2)}}}=\dfrac{\left[\widehat{Y}(x_0)-\mu_{Y \mid x_0}\right]}{{\sqrt{QME\left(\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}}}~~\sim t_{(n-2)},$$

Portanto, o intervalo de confiança para $ \mu_{Y \mid x_0}=E[Y \mid X=x_0] $ é dado por

$$\left[\widehat{Y}(x_0)-t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right.~;$$


$$\left.\widehat{Y}(x_0)+t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right],$$

em que $ \widehat{Y}(x_0) $ é a resposta média estimada para o nível $ x=x_0. $

Considerando vários valores para $ x_0 $ dentro do intervalo de realização dos dados, encontraremos vários valores para $ \widehat{Y}(x_0). $ Com isso, ao calcularmos o intervalo de confiança para cada um dos $ \widehat{Y}(x_0) $, temos um conjunto de intervalos de confiança que representam as bandas de confiança para a reta de regressão.

Exemplo 1.7.1

Calcular o intervalo de confiança para a reta de regressão usando, novamente, os dados do exemplo na "Motivação 1".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:

Adotemos $ x_0=220, $ ou seja, um valor pertencente à amostra. Neste caso,


}\left[ \widehat{\beta}_0+\widehat{\beta}_1 x_0 - t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right]$$


$$\left[364,18(-1,032*220)-t_{\left(0,975;18\right)}*\sqrt{2,29\left(\dfrac{1}{20}+\dfrac{(220-227,5)^2}{625}\right)}\right]$$


$$\left[364,18 (-227,04)-2,101*\sqrt{2,29(0,14)}\right]$$


$$\left[137,14-2,101*0,5658 \right]$$


$$\left[137,14-1,1887\right]$$


$$\left[135,9513\right]$$


}\left[\widehat{\beta}_0+\widehat{\beta}_1 x_0+t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(\dfrac{1}{n}+\dfrac{(x_0-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right]$$


$$\left[364,18(-1,032*220)+t_{(0,975;18)}*\sqrt{2,29\left(\dfrac{1}{20}+\dfrac{(220-227,5)^2}{625}\right)}\right]$$


$$\left[364,18(-227,04)+2,101*\sqrt{2,29(0,14)}\right]$$


$$\left[137,14+2,101*0,5658\right]$$


$$\left[137,14+1,1887\right]$$


$$\left[138,3287\right]$$

Portanto o intervalo de confiança para a resposta média é

$$[135,9513; 138,3287].$$

1.7.2 Intervalo de predição

Um modelo de regressão pode ser usado para prever a variável resposta, correspondente a valores da variável explicativa não considerada no experimento. Chamamos de predição a obtenção de um valor de $ Y $ para um $ x $ que não pertence aos dados, porém pertence ao intervalo de variação estudado. Em situações em que o valor de $ x $ não pertence ao intervalo estudado, denominamos de extrapolação.

Seja $ x_h $ um dado valor da variável explicativa $ x $ que não pertence a amostra. Então,


$$\widehat{Y}_h = \widehat{\beta}_0 + \widehat{\beta}_1 x_h,$$

é um estimador não viciado para $ Y_h = E [Y \mid x_h]=\beta_0+\beta_1 x_h, $ pois $ E(Y_h-\widehat{Y}_h)=0 $.

Chamamos de erro na previsão a diferença $ (Y_h-\widehat{Y}_h), $ cuja variância é dada por


$$Var(Y_h-\widehat{Y}_h)=Var(Y_h)+Var(\widehat{Y}_h)-2Cov(Y_h,\widehat{Y}_ h)=\sigma^2+\sigma^2\left(\dfrac{1}{n}+\dfrac{(x_h-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)$$


$$=\sigma^2\left(1+\dfrac{1}{n}+\dfrac{(x_h-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right).$$

De maneira semelhante à realizada em Intervalo de confiança para a resposta média, podemos demonstrar que

$$T = \dfrac{Y_h-\widehat{Y}_h}{\sqrt{QME\left(1+\dfrac{1}{n} + \dfrac{(x_h-\overline{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}} \sim t_{(n-2)}.$$

Assim, o intervalo de predição para $ Y_h $ é,


$$\left[\widehat{Y}_h-t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(1+\dfrac{1}{n}+\dfrac{(x_h-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right.~;$$


$$\left.\widehat{Y}_h+t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(1+\dfrac{1}{n}+\dfrac{(x_h-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right].$$

Exemplo 1.7.2

Calcular o intervalo de confiança para uma nova observação aplicando o mesmo exemplo da "Motivação 1".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:

Utilizemos $ x_h=217,5, $ isto é, um valor que não pertence à amostra mas que pertence ao intervalo de variação estudado.

Temos do Exemplo 1.2.1 que $ \widehat{\beta}_0=364,18 $ e $ \widehat{\beta}_1=-1,032. $ Assim, 


$$\widehat{Y}(x_h) = 364,18-1,032*217,5 = 139,72.$$

Logo, o intervalo de predição é


$$\left[\widehat{Y}_h-t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(1+\dfrac{1}{n}+\dfrac{(x_h-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right.~;$$


$$\left.\widehat{Y}_h+t_{\left(1-\dfrac{\alpha}{2};n-2\right)}\sqrt{QME\left(1+\dfrac{1}{n}+\dfrac{(x_h-\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}\right]$$
$$\left[139,72-t_{(0,975;18)}\sqrt{2,29*\left(1+\dfrac{1}{20}+\dfrac{(217,5-227,5)^2}{625}\right)}\right.~;$$
$$\left.139,72 + t_{(0,975;18)}\sqrt{2,29*\left(1+\dfrac{1}{20}+\dfrac{(217,5-227,5)^2}{625}\right)}\right]$$
$$\left[139,72-2,101*\sqrt{2,29*(1+0,05+0,16)}\right.~;~\left.139,72+2,101*\sqrt{2,29*(1+0,05+0,16)}\right]$$
$$\left[139,72-2,101*\sqrt{2,7668}\right.~;~\left.139,72+2,101*\sqrt{2,7668}\right]$$
$$\left[139,72-2,101*1,6634\right.~;~\left.139,72+2,101*1,6634\right]$$
$$\left[139,72-3,4946\right.~;~\left.139,72+3,4946\right]$$
$$\left[136,2253\right.~;~\left.143,2147\right]$$

 

Usando o software Action temos os seguintes resultados:

- Intervalo de 95% de confiança de Predição:

- Intervalo de 95% de confiança de Previsão do exemplo 1.7.2.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]