2.5 Testes Individuais e Intervalos de Confiança para os Parâmetros

Você está aqui

2.5.1 Testes individuais para os coeficientes da regressão

Testes de hipóteses individuais para os coeficientes da regressão são fundamentais para se determinar se cada variável explicativa é importante para o modelo de regressão. Por exemplo, o modelo pode ser mais eficaz com a inclusão ou com a exclusão de novas variáveis.

Adicionar uma variável ao modelo de regressão sempre causa um aumento na soma dos quadrados da regressão e um decréscimo na soma dos quadrados do erro. Entretanto, a adição de variáveis regressoras também aumenta a variância do valor ajustado $ \widehat{Y} $. Por isso, devemos ter cuidado para incluir somente variáveis regressoras que realmente explicam a variável resposta.

As hipóteses para testar a significância de qualquer coeficiente de regressão individualmente são dadas por, 

\beta_j \neq0\\\end{array} \right.;~~j = 0, 1, \ldots, p.$$

Se $ H_0 $ ($ \beta_j =0 $) não é rejeitada, então podemos retirar $ x_j $ do modelo já que esta variável não influencia a resposta de forma significativa.

Sabemos que $ Y\sim N_p(X\beta;\sigma^2I_p) $ e que $ \widehat{\beta}=(X^\prime X)^{-1}X^\prime Y $. Como $ \widehat{\beta} $ é combinação linear de distribuições normais, segue que $ \widehat{\beta} $ também é normal, isto é 

$$\widehat{\beta}\sim N_p(\beta;\sigma^2C),$$

em que $ C=(X^\prime X)^{-1} $. Logo, temos que $ \widehat{\beta}_j \sim N(\beta_j;\sigma^2C_{jj}) $ com $ C_{jj} $ sendo o $ j $-ésimo elemento da diagonal de $ (X^\prime X)^{-1} $, $ j=0,1,\dots,p $. Portanto, obtemos 

$$N_0=\dfrac{\widehat{\beta}_ j-\beta_j}{\sqrt{\sigma^2 C_{jj}}} \sim N(0,1).$$

Temos também que  

$$\dfrac{(n-p-1)\widehat{\sigma}^2}{\sigma^2} \sim \chi ^2_{(n-p-1)},$$

independente de $ N_0 $. Logo, sob $ H_0 $ temos que a estatística de teste é dada por  

$$t_0= \dfrac{\dfrac{\widehat{\beta_j}}{\sqrt{\sigma^2 C_{jj}}}}{\sqrt{\dfrac{(n-p-1)\widehat{\sigma}^2}{\sigma^2}}}=\dfrac{\widehat{\beta}_j}{\sqrt{\widehat{\sigma}^2C_{jj}}} \sim t_{(n-p-1)},~~~~~~(2.5.1.1)$$

 

A hipótese nula \beta_j =0 $ é rejeitada se

$$\mid t_0\mid \textgreater t_{(1-\dfrac{\alpha}{2},\,n-p-1)}.$$

Considerando o p-valor, dado por meio da expressão

$$2*P\left( t_{n-p-1}\textgreater \mid t_0 \mid \right),$$

rejeitamos $ H_0 $ se p_valor $ \textless~\alpha $.

O denominador é frequentemente chamado de erro padrão de $ \widehat{\beta}_j $ e denotado por 

$$se_{(\widehat{\beta}_j)}=\sqrt{\widehat{\sigma}^2C_{jj}}.$$

2.5.2 Intervalo de confiança para os coeficientes da regressão

Considerando a estatística dada em (2.5.1.1), um intervalo com $ 100(1-\alpha)\% $ de confiança para os coeficientes da regressão $ \beta_j,~~~ j=0,1,2,\ldots,p, $ é dado por 

$$\left[\widehat{\beta}_j-t_{\left(\dfrac{\alpha}{2},n-p-1\right)}{\sqrt{\widehat{\sigma}^2 C_{jj}}}\,;\,\widehat{\beta}_j+t_{\left(\dfrac{\alpha}{2},n-p-1\right)}{\sqrt{\widehat{\sigma}^2 C_{jj}}}\, \right].$$

2.5.3 Testes parciais para os coeficientes da regressão (Teste F Parcial)

Em alguma situações estamos interessados em saber se um subconjunto de variaveis explicativas são importantes para o modelo de regressão. Considere o modelo escrito na forma matricial com k covariaveis

$$y=X\beta + \varepsilon$$

em que, dado $ p=k+1 $

  • $ y $ é um vetor representando a variável resposta com dimensão $ n\times 1 $;
  • $ X $ é uma matriz  com dimensão $ n \times p $
  • $ \beta $ é o vetor de parâmetros com dimensão $ n \times 1 $;
  • $ \varepsilon $ é um vetor com os erros do modelo de dimensão $ n \times 1 $

Queremos determinar se um subconjunto de covariaveis são significantes ao modelo de regressão. Para isso, considere a seguinte partição do vetor de parâmetros $ \beta $:

$$\beta = \left[ \begin{array} \underline{\beta_1} \\ \beta_2 \end{array} \right]$$

em que $ \beta_1 $ é um vetor de parâmetros com dimensão $ (p-r)\times 1 $ e $ \beta_2 $ é o complemento de $ \beta_1 $, ou seja, um vetor de parâmetros com dimensão $ r \times 1 $. Portanto, estamos interessados em testar

 \beta_2 \neq 0 \end{array} \right $$

Utilizando a partição de $ \beta $ podemos reescrever o modelo

$$Y= X\beta + \varepsilon = X_1\beta_1 + X_2\beta_2 + \varepsilon,~~~~~~(2.5.3.1)$$

em que $ X_1 $ é uma matriz com dimensão $ n\times (p-r) $ que representa as colunas de $ X $ associadas aos parametros do vetor $ \beta_1 $$ X_2 $ é uma matriz com dimensão $ n \times r $ que representa as colunas da matrix $ X $ associadas ao vetor $ \beta_2 $. Denominamos o modelo 2.5.3.1 por modelo completo.

Para o modelo completo, temos que

$$SQR(\beta)=\widehat{\beta}^{\prime} X^{\prime} y-\dfrac{Y^{\prime}JY}{n}$$

e

$$QME=\dfrac{y^{\prime} y - \widehat{\beta}^{\prime} X^{\prime} y}{n-p}$$

O modelo sob a hipótese nula \beta_2 = 0 $ verdadeira é dado por

$$Y = X_1\beta_1 + \varepsilon,~~~~~~~~~~(2.5.3.2)$$

Denominamos o modelo 2.5.3.2 como modelo reduzido. Portanto temos

$$SQR(\beta_1)=\widehat{\beta_1}^{\prime} X_1^{\prime} y-\dfrac{Y^{\prime}JY}{n}$$

Desta forma, a soma dos quadrados da regressão referente a $ \beta_2 $ dado que $ \beta_1 $  ja esta no modelo pode ser determinada por

$$SQR(\beta_2|\beta_1) = SQR(\beta) - SQR(\beta_1)$$

em que $ SQR(\beta_2|\beta_1) $ possui $ p-(p-r)=r $ graus de liberdade.  Essa soma de quadrados da regressão parcial representa a quantidade adicional que teríamos na soma de quadrados da regressão ao adicionar $ r $ covariaveis no modelo reduzido. Então, podemos testar a hipótese nula \beta_2=0 $ utilizando a estatística

$$F_0 = \dfrac{SQR(\beta_2|\beta_1)/r}{QME} \sim F_{r, (n-p)}~~~~~~~~~(2.5.3.3)$$

Portanto se $ F_0 \textgreater F_{\alpha, r, (n-p)} $ rejeitamos a hipótese nula  ao nível de significância $ \alpha $ e concluímos que pelo menos um dos parâmetros contidos no vetor $ \beta_2 $ é diferente de zero. Na literatura o teste 2.5.3.3 é conhecido como Teste F Parcial.

 

Exemplo 2.5.1

Para ilustrar o uso da estatística $ t $, utilizamos novamente os dados transformados no "Exemplo 2.2.3". Vamos agora construir a estatística $ t $ para as hipóteses: \beta_0=0 $, \beta_1=0 $ e \beta_2=0 $.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:

Do "Exemplo 2.2.3" temos que

Assim, temos que $ C_{00}=0,0720 $, $ C_{11}=0,1660 $ e $ C_{22}=0,1429 $. Além disso, pelo "Exemplo 2.3.1" segue que $ \widehat{\sigma}^2=1.220,10 $.  Logo, as estatísticas $ t $ são dadas por

Para \beta_0=0, $ 

$$t_0=\dfrac{\widehat{\beta}_0}{\sqrt{\widehat{\sigma}^2~C_{00}}}$$

$$=\dfrac{1.242,31}{\sqrt{(1.220,1)(0,0720)}}=\dfrac{1.242,31}{9,3745}=132,521.$$

Para \beta_1=0, $ 

$$t_0=\dfrac{\widehat{\beta}_1}{\sqrt{\widehat{\sigma}^2~C_{11}}}$$

$$=\dfrac{323,43}{\sqrt{(1.220,1)(0,1660)}}=\dfrac{323,43}{14,2296}=22,730.$$

Para \beta_2=0, $

$$t_0=\dfrac{\widehat{\beta}_2}{\sqrt{\widehat{\sigma}^2~C_{22}}}$$

$$=\dfrac{-54,77}{\sqrt{(1.220,1)(0,1429)}}=\dfrac{-54,77}{13,203}=-4,149.$$

Como todos os valores absolutos destas estatísticas são maiores do que o valor crítico $ t_{(0,975;11)}=2,201, $ as hipóteses $ H_0 $ são rejeitadas nos três casos. Desta forma, as variáveis tempo e dose de íons contribuem significativamente para o modelo.

Analisando o P-valor, temos que

Para \beta_0=0 $

$$2*P\left( t_{(11)}\textgreater\mid 132,521 \mid \right)=0,000.$$

Para \beta_1=0 $

$$2*P\left( t_{(11)}\textgreater\mid 22,730 \mid \right)=0,000.$$

Para \beta_2=0 $

$$2*P\left( t_{(11)}\textgreater\mid -4,149 \mid \right)=0,00162.$$

Com isso, rejeitamos $ H_0 $ para $ \beta_0 $, $ \beta_1 $ e $ \beta_2 $ pois os respectivos p_valores são menores do que $ \alpha $.

Exemplo 2.5.2

Construir um intervalo de confiança com $ 95\% $ para o parâmetro $ \beta_1 $, considerando os dados do "Exemplo 2.2.3".

Solução:

Lembramos que $ \widehat{\beta}_1=323,43 $, $ \widehat{\sigma}^2=1.220,1 $ e que $ C_{11}=0,1660 $. Assim, o intervalo com 95\% de confiança para $ \beta_1 $ é dado por 

$$\left[\widehat{\beta}_1-t_{(0,025;11)}\sqrt{\widehat{\sigma}^2 C_{11}}\,;\,\widehat{\beta}_1+t_{(0,025;11)}\sqrt{\widehat{\sigma}^2C_{11}}\right]$$

$$\left[323,43-2,201\sqrt{(1.220,1)(0,1660)} \,;\,323,43 + 2,201\sqrt{(1.220,1)(0,1660)}\right]$$

$$\left[323,43-2,201(14,23)\,;\, 323,43+2,201(14,23)\right]$$
$$\left[292,10\,;\,354,75\right]$$

Portanto, $ 292,10 \leq \beta_1 \leq 354,75. $

Usando o software Action Stat temos os seguintes resultados:

 Para entender como executar essa função do Software Action Stat, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]