4.2.2 Inferência no modelo de regressão logística múltipla

Você está aqui

Assim como na Inferência em um modelo de regressão logística simples, podemos testar a significância dos parâmetros pelo teste de Wald, score e Razão de Verossimilhança (TRV).

4.2.2.1 Teste da Razão de Verossimilhança

O teste da razão de verossimilhança para a significância dos p coeficientes das variáveis independentes do modelo é realizado da mesma maneira que no modelo de regressão logística simples. A estatística teste G é dada por: 

$$G=-2ln\left[\frac{(verossimilhança~sem~a~variável)}{(verossimilhança~com~a~variável)}\right].$$

ou ainda:  

$$G=-2ln(L_s)+2ln(L_c),$$

em que $ L_s $ é a verossimilhança do modelo sem a covariável e $ L_c $ é a verossimilhança do modelo com a covariável.

No caso da regressão múltipla, temos o interesse em saber se pelo menos uma variável é significativa para o modelo. Sob a hipótese nula, os p coeficientes são iguais a zero , assim, a estatística G tem distribuição  Qui-Quadrado com p graus de liberdade. Nesse caso $ L_c $ é a verossimilhança do modelo com as p variáveis explicativas e $ L_s $ é a verossimilhança do modelo apenas com o intercepto.

4.2.2.2 Teste de Wald

Vamos considerar a seguinte hipótese: 

\beta_j\neq 0\end{array}\right.$$

Para testar a hipótese acima, a  estatística de Wald é obtida da seguinte forma: 

$$W_j=\frac{\widehat{\beta}_j}{\widehat{DP}(\widehat{\beta}_j)}.~~~~~~~~~~~~~~~~~(4.2.2.2.1)$$

onde o desvio padrão é obtido de (4.2.1.1.3). Se não rejeitarmos $ H_0 $ temos que a variável $ X_j $ não explica a variável resposta.

De forma equivalente, teste Wald também pode ser obtido pela multiplicação dos seguintes vetores:

$$W=\widehat{\beta}^\prime [\widehat{\I}(\widehat{\beta})]^{-1}\widehat{\beta}=\widehat{\beta}^\prime (X^\prime VX)\widehat{\beta}.$$

Em que $ \hat{I}(\beta) $ é a matriz da informação de Fisher estimada, apresentada na estimativa do desvio padrão do modelo de regressão logística simples.

Exemplo 4.2.2.1:

Para os dados do Exemplo 4.2.1.1 vamos testar a significância dos parâmetros pelo  teste da Razão de Verossimilhança e Wald.

Lembrando que o modelo proposto é: 

$$\mbox{Probabilidade de refugo}=\pi_i=\frac{e^{\beta_0 + \beta_1 \, x_1 +\beta_2 \, x_2+\beta_3 \,x^2_1 + \beta_4 \, x^2_2 + \beta_5 \, x_1x_2}}{1+e^{\beta_0 + \beta_1 \, x_1 +\beta_2 \,x_2+\beta_3 \,x^2_1 + \beta_4 \, x^2_2 + \beta_5 \, x_1x_2}},$$

em que $ x_1 $ é a variável Volatilidade e $ x_2 $ é a variável RFV.

  • TRV (teste da Razão de Verossimilhança)

Pelo TRV, vamos testar primeiramente se pelo menos uma variável é significativa para o modelo. Para isso, precisamos do log da verossimilhança dos modelos com e sem as variáveis em consideração.

O log da verossimilhança sem as variáveis é -1025,81 e com as variáveis é -928,15. Assim, o valor da estatística teste é: 

$$G=-2(-1025,81)-(-2(-928,15))= 195,33.$$

O p-valor $ P(\chi^{2}_{5}\textgreater\ G=195,33)= 0 $.

Rejeitamos a hipótese nula. Assim, pelo TRV, temos que pelo menos uma variável testada é significativa para o modelo.

Assim, vamos testar individualmente cada uma das variáveis.

- Para a variável Volatilidade:

O log da verossimilhança sem as variáveis é -982,12 e com as variáveis é -928,15. Assim, o valor da estatística teste é: 

$$G=-2(-982,12 )-(-2(-928,15))= 107,94.$$

O p-valor $ P(\chi^{2}_{1}\textgreater\ G=107,94)=0 $.

Rejeitamos a hipótese nula. Assim, pelo TRV, temos que a variável Volatilidade é significativa para o modelo.

- Para a variável RFV:

O log da verossimilhança sem as variáveis é -954,66 e com as variáveis é -928,15. Assim, o valor da estatística teste é: 

$$G=-2(-954,66)-(-2(-928,15))= 58,02.$$

 

O p-valor $ P(\chi^{2}_{1}\textgreater\ G=58,02)\textless 0,0001 $.

Rejeitamos a hipótese nula. Assim, pelo TRV, temos que a variável RFV é significativa para o modelo.

- Para a variável Volatilidade ao quadrado:

O log da verossimilhança sem as variáveis é -983,77 e com as variáveis é -928,15. Assim, o valor da estatística teste é: 

$$G=-2(-983,77)-(-2(-928,15))= 111,24.$$

O p-valor $ P(\chi^{2}_{1}\textgreater\ G=111,24)= 0 $.

Pelo TRV rejeitamos a hipótese nula e por isso temos que a variável Volatilidade ao quadrado é significativa para o modelo.

- Para a variável RFV ao quadrado:

O log da verossimilhança sem as variáveis é -946,26 e com as variáveis é -928,15. Assim, o valor da estatística teste é: 

$$G=-2(-946,26)-(-2(-928,15.))= 36,22.$$

O p-valor $ P(\chi^{2}_{1}\textgreater\ G=36,22)\textless 0,0001 $.

Pelo TRV rejeitamos a hipótese nula e por isso temos que a variável RFV ao quadrado é significativa para o modelo.

- Variável Volatilidade*RFV

O log da verossimilhança sem as variáveis é -936,31 e com as variáveis é -928,15. Assim, o valor da estatística teste é: 

$$G=-2(-963,31)-(-2(-928,15))= 70,32.$$

O p-valor $ P(\chi^{2}_{1}\textgreater\ G=70,32)= 0 $.

Pelo TRV rejeitamos a hipótese nula e por isso temos que a interação de Volatilidade com RFV é significativa para o modelo.

  • Teste de Wald

A estatística do teste Wald é dada pela expressão (4.2.2.2.1), sendo

$ W_0=\cfrac{\widehat{\beta}_0}{\widehat{DP}(\widehat{\beta}_0)}=\cfrac{30,3389}{3,66962}= 8,27 $
$ W_1=\cfrac{\widehat{\beta}_1}{\widehat{DP}(\widehat{\beta}_1)}=\cfrac{-14,1496}{1,35514}= -10,44 $
$ W_2=\cfrac{\widehat{\beta}_2}{\widehat{DP}(\widehat{\beta}_2)}=\cfrac{-6,26927}{0,855191}= -7,73 $
$ W_3=\cfrac{\widehat{\beta}_3}{\widehat{DP}(\widehat{\beta}_3)}=\cfrac{1,10101}{0,1019943}= 10,79 $
$ W_4=\cfrac{\widehat{\beta}_4}{\widehat{DP}(\widehat{\beta}_4)}=\cfrac{0,2819}{0,046355}=6,08 $
$ W_5=\cfrac{\widehat{\beta}_5}{\widehat{DP}(\widehat{\beta}_5)}=\cfrac{1,53769}{0,18197}= 8,45 $

A estimativa do desvio padrão utilizada para o cálculo da estatística de Wald está na "Estimação do Desvio Padrão".

Para avaliar a significância dos coeficientes as seguintes hipóteses são testadas 

\beta_j\neq 0\end{array}~~~j=0,1,2,3,4,5\right.$$

O p-valor definido como $ P(|Z|\textgreater w_j) $, $ j=0, 1, 2, 3, 4, 5, $ quando Z denota a variável aleatória da distribuição normal padrão.

Assim, temos:

Para $ \beta_0 = P(|Z| \textgreater 8,27) = 0,000 $
Para $ \beta_1 = P(|Z| \textgreater 10,44) = 0,000 $
Para $ \beta_2 = P(|Z| \textgreater 7,73) = 0,000 $
Para $ \beta_3 = P(|Z| \textgreater 10,79) = 0,000 $
Para $ \beta_4 = P(|Z| \textgreater 6,08) = 0,000 $
Para $ \beta_5 = P(|Z| \textgreater 8,45) = 0,000 $

Avaliando o p-valor para os $ \beta_j, $$ j=0,1,2,3,4,5, $ rejeita-se $ H_0 $ ao nível de significância $ \alpha = 0,05 $ e conclui-se que os parâmetros são significativos no modelo.

A interação entre as variáveis e seus efeitos quadráticos podem ser visualizadas na Figura 4.2.2.2.

Figura 4.2.2.2: Superfície de Resposta para a probabilidade de peças refugadas.

Verificamos na Figura 4.2.2.2 que valores altos de Volatilidade e valores baixos de RFV resultam em menores proporções de refugo.

 

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]