4.1.3.2 Teste da Razão de Verossimilhança

Na regressão linear o interesse está no valor da SQR. Um valor alto da SQR sugere que a variável independente é importante, caso contrário, a variável independente não é útil na predição da variável resposta.

Na regressão logística a ideia é a mesma: comparar os valores observados da variável resposta com os valores preditos obtidos dos modelos com e sem a variável em questão. A comparação dos observados com os valores preditos é baseado no log da verossimilhança. Para entender melhor essa comparação, é útil pensar em um valor observado da variável resposta também como sendo um valor predito resultante de um modelo saturado. Um modelo saturado é aquele que contém tantos parâmetros quanto observações.

A comparação dos observados com os valores preditos usando a função de verossimilhança é baseada na seguinte expressão: 

$$D=-2ln\left[\frac{(verossimilhança~do~modelo~ajustado)}{(verossimilhança~do~modelo~saturado)}\right].$$

Com o propósito de assegurar a significância de uma variável independente, comparamos o valor da D com e sem a variável na equação. A mudança em D devido a inclusão da variável no modelo é obtida da seguinte maneira: 

$$G=D(modelo~sem~a~variável)-D(modelo~com~a~variável).$$

Podemos então escrever a estatística G como: 

$$G=-2ln\left[\frac{(verossimilhança~sem~a~variável)}{(verossimilhança~com~a~variável)}\right].$$

ou ainda: 

$$G=-2ln(L_s)+2ln(L_c),$$

em que $ L_s $ é a verossimilhança do modelo sem a covariável e $ L_c $ é a verossimilhança do modelo com a covariável.

Queremos testar: 

\beta_1\neq 0\end{array}\right.$$

Sob a hipótese nula, a estatística G tem distribuição chi-quadrado com 1 grau de liberdade.

Exemplo 4.1.3.2.1

Vamos considerar o Exemplo 4.1.2.1 para verificar se a variável "horas de treinamento" é significativa para explicar o erro na montagem, através do teste da razão de verossimilhança (TRV).

O valor do log da verossimilhança do modelo apenas com o intercepto ($ L_s $) é -1064,183 e do modelo com a variável ($ L_c $) é -1035,089.

Assim, o valor da estatística teste é: 

$$G=-2(-1064,183)-(-2(-1035,089))= 58,188.$$

O p-valor $ P(\chi^{2}_{1}\textgreater\ G=58,188)\textless 0,0001 $.

Rejeitamos a hipótese nula. Assim, pelo TRV, temos que a variável horas de treinamento é significativa para o modelo

 

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]