4.3.3 Teste de Hosmer e Lemeshow

Você está aqui

O teste de Hosmer-Lemeshow é muito utilizado em regressão logística com a finalidade de testar a bondade do ajuste, em outras palavras, o teste comprova se o modelo proposto pode explicar bem o que se observa. O teste avalia o modelo ajustado através das distâncias entre as probabilidades ajustadas e as probabilidades observadas.

A bondade do teste é baseada na divisão da amostra segundo suas probabilidades ajustadas com base nos valores dos parâmetros estimados pela regressão logística. Os valores ajustados são dispostos do menor para o maior, e em seguida, separados em g grupos de tamanho aproximadamente igual. Hosmer e Lemeshow (1980) propõe que seja utilizado $g=10$.

Suponha que o agrupamento foi feito em 10 grupos. Desta forma o primeiro grupo será formado pelas observações com probabilidades ajustadas de até $10\%$. O segundo grupo será formado pelas observações com probabilidades ajustadas de até $10\%$ seguintes, ou seja, probabilidades entre $10$ e $20\%$. Assim a divisão é feita até que se obtenha os 10 grupos.

Na literatura há pouca orientação sobre como escolher o número de grupos. As simulações mostradas em Hosmer e Lemeshow (1980) foram baseadas no uso de $g\textgreater p+1$, em que p é o número de covariáveis do modelo ajustado. Se as frequências esperadas em alguns dos grupos forem muito pequenas a estatística do teste de Hosmer-Lemeshow é calculada, entretanto pode não ser confiável. Neste caso, devemos especificar um número menor de grupos, contudo não se pode utilizar menos de 3 grupos, pois com $(g\textless3)$ a estatística do teste é impossibilitada de ser calculada.

Antes do cálculo da estatística teste, é necessário estimar a frequência esperada dentro de cada grupo, para isso dividimos a variável resposta, que é dicotômica. Para Y=1, a frequência esperada estimada é dada pela soma das probabilidades estimadas de todos os indivíduos dentro daquele grupo. Para Y=0, a frequência esperada estimada é dada pela soma de 1-probabilidade estimada de todos os indivíduos dentro daquele grupo. A seguir temos o exemplo de uma tabela que deve ser preenchida com as frequências esperadas para realizar o cálculo da estatística de Hosmer e Lemeshow.

  Y=1 Y=0  
Decil Obs      Esp Obs Esp Total
1          
2          
3          
4          
5          
6          
7          
8          
9          
10          

Tendo as frequências esperadas calculamos a estatística de Hosmer e Lemeshow, $\hat{C}$, que é obtida da seguinte forma: $$\hat{C}=\sum_{k=1}^{g}\frac{({o_{k}-n^{'}_{k}\bar{\pi}_{k}})^2}{n^{'}_{k}\pi_{k}(1-\pi_{k})},$$

em que:

  • $n^{'}_{k}$ é o número de indivíduos no k-ésimo grupo.
  • $\bar{\pi_{k}}=\sum_{j=1}^{C_{k}}\frac{m_{j}\bar{\pi}_{j}}{n^{'}_{k}}$
  • $C_k$: o número total de combinações de níveis dentro do k-ésimo decil.
  • $O_k=\sum_{j=1}^{C_{k}}y_j$: número total de respostas dentro do grupo k.

Hosmer e Lemeshow (1980) mostrou por simulação que a estatística do teste segue, aproximadamente, uma distribuição qui-quadrado com g−2 graus de liberdade, quando o modelo está especificado corretamente.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]