4.3.3 Teste de Hosmer e Lemeshow

Você está aqui

O teste de Hosmer-Lemeshow é muito utilizado em regressão logística com a finalidade de testar a bondade do ajuste, em outras palavras, o teste comprova se o modelo proposto pode explicar bem o que se observa. O teste avalia o modelo ajustado através das distâncias entre as probabilidades ajustadas e as probabilidades observadas.

A bondade do teste é baseada na divisão da amostra segundo suas probabilidades ajustadas com base nos valores dos parâmetros estimados pela regressão logística. Os valores ajustados são dispostos do menor para o maior, e em seguida, separados em g grupos de tamanho aproximadamente igual. Hosmer e Lemeshow (1980) propõe que seja utilizado $ g=10 $.

Suponha que o agrupamento foi feito em 10 grupos. Desta forma o primeiro grupo será formado pelas observações com probabilidades ajustadas de até $ 10\% $. O segundo grupo será formado pelas observações com probabilidades ajustadas de até $ 10\% $ seguintes, ou seja, probabilidades entre $ 10 $ e $ 20\% $. Assim a divisão é feita até que se obtenha os 10 grupos.

Na literatura há pouca orientação sobre como escolher o número de grupos. As simulações mostradas em Hosmer e Lemeshow (1980) foram baseadas no uso de $ g\textgreater p+1 $, em que p é o número de covariáveis do modelo ajustado. Se as frequências esperadas em alguns dos grupos forem muito pequenas a estatística do teste de Hosmer-Lemeshow é calculada, entretanto pode não ser confiável. Neste caso, devemos especificar um número menor de grupos, contudo não se pode utilizar menos de 3 grupos, pois com $ (g\textless3) $ a estatística do teste é impossibilitada de ser calculada.

Antes do cálculo da estatística teste, é necessário estimar a frequência esperada dentro de cada grupo, para isso dividimos a variável resposta, que é dicotômica. Para Y=1, a frequência esperada estimada é dada pela soma das probabilidades estimadas de todos os indivíduos dentro daquele grupo. Para Y=0, a frequência esperada estimada é dada pela soma de 1-probabilidade estimada de todos os indivíduos dentro daquele grupo. A seguir temos o exemplo de uma tabela que deve ser preenchida com as frequências esperadas para realizar o cálculo da estatística de Hosmer e Lemeshow.

  Y=1 Y=0  
Decil Obs      Esp Obs Esp Total
1          
2          
3          
4          
5          
6          
7          
8          
9          
10          

Tendo as frequências esperadas calculamos a estatística de Hosmer e Lemeshow, $ \hat{C} $, que é obtida da seguinte forma: 

$$\hat{C}=\sum_{k=1}^{g}\frac{({o_{k}-n^{'}_{k}\bar{\pi}_{k}})^2}{n^{'}_{k}\pi_{k}(1-\pi_{k})},$$

em que:

  • $ n^{'}_{k} $ é o número de indivíduos no k-ésimo grupo.
  • $ \bar{\pi_{k}}=\sum_{j=1}^{C_{k}}\frac{m_{j}\bar{\pi}_{j}}{n^{'}_{k}} $
  • $ C_k $: o número total de combinações de níveis dentro do k-ésimo decil.
  • $ O_k=\sum_{j=1}^{C_{k}}y_j $: número total de respostas dentro do grupo k.

Hosmer e Lemeshow (1980) mostrou por simulação que a estatística do teste segue, aproximadamente, uma distribuição qui-quadrado com g−2 graus de liberdade, quando o modelo está especificado corretamente.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]