4.4 Diagnóstico do Modelo

Você está aqui

4.4.1 Leverage

Assim como no modelo linear, uma métrica para diagnosticar outliers é a leverage (diagonal da matriz chapéu). No modelo linear, a matriz chapéu é definida por:

$$H=X(X^\prime X)^{-1}X^\prime .$$

Os elementos da diagonal principal da matriz H são denominados $ h_{ii}. $

No modelo de regressão logística, J é o número de diferentes combinações de níveis das covariáveis.

$ X_{(j)(p+1)} $: matriz de todos os valores de todas combinações de níveis para todas as covariáveis.

$$H=V^{1/2}X(X^\prime VX)^{-1}X^\prime V^{1/2}.$$

$ v_{j}=m_{j}\hat{\pi}(x_j)(1-\hat{\pi}(x_j)),~~~~~~~~~~j=1,2,...,J. $

$ h_i=m_j\hat{\pi}_j(1-\hat{\pi}_j)x^{^\prime }_{j}(X^\prime VX)^{-1}x^{^\prime }_j, $ 

em que $ b_j=x^{^\prime }_{j}(X^\prime VX)^{-1}x^{^\prime }_j. $

Assim, $ h_j=v_jb_j $

No caso da regressão linear, se $ h_j\textgreater 2(p+1)/n $ então a observação j é considerada um outlier. A diferença é que neste caso a matriz chapéu depende apenas de valores das covariáveis enquanto que na regressão logística, essa matriz também depende das probabilidades estimadas (através de $ v_j $). 

A consequência disso é que uma observação pode estar fora do comum nas covariáveis, mas não possui um grande valor de $ h_j $, se a probabilidade ajustada estiver próxima de 0 ou 1.  

4.4.2 Resíduo de Pearson 

O resíduo de Pearson é dado por: 

$$r_{Pi}=\frac{Y_i-\hat{\pi}_i}{\sqrt{\hat{\pi}_i(1-\hat{\pi}_i)}}$$

4.4.3 Resíduo de Pearson Studentizado

O resíduo de Pearson Studentizado tem a seguinte forma: 

$$r_{SPi}=\frac{r_{Pi}}{\sqrt{1-h_i}},$$

em que $ h_i $ é a diagonal da matriz chapéu.

4.4.4 Resíduo Deviance

O resíduo deviance é: 

$$d_i=\pm\sqrt{-2[Y_ilog_e(\hat{\pi}_i)+(1-Y_i)log_e(1-\hat{\pi}_i)}.$$

4.4.5 Diagnóstico de Influência

Além de detectar outliers, é importante também detectar pontos influentes, ou seja, pontos que afetam de forma significativa o ajuste do modelo.

Assim como no modelo linear, podemos utilizar a distância de Cook para avaliar a influência geral da observação i nas estimativas dos coeficientes da regressão. A métrica da distância de Cook para a observação i é: 

$$D_i=\frac{r^{2}_{SPi}h_i}{(p+1)(1-h_i)}.$$

Notamos que $  D_i  $ é grande quando o resíduo $  e_i  $ e/ou a leverage $  h_{ii}  $ são grandes. O critério utilizado para destacar as observações influentes é $  D_i~\textgreater~1  $, desta forma, todas as distâncias maiores que 1 são consideradas influentes.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]