Skip to main content

Quando temos a variável resposta binária (1 se o indivíduo for evento e 0 caso contrário) é necessário escolher uma regra de predição ($ \hat{Y}=0~ou~1 $), já que $ \hat{\pi} $ está entre 0 e 1. É intuitivo pensar que se o valor de $ \hat{\pi}_i $ for grande, $ \hat{Y}_i=1 $ e se $ \hat{\pi}_i $ for pequeno, $ \hat{Y}_i=0 $. Mas como determinar o ponto que para os valores acima dele o indivíduo é classificado como evento ($ \hat{Y}_i=1 $) e valores abaixo dele o indivíduo é classificado como não evento ($ \hat{Y}_i=0 $)? Esse ponto é conhecido como ponto de corte.

Uma forma bastante utlizada para determinar o ponto de corte é através da Curva ROC (Receiver Operating Characteristic Curve). A curva ROC plota $ P(\hat{Y}=1|Y=1) $ (chamado de sensibilidade) versus $ 1-P(\hat{Y}=0|Y=0) $ (chamado de 1-especificidade) para todos os possíveis pontos de corte entre 0 e 1.

A seguir temos um exemplo da curva ROC:

Figura 4.5.1: Curva ROC

A escolha do ponto de corte deve ser baseada em uma combinação ótima tanto da sensibilidade quanto da especificidade, pois partimos do suposto que classificar o indivíduo como evento dado que ele é não evento (falso positivo) e classificar o indivíduo como não evento dado que ele é evento (falso negativo) traz prejuízos equivalentes para o pesquisador. Pela análise da curva ROC, escolhemos o ponto de corte referente a combinação da sensibilidade e 1-especificidade que mais se aproxima do canto superior esquerdo do gráfico. 

4.5.1 Métricas de Desempenho da Predição

Após o ajuste de um modelo e a determinação do ponto de corte, é importante avaliar o  poder de discriminação do modelo, isto é, discriminar os eventos dos não eventos.

Para essa avaliação, métricas foram criadas. São elas: Acurácia, Sensibilidade, Especificidade, Verdadeiro Preditivo Positivo e Verdadeiro Preditivo Negativo. Mas antes de entrar especificamente nessas medidas, precisamos apresentar a matriz de confusão, dada na Tabela 4.5.1. Seu funcionamento é simples: é uma tabela de contingência em que na linha está o valor previsto e na coluna o valor observado (valor verdadeiro).

  Valor Observado (valor verdadeiro)
Valor Predito Y=1 Y=0
Y=1 VP (verdadeiro positivo)
FP (falso positivo)
Y=0 FN (falso negativo)
VN (verdadeiro negativo)

Tabela 4.5.1: Matriz de Confusão

4.5.1.1 Acurácia

É a proporção de predições corretas, sem considerar o que é positivo e o que negativo e sim o acerto total. É dada por:

$$ACC=(VP+VN)/(P+N),$$

em que p é o número de eventos (Y=1, chamado aqui de positivo) e n é o número de não eventos (Y=0, chamado aqui de negativo).

4.5.1.2 Sensibilidade

É a proporção de verdadeiros positivos, ou seja, avalia a capacidade do modelo classificar um indivíduo como evento $ (\hat{Y}=1) $ dado que realmente ele é evento (Y=1):

$$SENS=VP/(VP+FN).$$

4.5.1.3 Especificidade

É a proporção de verdadeiros negativos, isto é, avalia a capacidade do modelo predizer um indivíduo como não evento $ (\hat{Y}=0) $ dado que ele realmente é não evento (Y=0).

$$ESPEC=VN/(VN+FP).$$

4.5.1.4 Verdadeiro Preditivo Positivo

É a proporção de verdadeiros positivos em relação a todas as predições positivas, isto é, o indivíduo ser evento (Y=1) dado que o modelo classificou o indivíduo como evento $ (\hat{Y}=1) $.

$$VPP=VP/(VP+FP).$$

4.5.1.5 Verdadeiro Preditivo Negativo

É a proporção de verdadeiros negativos em relação a todas predições negativas, ou seja, o indivíduo ser não evento (Y=0) dado que o modelo o classificou como não evento $ (\hat{Y}=0) $.

$$VPN=VN/(VN+FN).$$