Quando temos a variável resposta binária (1 se o indivíduo for evento e 0 caso contrário) é necessário escolher uma regra de predição (
), já que
está entre 0 e 1. É intuitivo pensar que se o valor de
for grande,
e se
for pequeno,
. Mas como determinar o ponto que para os valores acima dele o indivíduo é classificado como evento (
) e valores abaixo dele o indivíduo é classificado como não evento (
)? Esse ponto é conhecido como ponto de corte.
Uma forma bastante utlizada para determinar o ponto de corte é através da Curva ROC (Receiver Operating Characteristic Curve). A curva ROC plota
(chamado de sensibilidade) versus
(chamado de 1-especificidade) para todos os possíveis pontos de corte entre 0 e 1.
A seguir temos um exemplo da curva ROC:

Figura 4.5.1: Curva ROC
A escolha do ponto de corte deve ser baseada em uma combinação ótima tanto da sensibilidade quanto da especificidade, pois partimos do suposto que classificar o indivíduo como evento dado que ele é não evento (falso positivo) e classificar o indivíduo como não evento dado que ele é evento (falso negativo) traz prejuízos equivalentes para o pesquisador. Pela análise da curva ROC, escolhemos o ponto de corte referente a combinação da sensibilidade e 1-especificidade que mais se aproxima do canto superior esquerdo do gráfico.
4.5.1 Métricas de Desempenho da Predição
Após o ajuste de um modelo e a determinação do ponto de corte, é importante avaliar o poder de discriminação do modelo, isto é, discriminar os eventos dos não eventos.
Para essa avaliação, métricas foram criadas. São elas: Acurácia, Sensibilidade, Especificidade, Verdadeiro Preditivo Positivo e Verdadeiro Preditivo Negativo. Mas antes de entrar especificamente nessas medidas, precisamos apresentar a matriz de confusão, dada na Tabela 4.5.1. Seu funcionamento é simples: é uma tabela de contingência em que na linha está o valor previsto e na coluna o valor observado (valor verdadeiro).
| Valor Observado (valor verdadeiro) | |||
| Valor Predito | Y=1 | Y=0 | |
| Y=1 | VP (verdadeiro positivo) |
FP (falso positivo) |
|
| Y=0 | FN (falso negativo) |
VN (verdadeiro negativo) |
|
Tabela 4.5.1: Matriz de Confusão
4.5.1.1 Acurácia
É a proporção de predições corretas, sem considerar o que é positivo e o que negativo e sim o acerto total. É dada por:
![]() |
em que p é o número de eventos (Y=1, chamado aqui de positivo) e n é o número de não eventos (Y=0, chamado aqui de negativo).
4.5.1.2 Sensibilidade
É a proporção de verdadeiros positivos, ou seja, avalia a capacidade do modelo classificar um indivíduo como evento
dado que realmente ele é evento (Y=1):
![]() |
4.5.1.3 Especificidade
É a proporção de verdadeiros negativos, isto é, avalia a capacidade do modelo predizer um indivíduo como não evento
dado que ele realmente é não evento (Y=0).
![]() |
4.5.1.4 Verdadeiro Preditivo Positivo
É a proporção de verdadeiros positivos em relação a todas as predições positivas, isto é, o indivíduo ser evento (Y=1) dado que o modelo classificou o indivíduo como evento
.
![]() |
4.5.1.5 Verdadeiro Preditivo Negativo
É a proporção de verdadeiros negativos em relação a todas predições negativas, ou seja, o indivíduo ser não evento (Y=0) dado que o modelo o classificou como não evento
.
![]() |





