4.5 Predição

Você está aqui

Quando temos a variável resposta binária (1 se o indivíduo for evento e 0 caso contrário) é necessário escolher uma regra de predição ($ \hat{Y}=0~ou~1 $), já que $ \hat{\pi} $ está entre 0 e 1. É intuitivo pensar que se o valor de $ \hat{\pi}_i $ for grande, $ \hat{Y}_i=1 $ e se $ \hat{\pi}_i $ for pequeno, $ \hat{Y}_i=0 $. Mas como determinar o ponto que para os valores acima dele o indivíduo é classificado como evento ($ \hat{Y}_i=1 $) e valores abaixo dele o indivíduo é classificado como não evento ($ \hat{Y}_i=0 $)? Esse ponto é conhecido como ponto de corte.

Uma forma bastante utilizada para determinar o ponto de corte é através da Curva ROC (Receiver Operating Characteristic Curve). A curva ROC plota $ P(\hat{Y}=1|Y=1) $ (chamado de sensibilidade) versus $ 1-P(\hat{Y}=0|Y=0) $ (chamado de 1-especificidade) para todos os possíveis pontos de corte entre 0 e 1.

A seguir temos um exemplo da curva ROC:

Figura 4.5.1: Curva ROC

A escolha do ponto de corte deve ser baseada em uma combinação ótima tanto da sensibilidade quanto da especificidade, pois partimos do suposto que classificar o indivíduo como evento dado que ele é não evento (falso positivo) e classificar o indivíduo como não evento dado que ele é evento (falso negativo) traz prejuízos equivalentes para o pesquisador. Pela análise da curva ROC, escolhemos o ponto de corte referente a combinação da sensibilidade e 1-especificidade que mais se aproxima do canto superior esquerdo do gráfico. 

4.5.1 Métricas de Desempenho da Predição

Após o ajuste de um modelo e a determinação do ponto de corte, é importante avaliar o  poder de discriminação do modelo, isto é, discriminar os eventos dos não eventos.

Para essa avaliação, métricas foram criadas. São elas: Acurácia, Sensibilidade, Especificidade, Verdadeiro Preditivo Positivo e Verdadeiro Preditivo Negativo. Mas antes de entrar especificamente nessas medidas, precisamos apresentar a matriz de confusão, dada na Tabela 4.5.1. Seu funcionamento é simples: é uma tabela de contingência em que na linha está o valor previsto e na coluna o valor observado (valor verdadeiro).

  Valor Observado (valor verdadeiro)
Valor Predito   Y=1 Y=0
Y=1 VP (verdadeiro positivo) FP (falso positivo)
Y=0 FN (falso negativo) VN (verdadeiro negativo)

Tabela 4.5.1: Matriz de Confusão

4.5.1.1 Acurácia

É a proporção de predições corretas, sem considerar o que é positivo e o que negativo e sim o acerto total. É dada por: 

$$ACC=(VP+VN)/(P+N),$$

em que p é o número de eventos (Y=1, chamado aqui de positivo) e n é o número de não eventos (Y=0, chamado aqui de negativo).

4.5.1.2 Sensibilidade

É a proporção de verdadeiros positivos, ou seja, avalia a capacidade do modelo classificar um indivíduo como evento $ (\hat{Y}=1) $ dado que realmente ele é evento (Y=1): 

$$SENS=VP/(VP+FN).$$

4.5.1.3 Especificidade

É a proporção de verdadeiros negativos, isto é, avalia a capacidade do modelo predizer um indivíduo como não evento $ (\hat{Y}=0) $ dado que ele realmente é não evento (Y=0). 

$$ESPEC=VN/(VN+FP).$$

4.5.1.4 Verdadeiro Preditivo Positivo

É a proporção de verdadeiros positivos em relação a todas as predições positivas, isto é, o indivíduo ser evento (Y=1) dado que o modelo classificou o indivíduo como evento $ (\hat{Y}=1) $


$$VPP=VP/(VP+FP).$$

4.5.1.5 Verdadeiro Preditivo Negativo

É a proporção de verdadeiros negativos em relação a todas predições negativas, ou seja, o indivíduo ser não evento (Y=0) dado que o modelo o classificou como não evento $ (\hat{Y}=0) $


$$VPN=VN/(VN+FN).$$

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]