4.5 Predição

Você está aqui

Quando temos a variável resposta binária (1 se o indivíduo for evento e 0 caso contrário) é necessário escolher uma regra de predição ($\hat{Y}=0~ou~1$), já que $\hat{\pi}$ está entre 0 e 1. É intuitivo pensar que se o valor de $\hat{\pi}_i$ for grande, $\hat{Y}_i=1$ e se $\hat{\pi}_i$ for pequeno, $\hat{Y}_i=0$. Mas como determinar o ponto que para os valores acima dele o indivíduo é classificado como evento ($\hat{Y}_i=1$) e valores abaixo dele o indivíduo é classificado como não evento ($\hat{Y}_i=0$)? Esse ponto é conhecido como ponto de corte.

Uma forma bastante utilizada para determinar o ponto de corte é através da Curva ROC (Receiver Operating Characteristic Curve). A curva ROC plota $P(\hat{Y}=1|Y=1)$ (chamado de sensibilidade) versus $1-P(\hat{Y}=0|Y=0)$ (chamado de 1-especificidade) para todos os possíveis pontos de corte entre 0 e 1.

A seguir temos um exemplo da curva ROC:

Figura 4.5.1: Curva ROC

A escolha do ponto de corte deve ser baseada em uma combinação ótima tanto da sensibilidade quanto da especificidade, pois partimos do suposto que classificar o indivíduo como evento dado que ele é não evento (falso positivo) e classificar o indivíduo como não evento dado que ele é evento (falso negativo) traz prejuízos equivalentes para o pesquisador. Pela análise da curva ROC, escolhemos o ponto de corte referente a combinação da sensibilidade e 1-especificidade que mais se aproxima do canto superior esquerdo do gráfico. 

4.5.1 Métricas de Desempenho da Predição

Após o ajuste de um modelo e a determinação do ponto de corte, é importante avaliar o  poder de discriminação do modelo, isto é, discriminar os eventos dos não eventos.

Para essa avaliação, métricas foram criadas. São elas: Acurácia, Sensibilidade, Especificidade, Verdadeiro Preditivo Positivo e Verdadeiro Preditivo Negativo. Mas antes de entrar especificamente nessas medidas, precisamos apresentar a matriz de confusão, dada na Tabela 4.5.1. Seu funcionamento é simples: é uma tabela de contingência em que na linha está o valor previsto e na coluna o valor observado (valor verdadeiro).

  Valor Observado (valor verdadeiro)
Valor Predito   Y=1 Y=0
Y=1 VP (verdadeiro positivo) FP (falso positivo)
Y=0 FN (falso negativo) VN (verdadeiro negativo)

Tabela 4.5.1: Matriz de Confusão

4.5.1.1 Acurácia

É a proporção de predições corretas, sem considerar o que é positivo e o que negativo e sim o acerto total. É dada por: $$ACC=(VP+VN)/(P+N),$$

em que p é o número de eventos (Y=1, chamado aqui de positivo) e n é o número de não eventos (Y=0, chamado aqui de negativo).

4.5.1.2 Sensibilidade

É a proporção de verdadeiros positivos, ou seja, avalia a capacidade do modelo classificar um indivíduo como evento $(\hat{Y}=1)$ dado que realmente ele é evento (Y=1): $$SENS=VP/(VP+FN).$$

4.5.1.3 Especificidade

É a proporção de verdadeiros negativos, isto é, avalia a capacidade do modelo predizer um indivíduo como não evento $(\hat{Y}=0)$ dado que ele realmente é não evento (Y=0). $$ESPEC=VN/(VN+FP).$$

4.5.1.4 Verdadeiro Preditivo Positivo

É a proporção de verdadeiros positivos em relação a todas as predições positivas, isto é, o indivíduo ser evento (Y=1) dado que o modelo classificou o indivíduo como evento $(\hat{Y}=1)$

$$VPP=VP/(VP+FP).$$

4.5.1.5 Verdadeiro Preditivo Negativo

É a proporção de verdadeiros negativos em relação a todas predições negativas, ou seja, o indivíduo ser não evento (Y=0) dado que o modelo o classificou como não evento $(\hat{Y}=0)$. 

$$VPN=VN/(VN+FN).$$

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]