- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
Quando temos a variável resposta binária (1 se o indivíduo for evento e 0 caso contrário) é necessário escolher uma regra de predição ($\hat{Y}=0~ou~1$), já que $\hat{\pi}$ está entre 0 e 1. É intuitivo pensar que se o valor de $\hat{\pi}_i$ for grande, $\hat{Y}_i=1$ e se $\hat{\pi}_i$ for pequeno, $\hat{Y}_i=0$. Mas como determinar o ponto que para os valores acima dele o indivíduo é classificado como evento ($\hat{Y}_i=1$) e valores abaixo dele o indivíduo é classificado como não evento ($\hat{Y}_i=0$)? Esse ponto é conhecido como ponto de corte.
Uma forma bastante utilizada para determinar o ponto de corte é através da Curva ROC (Receiver Operating Characteristic Curve). A curva ROC plota $P(\hat{Y}=1|Y=1)$ (chamado de sensibilidade) versus $1-P(\hat{Y}=0|Y=0)$ (chamado de 1-especificidade) para todos os possíveis pontos de corte entre 0 e 1.
A seguir temos um exemplo da curva ROC:
Figura 4.5.1: Curva ROC
A escolha do ponto de corte deve ser baseada em uma combinação ótima tanto da sensibilidade quanto da especificidade, pois partimos do suposto que classificar o indivíduo como evento dado que ele é não evento (falso positivo) e classificar o indivíduo como não evento dado que ele é evento (falso negativo) traz prejuízos equivalentes para o pesquisador. Pela análise da curva ROC, escolhemos o ponto de corte referente a combinação da sensibilidade e 1-especificidade que mais se aproxima do canto superior esquerdo do gráfico.
Após o ajuste de um modelo e a determinação do ponto de corte, é importante avaliar o poder de discriminação do modelo, isto é, discriminar os eventos dos não eventos.
Para essa avaliação, métricas foram criadas. São elas: Acurácia, Sensibilidade, Especificidade, Verdadeiro Preditivo Positivo e Verdadeiro Preditivo Negativo. Mas antes de entrar especificamente nessas medidas, precisamos apresentar a matriz de confusão, dada na Tabela 4.5.1. Seu funcionamento é simples: é uma tabela de contingência em que na linha está o valor previsto e na coluna o valor observado (valor verdadeiro).
Valor Observado (valor verdadeiro) | |||
Valor Predito | Y=1 | Y=0 | |
Y=1 | VP (verdadeiro positivo) | FP (falso positivo) | |
Y=0 | FN (falso negativo) | VN (verdadeiro negativo) |
Tabela 4.5.1: Matriz de Confusão
É a proporção de predições corretas, sem considerar o que é positivo e o que negativo e sim o acerto total. É dada por: $$ACC=(VP+VN)/(P+N),$$
em que p é o número de eventos (Y=1, chamado aqui de positivo) e n é o número de não eventos (Y=0, chamado aqui de negativo).
É a proporção de verdadeiros positivos, ou seja, avalia a capacidade do modelo classificar um indivíduo como evento $(\hat{Y}=1)$ dado que realmente ele é evento (Y=1): $$SENS=VP/(VP+FN).$$
É a proporção de verdadeiros negativos, isto é, avalia a capacidade do modelo predizer um indivíduo como não evento $(\hat{Y}=0)$ dado que ele realmente é não evento (Y=0). $$ESPEC=VN/(VN+FP).$$
É a proporção de verdadeiros positivos em relação a todas as predições positivas, isto é, o indivíduo ser evento (Y=1) dado que o modelo classificou o indivíduo como evento $(\hat{Y}=1)$
$$VPP=VP/(VP+FP).$$
É a proporção de verdadeiros negativos em relação a todas predições negativas, ou seja, o indivíduo ser não evento (Y=0) dado que o modelo o classificou como não evento $(\hat{Y}=0)$.
$$VPN=VN/(VN+FN).$$
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.