4.2.5.1 Seleção Stepwise

O método Stepwise para a seleção de variáveis é muito usado em regressão linear.

Qualquer procedimento para seleção or exclusão de variáveis de um modelo é baseado em um algoritmo que checa a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra de decisão. A importância da variável é definida em termos de uma medida de significância estatística do coeficiente associado à variável  para o modelo. Essa estatística depende das suposições do modelo. No Stepwise da regressão linear um teste F é usado desde que os erros tenham distribuição normal. Na regressão logística os erros seguem distribuição binomial e a significância é assegurada via Teste da Razão de Verossimilhança. Assim, em cada passo do procedimento a variável mais importante, em termos estatísticos, é aquela que produz a maior mudança no logaritmo da verossimilhança em relação ao modelo que não contém a variável.

Temos a seguir o algoritmo do método de Stepwise passo a passo;

  • Passo 0: Suponha que temos p variáveis explicativas candidatas ao modelo. Esse passo começa com o ajuste apenas do intercepto e seja $L_0$ o log da verossimilhança desse ajuste. Após isso, ajustamos os p modelos com apenas uma variável explicativa. $L_{j}^{(0)}$ é o log da verossimilhança do modelo contendo a variável $x_j$.  O valor do teste da Razão de Verossimilhança do modelo contendo $x_j$ versus o modelo com apenas o intercepto é $G_j^{(0)}=-2(L_0-L_j^{(0)})$ e o p-valor é $p_j^{(0)}=P[\chi_{v}^2\textgreater G_j^{(0)}]$, em que v=1 se $x_j$ é contínuo e v=k-1 se $x_j$ é categórico com k categorias. 

Seja $p_{e_1}^{(0)}$ o p-valor associado ao teste da variável $x_1$ e além disso, $p_{e_1}^{(0)}=min(p_j^{(0)})$, ou seja, é o menor p-valor de todos os testes da Razão de Verossimilhança. Se $p_{e_1}^{(0)}\textless\alpha_e$ então $x_1$ entra no modelo.

$\alpha_e$ é o nível de significância para verificar se a variável entra ou não no modelo. Lee e Koval (1997) examinaram a questão da significância para a regressão logística. Os resultados mostram que a escolha $\alpha_e=0,05$ é muito rigorosa e por isso pode excluir variáveis importantes do modelo. É indicado escolher um valor de $\alpha_e$ entre 0,15 e 0,20.

  • Passo 1: Ajustamos agora o modelo contendo $x_1$. Seja $L_{e_1}^{(1)}$ o log da verossimilhança desse modelo. Para verificar se p-1 variáveis são importantes para o modelo, uma vez que $x_1$ está nele, ajustamos p-1 modelos de regressão contendo $x_1$ e $x_j$. O log da verossimilhança é denotada por $L_{e_1;j}^{(1)}$ e a estatística teste da Razão de Verossimilhança é: $G_j^{(1)}=-2(L_{e_1}^{(1)}-L_{e_1;j}^{(1)})$. Suponha que $p_{e_2}^{(1)}=min(p_j^{(1)})$, ou seja, o p-valor do teste associado à variável $x_2$ é o menor dentre todos os outros. Se esse p-valor for menor que $\alpha_e$ $x_2$ entra no modelo e prosseguimos para o passo 2, caso contrário o algoritmo termina e apenas a variável $x_1$ foi incluída no modelo.
  • Passo 2: O passo 2 começa com o ajuste do modelo contendo $x_1$ e $x_2$. É possível que, com a inclusão de $x_2$, $x_1$ passa a ser não significativa para o modelo. Por isso, nesse passo testamos a significância de uma das variáveis dado que a outra está no modelo. Seja $L_{-e_j}^{(2)}$ o log da verossimilhança do modelo com $x_j$ removido. A estatística da razão de verossimilhança é $G_{-e_j}^{(2)}=-2(L_{-e_j}^{(2)}-L_{e_1;e_2}^{(2)})$ e $p_{-e_j}^{(2)}$ é o seu p-valor. Para decidir se removemos ou não alguma das variáveis, selecionamos o maior p-valor. Vamos supor que o p-valor da variável $x_2$ seja o maior, ou seja,  $p_{r_2}^{(2)}=max(p_{-e_1}^{(2)},p_{-e_2}^{(2)})$. Para ver se a variável  $x_2$ sai do modelo, comparamos o seu p-valor com um nível de significância de saída, ou seja, $\alpha_r$. Se $p_{r_2}^{(2)}\textgreater\alpha_r$ então $x_2$ sai do modelo. Contudo, determinamos o valor de $\alpha_r$ que seja maior que $\alpha_e$ para não acontecer do programa remover e incluir a mesma variável no modelo em sucessivos passos. No método Stepwise em modelos de regressão logística, é recomendado $\alpha_e=0,15$ e $\alpha_r=0,2.$

Após a verificação da eliminação da variável $x_2$ e supondo que ela não saiu do modelo, ou seja, seu p-valor não é maior que $\alpha_r$, ajustamos p-2 modelos de regressão logística contendo $x_{e_1}$,$x_{e_2}$ e $x_j$ com j=1,2,..,p. Seja $x_3$ a variável associada ao menor p-valor no teste da razão de verossimilhança, isto é, $p_{e_3}^{(2)}=min(p_j^{(2)}).$ Se o p-valor é menor que $\alpha_e$, $x_3$ entra no modelo e prosseguimos para o passo 3, caso contrário paramos por aqui e o modelo é explicado por $x_1$ e $x_2$.

  • Passo 3: O procedimento do passo 3 é idêntico ao do passo 2. O programa ajusta o modelo incluindo a variável selecionada durante os passos anteriores, checando se a inclusão dessa variável fez com que as outras variáveis do modelo perdessem a significância. O processo continua dessa mesma maneira até o último passo, o passo S.
  • Passo S: Esse passo ocorre quando: todas as p variáveis entraram no modelo ou se todas variáveis no modelo tem p-valor para sair menor que $\alpha_r$ e as variáveis não incluídas no modelo tem p-valor para entrar maior que $\alpha_e$.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]