O método Stepwise para a seleção de variáveis é muito usado em regressão linear.
Qualquer procedimento para seleção or exclusão de variáveis de um modelo é baseado em um algoritmo que checa a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra de decisão. A importância da variável é definida em termos de uma medida de significância estatística do coeficiente associado à variável para o modelo. Essa estatística depende das suposições do modelo. No Stepwise da regressão linear um teste F é usado desde que os erros tenham distribuição normal. Na regressão logística os erros seguem distribuição binomial e a significância é assegurada via Teste da Razão de Verossimilhança. Assim, em cada passo do procedimento a variável mais importante, em termos estatísticos, é aquela que produz a maior mudança no logaritmo da verossimilhança em relação ao modelo que não contém a variável.
Temos a seguir o algoritmo do método de Stepwise passo a passo;
- Passo 0: Suponha que temos p variáveis explicativas candidatas ao modelo. Esse passo começa com o ajuste apenas do intercepto e seja
o log da verossimilhança desse ajuste. Após isso, ajustamos os p modelos com apenas uma variável explicativa.
é o log da verossimilhança do modelo contendo a variável
. O valor do teste da Razão de Verossimilhança do modelo contendo
versus o modelo com apenas o intercepto é
e o p-valor é
, em que v=1 se
é contínuo e v=k-1 se
é categórico com k categorias.
Seja
o p-valor associado ao teste da variável
e além disso,
, ou seja, é o menor p-valor de todos os testes da Razão de Verossimilhança. Se
então
entra no modelo.
é o nível de significância para verificar se a variável entra ou não no modelo. Lee e Koval (1997) examinaram a questão da significância para a regressão logística. Os resultados mostram que a escolha
é muito rigorosa e por isso pode excluir variáveis importantes do modelo. É indicado escolher um valor de
entre 0,15 e 0,20.
- Passo 1: Ajustamos agora o modelo contendo
. Seja
o log da verossimilhança desse modelo. Para verificar se p-1 variáveis são importantes para o modelo, uma vez que
está nele, ajustamos p-1 modelos de regressão contendo
e
. O log da verossimilhança é denotada por
e a estatística teste da Razão de Verossimilhança é:
. Suponha que
, ou seja, o p-valor do teste associado à variável
é o menor dentre todos os outros. Se esse p-valor for menor que
entra no modelo e presseguimos para o passo 2, caso contrário o algoritmo termina e apenas a variável
foi incluída no modelo.
- Passo 2: O passo 2 começa com o ajuste do modelo contendo
e
. É possível que, com a inclusão de
,
passa a ser não significativa para o modelo. Por isso, nesse passo testamos a significância de uma das variáveis dado que a outra está no modelo. Seja
o log da verossimilhança do modelo com
removido. A estatística da razão de verossimilhança é
e
é o seu p-valor. Para decidir se removemos ou não alguma das variáveis, selecionamos o maior p-valor. Vamos supor que o p-valor da variável
seja o maior, ou seja,
. Para ver se a variável
sai do modelo, comparamos o seu p-valor com um nível de significância de saída, ou seja,
. Se
então
sai do modelo. Contudo, determinamos o valor de
que seja maior que
para não acontecer do programa remover e incluir a mesma variável no modelo em sucessivos passos. No método Stepwise em modelos de regressão logística, é recomendado
e 
Após a verificação da eliminação da variável
e supondo que ela não saiu do modelo, ou seja, seu p-valor não é maior que
, ajustamos p-2 modelos de regressão logística contendo
,
e
com j=1,2,..,p. Seja
a variável associada ao menor p-valor no teste da razão de verossimilhança, isto é,
Se o p-valor é menor que
,
entra no modelo e prosseguimos para o passo 3, caso contrário paramos por aqui e o modelo é explicado por
e
.
- Passo 3: O procedimento do passo 3 é idêntico ao do passo 2. O programa ajusta o modelo incluindo a variável selecionada durante os passos anteriores, checando se a inclusão dessa variável fez com que as outras variáveis do modelo perdessem a significância. O processo continua dessa mesma maneira até o último passo, o passo S.
- Passo S: Esse passo ocorre quando: todas as p variáveis entraram no modelo ou se todas variáveis no modelo tem p-valor para sair menor que
e as variáveis não incluídas no modelo tem p-valor para entrar maior que
.
