4.2.5.1 Seleção Stepwise

O método Stepwise para a seleção de variáveis é muito usado em regressão linear.

Qualquer procedimento para seleção or exclusão de variáveis de um modelo é baseado em um algoritmo que checa a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra de decisão. A importância da variável é definida em termos de uma medida de significância estatística do coeficiente associado à variável  para o modelo. Essa estatística depende das suposições do modelo. No Stepwise da regressão linear um teste F é usado desde que os erros tenham distribuição normal. Na regressão logística os erros seguem distribuição binomial e a significância é assegurada via Teste da Razão de Verossimilhança. Assim, em cada passo do procedimento a variável mais importante, em termos estatísticos, é aquela que produz a maior mudança no logaritmo da verossimilhança em relação ao modelo que não contém a variável.

Temos a seguir o algoritmo do método de Stepwise passo a passo;

  • Passo 0: Suponha que temos p variáveis explicativas candidatas ao modelo. Esse passo começa com o ajuste apenas do intercepto e seja $ L_0 $ o log da verossimilhança desse ajuste. Após isso, ajustamos os p modelos com apenas uma variável explicativa. $ L_{j}^{(0)} $ é o log da verossimilhança do modelo contendo a variável $ x_j $.  O valor do teste da Razão de Verossimilhança do modelo contendo $ x_j $ versus o modelo com apenas o intercepto é $ G_j^{(0)}=-2(L_0-L_j^{(0)}) $ e o p-valor é $ p_j^{(0)}=P[\chi_{v}^2\textgreater G_j^{(0)}] $, em que v=1 se $ x_j $ é contínuo e v=k-1 se $ x_j $ é categórico com k categorias. 

Seja $ p_{e_1}^{(0)} $ o p-valor associado ao teste da variável $ x_1 $ e além disso, $ p_{e_1}^{(0)}=min(p_j^{(0)}) $, ou seja, é o menor p-valor de todos os testes da Razão de Verossimilhança. Se $ p_{e_1}^{(0)}\textless\alpha_e $ então $ x_1 $ entra no modelo.

$ \alpha_e $ é o nível de significância para verificar se a variável entra ou não no modelo. Lee e Koval (1997) examinaram a questão da significância para a regressão logística. Os resultados mostram que a escolha $ \alpha_e=0,05 $ é muito rigorosa e por isso pode excluir variáveis importantes do modelo. É indicado escolher um valor de $ \alpha_e $ entre 0,15 e 0,20.

  • Passo 1: Ajustamos agora o modelo contendo $ x_1 $. Seja $ L_{e_1}^{(1)} $ o log da verossimilhança desse modelo. Para verificar se p-1 variáveis são importantes para o modelo, uma vez que $ x_1 $ está nele, ajustamos p-1 modelos de regressão contendo $ x_1 $ e $ x_j $. O log da verossimilhança é denotada por $ L_{e_1;j}^{(1)} $ e a estatística teste da Razão de Verossimilhança é: $ G_j^{(1)}=-2(L_{e_1}^{(1)}-L_{e_1;j}^{(1)}) $. Suponha que $ p_{e_2}^{(1)}=min(p_j^{(1)}) $, ou seja, o p-valor do teste associado à variável $ x_2 $ é o menor dentre todos os outros. Se esse p-valor for menor que $ \alpha_e $$ x_2 $ entra no modelo e prosseguimos para o passo 2, caso contrário o algoritmo termina e apenas a variável $ x_1 $ foi incluída no modelo.
  • Passo 2: O passo 2 começa com o ajuste do modelo contendo $ x_1 $ e $ x_2 $. É possível que, com a inclusão de $ x_2 $, $ x_1 $ passa a ser não significativa para o modelo. Por isso, nesse passo testamos a significância de uma das variáveis dado que a outra está no modelo. Seja $ L_{-e_j}^{(2)} $ o log da verossimilhança do modelo com $ x_j $ removido. A estatística da razão de verossimilhança é $ G_{-e_j}^{(2)}=-2(L_{-e_j}^{(2)}-L_{e_1;e_2}^{(2)}) $ e $ p_{-e_j}^{(2)} $ é o seu p-valor. Para decidir se removemos ou não alguma das variáveis, selecionamos o maior p-valor. Vamos supor que o p-valor da variável $ x_2 $ seja o maior, ou seja,  $ p_{r_2}^{(2)}=max(p_{-e_1}^{(2)},p_{-e_2}^{(2)}) $. Para ver se a variável  $ x_2 $ sai do modelo, comparamos o seu p-valor com um nível de significância de saída, ou seja, $ \alpha_r $. Se $ p_{r_2}^{(2)}\textgreater\alpha_r $ então $ x_2 $ sai do modelo. Contudo, determinamos o valor de $ \alpha_r $ que seja maior que $ \alpha_e $ para não acontecer do programa remover e incluir a mesma variável no modelo em sucessivos passos. No método Stepwise em modelos de regressão logística, é recomendado $ \alpha_e=0,15 $ e $ \alpha_r=0,2. $

Após a verificação da eliminação da variável $ x_2 $ e supondo que ela não saiu do modelo, ou seja, seu p-valor não é maior que $ \alpha_r $, ajustamos p-2 modelos de regressão logística contendo $ x_{e_1} $,$ x_{e_2} $ e $ x_j $ com j=1,2,..,p. Seja $ x_3 $ a variável associada ao menor p-valor no teste da razão de verossimilhança, isto é, $ p_{e_3}^{(2)}=min(p_j^{(2)}). $ Se o p-valor é menor que $ \alpha_e $, $ x_3 $ entra no modelo e prosseguimos para o passo 3, caso contrário paramos por aqui e o modelo é explicado por $ x_1 $ e $ x_2 $.

  • Passo 3: O procedimento do passo 3 é idêntico ao do passo 2. O programa ajusta o modelo incluindo a variável selecionada durante os passos anteriores, checando se a inclusão dessa variável fez com que as outras variáveis do modelo perdessem a significância. O processo continua dessa mesma maneira até o último passo, o passo S.
  • Passo S: Esse passo ocorre quando: todas as p variáveis entraram no modelo ou se todas variáveis no modelo tem p-valor para sair menor que $ \alpha_r $ e as variáveis não incluídas no modelo tem p-valor para entrar maior que $ \alpha_e $.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]