Skip to main content

Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique a variável resposta, isto é, dentre todas as variáveis explicativas disponíveis, devemos encontrar um subconjunto de variáveis importantes para o modelo. 

Construir um modelo que inclui apenas um subconjunto de variáveis explicativas envolve dois objetivos conflitantes: 

  1. Obter o máximo de informação por meio de um modelo com tantas variáveis independentes possíveis;
  2. Diminuir a variância da estimativa e o custo da coleta por meio de um modelo com menor número possível de variáveis.

Desta forma, obter um equilíbrio entre esses dois compromissos é de interesse. Para isto, utilizamos uma técnica, denominada de seleção de variáveis.

Existem duas principais estratégias no processo de seleção de variáveis:

  • Todos os modelos possíveis: considera todos os subconjuntos possíveis de variáveis explicativas, e considerando critérios de avaliação, seleciona o melhor deles. 
  • Seleção Automática: faz uma busca do melhor subconjunto de variáveis explicativas sem considerar todos os possíveis subconjuntos.

Na prática, assumimos que a correta especificação funcional das variáveis explicativas é conhecida (por exemplo, $ 1/x_1 $, $ ln~x_2 $) e que não há outliers ou pontos influentes e então, aplicamos a técnica de seleção de variáveis. Entretanto, o ideal seria inicialmente,

  • Identificar outliers e pontos influentes,
  • Identificar eventuais colinearidade e heteroscedasticidade,
  • Realizar quaisquer transformações que sejam necessárias,

e então, aplicar seleção de variáveis.

A seguir apresentamos detalhadamente as estratégias Todos os modelos possíveis e Seleção Automática.