Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique a variável resposta, isto é, dentre todas as variáveis explicativas disponíveis, devemos encontrar um subconjunto de variáveis importantes para o modelo.
Construir um modelo que inclui apenas um subconjunto de variáveis explicativas envolve dois objetivos conflitantes:
- Obter o máximo de informação por meio de um modelo com tantas variáveis independentes possíveis;
- Diminuir a variância da estimativa e o custo da coleta por meio de um modelo com menor número possível de variáveis.
Desta forma, obter um equilíbrio entre esses dois compromissos é de interesse. Para isto, utilizamos uma técnica, denominada de seleção de variáveis.
Existem duas principais estratégias no processo de seleção de variáveis:
-
Todos os modelos possíveis: considera todos os subconjuntos possíveis de variáveis explicativas, e considerando critérios de avaliação, seleciona o melhor deles.
-
Seleção Automática: faz uma busca do melhor subconjunto de variáveis explicativas sem considerar todos os possíveis subconjuntos.
Na prática, assumimos que a correta especificação funcional das variáveis explicativas é conhecida (por exemplo,
,
) e que não há outliers ou pontos influentes e então, aplicamos a técnica de seleção de variáveis. Entretanto, o ideal seria inicialmente,
-
Identificar outliers e pontos influentes,
-
Identificar eventuais colinearidade e heteroscedasticidade,
-
Realizar quaisquer transformações que sejam necessárias,
e então, aplicar seleção de variáveis.
A seguir apresentamos detalhadamente as estratégias Todos os modelos possíveis e Seleção Automática.
