A seleção de variáveis é um meio para se chegar a um modelo, mas não é a etapa final. O objetivo é construir um modelo que seja bom para obter predições ou que explique bem o relacionamento entre os dados.
Os métodos de seleção automática têm a vantagem de não necessitar de grande esforço computacional. Mas eles não indicam o melhor modelo respeitando algum critério (não retorna um conjunto de modelos em que o pesquisador tem o poder de escolha).
Já o método de todos os modelos possíveis identifica modelos que são melhores respeitando o critério que o pesquisador quiser.
É indicado, então, usar métodos passo a passo combinados com outros critérios.
Se por acaso existe um grande número de variáveis, é recomendado usar métodos de seleção automática para eliminar aquelas com efeitos insignificantes E o conjunto reduzido de variáveis pode então ser investigado pelo método de todos os modelos possíveis.
A escolha do modelo final não é uma tarefa fácil. Além dos critérios formais, devemos responder às seguintes questões:
-
O modelo faz sentido?
-
O modelo é útil para o objetivo pretendido? Se, por exemplo, o custo da coleta dos dados de uma variável é exorbitante e impossível de ser obtido, isso resultará em um modelo sem utilidade.
-
Todos os coeficientes são razoáveis, ou seja, os sinais e magnitude dos valores fazem sentido e os erros padrões são relativamente pequeno?
-
A adequabilidade do modelo é satisfatória? Sem outliers, tem variância constante, normalidade e os dados são independentes?
Um princípio a ser levado em consideração é o "princípio da parcimônia": modelos mais simples devem ser escolhidos aos mais complexos, desde que a qualidade do ajuste seja similar.
