Exemplo
Um analista está estudando o efeito do tempo de experiência em programação computacional sobre a habilidade para completar, dentro de um determinado tempo, uma tarefa difícil. Vinte e cinco programadores foram selecionados para o estudo. A variável preditora, X, corresponde ao meses de experiência.
OBS: Tarefa
se a tarefa foi completada com sucesso no tempo permitido, e Tarefa
se a tarefa não foi completada com sucesso.
| Meses de Experiência | Tarefa |
| 14 | 0 |
| 29 | 0 |
| 6 | 0 |
| 25 | 1 |
| 18 | 1 |
| 4 | 0 |
| 18 | 0 |
| 12 | 0 |
| 22 | 1 |
| 6 | 0 |
| 30 | 1 |
| 11 | 0 |
| 30 | 1 |
| 5 | 0 |
| 20 | 1 |
| 13 | 0 |
| 9 | 0 |
| 32 | 1 |
| 24 | 0 |
| 13 | 1 |
| 19 | 0 |
| 4 | 0 |
| 28 | 1 |
| 22 | 1 |
| 8 | 1 |
clique aqui para efetuar o download dos dados utilizados nesse exemplo
| Você pode consultar o vídeo demonstrativo para esse exemplo. | |||
Para realizarmos a Seleção de Modelos Binomial, vamos realizar os seguintes passos:
1. Primeiramente vamos acessar o menu como descrito a seguir:
Action
Modelos
Modelo Binomial

2. A seguinte tela será exibida:

3. Com o cursor no campo Conjunto de Dados, selecionamos na planilha de dados as duas colunas contendo os valores das variáveis incluíndo os nomes das variáveis. Para fazermos esta seleção, utilizamos o mouse, como mostrado na figura abaixo. Caso desejamos ler os dados sem os nomes das variáveis, é preciso desabilitar a opção Colunas com Nome, que fica abaixo do campo Conjunto de Dados.

4. Após selecionarmos o conjunto de dados, clicamos no botão Ler. Consequentemente, os nomes das variáveis lidas aparecerão no campo Montar Fórmula como visto na figura abaixo.

5. Em Amostras em, selecionemos a opção correspondente a seus dados: se estão completos (Dados Completos) ou resumidos (Dados Resumidos). No nosso exemplo selecionaremos Dados Completos;

6. No campo Variável Resposta escolheremos a variável correspondente. No nosso exemplo selecionaremos Refugo;

7. No campo Função de Ligação, selecionemos dentre as opções Logit (Logístico), Probit (Probito) e cloglog (Complemento Log Log). No nosso exemplo selecionaremos logit;

8. Como selecionamos Dados Completos o campo Número de ensaios ficará desabilitada;
9. A variável explicativa pode ser numérica ou categórica.
- Se a variável explicativa for categórica, o programa reconhece automaticamente essa informação e o nome da variável categórica é inserido automaticamente no campo Variáveis Categóricas.
- Se a variável explicativa for numérica mas quisermos utilizá-la como variável categórica, devemos informar. Para isso, no campo Variáveis Categóricas, digitamos o nome da variável explicativa como visto na figura abaixo.
- Se a variável explicativa for numérica e quisermos utilizá-la como variável numérica, não precisamos fazer nada, deixando o campo Variáveis Categóricas em branco.
CUIDADO: É preciso digitar o nome da variável da mesma maneira que está escrito na planilha de dados, incluindo letras maiúscula e minúscula pois o programa não reconhece a variável caso o nome esteja escrito de forma errada. Na figura abaixo vemos que não temos variáveis categóricas.

Se digitarmos o nome da variável categórica de maneira errada, a seguinte mensagem de erro aparecerá quando efetuarmos os demais passos e clicarmos no botão OK.

7. Indicado a variável resposta, devemos informar a fórmula do modelo. No campo Montar Fórmula, podemos selecionar as variáveis do modelo da seguinte maneira:
i) dar um clique na opção Todas ou
ii) dar um duplo clique em cada variável explicativa.
Obs: Ao clicar no botão Todas o software Action seleciona todas as variáveis, porém sem considerar as interações ou termos de ordem superior.
Assim, no campo Fórmula, aparecerá a variável explicativa Meses_de_Experiência , como mostrado na figura abaixo, assim o modelo ficará da seguinte forma log(Refugo)=β0 +β1*Meses_de_Experiência.

8. No quadro Opções, selecione as opções desejadas. No nosso exemplo selecionaremos Odds Ratio, Probabilidades Ajustadas e Valores de Previsão (Novos Dados), no mesmo quadro digitaremos o nível de confiança, no nosso exemplo 0,95 (95%);

9. O quadro Predição será habilitada apenas na opção Dados Completos, assim selecionaremos Curva Roc e Medidas de desempenho e digitaremos o ponto de corte, para nosso exemplo digitaremos 0,7.

10. Ao clicarmos no botão TRV (Teste de Razão de Verossimilhança), abrirá uma janela no qual poderemos testar as hipóteses. Ao aparecer a janela poderemos selecionar as variáveis testadas, no nosso exemplo selecionaremos todas, então clicaremos no botão >>.
Obs: Caso queira selecionar uma variável de cada vez, devemos clicar na variável de interesse e em seguida no botão >.

10. O botão Gráficos explicaremos separadamente. Para saber mais clique aqui (Gráficos).
11. Ao clicarmos no botão Resíduos, abrirá uma janela como na figura a seguir. No nosso exemplo escolheremos as opções Resíduo de Pearson, hii e Gráfico de Resíduo.

12. Ao clicarmos no botão Adequabilidade, abrirá uma janela como na figura a seguir. No nosso exemplo escolheremos a opção Teste de Hosmer e Lemeshow.

11. Em Mostrar Resultados, caso desejarmos que o resultado seja exibido na mesma planilha do conjunto de dados, vamos clicar em (Célula Atual), senão poderemos imprimir os resultados em nova planilha , nesse caso clicaremos em (Nova Planilha).
OBS: Ao escolher a opção Célula Atual, os resultados serão impressos a partir da célula em que se encontra o cursor na janela do Excel. Neste caso, o usuário deve posicionar previamente (antes do passo 1) o cursor em uma posição apropriada.
12. Finalmente, vamos clicar em Ok para concluirmos a análise e obtermos os resultados.

Resultados e Interpretação
Após finalizado esse processo, serão exibidos os seguintes resultados:


A primeira tabela nos fornece as estimativas dos parâmetros do modelo ajustado, além da razão das chances (odds ratio). As razões de chances (odds ratio) dos meses de experiência ser igual 1,175 nos indica que a chance de um programador completar uma tarefa difícil aumenta em 17,5% para cada mês adicional de experiência.

A segunda tabela apresenta alguns valores, como o resultado do teste de Wald, utilizado para avaliar se o parâmetro é estatisticamente significativo e a Deviance residual, que se estiver próxima dos seus graus de liberdade (o que realmente ocorre), conclui-se que a variação residual está explicada satisfatoriamente. Além deles, esta tabela apresenta também o número de iterações necessárias (quatro no total) para que houvesse a convergência dos parâmetros (Fisher Scoring Interaction) e ainda a Estatística qui-quadrado de pearson utilizada em testes de independência.
Normalmente os resíduos deviance, mostrados a seguir, são recomendados para se verificar a adequação do modelo. Para cada resposta
pode-se definir a deviance
. Como nos Modelos Lineares Generalizados a deviance é usada como medida de discrepância, então cada unidade i contribui com uma quantidade
.

- O primeiro gráfico é para verificarmos a homoscedasticidade dos dados onde nossa hipótese inicial para a construção do modelo é de que erros são homoscedásticos. O critério para análise é que quanto mais aleatório os pontos no gráfico maior o indício de homocedasticidade. Por outro lado se o gráfico apresentar uma tendência, é um indicativo de heteroscedasticidade. Nesse nosso exemplo não parece haver homoscedaticidade;
- A adequação do modelo e a existência de observações atípicas podem ser observadas com o gráfico de probabilidade normal dos resíduos;
- No gráfico da raiz do Valor Absoluto do Resíduo Deviance versus Valor Ajustado, a linha resultante do amortecimento (lowess) não apresenta um crescimento sistemático da esquerda para a direita. Portanto, não devemos considerar a função de variância incorreta. Conclui-se então que o modelo ajustado é adequado para representar a variância da média;
- O gráfico da distância de Cook, nos mostra a influência das observações sobre todos os valores preditos, uma vez que grandes resíduos podem prejudicar a precisão da regressão. Pelo gráfico vemos que há 3 observações que se sobressaem das demais, sendo então pontos influentes para o modelo;
- O gráfico dos resíduos versus leverage também serve para indicar a presença de pontos influentes. Nele novamente vemos a presença desses pontos, porém, como seus resíduos não são grandes, estes pontos não serão considerados outliers.

A seguir mostraremos a análise da matriz de confusão.

A seguir mostraremos a análise gráfica do modelo ajustado.

