Modelo de Regressão Linear Múltipla sobre ganho de um transistor

Você está aqui

Manual da ferramenta Action sobre Regressão Linear Múltipla

Para mais detalhes sobre o conteúdo estatístico  Regressão Linear Múltipla, clique aqui

Se estamos interessados na relação linear de duas ou mais variáveis de entrada com a variável resposta, então temos o caso de Regressão Linear Múltipla.

Exemplo:

O ganho de um transistor consiste na diferença entre o emissor e o coletor. A variável Ganho (em hFE) pode ser controlada no processo de deposição de íons por meio das variáveis Tempo de emissão (em minutos) e Dose de íons ($ \times 10^{14} $). Os dados encontram-se na Tabela 1. Nosso objetivo é  avaliar a relação linear entre Ganho dos transistores e as covariáveis Tempo de emissão e Dose de íons.

Observação Tempo (min) Dose de íons ($ \times 10^{14} $) Ganho (hFe)
1 195 4 1004
2 255 4 1636
3 195 4,6 852
4 255 4,6 1506
5 225 4,2 1272
6 225 4,1 1270
7 225 4,6 1269
8 195 4,3 903
9 255 4,3 1555
10 225 4 1260
11 225 4,7 1146
12 225 4,3 1276
13 225 4,72 1225
14 230 4,3 1321

Tabela 1: Ganho em um conjunto de pistões à diferentes níveis de emissão e coleta.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Para ajustarmos um  Modelo de Regressão Linear Múltipla, vamos realizar os seguintes passos:

1. Primeiramente vamos acessar o menu como descrito a seguir:

Action Stat $ \blacktriangleright $ Modelo Linear $ \blacktriangleright $  Modelo Linear.

2. A seguinte tela será exibida:

3.Com o cursor no campo Conjunto de Dados, selecionamos na planilha de dados as duas colunas contendo os valores das variáveis incluindo os nomes das variáveis. Para fazermos esta seleção, utilizamos o mouse, como mostrado na figura abaixo;

4. Caso desejamos ler os dados sem os nomes das variáveis, é preciso desabilitar a opção Colunas com Nome, que fica abaixo do campo Conjunto de Dados, neste caso, deixaremos habilitado;

5. Após selecionarmos o conjunto de dados, clicamos no botão Ler. Consequentemente, os nomes das variáveis lidas aparecerão no campo Montar Fórmula como visto na figura abaixo;

6. No campo Variável Resposta escolheremos a variável correspondente. No nosso exemplo selecionaremos a variável Ganho;

7. No campo Montar Fórmula clicaremos no botão Todas;

8. Em Fórmula aparecerá a fórmula do modelo;

9. Em Opções selecionaremos Valores de Predição e Valores de Previsão (Novos Dados);

10. Ainda em Opções, no campo Valores de Previsão (Novos Dados), selecionaremos os novos dados;

11. Em Opções no campo Nível de Confiança digitaremos 0,95; 

12. Clicaremos no botão Diagnosticar Erros e abrirá uma nova caixa;

13. Em Opções clicaremos em Selecionar todos e depois em Ok;

 

14. Em Mostrar Resultados, caso desejarmos que o resultado seja exibido na mesma planilha do conjunto de dados, vamos clicar em (Célula Atual), senão poderemos imprimir os resultados em nova planilha , nesse caso clicaremos em (Nova Planilha).

OBS: Ao escolher a opção Célula Atual, os resultados serão impressos a partir da célula em que se encontra o cursor na janela do Excel. Neste caso, o usuário deve posicionar previamente (antes do passo 1) o cursor em uma posição apropriada.

15. Finalmente, vamos clicar em Ok para concluirmos a análise e obtermos os resultados.

Resultados e Interpretação

Finalizado o processo serão exibidos os seguintes resultados:

Analisando a primeira tabela (Tabela da Anova) concluímos que as variáveis Tempo e Dose_de_íons são significativas para o modelo uma vez que o p-valor para os dois coeficientes foram menores do que $ \alpha $=5%.  

A segunda tabela apresenta uma análise descritiva dos resíduos do modelo, contendo os valores dos quartis, máximos e mínimos, média e mediana. 

Na  tabela de Coeficientes temos as estimativas do intercepto e dos coeficientes relacionados às variáveis de entrada. Como o coeficiente da variável tempo é positivo, concluímos que no intervalo da análise, um aumento deste provoca aumento também no ganho do transistor. Já com relação à variável dose, como seu coeficiente é negativo, concluímos que no intervalo da análise, um aumento dela provoca diminuição no ganho do transistor. A tabela apresenta também os p-valores para cada coeficiente, em que a hipótese nula é que o coeficiente é não significativo. Como os valores calculados foram menores do que $ \alpha $=5%, rejeitamos a hipótese nula, o que significa que o intercepto e as variáveis de entrada são importantes para o modelo.

A tabela Medida descritiva da Qualidade do Ajuste apresenta o valor de $ R^2 $ Ajustado em que podemos ter uma ideia da qualidade do ajuste. Dado seu valor, de 0,9762, temos que cerca de $ 97\% $ da variabilidade dos dados é explicada pelo modelo de regressão ajustado, e assim, temos um indício de que o modelo se ajustou bem ao conjunto de dados.

Na Tabela Intervalo de Confiança para os Parâmetros, são apresentados os intervalos de confiança para cada parâmetro.

Na tabela de predição são apresentados os valores preditos (valores ajustados) e os respectivos intervalos de confiança e desvios padrão para cada observação.

Na tabela intervalo de previsão temos o valor previsto, o intervalo de confiança e o desvio padrão para o nível 200 da variável explicativa Tempo.

Na Tabela Análise de Diagnóstico, temos a análise de alguns tipos de resíduos além dos Pontos de Influência, DFfits, DFbetas e Distância de Cook.

A Tabela Critério nos mostra os valores adotados para determinar os pontos de alavanca, pontos influentes e valores extremos na resposta.

 

No gráfico 1 um gráfico de Resíduos Padronizados versus Valores Ajustados.

No gráfico 2 um gráfico de Resíduos versus Quantis da Normal.

No gráfico 3 um gráfico de Resíduos versus Valores Ajustados.

No gráfico 4 um gráfico de Resíduos versus Ordem de Coleta.

Na Tabela Teste de Normalidade, temos os testes de Anderson-DarlingShapiro-WilkKolmogorov-SmirnovRyan-Joiner para verificar se os resíduos tem distribuição normal, como os p-valores são todos maiores que 0,05, não rejeitamos a hipótese de normalidade dos dados.

 

Nas tabelas acima temos os testes de homocedasticidade de Breusch Pagan e Goldfeld Quandt assumindo um nível de confiança de 0,05, todos os testes apresentam p-valores maiores que o nível de significância, assim não rejeitamos a hipótese de homocedasticidade dos resíduos.

Adotando um nível de significância de 5% temos que pelo teste de Durbin Watson os resíduos são independentes.

No gráfico de resíduos versus ordem de coleta, notamos que os pontos não parecem ter uma tendência e por isso temos indícios de independência dos erros

 

No gráfico, observamos que nenhum $ h_{ii} $ é maior do que 2(p+1)/n=2(3)/14= 0,43. Por isso, temos que nenhuma observação é considerada outlier em X.

 

A Tabela Outliers (pontos atípicos), nos mostra os resultados obtidos da aplicação do Teste de Bonferroni para a verificação de Pontos Atípicos.

 

 

 

 

Temos que nenhum DFFITS, D-COOK e DFBETAS é, em módulo, maior que 1. Assim, temos que nenhuma observação do exemplo é um ponto influente.

Como o VIF é menor do que 10, não temos o problema de multicolinearidade.

Podemos ver a Análise Gráfica dos Resíduos por meio dos gráficos acima.

Manual - Modelos

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]