2.1 Modelo Estatístico

Você está aqui

Como visto na "Motivação 2", supor a construção de um modelo para relacionar a variável ganho (em íons) com as variáveis explicativas emissor de tempo e emissor da dose é razoável. Assim, definimos o modelo de regressão linear múltipla dado por 

$$Y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon,~~~~(2.1)$$

em que $ Y $ representa a variável resposta (o ganho em íons), $ x_1 $ e $ x_2 $ representam as variáveis explicativas (o emissor de tempo e o emissor de dose, respectivamente) e $ \varepsilon $ representa o erro experimental. Esse é um modelo de regressão linear múltipla com duas variáveis independentes ou explicativas ($ x_1 $ e $ x_2 $). O termo linear é usado pois a equação (2.1) é uma função linear de parâmetros desconhecidos $ \beta_0,\beta_1 $ e $ \beta_2, $ denominados coeficientes da regressão.

 

Interpretação dos parâmetros do modelo

 

  • O parâmetro $ \beta_0 $ corresponde ao intercepto do plano com o eixo z. Se $ x=(x_1, x_2)=(0,0) $ o parâmetro $ \beta_0 $ fornece a resposta média nesse ponto. Caso contrário, não é possível interpretar o parâmetro $ \beta_0 $.
  • O parâmetro $ \beta_1 $ indica uma mudança na resposta média a cada unidade de mudança em $ x_1 $, quando as demais variáveis são mantidas fixas.
  • De forma semelhante é a interpretação para o parâmetro $ \beta_2, $ que indica uma mudança na resposta média a cada unidade de mudança em $ x_2 $, quando $ x_1 $ é mantido constante.

 

Supondo $ E(\varepsilon)=0 $, temos $ E(Y|x)=\beta_0+\beta_1x_1+\beta_2x_2,  $ que descreve um plano bidimensional, denominado superfície de resposta.

De maneira geral, a variável resposta $ Y $ pode ser relacionada a um número $ p $ de variáveis de entrada. O modelo de regressão linear múltipla (MRLM) com $ p $ variáveis explicativas é dado por 

$$Y_i=\beta_{0}+\beta_{1}x_{i1}+\beta_{2}x_{i2}+...+\beta_{p}x_{ip}+\epsilon_i,~~~i=1,...,n,~~~~(2.2)$$

em que

  • $ x_{i1},x_{i2},...,x_{ip} $ são valores das variáveis explicativas, constantes conhecidas;

  • $ \beta_{0},\beta_{1},\beta_{2},...,\beta_{p} $ são parâmetros ou coeficientes da regressão;

  • $ \epsilon_i $ são erros aleatórios independentes.

Este modelo descreve um hiperplano p-dimensional referente às variáveis explicativas.

 

Efeito das interações

 

Modelos mais complexos do que o "Modelo 2.2" também são analisados usando técnicas de regressão linear múltipla. Consideremos o modelo de regressão linear múltipla com duas variáveis regressoras, $ x_1 $ e $ x_2 $, dado por 

$$ Y=\beta_0+\beta_1 x_{1}+\beta_2 x_{2}+\beta_{3}\underbrace{x_{1}\,x_{2}}_{\mbox{interação}} + \varepsilon.$$

Neste caso, $ x_1x_2 $ representa a interação existente entre as variáveis $ x_1 $ e $ x_2 $. Se a interação está presente e é significativa, o efeito de $ x_{1} $ na resposta média depende do nível de $ x_{2} $ e analogamente o efeito de $ x_{2} $ na resposta média depende do nível de $ x_{1}. $

Sabendo que $ E(\varepsilon)=0 $, tem-se que 

$$E(Y|x)=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_1x_2.$$

A interpretação para os parâmetros $ \beta_1 $ e $ \beta_2, $ no modelo com interação, não é o mesmo visto anteriormente.

 

Suposições para o modelo

 

As suposições necessárias para o Modelo de Regressão Linear Múltipla são:

i) O erro tem média zero e variância $ \sigma^2 $, desconhecida;

ii) Os erros são não correlacionados;

iii) Os erros têm distribuição normal;

iv) As variáveis regressoras $ x_{1}, x_{2}, \ldots, x_{p} $ assumem valores fixos.

As suposições (i)-(iii), simbolicamente, podem ser representadas por  

$$\varepsilon_{i} \ensuremath{\stackrel{\mbox{\footnotesize iid}}{\sim}}N(0, \sigma^2).$$

Se as suposições do MRLM se verificam, então a variável $ Y $ tem distribuição normal com variância $ \sigma^2 $ e média 

$$E(Y\mid x)=\beta_0+\beta_1 x_{1}+\beta_2 x_{2}+\ldots+\beta_p x_{p}.$$

Neste caso, os parâmetros $ \beta_j, $$ j=1,\dots,p $ representam a variação (média) esperada na variável resposta ($ Y $) quando a variável $ x_j $ sofre um acréscimo unitário, enquanto todas as outras variáveis $ x_i~~(i\neq j) $ são mantidas constantes. Por esse motivo os $ \beta_j $ são chamados de coeficientes parciais.

Se os valores de $ x_j $ incluem os valores $ x_j=0,j=1,\dots,p $ então $ \beta_0 $ é a média de $ Y $ quando $ x_j=0. $ Em caso contrário não existe interpretação prática.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]