Skip to main content

Como visto na Figura 1.1 referente à "Motivação 1", é razoável supor que a relação existente entre as variáveis dureza de pistões, denotada por Y e níveis de temperatura, denotada por X, é linear. Desta forma, definimos o seguinte modelo de regressão linear simples entre Y (variável resposta) e X (variável regressora).

Definição 1.1.1

Consideremos duas variáveis X e Y. Dados n pares (X1,Y1),(X2,Y2),...,(Xn,Yn), se Y é função linear de X, pode-se estabelecer uma regressão linear simples cujo modelo estatístico é 

\[Y_i=\beta_0+\beta_1 x_i+\varepsilon_i,~~~\mbox{para }~i=1,\ldots,n,~~~~~(1.1.1)\]

em que substituímos Xi por xi uma vez que Xi é uma variável determinística (constante conhecida).

Neste modelo, 

  • Yi é uma variável aleatória e representa o valor da variável resposta (variável dependente) na i-ésima observação;

  • xi representa o valor da variável explicativa (variável independente, variável regressora) na i-ésima observação;

  • εi é uma variável aleatória que representa o erro experimental;

  • ß0 e ß1 são os parâmetros do modelo, que serão estimados, e que definem a reta de regressão e

  • n é o tamanho da amostra.

1.1.1 Interpretação dos parâmetros do modelo

O parâmetro ß0 é chamado intercepto ou coeficiente linear e representa o ponto em que a reta regressora corta o eixo dos y's, quando x=0. Já o parâmetro ß1 representa a inclinação da reta regressora e é dito coeficiente de regressão ou coeficiente angular. Além disso, temos que para um aumento de uma unidade na variável x, o valor E(Y|x) aumenta ß1 unidades. A interpretação geométrica dos parâmetros ß0 e ß1 pode ser vista na Figura 1.1.1.


Figura 1.1.1: Reta Regressora.

Um ponto negativo na Definição 1.1.1 é que o modelo de regressão linear simples não acomoda impactos de erros experimentais (variação de matéria prima), de erros de medida, entre outras inúmeras fontes de variabilidade, tornando-se inadequado nestes casos.

1.1.2 Suposições para o modelo

Ao estabelecer o modelo 1.1.1 para os dados, pressupomos que:

i) A relação matemática entre Y e X é linear;

ii) Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória; 

iii) A média do erro é nula, ou seja, E(εi)=0. Desta forma, segue que

$$E(Y_{i})=E(\beta_{0}+\beta_{1}x_{i}+\epsilon_{i})=\beta_{0}+\beta_{1}x_{i}+E(\epsilon_{i})=\beta_{0}+\beta_{1}xi}$$

e portanto, a função de regressão para o modelo 1.1.1 é dada por:

$$E[Y]=\beta_{0}+\beta_{1}x$$

Note que o valor observado de Yi está em torno do valor da função de regressão com erro experimental εi.

iv) Para um dado valor de x, a variância de εi é sempre σ2, isto é,

$$Var(\varepsilon_i)= E(\varepsilon_i^2) - [E(\varepsilon_i)]^2 = E(\varepsilon_i^2) = \sigma^2, $$

isto implica em:

$$Var(Y_i)= E[Y_i - E(Y_i|x_i)]^2 = E(\varepsilon_i^2) = \sigma^2.$$

Então, podemos dizer que o erro é homocedástico (tem variância constante);

v) O erro de uma observação é independente do erro de outra observação (erros não correlacionados), isto é,

$$Cov(\varepsilon_i,\varepsilon_j)= E(\varepsilon_i,\varepsilon_j) - E(\varepsilon_i)E(\varepsilon_j) = E(\varepsilon_i,\varepsilon_j) = 0, \quad \text{para} \quad i \neq j;\,\text{e}$$

vi) Frequentemente, supomos que os erros tem distribuição Normal.

Desta forma, combinando (iii), (iv) e (vi) temos que $ \varepsilon_i \sim N(0;\,\sigma^2) $. Como Yi é a soma de um termo constante, $ \beta_{0}+\beta_{1}x_{i} $, com um termo aleatório, $ \epsilon_{i} $, segue que $ Y_i \sim N(\beta_0 + \beta_1 x_i;\,\sigma^2). $ Além disso, por (v) temos que Yi e Yj também são descorrelacionados. A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança.