Como visto na Figura 1.1 referente à "Motivação 1", é razoável supor que a relação existente entre as variáveis dureza de pistões, denotada por Y e níveis de temperatura, denotada por X, é linear. Desta forma, definimos o seguinte modelo de regressão linear simples entre Y (variável resposta) e X (variável regressora).
Definição 1.1.1
Consideremos duas variáveis X e Y. Dados n pares (X1,Y1),(X2,Y2),...,(Xn,Yn), se Y é função linear de X, pode-se estabelecer uma regressão linear simples cujo modelo estatístico é
![]() |
em que substituímos Xi por xi uma vez que Xi é uma variável determinística (constante conhecida).
Neste modelo,
-
Yi é uma variável aleatória e representa o valor da variável resposta (variável dependente) na i-ésima observação;
-
xi representa o valor da variável explicativa (variável independente, variável regressora) na i-ésima observação;
-
εi é uma variável aleatória que representa o erro experimental;
-
ß0 e ß1 são os parâmetros do modelo, que serão estimados, e que definem a reta de regressão e
-
n é o tamanho da amostra.
1.1.1 Interpretação dos parâmetros do modelo
O parâmetro ß0 é chamado intercepto ou coeficiente linear e representa o ponto em que a reta regressora corta o eixo dos y's, quando x=0. Já o parâmetro ß1 representa a inclinação da reta regressora e é dito coeficiente de regressão ou coeficiente angular. Além disso, temos que para um aumento de uma unidade na variável x, o valor E(Y|x) aumenta ß1 unidades. A interpretação geométrica dos parâmetros ß0 e ß1 pode ser vista na Figura 1.1.1.

Figura 1.1.1: Reta Regressora.
Um ponto negativo na Definição 1.1.1 é que o modelo de regressão linear simples não acomoda impactos de erros experimentais (variação de matéria prima), de erros de medida, entre outras inúmeras fontes de variabilidade, tornando-se inadequado nestes casos.
1.1.2 Suposições para o modelo
Ao estabelecer o modelo 1.1.1 para os dados, pressupomos que:
i) A relação matemática entre Y e X é linear;
ii) Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória;
iii) A média do erro é nula, ou seja, E(εi)=0. Desta forma, segue que
![]() |
e portanto, a função de regressão para o modelo 1.1.1 é dada por:
![]() |
Note que o valor observado de Yi está em torno do valor da função de regressão com erro experimental εi.
iv) Para um dado valor de x, a variância de εi é sempre σ2, isto é,
![]() |
isto implica em:
![]() |
Então, podemos dizer que o erro é homocedástico (tem variância constante);
v) O erro de uma observação é independente do erro de outra observação (erros não correlacionados), isto é,
![]() |
vi) Frequentemente, supomos que os erros tem distribuição Normal.
Desta forma, combinando (iii), (iv) e (vi) temos que
. Como Yi é a soma de um termo constante,
, com um termo aleatório,
, segue que
Além disso, por (v) temos que Yi e Yj também são descorrelacionados. A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança.

![\[Y_i=\beta_0+\beta_1 x_i+\varepsilon_i,~~~\mbox{para }~i=1,\ldots,n,~~~~~(1.1.1)\]](/sites/default/files/tex/5b8dad5b8995b7d68a864d13728949f123cc98f0.png)

![$$E[Y]=\beta_{0}+\beta_{1}x$$](/sites/default/files/tex/3c816ec21c12b589c65943087cda68d054de95d8.png)
![$$Var(\varepsilon_i)= E(\varepsilon_i^2) - [E(\varepsilon_i)]^2 = E(\varepsilon_i^2) = \sigma^2, $$](/sites/default/files/tex/65f0bb33bb8835132bb3172779ed7f11f8a0a570.png)
![$$Var(Y_i)= E[Y_i - E(Y_i|x_i)]^2 = E(\varepsilon_i^2) = \sigma^2.$$](/sites/default/files/tex/34a29cbc5b7d49353edf2161b4ccc74a5304281b.png)
