1.6 Coeficiente de Determinação

Você está aqui

Uma das formas de avaliar a qualidade do ajuste do modelo é através do coeficiente de determinação. Basicamente, este coeficiente indica quanto o modelo foi capaz de explicar os dados coletados. O coeficiente de determinação é dado pela expressão


$$R^2=\dfrac{SQR}{SQT}=1-\dfrac{SQE}{SQT}=\dfrac{\widehat\beta_1\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i}{\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2},$$

ou seja, é a razão entre a soma de quadrados da regressão e a soma de quadrados total. No modelo com intercepto, podemos escrever


$$R^2=\dfrac{\widehat{\beta}_{1}\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i}{\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2}=\dfrac{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2}=\dfrac{\left(\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i\right)^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2}.$$

Notemos que


$$0 \leq R^2 \leq 1.$$

 

O $ R^2 $ é, portanto, uma medida descritiva da qualidade do ajuste obtido. Em geral referimo-nos ao $ R^2 $ como a quantidade de variabilidade nos dados que é explicada pelo modelo de regressão ajustado. Entretanto, o valor do coeficiente de determinação depende do número de observações $ (n) $, tendendo a crescer quando $ n $ diminui. Se $ n = 2 $, tem-se sempre $ R^2 = 1. $

O $ R^2 $ deve ser usado com precaução, pois é sempre possível torná-lo maior pela adição de um número suficiente de termos ao modelo. Assim, se, por exemplo, não há dados repetidos (mais do que um valor $ y $ para um mesmo $ x $) um polinômio de grau $ (n - 1) $ dará um ajuste perfeito $ (R^2 = 1) $ para $ n $ dados. Quando há valores repetidos, o $ R^2 $ não será nunca igual a 1, pois o modelo não poderá explicar a variabilidade devido ao erro puro.

Embora $ R^2 $ aumente com a adição de termos ao modelo, isto não significa necessariamente que o novo modelo é superior ao anterior. A menos que a soma de quadrados residual do novo modelo seja reduzida por uma quantidade igual ao quadrado médio residual original, o novo modelo terá um quadrado médio residual maior do que o original, devido a perda de 1 grau de liberdade. Na realidade esse novo modelo poderá ser pior do que o anterior.

A magnitude de $ R^2 $, também, depende da amplitude de variação da variável regressora ($ x $). Geralmente, $ R^2 $ aumentará com maior amplitude de variação dos $ x $'s e diminuirá em caso contrário. Pode-se mostrar que


$$E[R^2]\cong \dfrac{\widehat{\beta}^2_1 \displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}{\widehat{\beta}_1^2\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2+\sigma^2}.$$

Assim, um valor grande de $ R^2 $ poderá ser grande simplesmente porque $ x $ variou em uma amplitude muito grande. Por outro lado $ R^2 $ poderá ser pequeno porque a amplitude dos $ x $'s foi muito pequena para permitir que uma relação com $ y $ fosse detectada. Em geral, também, $ R^2 $ não mede a magnitude da inclinação da reta. Um valor grande de $ R^2 $ não significa uma reta mais inclinada. Além do mais, ele não leva em consideração a falta de ajuste do modelo; ele poderá ser grande, mesmo que $ y $ e $ x $ estejam não linearmente relacionados. Dessa forma, vê-se que $ R^2 $ não deve ser considerado sozinho, mas sempre aliado a outros diagnósticos do modelo.

Exemplo 1.6.1: 

Vamos calcular o coeficiente de determinação $ R^2 $ com os dados do exemplo na "Motivação 1".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:

$$R^2=\dfrac{(S_{xy})^2}{S_{xx}S_{yy}}=\dfrac{(-645)^2}{625*706,8}=\dfrac{416025}{441750}=0,9417.$$

 

1.6.1 Coeficiente de Determinação Ajustado

Para evitar dificuldades na interpretação de $ R^2 $, alguns estatísticos preferem usar o $ R_a^2 $ ($ R^2 $ ajustado), definido para uma equação com 2 coeficientes como


$$R^2_a=1-\left(\frac{n-1}{n-2}\right)(1-R^2).$$

Assim como o Coeficiente de Determinação $ R^2 $, quanto maior $ R_a^2 $, mais a variável resposta é explicada pela regressora X.

Exemplo 1.6.1.1:

 Vamos calcular agora o coeficiente de determinação $ R^2_a $ com os dados do exemplo na "Motivação 1".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução:


$$R_a^2=1-\left(\dfrac{19}{18}\right)(1-0,9417)=0,93846.$$

 

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o  manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]