O critério $C_p$ de Mallows é baseado no conceito do erro quadrático médio (EQM) dos valores ajustados. O erro quadrático médio da previsão é $$EQM=E(\hat{y}_i-E(y_i))^2=E(\hat{y}_i-E(\hat{y}_i)+E(E(\hat{y}_i)-E(y_i)))^2$$ $$=E(\hat{y}_i-E(\hat{y}_i))^2+(E(\hat{y}_i)-E(y_i))^2=Var(\hat{y}_i)+vicio^2(\hat{y}_i),$$

em que $E(\hat{y}_i)-E(y_i)$ é o vicio. Assim, o EQM é a soma da variância de $\hat{y}_i$ e o vício ao quadrado. O EQM considerando os n valores amostrais é $$\sum{E(\hat{y}_i-y_i)^2}= \sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}.$$

O critério $\Gamma_p$ é o erro quadrático médio dividido pela variância dos erros $\sigma^2$. $$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[\sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}],~~~~~~~~~~~(2.7.1.4)$$

em que $\sum{Var(\hat{y}_i)}=(p+1)\sigma^2$ e o valor esperado da soma dos quadrados dos erros é: $$E(SQE)=(E(\hat{y}_i)-E(y_i))^2+(n-(p+1))\sigma^2.$$

Substituindo esses valores em (2.7.1.4), obtemos $$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[E(SQE)-(n-(p+1))\sigma^2+(p+1)\sigma^2]$$ $$=\frac{E(SQE)}{\sigma^2}-n+2(p+1).$$

Como $\sigma^2$ é desconhecido, assumindo que o modelo que inclui todas as variáveis explicativas é tal que o QME é um estimador não viciado de $\sigma^2$ e substituindo E(SQE) pelo valor observado SQE, $\Gamma_p$ pode ser estimado por $$C_p=\frac{SQE(p)}{QME}-n+2(p+1),$$

em que SQE(p) é a soma de quadrados dos erros do submodelo e QME é o quadrado médio do modelo com todas as variáveis explicativas.

Pode também ser mostrado que quando não há vício na estimativa do modelo com as p variáveis, $E(SQE)=(n-(p+1))\sigma^2$ e então, $$E[C_p|Vicio=0]=\frac{(n-(p+1))\sigma^2}{\sigma^2}-n+2(p+1)=p+1,$$

em que $p+1$ é o número de parâmetros no modelo já que p é o número de variáveis explicativas mais o intercepto.

A estratégia usada para selecionar modelos com o critério $C_p$ é identificar modelos com $C_p$ próximo do número de parâmetros $(p+1)$.

Exemplo 2.7.1.4

Vamos calcular o $C_p$ para os todos os modelos possíveis do exemplo na "Motivação 2".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

  • Modelo 1:

A soma de quadrados dos erros do modelo apenas com Tempo como variável explicativa é 34.419. O quadrado médio do modelo completo é 1.220. Assim, o $C_p$ é dado por: $$C_p=\frac{34.419}{1.220}-14+2\times 2=18,21.$$

  • Modelo 2:

A soma de quadrados dos erros do modelo apenas com Dose de íons como variável explicativa é 643.775 e o quadrado médio do modelo completo é 1.220. O $C_p$ do modelo 2 é: $$C_p=\frac{643.775}{1.220}-14+2\times 2=517,6.$$

  • Modelo 3:

A soma de quadrados dos erros do modelo completo é 13.421 e o quadrado médio é 1.220. $$C_p=\frac{13.421}{1.220}-14+2\times 3=3.$$

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]