O critério $ C_p $ de Mallows é baseado no conceito do erro quadrático médio (EQM) dos valores ajustados. O erro quadrático médio da previsão é 

$$EQM=E(\hat{y}_i-E(y_i))^2=E(\hat{y}_i-E(\hat{y}_i)+E(E(\hat{y}_i)-E(y_i)))^2$$

 

$$=E(\hat{y}_i-E(\hat{y}_i))^2+(E(\hat{y}_i)-E(y_i))^2=Var(\hat{y}_i)+vicio^2(\hat{y}_i),$$

em que $ E(\hat{y}_i)-E(y_i) $ é o vicio. Assim, o EQM é a soma da variância de $ \hat{y}_i $ e o vício ao quadrado. O EQM considerando os n valores amostrais é 

$$\sum{E(\hat{y}_i-y_i)^2}= \sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}.$$

O critério $ \Gamma_p $ é o erro quadrático médio dividido pela variância dos erros $ \sigma^2 $

$$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[\sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}],~~~~~~~~~~~(2.7.1.4)$$

em que $ \sum{Var(\hat{y}_i)}=(p+1)\sigma^2 $ e o valor esperado da soma dos quadrados dos erros é: 

$$E(SQE)=(E(\hat{y}_i)-E(y_i))^2+(n-(p+1))\sigma^2.$$

Substituindo esses valores em (2.7.1.4), obtemos 

$$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[E(SQE)-(n-(p+1))\sigma^2+(p+1)\sigma^2]$$

 

$$=\frac{E(SQE)}{\sigma^2}-n+2(p+1).$$

Como $ \sigma^2 $ é desconhecido, assumindo que o modelo que inclui todas as variáveis explicativas é tal que o QME é um estimador não viciado de $ \sigma^2 $ e substituindo E(SQE) pelo valor observado SQE, $ \Gamma_p $ pode ser estimado por 

$$C_p=\frac{SQE(p)}{QME}-n+2(p+1),$$

em que SQE(p) é a soma de quadrados dos erros do submodelo e QME é o quadrado médio do modelo com todas as variáveis explicativas.

Pode também ser mostrado que quando não há vício na estimativa do modelo com as p variáveis, $ E(SQE)=(n-(p+1))\sigma^2 $ e então, 

$$E[C_p|Vicio=0]=\frac{(n-(p+1))\sigma^2}{\sigma^2}-n+2(p+1)=p+1,$$

em que $ p+1 $ é o número de parâmetros no modelo já que p é o número de variáveis explicativas mais o intercepto.

A estratégia usada para selecionar modelos com o critério $ C_p $ é identificar modelos com $ C_p $ próximo do número de parâmetros $ (p+1) $.

Exemplo 2.7.1.4

Vamos calcular o $ C_p $ para os todos os modelos possíveis do exemplo na "Motivação 2".

clique aqui para efetuar o download dos dados utilizados nesse exemplo

  • Modelo 1:

A soma de quadrados dos erros do modelo apenas com Tempo como variável explicativa é 34.419. O quadrado médio do modelo completo é 1.220. Assim, o $ C_p $ é dado por: 

$$C_p=\frac{34.419}{1.220}-14+2\times 2=18,21.$$

  • Modelo 2:

A soma de quadrados dos erros do modelo apenas com Dose de íons como variável explicativa é 643.775 e o quadrado médio do modelo completo é 1.220. O $ C_p $ do modelo 2 é: 

$$C_p=\frac{643.775}{1.220}-14+2\times 2=517,6.$$

  • Modelo 3:

A soma de quadrados dos erros do modelo completo é 13.421 e o quadrado médio é 1.220. 

$$C_p=\frac{13.421}{1.220}-14+2\times 3=3.$$

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]