- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
O critério $C_p$ de Mallows é baseado no conceito do erro quadrático médio (EQM) dos valores ajustados. O erro quadrático médio da previsão é $$EQM=E(\hat{y}_i-E(y_i))^2=E(\hat{y}_i-E(\hat{y}_i)+E(E(\hat{y}_i)-E(y_i)))^2$$ $$=E(\hat{y}_i-E(\hat{y}_i))^2+(E(\hat{y}_i)-E(y_i))^2=Var(\hat{y}_i)+vicio^2(\hat{y}_i),$$
em que $E(\hat{y}_i)-E(y_i)$ é o vicio. Assim, o EQM é a soma da variância de $\hat{y}_i$ e o vício ao quadrado. O EQM considerando os n valores amostrais é $$\sum{E(\hat{y}_i-y_i)^2}= \sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}.$$
O critério $\Gamma_p$ é o erro quadrático médio dividido pela variância dos erros $\sigma^2$. $$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[\sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}],~~~~~~~~~~~(2.7.1.4)$$
em que $\sum{Var(\hat{y}_i)}=(p+1)\sigma^2$ e o valor esperado da soma dos quadrados dos erros é: $$E(SQE)=(E(\hat{y}_i)-E(y_i))^2+(n-(p+1))\sigma^2.$$
Substituindo esses valores em (2.7.1.4), obtemos $$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[E(SQE)-(n-(p+1))\sigma^2+(p+1)\sigma^2]$$ $$=\frac{E(SQE)}{\sigma^2}-n+2(p+1).$$
Como $\sigma^2$ é desconhecido, assumindo que o modelo que inclui todas as variáveis explicativas é tal que o QME é um estimador não viciado de $\sigma^2$ e substituindo E(SQE) pelo valor observado SQE, $\Gamma_p$ pode ser estimado por $$C_p=\frac{SQE(p)}{QME}-n+2(p+1),$$
em que SQE(p) é a soma de quadrados dos erros do submodelo e QME é o quadrado médio do modelo com todas as variáveis explicativas.
Pode também ser mostrado que quando não há vício na estimativa do modelo com as p variáveis, $E(SQE)=(n-(p+1))\sigma^2$ e então, $$E[C_p|Vicio=0]=\frac{(n-(p+1))\sigma^2}{\sigma^2}-n+2(p+1)=p+1,$$
em que $p+1$ é o número de parâmetros no modelo já que p é o número de variáveis explicativas mais o intercepto.
A estratégia usada para selecionar modelos com o critério $C_p$ é identificar modelos com $C_p$ próximo do número de parâmetros $(p+1)$.
Vamos calcular o $C_p$ para os todos os modelos possíveis do exemplo na "Motivação 2".
clique aqui para efetuar o download dos dados utilizados nesse exemplo
A soma de quadrados dos erros do modelo apenas com Tempo como variável explicativa é 34.419. O quadrado médio do modelo completo é 1.220. Assim, o $C_p$ é dado por: $$C_p=\frac{34.419}{1.220}-14+2\times 2=18,21.$$
A soma de quadrados dos erros do modelo apenas com Dose de íons como variável explicativa é 643.775 e o quadrado médio do modelo completo é 1.220. O $C_p$ do modelo 2 é: $$C_p=\frac{643.775}{1.220}-14+2\times 2=517,6.$$
A soma de quadrados dos erros do modelo completo é 13.421 e o quadrado médio é 1.220. $$C_p=\frac{13.421}{1.220}-14+2\times 3=3.$$
Usando o software Action temos os seguintes resultados:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.