1.2 - Decomposição da Soma de Quadrados

Você está aqui

A técnica da ANOVA está associada a partição da variabilidade total dos dados em componentes. A soma de quadrados total é definida como medida da variabilidade total dos dados,


$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij} - \overline{y}_{..})^{2}.$$

Intuitivamente isto é razoável, pois se dividirmos SQT pelos seus graus de liberdade (N -1), obtemos a variância amostral dos dados.

Somando e subtraindo $ \overline{y}_{i.} $ obtemos


$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left[(y_{ij}-\overline{y}_{i.})+(\overline{y}_{i.}-\overline{y}_{..})\right]^{2}$$


$$\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}+2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})(\overline{y}_{i.}-\overline{y}_{..})+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}- \overline{y}_{..})^{2}$$

Entretanto, o produto cruzado na equação acima é nulo, pois


$$\sum_{i=1}^{k}\sum_{j=1}^{n_{i}} (y_{ij}-\overline{y}_{i.})(\overline{y}_{i.}- \overline{y}_{..})~=~\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(y_{ij}\overline{y}_{i.}- y_{ij}\overline{y}_{..}-\overline{y}_{i.}^2+\overline{y}_{i.}\overline{y}_{..}\right)$$


$$=~\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}y_{ij}\overline{y}_{i.}-\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\yij\overline{y}_{..}-\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\overline{y}_{i.}^2 + \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\overline{y}_{i.}\overline{y}_{..}$$


$$=~\sum_{i=1}^{k}n_i \overline{y}_{i.}^2 - \overline{y}_{..}\sum_{i=1}^{k}n_i \overline{y}_{i.} -\sum_{i=1}^{k}n_i \overline{y}_{i.}^2 + \overline{y}_{..}\sum_{i=1}^{k}n_i \overline{y}_{i.}$$


$$=~0,$$

logo


$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^{2},$$

isto é,


$$SQT=SQE+SQA.$$

Observações:

I. Soma de Quadrados do Fator A (SQA) é o desvio das médias estimadas em cada tratamento (nível) em torno da média geral dos dados. Representa a variabilidade devido aos diferentes níveis do fator A.

II. Soma de Quadrados do Erro (SQE) é o desvio das observações em torno da média estimada do seu nível (tratamento). Representa a variabilidade dentro de cada nível do fator A.

Graus de Liberdade e Estimativas da Variância

O conceito de grau de liberdade está sempre associado a uma soma de quadrados. Considere $ x_1, x_2, \ldots, x_n $ elementos, então

$$\overline{x}=\frac{\sum\limits_{i=1}^{n} x_{i}}{n}~~~\mbox{e}~~~\sum_{i=1}^{n}(x_{i}-\overline{x})=0.$$

Como a soma dos desvios $ z_{i}=x_{i}-\overline{x} $ é nula, concluímos que para determinarmos todos os desvios basta conhecermos $ (n-1) $ desvios, pois o último desvio será determinado pela relação

$$\sum_{i=1}^{n}(x_{i}-\overline{x})=\sum_{i=1}^{n}z_{i}=0.$$

Assim, dizemos que a soma quadrática $ \sum\limits_{i=1}^{n}(x_{i}-\overline{x})^2 $ tem $ (n-1) $ graus de liberdade.

Como temos N observações, isso nos dá (N-1) graus de liberdade para a soma de quadrados total (SQT). Além disso, temos k níveis (tratamentos) do fator A, assim teremos (k-1) graus de liberdade para a soma de quadrados relativo aos níveis (SQA)


$$SQA=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^{2}.$$

Finalmente, dentro de cada nível temos ni réplicas e portanto teremos (ni - 1) graus de liberdade para cada estimativa da variabilidade devido ao erro experimental $ \sum\limits_{j=1}^{n_i}(y_{ij}-\overline{y}_{i.})^{2}. $

Assim, para a soma de quadrados devido ao erro experimental


$$SQE=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(y_{ij}-\overline{y}_{i.}\right)^{2},$$

temos que os graus de liberdade correspondem a $ \displaystyle\sum_{i=1}^{k} (n_{i}-1)=\sum_{i=1}^{k} n_{i}-k=N-k $ graus de liberdade. Sabemos que a variância amostral do nível $ i $ é


$$ s^{2}_{i}=\frac{\displaystyle\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2} }{n_{i}-1}.$$

Então podemos escrever

$$SQE=\displaystyle\sum_{i=1}^{k}(n_i-1)s^{2}_{i}~~~\mbox{e}~~~\hat{\sigma}^2=\frac{SQE}{N-k}$$

que corresponde a um estimador da variância do erro experimental ($ \sigma^{2} $). Similarmente, se não existe diferença entre os $ k $ níveis do fator $ A $, podemos utilizar a variação dentro dos níveis com relação a média geral como uma estimativa da variância $ \sigma^{2} $. Especificamente,


$$SQA=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^{2}=\sum_{i=1}^{k}n_{i}(\overline{y}_{i.}-\overline{y}_{..})^{2}$$

é uma estimativa de $ \sigma^{2} $ se a média dos níveis são iguais. Observe que para todo i, a quantidade


$$\frac{\displaystyle\sum_{i=1}^{k}(\overline{y}_{i.}-\overline{y}_{..})^{2}}{\displaystyle k-1}$$

é uma estimativa da variância da média do nível $ i $ ($  \sigma^{2} / n_i  $). Então, obtemos que


$$\frac{\displaystyle \sum_{i=1}^{k}n_{i}(\overline{y}_{i.} -\overline{y}_{..})^{2}}{\displaystyle k-1}$$

corresponde a uma estimativa de $ \sigma^{2} $, caso não tenha diferença entre as médias dos níveis dos fatores. Com isso, a quebra da soma de quadrados total em duas somas de quadrados nos fornece duas estimativas para a variância. A primeira baseada na variabilidade dentro dos níveis e a segunda baseada na variabilidade entre os níveis. Se não existe diferença entre as médias, estas duas estimativas devem ser bastante próximas, caso contrário, suspeitamos que a diferença entre as estimativas é causada pela diferença entre as médias dos tratamentos.

Outra forma para calcularmos os graus de liberdade consiste em determinarmos o valor esperado das componentes SQA e SQE. O termo que multiplica $ \sigma^2 $ corresponde aos graus de liberdade.

Vamos calcular o valor esperado destes quadrados médios.


$$E[SQE]=E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}\right]$$


$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}^2-2y_{ij}\overline{y}_{i.}+\overline{y}_{i.}^2)\right]$$


$$=E\left[ \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}y_{ij}^2-2\sum_{i=1}^{k} n_{i}\overline{y}_{i.}^2+\sum_{i=1}^{k} n_{i}\overline{y}_{i.}^2\right]$$


$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}y_{ij}^{2}-\sum_{i=1}^{k}\frac{1}{n_i} y_{i.}^{2} \right]$$

Substituindo as informações do modelo em $ y_{ij} $ e $ y_{i.} $, obtemos


$$E[SQE]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\mu+\alpha_{i}+\varepsilon_{ij})^{2}-\sum_{i=1}^{k}\frac{1}{n_i}\left(\sum_{j=1}^{n_{i}}(\mu+\alpha_{i}+\varepsilon_{ij})\right)^{2}\right]$$


$$=E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}(\mu^2+\alpha_i^2+\varepsilon_{ij}^2+2\mu\alpha_i+2\mu\varepsilon_{ij}+2\alpha_i\varepsilon_{ij})\right.$$


$$-\left.\sum_{i=1}^{k} \frac{1}{n_i} \left( n_i^2\mu^2+n_i^2\alpha_i^2+\sum_{j=1}^{n_{i}}\varepsilon_{ij}^2+2n_i^2\mu\alpha_i+2n_i\mu\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2n_i\alpha_i\sum_{j=1}^{n_{i}}\varepsilon_{ij} \right) \right]$$


$$=E\left[ N\mu^2+\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}^2+2\mu\sum_{i=1}^{k} n_i\alpha_i+2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij} \right.$$


$$-\left.\left( N\mu^2+\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\frac{\varepsilon_{ij}^2}{n_i}+2\mu\sum_{i=1}^{k} n_i\alpha_i+ 2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij} \right)\right]$$


$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}^2-\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\frac{\varepsilon_{ij}^2}{n_i}\right]$$


$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(1-\frac{1}{n_i}\right)\varepsilon_{ij}^2\right]$$


$$=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(1-\frac{1}{n_i}\right)E(\varepsilon^2_{ij})$$


$$=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(1-\frac{1}{n_i}\right)(Var(\varepsilon_{ij})+[E(\varepsilon_{ij})]^2), \quad \text{mas } E(\varepsilon_{ij})=0, \text{ então}$$


$$=(N-k)\sigma^2$$

De forma análoga, temos:


$$E[SQA]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^2 \right]$$


$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}^2-2\overline{y}_{i.}\overline{y}_{..}+\overline{y}_{..}^2)\right] \text{ mas }\overline{y}_{i.}=\frac{y_{i.}}{n_i}\text{ e }\overline{y}_{..}=\frac{\sum\limits_{i=1}^k y_{i.}}{N}, \text{ então}$$


$$=E\left[\sum_{i=1}^{k}\frac{y_{i.}^2}{n_i}-2\,N\overline{y}_{..}^2 + N \overline{y}_{..}^2\right]$$


$$=E\left[\sum_{i=1}^{k}\frac{y_{i.}^2}{n_i}-\frac{y_{..}^2}{N}\right]$$

Substituindo as informações do modelo em $ y_{ij} $ e $ y_{i.} $, obtemos


$$E[SQA]=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(\sum_{j=1}^{n_{i}}(\mu+\alpha_i+\varepsilon_{ij})\right)^2-\frac{1}{N}\left(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}} (\mu+\alpha_i+\varepsilon_{ij})\right)^2\right]$$


$$=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(n_i\mu+n_i\alpha_i+\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)^2-\frac{1}{N}\left(\sum_{i=1}^{k}\left[n_i\mu+n_i\alpha_i+\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right]\right)^2\right]$$


$$=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(n_i\mu+n_i\alpha_i+\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)^2-\frac{1}{N}\left(N\mu+ \sum_{i=1}^{k} n_i\alpha_i+ \sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)^2\right]$$


$$=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(n_i^2\mu^2+n_i^2\alpha_i^2+(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2+2n_i^2\mu\alpha_i+2n_i\mu\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2n_i\alpha_i\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)\right.$$


$$-\left.\frac{1}{N}\left(N^2\mu^2+ 2N\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}+(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2\right)\right]$$


$$=E\left[\sum_{i=1}^{k} n_i\mu^2 +\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\frac{1}{n_i}(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2+2\mu\sum_{i=1}^{k} n_i\alpha_i + 2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right.$$


$$+\left.2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij}- N\mu^2-2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}-\frac{1}{N}(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2 \right]$$


$$=E\left[\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\frac{1}{n_i}(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2+2\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij}-\frac {1}{N}(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2\right]$$


$$=\sum_{i=1}^{k} E(n_i\alpha_i^2)+E\left(\sum_{i=1}^{k}\frac{1}{n_i}(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2\right)+2\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\alpha_i E(\varepsilon_{ij})-\frac{1}{N}E(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2$$


$$=\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k} \frac{1}{n_i}\sum_{j=1}^{n_{i}}\left[Var(\varepsilon_{ij})+E^2(\varepsilon_{ij})\right]-\frac{1}{N} \sum_{i=1}^{k}\sum_{j=1}^{n_{i}} \left[Var(\varepsilon_{ij})+E^2(\varepsilon_{ij})\right]$$


$$=\sum_{i=1}^{k} n_i\alpha_i^2 + k \sigma^2 - \sigma^2$$


$$=(k-1)\sigma^2+\sum_{i=1}^{k} n_i\alpha_i^2$$

pois $ E(\varepsilon_{ij})=0 $ e $ \sum\limits_{i=1}^k n_i\alpha_i=0. $ Com isso podemos definir os quadrados médios como


$$QME=\frac{SQE}{N-k}~~~\mbox{e}~~~QMA=\frac{SQA}{k-1}$$

Portanto, como argumentamos anteriormente, o QME é um bom estimador para a variância pois


$$E[QME]=E\left[\frac{SQE}{N-k}\right]=\frac{1}{N-k}E[SQE]=\sigma^2;~~~\mbox{e}$$


$$E[QMA]=E\left[\frac{SQA}{k-1}\right]=\frac{1}{k-1}E[SQA]=\sigma^2+\displaystyle\frac{1}{k-1}\sum_{i=1}^{k} n_i\alpha_i^2$$

assim, se não existe diferença entre os níveis (tratamentos) do fator $ A $ (isto é, $ \alpha_i = 0 $), QMA também é um bom estimador para a variância. Entretanto, se existe diferença entre as médias dos níveis, o valor esperado do quadrado médio do fator $ A $ (devido aos níveis) é maior do que $ \sigma^{2} $. Assim, temos os seguintes graus de liberdade:

$ SQ $ Graus de liberdade $ QM $
$ SQA $ $ k-1 $ $ \frac{SQA}{k-1} $
$ SQE $ $ N-k $ $ \frac{SQE}{N-k} $
$ SQT $ $ N-1 $  

Com isso, está claro que para testarmos as hipóteses sobre diferenças entre as médias dos níveis, podemos comparar o quadrado médio do tratamento (QMA) com o quadrado médio do erro (QME). A seguir, vamos apresentar um método para fazermos essa comparação.

 

 

Dúvidas sobre esse conteúdo? Comente:

ANOVA

Sobre o Portal Action

O Portal Action é mantido por Estatcamp - Consultoria Estatística e Qualidade e por DIGUP - Desenvolvimento de Sistemas e Consultoria Estatística, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  28 de Setembro,2066 - B, São Carlos - SP | CEP 13560-270
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]