- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
Antes de calcularmos a decomposição da soma de quadrados, vamos estabelecer a estrutura de covariância:
$$E(Y_{ij})=\mu,\quad Var(Y_{ij})=\sigma^2_{\alpha}+\sigma^2_{\varepsilon}$$
$$Cov(Y_{ij})=Cov(Y_{ij'})=\sigma^2_{\alpha},\quad \mbox{para}~j\neq j'$$
A técnica da ANOVA está associada a partição da variabilidade total dos dados em componentes. A soma de quadrados total é definida como medida da variabilidade total dos dados,
$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij} - \overline{y}_{..})^{2}.$$
Intuitivamente isto é razoável, pois se dividirmos SQT pelos seus graus de liberdade (N -1), obtemos a variância amostral dos dados.
Somando e subtraindo $ \overline{y}_{i.} $ obtemos
$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{r}\left[(y_{ij}-\overline{y}_{i.})+(\overline{y}_{i.}-\overline{y}_{..})\right]^{2}=$$
$$=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y}_{i.})^{2}+2\sum_{i=1}^{k} \sum_{j=1}^{r}(y_{ij}-\overline{y}_{i.})(\overline{y}_{i.}-\overline{y}_{..})+\sum_{i=1}^{k}\sum_{j=1}^{r}(\overline{y}_{i.}- \overline{y}_{..})^{2}=$$
Entretanto, o produto cruzado na equação acima é nulo, pois
$$=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y}_{i.})(\overline{y}_{i.}-\overline{y}_{..})~=~\sum_{i=1}^{k}\sum_{j=1}^{r}\left(y_{ij}\overline{y}_{i.}- y_{ij}\overline{y}_{..}-\overline{y}_{i.}^2+\overline{y}_{i.}\overline{y}_{..}\right)=$$
$$=\sum_{i=1}^{k}\sum_{j=1}^{r}y_{ij}\overline{y}_{i.}-\sum_{i=1}^{k}\sum_{j=1}^{r}\yij\overline{y}_{..}-\sum_{i=1}^{k}\sum_{j=1}^{r}\overline{y}_{i.}^2+\sum_{i=1}^{k}\sum_{j=1}^{r}\overline{y}_{i.}\overline{y}_{..}=$$
$$=\sum_{i=1}^{k}r \overline{y}_{i.}^2 - \overline{y}_{..}\sum_{i=1}^{k}r \overline{y}_{i.} -\sum_{i=1}^{k}r \overline{y}_{i.}^2 + \overline{y}_{..}\sum_{i=1}^{k}r \overline{y}_{i.}=0$$
Logo
$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y}_{i.})^{2}+\sum_{i=1}^{k}\sum_{j=1}^{r}(\overline{y}_{i.}-\overline{y}_{..})^{2}=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y}_{i.})^{2}+\sum_{i=1}^{k}r(\overline{y}_{i.}-\overline{y}_{..})^{2}$$
isto é,
$$SQT=SQA+SQE.$$
- Soma de Quadrados do fator A (SQA) é o desvio das médias estimadas em cada tratamento (nível) em torno da média geral dos dados.Representa a variabilidade devido aos diferentes níveis do fator A.
- Soma de Quadrados do Erro (SQE) é o desvio das observações em torno da média estimada do seu nível (tratamento).Representa a variabilidade dentro de cada nível do fator.
O conceito de grau de liberdade está sempre associado a uma soma de quadrados. Considere $ x_1, x_2, \ldots, x_n $ elementos, então
$$\overline{x}=\frac{\sum\limits_{i=1}^{n} x_{i}}{n}~~~\mbox{e}~~~\sum_{i=1}^{n}(x_{i}-\overline{x})=0.$$
Uma forma para calcularmos os graus de liberdade consiste em determinarmos o valor esperado das componentes SQA e SQE.
Vamos calcular os valores esperados das somas de quadrados.
$$E[SQE]=E\left[\sum_{i=1}^{k} \sum_{j=1}^{r}(y_{ij}-\overline{y}_{i.})^{2}\right]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}^2-2y_{ij}\overline{y}_{i.}+\overline{y}_{i.}^2)\right]=$$
$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}y_{ij}^2-2\sum_{i=1}^{k}r\overline{y}_{i.}^2+\sum_{i=1}^{k} r\overline{y}_{i.}^2\right]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}y_{ij}^{2}-\sum_{i=1}^{k}\frac{1}{r}y_{i.}^{2} \right]$$
Substituindo as informações do modelo em $ y_{ij} $ e $ y_{i.} $, obtemos
$$E[SQE]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}(\mu+\alpha_{i}+\varepsilon_{ij})^{2}-\sum_{i=1}^{k}\frac{1}{r}\left(\sum_{j=1}^{r}(\mu+\alpha_{i}+\varepsilon_{ij})\right)^{2}\right]=$$
$$=E\left[\sum_{i=1}^{k} \sum_{j=1}^{r}(\mu^2+\alpha_i^2+\varepsilon_{ij}^2+2\mu\alpha_i+2\mu\varepsilon_{ij}+2\alpha_i\varepsilon_{ij})\right.-$$
$$-\left.\sum_{i=1}^{k}\frac{1}{r}\left(r^2\mu^2+r^2\alpha_i^2+\left(\sum_{j=1}^{r}\varepsilon_{ij}\right)^2+2~r^2\mu\alpha_i+2r\mu\sum_{j=1}^{r}\varepsilon_{ij}+2r\alpha_i\sum_{j=1}^{r}\varepsilon_{ij} \right)\right]=$$
$$=E\left[N\mu^2+\sum_{i=1}^{k} r\alpha_i^2+\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}^2+2\mu\sum_{i=1}^{k} r\alpha_i+2\mu\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{r}\alpha_i\varepsilon_{ij} \right.-$$
$$-\left.\left(N\mu^2+\sum_{i=1}^{k} r\alpha_i^2+\frac{1}{r}\sum_{i=1}^{k}\left(\sum_{j=1}^{r}\varepsilon_{ij}\right)^2+2\mu\sum_{i=1}^{k}r\alpha_i+ 2\mu\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{r}\alpha_i\varepsilon_{ij} \right)\right]=$$
$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}^2-\frac{1}{r}\sum_{i=1}^{k}\left(\sum_{j=1}^{r}\varepsilon_{ij}\right)^2\right]=$$
$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}^2\right]-\frac{1}{r}\sum_{i=1}^k E\left[\sum_{j=1}^r\varepsilon^2_{ij}+2\sum_{j\neq j'}\varepsilon_{ij}\varepsilon_{ij'}\right]=$$
$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}^2\right]-\frac{1}{r}\sum_{i=1}^k \sum^r_{j=1}E(\varepsilon^2_{ij})-\frac{1}{r}\underbrace{E\left[2\sum_{j\neq j'}\varepsilon_{ij}\varepsilon_{ij'}\right]}_{\overset{\mbox{é 0,pois}~E(\varepsilon_{ij})=0}{\mbox{e}~\varepsilon_{ij},\varepsilon_{ij'}~\mbox{são indep.}\forall j\neq j'}}=$$
$$=\sum_{i=1}^{k}\sum_{j=1}^{r}\left(1-\frac{1}{r}\right)E(\varepsilon^2_{ij})=$$
$$=\sum_{i=1}^{k}\sum_{j=1}^{r}\left(1-\frac{1}{r}\right)(Var(\varepsilon_{ij})+[E(\varepsilon_{ij})]^2), \quad \text{mas } E(\varepsilon_{ij})=0, \text{ então}$$
$$=(N-k)\sigma^2_{\varepsilon}=k(r-1)~\sigma^2_{\varepsilon}$$
Agora calculamos o valor esperado de SQA, mas antes para facilitar a construção definimos $\overline{y}_{i.}=\mu+\alpha_i+\overline{\varepsilon}_{i.}$ e
$$\overline{y}_{..}=\frac{1}{N}\sum^k_{i=1}\sum^{r}_{j=1}y_{ij}=\frac{1}{N}\sum^k_{i=1}\sum^{r}_{j=1}(\mu+\alpha_i+\varepsilon_{ij})=\frac{1}{N}\underbrace{\displaystyle\sum^k_{i=1}r\mu}_{N\mu}+\frac{1}{N}\sum^k_{i=1}r\alpha_i+\frac{1}{N}\underbrace{\displaystyle\sum^k_{i=1}\sum^{r}_{j=1}\varepsilon_{ij}}_{\displaystyle\sum^{r}_{j=1}r\varepsilon_{i.}}$$
Assim,
$$E[SQA]=E\left[\sum^k_{i=1}r(\overline{y}_{i.}-\overline{y}_{..})^2\right]=$$
$$=E\left[\sum^k_{i=1}r\left(\mu+\alpha_i+\overline{\varepsilon}_{i.}-\frac{1}{N}\left(N\mu+\sum^k_{i=1}r\alpha_i+\sum^{r}_{j=1}r\varepsilon_{i.}\right)\right)^2\right]=$$
$$=E\left[\sum^k_{i=1}r\left(\alpha_i-\frac{1}{N}\sum^k_{i=1}r\alpha_r-\overline{\varepsilon}_{i.}-\frac{1}{N}\sum^k_{i=1}r\overline{\varepsilon}_{r.}\right)^2\right]=$$
$$=\sum^k_{i=1}r \left(E\left[\alpha^2_i-\frac{2}{N}\alpha_i\sum^k_{i=1}r\alpha_r+\frac{1}{N^2}\left(\sum^k_{i=1}r\overline{\varepsilon}_{r.}\right)^2\right]\right)+$$
$$+\sum^k_{i=1}r \left(E\left[(\overline{\varepsilon}_{i.})^2-\frac{2}{N}\overline{\varepsilon}_{i.}\sum^k_{i=1}r\overline{\varepsilon}_{r.}+\frac{1}{N^2}\left(\sum^k_{i=1}r\overline{\varepsilon}_{r.}\right)^2\right]\right)\overset{(**)}{=}$$
$$=\sum^k_{i=1}r \left(\sigma^2_{\alpha}-\frac{2}{N}r\sigma^2_{\alpha}+\frac{1}{N^2}\sum^k_{i=1}r^2\sigma^2_{\alpha}\right)+\sum^k_{i=1}r \left(\frac{\sigma^2_{\varepsilon}}{r}-\frac{2r\sigma^2_{\varepsilon}}{N~r}+\frac{1}{N^2}\sum^k_{i=1}r^2\frac{\sigma^2_{\varepsilon}}{r}\right)=$$
$$=\left(\sum^k_{i=1}r-\frac{2}{N}\sum^k_{i=1}r^2+\frac{1}{N^2}\left(\sum^k_{i=1}r\right)\left(\sum^k_{i=1}r\right) \right)\sigma^2_{\alpha}+$$
$$+\left(\sum^k_{i=1}\frac{r}{r}-\frac{2}{N}\sum^k_{i=1}r^2+\frac{1}{N^2}\left(\sum^k_{i=1}r\right)\left(\sum^k_{i=1}r\right) \right)\sigma^2_{\varepsilon}=$$
$$=\left(N-\frac{1}{N}\sum^k_{i=1}r^2\right)\sigma^2_{\alpha}+(k-1)\sigma^2_{\varepsilon}=$$
$$=r(k-1)\sigma^2_\alpha+(k-1)\sigma^2_\varepsilon$$
Na passagem ($**$), usamos a propriedade $E(X^2)=\text{Var}(X)+E^2(X)$ (para mais detalhes consulte o conteúdo variância de variáveis aleatórias) e o fato que $\alpha_i$ tem distribuição normal com média zero e variância $\sigma^2_\alpha$ e $\varepsilon_{ij}$ tem distribuição normal com média zero a variância $\sigma^2_\varepsilon.$
Portanto, como argumentamos na seção (ANOVA efeitos fixos), o QME é um bom estimador para a variância pois
$$E[QME]=E\left[\frac{SQE}{N-k}\right]=\frac{1}{N-k}E[SQE]=\sigma^2_{\varepsilon};~~~\mbox{e}$$
$$E[QMA]=E\left[\frac{SQA}{k-1}\right]=\frac{1}{k-1}E[SQA]=\frac{1}{k-1}(k-1)(r\sigma^2_\alpha+\sigma^2_\varepsilon)=r\sigma^2_{\alpha}+\sigma^2_{\varepsilon}$$
Assim, QMA também é um bom estimador para a variância. Entretanto, se existe diferença entre as médias dos níveis, o valor esperado do quadrado médio do fator A (devido aos níveis) é maior do que $ \sigma^{2}_{\varepsilon}$.
Assim, temos os seguintes graus de liberdade:
Soma de Quadrados | Graus de Liberdade | Quadrados Médios |
SQA | k - 1 | $\frac{SQA}{k-1}$ |
SQE | k(r - 1) | $\frac{SQE}{k(r-1)}$ |
SQT | k r - 1 |
Agora, mostramos um breve resumo dos valores esperados dos quadrados médios.
Fator | Graus de Liberdade | Quadrados Médios | Valor Esperado dos Quadrados Médios |
Fator A | k-1 | $QMA$ | $E(QMA)=\sigma^2_\varepsilon+r\sigma^2_\alpha$ |
Erro | k(r-1) | $QME$ | $E(QME)=\sigma^2_\varepsilon$ |
Tabela 1.1.1: Valores Esperados dos Quadrados Médios.
Estatística | |
$QMA=$ |
$r\displaystyle\sum^k_{i=1}\frac{(\overline{Y}_{i.}-\overline{Y}_{..})^2}{k-1}$ |
$QME=$ |
$\displaystyle\sum^k_{i=1}\sum^r_{j=1}\frac{(\overline{Y}_{ij}-\overline{Y}_{i.})^2}{k(r-1)}$ |
$\overline{Y}_{i.}=$ |
$\displaystyle\sum^r_{j=1}\frac{Y_{ij}}{r}$ |
$\overline{Y}_{..}=$ |
$\displaystyle\sum^k_{i=1}\sum^r_{j=1}\frac{Y_{ij}}{kr}$ |
Tabela 1.1.2: Resumo dos Quadrados médios e médias para o modelo (1.1).
Com os resultados obtidos na tabela 1.1.1 temos os seguintes estimadores:
Para a componente do erro temos
$$\hat{\sigma}^2_\varepsilon=QME~~~~(1.1.1)$$
Agora, para calcular o efeito do fator A, utilizamos a equação (1.1.1) da seguinte forma
$$\hat{\sigma}^2_\alpha=\frac{QMA-\hat{\sigma}^2_\varepsilon}{r}\overset{(1.1.1)}{=}\frac{QMA-QME}{r}~~~~(1.1.2)$$
A tabela 1.1.3 representa os estimadores pontuais do modelo (1.1).
Representação do Modelo | Estimador Pontual |
$\hat{\mu}$ |
$\overline{Y}_{...}$ |
$\hat{\sigma}^2_\alpha$
|
$\displaystyle\frac{QMA-QME}{r}$ |
$\hat{\sigma}^2_\varepsilon$ |
$QME$ |
Tabela 1.1.3: Resumo dos Estimadores pontuais para o modelo (1.1).
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.