1.2 - Análise Estatística

Como mencionado anteriormente, inferências sobre componentes de variância de dados desbalanceados são muito mais complicadas do que à partir de dados balanceados. A razão é que a análise de variância de dados balanceados é bastante simples uma vez que existe uma única partição da soma de quadrados total,  que sob a suposição da distribuição padrão seguem um múltiplo de uma distribuição Qui-Quadrado. Este múltiplo sendo o produto dos graus de liberdade e valor esperado do quadrado médio de um dos efeitos aleatórios.

Assim, as hipóteses sobre os efeitos do tratamento pode ser testada pela divisão do quadrado médio do tratamento pelo erro quadrático médio apropriado para formar uma relação de variância (teste F). Agora, dados desbalanceados não tem estas propriedades já que não existe uma única partição da soma de quadrados total, consequentemente, não há uma única de análise de variância.

Além disso, em qualquer decomposição dada, as somas de quadrados de componentes não são independentes (em geral) ou identicamente distribuídos como variáveis do tipo Qui-Quadrado. Correspondente a qualquer quadrado médio do tratamento em particular significa que não existe um erro quadrático médio com valor esperado igual sob a hipótese nula.

Em modelos com dados balanceados, QME e QMA são independentes e,


$$\frac{SQE}{\sigma^2_{\varepsilon}}\sim \chi^2_{k(r-1)}$$

No entanto, a menos de $ \sigma^2_{\alpha}=0, $ temos que


$$\frac{SQA}{\sigma^2_{\alpha}}$$

não tem distribuição Qui-Quadrado.

Uma solução para este problema é construir intervalos de confiança usando um conjunto alternativo de estatísticas. Em particular, usamos somas não ponderadas dos quadrados (SQNP) para esta finalidade. Thomas e Hultquist  propôs a estatística


$$(k-1)\frac{SQA_{*}}{\sigma^2_{\alpha *}}$$

em que


$$QMA_{*}=\frac{n_H}{k-1}\sum^k_{i=1}(\overline{y}_{i.}-\overline{y}^*_{..})^2,~~~~~~\mbox{com}~~\left\{\begin{array}{c}\overline{y}^*_{..}=\frac{1}{^k}\displaystyle\sum^k_{i=1}\overline{y}_{i.}\\ \mbox{e} \\n_H=\frac{k}{\displaystyle\sum^k_{i=1}\frac{1}{n_i}} \\\end{array}\right.$$

e


$$\sigma^2_{\alpha *}=E(QMA_{*})=n_H\sigma^2_{\alpha}+\sigma^2_{\varepsilon}$$

Computacionalmente,


$$\sum^k_{i=1}(\overline{y}_{i.}-\overline{y}^*_{..})^2=\sum^k_{i=1}(\overline{y}_{i.})^2-\frac{(\displaystyle\sum^k_{i=1}\overline{y}^*_{..})^2}{k}$$

A estatística SQA* é a soma de quadrados não balanceadas SQNB das médias dos tratamentos e nH é a média harmônica dos ni valores. Thomas e Hultquist mostrou que sob as suposições do modelo (1.1) a função geradora de momentos de $ \displaystyle\frac{SQA_{*}}{\sigma^2_{\alpha *}} $ aproxima para uma variável aleatória Qui-Quadrado com k-1 graus de liberdade e para todo ni é aproximado para uma constante, ou se $ \rho=\displaystyle\frac{\sigma^2_{\alpha}}{\sigma^2_{\alpha}+\sigma^2_{\varepsilon}} $ aproxima para 1, ou se todo ni tende a infinito. Além disso, estudos feitos através de simulações,  mostrou que esta aproximação tem resultado satisfatório para $ \rho\textless 0,20, $ mesmo em experimentos extremamente desbalanceados.

Agora, vamos supor que os dados são balanceados. Assim, desenvolvemos um teste para avaliar a hipótese de diferenças ou não entre as médias populacionais dos níveis, isto é,

Objetivo Hipótese
efeito do fator A

\alpha_{i}\neq0~(\text{para algum} ~i=1, \cdots,k)\\\end{array}\right. $

Como os erros $ \varepsilon_{ij} $ tem distribuição Normal com média 0 e variância $ \sigma^{2}_{\varepsilon} $ independentes e como dito anteriormente ni → r (ni ≈ r).

Assim,


$$\frac{SQE}{\sigma^2_\varepsilon}\sim\chi^2_{k(r-1)}~~~\mbox{e}~~~~\frac{SQA}{\sigma^2_\alpha}\sim\chi^2_{(k-1)}$$

Entretanto, as três somas de quadrado não necessariamente são independentes, pois


$$SQT=SQE+SQA$$

Para estabelecer a independência entre as SQE e a SQA, vamos utilizar a seguinte versão do teorema de Cochran.

Teorema de Cochran:

Se tivermos $ Q = Q_1 + Q_2 + ... + Q_q $ no qual $ ~Q_i~,~i = 1, 2,...,q~(q \leq p) $ são somas de quadrados, cada um com pi graus de liberdade, tal que:


$$p=\sum^{q}_{i=1}p_i$$

obtemos que $ Q_i\sim \chi^{2}_{(p_i)} $ e são independentes para qualquer $ i = 1, 2,..., q $.

Teste da ANOVA - Um Fator

Como $ \displaystyle\frac{\mbox{SQA}}{\sigma^{2}_\alpha} $ e $ \displaystyle\frac{\mbox{SQE}}{\sigma^{2}_\varepsilon} $ têm distribuição Qui-Quadrado, independentes, obtemos que


$$F_0 =\frac{\displaystyle\frac{SQA}{(k-1)}}{\displaystyle\frac{SQE}{k(r-1)}}=\frac{QMA}{QME}\sim F_{(k-1; k(r-1))}$$

Se $ F_0\textgreater F_{(1-\alpha,k-1, k(r-1))} $, rejeitamos $ H_0 $ e concluímos que existe diferença significativa entre as médias dos níveis do fator (tratamentos), no qual $ F_{(1-\alpha, k-1, k(r-1))} $ corresponde ao quantil da distribuição F de Snedecor com nível de confiança de $ 1-\alpha, $

 

Figura 1.2.1: Quantil da distribuição F-Snedecor.

 

Podemos ainda calcular o P-valor como, $ P[~F_{(k-1;k(r-1))}\textgreater F_0~\mid~H_0] $

A ANOVA pode ser representada na tabela a seguir:

FV Soma de Quadrados Graus de Liberdade Quadrados Médios $ F_0 $
Fator $ SQA $ $ k-1 $ $ QMA=\frac{SQA}{k-1} $ $ F_0=\cfrac{QMA}{QME} $
Erro $ SQE $ $ k(r-1) $ $ QME=\frac{SQE}{k(r-1)} $
Total $ SQT $ $ N-k $  

Tabela 1.2.1: ANOVA - Um Fator.

Exemplo 1.2.1:

Voltando ao exemplo 1.1 temos

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Para testarmos as seguintes hipóteses:


 \alpha_{\ell} \neq \alpha_{m},~\mbox{para algum}~~\ell \neq m.\\\end{array}\right.$$

as somas de quadrados são dadas por:


$$SQT~=\sum^n_{i=1}\sum^{n_i}_{j=1}y_{ij}^{2}-\frac{y^{2}_{..}}{N}=239,54$$


$$SQA=\sum^n_{i=1}\cfrac{1}{n_i}y_i^{2} -\frac{y^{2}_{..}}{N}= 138,2$$

Com isso, temos que


$$SQE=SQT-SQA= 101,33$$

A tabela 1.2.1 abaixo representa a ANOVA para o fator Escola.

FV Soma de Quadrados Graus de Liberdade Quadrados Médios $ F_0 $
Fator $ 138,2 $ $ 4-1=3 $ $ \cfrac{138,2}{3}=46,07 $ $ F_0=\cfrac{QMA}{QME}=34,55 $
Erro $ 101,33 $ $ 4*(20-1)=76 $ $ \cfrac{101,33}{76}=1,33 $
Total $ 239,54 $ $ 20*4-1=79 $  

Tabela 1.2.1:  ANOVA para o fator Escola.

O valor aproximado do P-valor é: $ P[~F_{(3,76)}\textgreater F_0~\mid~H_0~]=3,4\times 10^{-14}≈0 $

Para $ \alpha = 0,05 $, obtemos que $ F[0,05, 3, 76] = 2,72 $. Portanto, com 95% de confiança, rejeitamos $ \mbox{H}_0 $, ou seja, pelo menos um $ \alpha_i $ é diferente de zero, para $ i=1,\ldots,n $.

Veja a seguir os resultados obtidos pelo software Action.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

 

 

ANOVA

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]