2.1 - Análise Estatística para o teste de Independência

Você está aqui

A independência dos critérios de classificação significa que há independência entre as variáveis R (linha) e C (coluna). Esta independência é expressa probabilisticamente pelo conjunto das seguintes igualdades:

Dois eventos R e C são ditos independentes se: 

$$P(R\cup C) = P(R)\times P(C)$$

Usando essa analogia temos que: 

$$p_{ij}=p_{i.}\times p_{.j}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$

em que 

$$p_{i.}=P(\mbox{uma observação ser classificada na categoria i da variável R (linha)})~~~~~~i=1,\dots,r$$


$$p_{.j}=P(\mbox{uma observação ser classificada na categoria j da variável C (coluna)})~~~~~~j=1,\dots,c$$

Em resumo, o objetivo é obtermos a independência das variáveis $ R $ e $ C. $ Para isto consideramos as seguintes hipóteses:

Objetivo Hipótese
Independência dos critérios de classificação  \mbox{As variáveis R e C não são independentes.}\end{array}\right. $  $ i=1,\dots,r  $
$ j=1,\dots,c $ 

Teste Qui-Quadrado para independência

Um dos testes usados para detectar a existência de associação entre as variáveis linha $ R $ e as variáveis coluna $ C $ em uma tabela cruzada é o teste Qui-Quadrado. Primeiramente, descrevemos alguns pressupostos do teste Qui-Quadrado para independência:

  • Os dados são selecionados aleatoriamente.
  • Todas as frequências esperadas são maiores ou iguais a 1 (isto é, $ E_{ij}\textgreater 1 $).
  • Não mais de 20% das frequências esperadas são inferiores a 5.

Os estimadores de máxima verossimilhança de $ p_{i.} $ e $ p_{.j} $ são: 

$$\hat{p}_{i.}=\cfrac{n_{i.}}{n},~~~~i=1,\dots,r$$
$$\hat{p}_{.j}=\cfrac{n_{.j}}{n},~~~~j=1,\dots,c$$

Então, se as hipóteses de independência são válidas, os estimadores de máxima verossimilhança de $ p_{ij} $ são: 

$$\hat{p}_{ij}=\displaystyle\hat{p}_{i.}\times \hat{p}_{.j}=n~\cfrac{n_{i.}}{n}~\cfrac{n_{.j}}{n}=\cfrac{n_{i.}~n_{.j}}{n}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$

e os estimadores de verossimilhança das frequências esperadas $ E_{ij} $ são: 

$$E_{ij}=n~\cfrac{n_{i.}}{n}~\cfrac{n_{.j}}{n}=\cfrac{n_{i.}~n_{.j}}{n}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$

Seja válida a hipótese de independência dos critérios de classificação com $ O_{ij}=(O_{11},O_{12},\dots,O_{rc}) $ o vetor de contagens observadas com distribuição multinomial, e $ E_{ij} $ as frequências esperadas, a estatística do teste é dada por: 

$$Q^2_{obs}=\sum^r_{i=1}\sum^c_{j=1}\cfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$

que tem distribuição assintótica Qui-Quadrado com $ (r-1)(c-1) $ graus de liberdade (Ver demonstração em Cramér (1946), páginas 417-419).

Pela estatística $ \chi^2 $ podemos entender qual a região crítica do teste de independência. Quando não ocorre independência é natural que as frequências observadas $ O_{ij} $ sejam substancialmente diferentes das frequências esperadas $ E_{ij}, $ ou seja, esperamos observar quando a independência ocorre. Então devemos rejeitar a hipótese nula $ H_0 $ de independência dos critérios de classificação quando a estatística $ Q^2_{obs} $ é maior que um ponto crítico $ \chi^2_{\alpha} $ usando a Tabela da distribuição Qui-Quadrado (ver Apêndice) ou usando o software Action (ver manual Action módulo Distribuições).

Assim, dado um nível de significância $ \alpha $, o p-valor é determinado por: 

$$\text{p-valor}=P[Q^2_{obs}\textgreater \chi^2_{\alpha;(r-1)(c-1)}|H_0]$$

Figura 2.2.1: Teste Qui-Quadrado de Pearson

 

Restrições na aplicação do teste Qui-Quadrado

É clássico afirmar que o valor mínimo de $ E_{ij} $ deve ser superior a 10 em uma tabela cruzada $ 2\times 2 $, e superior a 5 se o grau de liberdade é igual a 2 ou mais, pois nestes tipos de situações, quando utilizamos o teste Qui-quadrado, supomos que o tamanho das amostras sejam "grandes". Na prática, em tabelas cruzada a estatística $ X^2 $ é aproximada, pois utilizamos tamanhos amostrais "pequenos". Para resolver este tipo de situação, utilizamos a correção de Yates ou o teste exato de Fisher, que será dito nos módulos seguintes.

Quando $ E_{ij} $ é abaixo de 10 em tabelas $ 2\times 2 $ e 5 e o número de graus de liberdade for 2 ou mais, é habitual fundir uma das classes com outras. Com isso obtemos novas classes com frequências esperadas superior a 10, e trabalhamos com 1 grau de liberdade. Este procedimento é totalmente incorreto, visto que afeta a aleatoriedade da amostra, além de eventualmente, haver perda de informação na fusão de categorias.

Contagem dos graus de liberdade

O número total de células em uma tabela cruzada $ (r\times c) $ é $ rc $. Conhecendo os $ r $ totais das linhas, fica imediatamente conhecido o $ r $ dos $ rc $ valores das células (um de cada linha). Então o número de células independentes passará a $ rc-r $. Se considerarmos os $ c $ totais das colunas, perceberemos que apenas $ c-1 $ deles devem ser considerados, cada um destes com $ c-1 $ totais. Fixamos um valor de célula em cada coluna. Então o número de termos independentes passará a ser $ (rc-r)-(c-1)=(r-1)(c-1). $

 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]