2.2 Teste Qui-Quadrado para independência

Você está aqui

 O teste de independência Qui-Quadrado é usado para descobrir se existe uma associação entre a variável de linha e coluna variável em uma tabela de contingência construído à partir de dados da amostra. A hipótese nula é de que as variáveis não estão associadas, em outras palavras, eles são independentes. A hipótese alternativa é de que as variáveis estão associadas, ou dependentes.

Observações:

  • Os dados são selecionados aleatoriamente.
  • Todas as frequências esperadas são maiores do que ou igual a 1 (isto é, $E_{ij}\textgreater 1$).
  • Não mais de 20% das frequências esperadas são inferiores a 5.

Os estimadores de máxima verossimilhança de $p_{i.}$ e $p_{.j}$ são

$$\hat{p}_{i.}=\cfrac{n_{i.}}{n},~~~~i=1,\dots,r$$

$$\hat{p}_{.j}=\cfrac{n_{.j}}{n},~~~~j=1,\dots,c$$

Então se a hipótese de independência são válidas, os estimadores de máxima verossimilhança de $p_{ij}$ serão

$$\widehat{p_{ij}} = \widehat{p_{i.}} \times \widehat{p_{.j}} = \frac{n_{i.}}{n} \times \frac{n_{.j}}{n} = \frac{n_{i.} n_{.j}}{n^2}$$

e os estimadores de verossimilhança das frequências esperadas $E_{ij}$ serão

$$E_{ij}=n~\cfrac{n_{i.}}{n}~\cfrac{n_{.j}}{n}=\cfrac{n_{i.}~n_{.j}}{n}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$

Seja $O_{ij}=(O_{11},O_{12},\dots,O_{rc})$ representa o vetor de contagens observadas com distribuição multinomial,  $E_{ij}$ representa as frequências esperadas e admintindo válida a hipótese de independência dos critérios de classificação, a estatística

$$Q^2_{obs}=\sum^r_{i=1}\sum^c_{j=1}\cfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$

tem distribuição assintótica Qui-Quadrado com $(r-1)(c-1)$ graus de liberdade (Ver demonstração em Cramer (1946), páginas 417-419).

Pela estatística $\chi^2$ podemos entender qual a região crítica do teste de independência. Quando não ocorre independência é natural que as frequências observadas $O_{ij}$ sejam substancialmente diferentes das frequências esperadas $E_{ij}$ que esperamos observar quando a independência ocorre. Então devemos rejeitar a hipótese $H_0$ de independência dos critérios de classificação quando a estatística $Q^2_{obs}$ é maior que um ponto crítico $\chi^2_{\alpha}$ usando a Tabela da distribuição Qui-Quadrado -usando a Tabela da distribuição Qui-Quadrado - Apêndice ou usando o software Action (ver manual Action módulo Distribuições).

Assim, dado um nível de significância $\alpha$, o p-valor é determinado por
$$\mbox{p-valor}=P[Q^2_{obs}\textgreater \chi^2_{\alpha;(r-1)(c-1)}|H_0]$$

Figura 2.2.1: Teste Qui-Quadrado de Pearson

 

Restrições na aplicação do teste Qui-Quadrado

 

É clássico afirmar que o valor mínimo de $E_{ij}$ deve ser superior a 10 numa tabela de contingência $2\times 2$, e superior a 5 se o número de graus de liberdade for 2 ou mais. Quando $E_{ij}$ é abaixo daqueles valores, é habitual fundir as classes em que tal acontece com outras, afim de se obter novas classes com frequências esperadas superior a 10 se trabalharmos com 1 grau de liberdade, superior a 5 no caso geral. Este procedimento é totalmente incorreto, visto que afeta a aleatoriedade da amostra, além de, eventualmente, haver perda de informação na fusão de categorias. Além disso, em tabelas $2\times c$, o teste Qui-Quadrado pode ser usado com êxito se a menor frequência esperada for 1, e ainda existe evidência empírica de que na maior parte das tabelas o uso do teste Qui-Quadrado é legítimo se as estimativas das frequências esperadas excederem 0,5. No entanto, neste caso, o número de graus de liberdade a usar deve ser inferior a $(r-1)(c-1)$, embora pareça não haver atualmente um acordo sobre qual deve ser usado.

 

Contagem dos graus de liberdade

 

O número total de células em uma tabela de contingência $(r\times c)$ é $rc$. Conhecendo os $r$ totais das linhas, ficam imediatamente conhecidos $r$ dos $rc$ valores das células (um de cada linha). Então o número de células independentes passará a $rc-r$. Se considerarmos os $c$ totais das colunas, percebemos que apenas $c-1$ deles devem ser considerados. Cada um destes $c-1$ totais, fixa um valor de célula em cada coluna. Então o número de termos independentes passará a ser $(rc-r)-(c-1)=(r-1)(c-1).$

 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]