2.1 - Análise Estatística para o teste de Independência

Você está aqui

A independência dos critérios de classificação significa que há independência entre as variáveis R (linha) e C (coluna). Esta independência é expressa probabilisticamente pelo conjunto das seguintes igualdades:

Dois eventos R e C são ditos independentes se: $$P(R\cup C) = P(R)\times P(C)$$

Usando essa analogia temos que: $$p_{ij}=p_{i.}\times p_{.j}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$

em que $$p_{i.}=P(\mbox{uma observação ser classificada na categoria i da variável R (linha)})~~~~~~i=1,\dots,r$$$$p_{.j}=P(\mbox{uma observação ser classificada na categoria j da variável C (coluna)})~~~~~~j=1,\dots,c$$

Em resumo, o objetivo é obtermos a independência das variáveis $R$ e $C.$ Para isto consideramos as seguintes hipóteses:

Objetivo Hipótese
Independência dos critérios de classificação  $\left\{\begin{array}{l}H_0:\mbox{As variáveis R e C são independentes.}\\H_1:\mbox{As variáveis R e C não são independentes.}\end{array}\right.$  $i=1,\dots,r $
$j=1,\dots,c$ 

Teste Qui-Quadrado para independência

Um dos testes usados para detectar a existência de associação entre as variáveis linha $R$ e as variáveis coluna $C$ em uma tabela cruzada é o teste Qui-Quadrado. Primeiramente, descrevemos alguns pressupostos do teste Qui-Quadrado para independência:

  • Os dados são selecionados aleatoriamente.
  • Todas as frequências esperadas são maiores ou iguais a 1 (isto é, $E_{ij}\textgreater 1$).
  • Não mais de 20% das frequências esperadas são inferiores a 5.

Os estimadores de máxima verossimilhança de $p_{i.}$ e $p_{.j}$ são: $$\hat{p}_{i.}=\cfrac{n_{i.}}{n},~~~~i=1,\dots,r$$ $$\hat{p}_{.j}=\cfrac{n_{.j}}{n},~~~~j=1,\dots,c$$

Então, se as hipóteses de independência são válidas, os estimadores de máxima verossimilhança de $p_{ij}$ são: $$\hat{p}_{ij}=\displaystyle\hat{p}_{i.}\times \hat{p}_{.j}=n~\cfrac{n_{i.}}{n}~\cfrac{n_{.j}}{n}=\cfrac{n_{i.}~n_{.j}}{n}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$

e os estimadores de verossimilhança das frequências esperadas $E_{ij}$ são: $$E_{ij}=n~\cfrac{n_{i.}}{n}~\cfrac{n_{.j}}{n}=\cfrac{n_{i.}~n_{.j}}{n}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$

Seja válida a hipótese de independência dos critérios de classificação com $O_{ij}=(O_{11},O_{12},\dots,O_{rc})$ o vetor de contagens observadas com distribuição multinomial, e $E_{ij}$ as frequências esperadas, a estatística do teste é dada por: $$Q^2_{obs}=\sum^r_{i=1}\sum^c_{j=1}\cfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$

que tem distribuição assintótica Qui-Quadrado com $(r-1)(c-1)$ graus de liberdade (Ver demonstração em Cramér (1946), páginas 417-419).

Pela estatística $\chi^2$ podemos entender qual a região crítica do teste de independência. Quando não ocorre independência é natural que as frequências observadas $O_{ij}$ sejam substancialmente diferentes das frequências esperadas $E_{ij},$ ou seja, esperamos observar quando a independência ocorre. Então devemos rejeitar a hipótese nula $H_0$ de independência dos critérios de classificação quando a estatística $Q^2_{obs}$ é maior que um ponto crítico $\chi^2_{\alpha}$ usando a Tabela da distribuição Qui-Quadrado (ver Apêndice) ou usando o software Action (ver manual Action módulo Distribuições).

Assim, dado um nível de significância $\alpha$, o p-valor é determinado por: $$\text{p-valor}=P[Q^2_{obs}\textgreater \chi^2_{\alpha;(r-1)(c-1)}|H_0]$$

Figura 2.2.1: Teste Qui-Quadrado de Pearson

 

Restrições na aplicação do teste Qui-Quadrado

É clássico afirmar que o valor mínimo de $E_{ij}$ deve ser superior a 10 em uma tabela cruzada $2\times 2$, e superior a 5 se o grau de liberdade é igual a 2 ou mais, pois nestes tipos de situações, quando utilizamos o teste Qui-quadrado, supomos que o tamanho das amostras sejam "grandes". Na prática, em tabelas cruzada a estatística $X^2$ é aproximada, pois utilizamos tamanhos amostrais "pequenos". Para resolver este tipo de situação, utilizamos a correção de Yates ou o teste exato de Fisher, que será dito nos módulos seguintes.

Quando $E_{ij}$ é abaixo de 10 em tabelas $2\times 2$ e 5 e o número de graus de liberdade for 2 ou mais, é habitual fundir uma das classes com outras. Com isso obtemos novas classes com frequências esperadas superior a 10, e trabalhamos com 1 grau de liberdade. Este procedimento é totalmente incorreto, visto que afeta a aleatoriedade da amostra, além de eventualmente, haver perda de informação na fusão de categorias.

Contagem dos graus de liberdade

O número total de células em uma tabela cruzada $(r\times c)$ é $rc$. Conhecendo os $r$ totais das linhas, fica imediatamente conhecido o $r$ dos $rc$ valores das células (um de cada linha). Então o número de células independentes passará a $rc-r$. Se considerarmos os $c$ totais das colunas, perceberemos que apenas $c-1$ deles devem ser considerados, cada um destes com $c-1$ totais. Fixamos um valor de célula em cada coluna. Então o número de termos independentes passará a ser $(rc-r)-(c-1)=(r-1)(c-1).$

 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]