- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
A independência dos critérios de classificação significa que há independência entre as variáveis R (linha) e C (coluna). Esta independência é expressa probabilisticamente pelo conjunto das seguintes igualdades:
Dois eventos R e C são ditos independentes se: $$P(R\cup C) = P(R)\times P(C)$$
Usando essa analogia temos que: $$p_{ij}=p_{i.}\times p_{.j}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$
em que $$p_{i.}=P(\mbox{uma observação ser classificada na categoria i da variável R (linha)})~~~~~~i=1,\dots,r$$$$p_{.j}=P(\mbox{uma observação ser classificada na categoria j da variável C (coluna)})~~~~~~j=1,\dots,c$$
Em resumo, o objetivo é obtermos a independência das variáveis $R$ e $C.$ Para isto consideramos as seguintes hipóteses:
Objetivo | Hipótese | |
Independência dos critérios de classificação | $\left\{\begin{array}{l}H_0:\mbox{As variáveis R e C são independentes.}\\H_1:\mbox{As variáveis R e C não são independentes.}\end{array}\right.$ | $i=1,\dots,r $ |
$j=1,\dots,c$ |
Um dos testes usados para detectar a existência de associação entre as variáveis linha $R$ e as variáveis coluna $C$ em uma tabela cruzada é o teste Qui-Quadrado. Primeiramente, descrevemos alguns pressupostos do teste Qui-Quadrado para independência:
Os estimadores de máxima verossimilhança de $p_{i.}$ e $p_{.j}$ são: $$\hat{p}_{i.}=\cfrac{n_{i.}}{n},~~~~i=1,\dots,r$$ $$\hat{p}_{.j}=\cfrac{n_{.j}}{n},~~~~j=1,\dots,c$$
Então, se as hipóteses de independência são válidas, os estimadores de máxima verossimilhança de $p_{ij}$ são: $$\hat{p}_{ij}=\displaystyle\hat{p}_{i.}\times \hat{p}_{.j}=n~\cfrac{n_{i.}}{n}~\cfrac{n_{.j}}{n}=\cfrac{n_{i.}~n_{.j}}{n}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$
e os estimadores de verossimilhança das frequências esperadas $E_{ij}$ são: $$E_{ij}=n~\cfrac{n_{i.}}{n}~\cfrac{n_{.j}}{n}=\cfrac{n_{i.}~n_{.j}}{n}~~~~~~\begin{array}{c}i=1,\dots,r \\j=1,\dots,c\end{array}$$
Seja válida a hipótese de independência dos critérios de classificação com $O_{ij}=(O_{11},O_{12},\dots,O_{rc})$ o vetor de contagens observadas com distribuição multinomial, e $E_{ij}$ as frequências esperadas, a estatística do teste é dada por: $$Q^2_{obs}=\sum^r_{i=1}\sum^c_{j=1}\cfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$
que tem distribuição assintótica Qui-Quadrado com $(r-1)(c-1)$ graus de liberdade (Ver demonstração em Cramér (1946), páginas 417-419).
Pela estatística $\chi^2$ podemos entender qual a região crítica do teste de independência. Quando não ocorre independência é natural que as frequências observadas $O_{ij}$ sejam substancialmente diferentes das frequências esperadas $E_{ij},$ ou seja, esperamos observar quando a independência ocorre. Então devemos rejeitar a hipótese nula $H_0$ de independência dos critérios de classificação quando a estatística $Q^2_{obs}$ é maior que um ponto crítico $\chi^2_{\alpha}$ usando a Tabela da distribuição Qui-Quadrado (ver Apêndice) ou usando o software Action (ver manual Action módulo Distribuições).
Assim, dado um nível de significância $\alpha$, o p-valor é determinado por: $$\text{p-valor}=P[Q^2_{obs}\textgreater \chi^2_{\alpha;(r-1)(c-1)}|H_0]$$
Figura 2.2.1: Teste Qui-Quadrado de Pearson
É clássico afirmar que o valor mínimo de $E_{ij}$ deve ser superior a 10 em uma tabela cruzada $2\times 2$, e superior a 5 se o grau de liberdade é igual a 2 ou mais, pois nestes tipos de situações, quando utilizamos o teste Qui-quadrado, supomos que o tamanho das amostras sejam "grandes". Na prática, em tabelas cruzada a estatística $X^2$ é aproximada, pois utilizamos tamanhos amostrais "pequenos". Para resolver este tipo de situação, utilizamos a correção de Yates ou o teste exato de Fisher, que será dito nos módulos seguintes.
Quando $E_{ij}$ é abaixo de 10 em tabelas $2\times 2$ e 5 e o número de graus de liberdade for 2 ou mais, é habitual fundir uma das classes com outras. Com isso obtemos novas classes com frequências esperadas superior a 10, e trabalhamos com 1 grau de liberdade. Este procedimento é totalmente incorreto, visto que afeta a aleatoriedade da amostra, além de eventualmente, haver perda de informação na fusão de categorias.
O número total de células em uma tabela cruzada $(r\times c)$ é $rc$. Conhecendo os $r$ totais das linhas, fica imediatamente conhecido o $r$ dos $rc$ valores das células (um de cada linha). Então o número de células independentes passará a $rc-r$. Se considerarmos os $c$ totais das colunas, perceberemos que apenas $c-1$ deles devem ser considerados, cada um destes com $c-1$ totais. Fixamos um valor de célula em cada coluna. Então o número de termos independentes passará a ser $(rc-r)-(c-1)=(r-1)(c-1).$
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.