4 - Correção por continuidade de Yates

Você está aqui

Utilizamos a Correção de Yates como uma aproximação para a análise de tabelas cruzadas 2 x 1 e 2 x 2. Uma tabela cruzada 2 x 2 apresenta as frequências de ocorrência de todas as combinações dos níveis de duas variáveis dicotômicas, em uma amostra de tamanho $ n $. Uma forma esquemática desse quadro é dado pela tabela 4.1.

  Variável Coluna Total
1 2
Variável linha 1 A B A+B
2 C D C+D
Total A+C B+D n=A+B+C+D

Tabela 4.1: Tabela Cruzada 2 x 2.

Uma investigação de interesse é se as variáveis resumidas em uma tabela cruzada são independentes umas das outras.

Por exemplo, em um estudo aleatorizado com as margens fixas, o julgamento do número de categorias a serem escolhidas aleatoriamente para cada grupo seria especificada e as margens de linha seriam fixas, mas as margens da coluna não. Em um estudo pareado, porém, em que uma amostra pode ter 100 casos (fumantes, por exemplo) e 1000 controles (não-fumantes). Ao testarmos cada um dos 1100 indivíduos na presença ou ausência de alguma exposição que pode ser prevista pela sua própria condição de fumante, que nesse caso seriam as margens de uma coluna que estão fixadas.

Agora, um outro exemplo seria o  experimento famoso de Fisher de degustação de chá, em que uma senhora tentava adivinhar a ordem de mistura dos ingredientes de um chá, em outras palavras, a senhora tentava identificar se havia diferença no sabor quando coloca o leite antes do chá ou o chá antes do leite. O experimento foi realizado fazendo a mistura em 8 copos, dois grupos de quatro, tanto a linha e a coluna teriam as margens fixadas pelo experimento.

Quando as margens das linhas e colunas são fixadas, a independência pode ser testada usando teste exato de Fisher. Este teste é baseado na distribuição hipergeométrica e é computacionalmente intensivo, especialmente em grandes amostras. Assim, Fisher defendeu a utilização da estatística de Pearson, 

$$X^2=\cfrac{n~(AD-BC)^2}{(A+B)(C+D)(A+C)(B+D)}$$

que sob a hipótese nula temos uma distribuição Qui-Quadrado com um grau de liberdade. Yates argumentou que esta distribuição nos dá apenas valores aproximados.

As estimativas das probabilidades discretas associadas aos dados de frequência e os p-valores com base na estatística $ X^2 $ de Pearson geralmente subestimam os verdadeiros p-valores. Em geral, quando uma estatística toma os valores discretos A < B < C, o p-valor correspondente a B é estimado pela cauda da função contínua definida pelo ponto $ (a+b)/2 $.

Portanto, a cauda da função contínua calculada em B subestima o p-valor. Neste contexto, Yates sugeriu que as estatísticas $ X^2 $ devem ser corrigidas para a continuidade e propôs a estatística de teste corrigido da seguinte forma: 

$$\cfrac{n~(|AD-BC|-\frac{1}{2}~n)^2}{(A+B)(C+D)(A+C)(B+D)}$$

Embora a correção de Yates é mais conhecida por seu uso na análise de tabelas cruzadas 2 x 2, também é aplicável à análise de tabelas cruzada 2 x 1. A tabela de cruzada 2 x 1 mostra as frequências de ocorrência de duas categorias em uma amostra aleatória de tamanho n, elaborado à partir de uma população em que a proporção de casos nas duas categorias são p e (1 - p).

A questão pesquisada é normalmente observada se o número de casos x e (n - x) nas duas categorias foram amostrados em uma população com um valor pré-especificado p. Isso pode ser testado usando estatística de Pearson, 

$$X^2=\cfrac{(x-np)^2}{n~p(1-p)}$$

que assintoticamente têm uma distribuição ($ \chi^2_1 $) Qui-Quadrado com um grau de liberdade sob a hipótese nula H0.

Yates mostrou que, neste caso, bem como a utilização dos resultados do Qui-Quadrado de Pearson, os valores de p sistematicamente subestimam os verdadeiros p-valores com base na distribuição Binomial. Por isso, ele sugeriu a estatística corrigida: 

$ \begin{equation*}\cfrac{(|x-np|-\frac{1}{2})^2}{n~p(1-p)}~~~~(4.1)\end{equation*} $

Kendall e Stuart observaram que o procedimento de Yates é um caso especial de um conceito geral de uma correção de continuidade, enquanto que Pearson notou que correção de Yates deriva naturalmente do teorema de Euler-Maclaurin usados para aproximarmos as distribuições binomial e hipergeométrica. Em seguida, o uso da correção de Yates para a estatística Qui-Quadrado de Pearson tem sido amplamente enfatizado para a análise das tabelas cruzadas.

Há, no entanto, vários problemas relacionados com a correção de Yates e vamos discutir algumas destas.

x p(x) p-valores
Pearson Yates Binomial
0 10 0,001 0,0016 0,0044 0,002
1 9 0,0098 0,0114 0,0268 0,0215
2 8 0,0439 0,058 0,1138 0,1094
3 7 0,1172 0,206 0,3428 0,3437
4 6 0,2051 0,527 0,7518 0,7539
5 5 0,2461 1 1 1

Tabela 4.2: Distribuição Binomial para n=10 e p=0,5, e bilateral para os p-valores (Adaptado de Richardson)

Em primeiro lugar, na análise de tabelas cruzadas 2 x 1, os p-valores associados com a estatística corrigida (equação 4.1) tendem a superestimar os verdadeiros p-valores para as caudas da distribuição e subestimá-los para o centro. Isto é ilustrado na tabela 4.2, que apresenta p-valores de um teste em uma tabela cruzada com n=10 e p=0,5, obtido com $ X^2 $ de Pearson e correção de Yates. Os resultados desta tabela também estão os verdadeiros p-valores da distribuição binomial que são o padrão. É também necessário salientar que os p-valores obtidos com a correção de continuidade são muito menos precisos quando a probabilidade p binomial é substancialmente diferente de 0,5.

Em segundo lugar, correção de Yates é apropriada apenas para testes unilaterais, pois, como é baseado em uma comparação entre a contingência observada e a contingência forte próxima na mesma direção (Haber, Mantel). Para os testes bilaterais, a estatística envolve uma hiper correção. Na mesma linha, pode ser provado analiticamente que a correção de Yates é sistematicamente conservadora quando realizados em testes  bilaterais.

Em terceiro lugar, uma questão mais importante relacionada com a correção de Yates e a sua aplicação à análise de tabelas cruzadas, são resultantes da investigação diferentes planejamentos. Muitos pesquisadores têm argumentado que a correção de Yates é baseada em comparações entre as tabelas cruzada com a linha fixa e coluna marginal total.

Particularmente Yates está especialmente preocupado com a aproximação da distribuição hipergeométrica e do teste exato de Fisher. Contudo, o método de Yates também tem sido recomendado para a análise de contingência em tabelas resultantes 2 x 2 e esquemas de amostragem em que um ou ambos conjuntos marginais totais são livres para variar e são, portanto, sujeitos a erros de amostragem.

Devemos notar que tais esquemas de amostragem são mais frequentemente encontrados em contexto da pesquisa atual. Enquanto Yates sustenta ao longo das linhas de raciocínio de Fisher de que a análise de tabelas cruzada 2 x 2 deve ser sempre realizada subordinada à marginais totais observadas, essa abordagem ainda é objeto de debate.

Por outro lado, quando os totais marginais não são fixados, o processo envolve uma subcorreção de Yates adicionais e o teste estatístico passa a ser conservador. Esta tem sido investigada através de simulações Monte Carlo (Grizzle, Richardson), e confirmado analiticamente (Conover, Haber). Em particular, Grizzle observou que, para tabelas cruzadas com marginais totais não fixas, o procedimento de Yates "produz um teste que é tão conservador que é quase inútil".

Finalmente, para concluirmos esta seção, a correção de Yates originou-se como um dispositivo para eliminar as discrepâncias que emergiram da aproximação da distribuição hipergeométrica para o teste exato de Fisher. A aproximação com $ X^2 $ de Pearson foi necessário "para a simplicidade comparativa dos cálculos" (Fisher, página 99), pois a análise exata das tabelas cruzadas 2 x 2 e com a computação limitada disponível na época, tornava inviável seu uso em muitos casos, não sendo o caso na atual conjectura, pois os recursos computacionais não são mais o problema.

Na verdade, Agresti observa que a correção de Yates não é mais necessário desde que o software atual faça teste exato de Fisher, computacionalmente viável, mesmo quando os tamanhos de amostra são grandes.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]