Skip to main content

3 - Teste de Comparações Múltiplas

Um problema muito comum nas ciências e na indústria é comparar diversos tratamentos para determinar quais, eventualmente, produzem um resultado superior. Como exemplo, suponhamos que um fabricante quer examinar o efeito  nas vendas devido o modelo de embalagem empregado. Uma maneira razoável de prosseguir é selecionar um grupo de lojas com volume de vendas comparáveis e  atribuir de forma aleatória e independentemente a cada loja, um modelo de embalagem para ser testado. Assumimos que condições relevantes que possam afetar as vendas, tais como preço, disposição das prateleiras e esforços promocionais são os mesmos para todas as lojas.

Quando a coleta de dados for concluída, pode acontecer que um modelo de embalagem é claramente superior aos outros. Neste caso, não há necessidade de fazer uma análise estatística. Por outro lado, a média de vendas  para cada modelo pode estar tão  próxima que não é fácil decidir se suas diferenças são reais ou são devido à variação inerente nas vendas entre as lojas. O método comum para investigar tais diferenças é a ANOVA.

Quando os resultados da Análise de Variância (ANOVA) levam à rejeição da hipótese nula, $ (H_0=\mu_1=\ldots=\mu_k) $, que representa a afirmação de que todas as médias (tratamentos) são iguais, temos evidências de que as médias entre os níveis diferem significativamente. Em nosso exemplo, H0 indica que todas as embalagens têm o mesmo impacto nas vendas e chamaremos aqui de hipótese nula global. Dessa maneira, se não rejeitarmos H0, concluímos que não existe diferença entre  as médias dos níveis do fator e a Análise de Variância é suficiente para a conclusão. Porém, se rejeitarmos H0, temos evidências estatísticas de que pelo menos dois níveis do fator diferem entre si. Os testes de comparações múltiplas permitem identificar essas diferenças entre pares de médias específicos ou em combinações lineares das médias.

 

Abordagem por comparação

 

Uma possível abordagem para o problema de comparação múltipla é fazer cada comparação independentemente usando um procedimento estatístico adequado. Por exemplo, um teste de hipótese estatístico pode ser usado para comparar cada par de médias, $ \mu_i $ e $ \mu_j $, em que a hipótese nula e a hipótese alternativa são da forma

$$\left\{\begin{array}{l}H_{0}: \mu_{i}=\mu_{j}\\ H_{1}:\mu_{i}\neq\mu_{j} \\\end{array}\right.$$

A técnica estatística usual nesse caso é conhecida como teste $ t $. Com esse teste, assim como com qualquer outro teste de hipóteses, existe chances de cometermos erros. Um dos  possíveis erros é rejeitar a hipótese nula, quando esta é verdadeira (Erro Tipo I) ou então aceitar a hipótese nula, quando esta é falsa (Erro Tipo II). Qualquer regra para decidir entre as hipóteses H0 e H1 é avaliada em termos das probabilidades dos dois tipos de erros. Denotamos a probabilidade de rejeitar H0, quando esta for verdadeira por

$$\alpha= P(\mbox{rejeitar}~H_0~\mbox{dado que}~H_0~\mbox{é verdadeira})$$

Como já visto, o valor $ \alpha $ é chamado de nível de significância. Especificando o nível de significância para o teste $ t $, o experimentador controla a probabilidade de encontrar diferenças errôneas. Quando cada  um dos vários  testes de hipóteses são feitos ao mesmo nível de significância $ \alpha $, $ \alpha $ é chamado de nível de significância por comparação.

Uma maneira alternativa para testar a diferença entre  as médias $ \mu_i $ e $ \mu_j $ é calcular um intervalo de confiança para $ \mu_i-\mu_j $. Um intervalo de confiança é formado usando a seguinte expressão

$$(\mbox{estimativa pontual})\pm(\mbox{margem de erro}),$$

em que a estimativa pontual é a melhor suposição para o valor $ \mu_i-\mu_j $ baseado nos dados da amostra. Em nosso exemplo, essa estimativa pontual seria a diferença das médias das vendas dos modelos de pacotes $ i $ e $ j $. A margem de erro reflete a precisão da estimativa baseada na variabilidade dos dados, que também depende do coeficiente de confiança que é frequentemente denotado por $ 1-\alpha $. O coeficiente de confiança é uma  expressão do quanto estamos certos de que o procedimento experimental irá resultar em um intervalo que contém $ \mu_i-\mu_j $. Para vários intervalos de confiança, cada um com coeficiente de confiança $ 1-\alpha $, $ 1-\alpha $ é chamado de coeficiente de confiança por comparação.

A dificuldade com a abordagem "por comparação" para comparações múltiplas é a possibilidade do aumento da probabilidade do Erro Tipo I ou (equivalentemente) a possibilidade de diminuição do nível  de confiança global. Como exemplo, consideremos dois testes de hipóteses independentes cada um ao nível de significância $ \alpha $. Assim, a probabilidade que nenhum tenha Erro Tipo I é $ (1-\alpha)^{2} $. Em outras palavras, a probabilidade de ao menos um Erro do Tipo I é $ 1-(1-\alpha)^{2} $. Geralmente, para testar as diferenças entre cada par de $ k $ médias é necessário o total de $ c=\frac{1}{2}k(k-1) $ testes $ t $ ao nível de significância $ \alpha $. Dessa forma, a chance de encontrarmos ao menos uma diferença incorreta é $ \alpha_c=1-(1-\alpha)^{c} $. Para $ k\geq3 $, além de termos $ \alpha_c $ maior que $ \alpha $, temos ainda que $ \alpha_c $ se aproxima de 1 conforme $ k $ aumenta. A tabela a seguir ilustra tal situação, em que calculamos a probabilidade de ao menos uma rejeição incorreta da hipótese nula para diferentes valores de $ c $.

$ c $ $ \% $ $ c $ $ \% $ $ c $ $ \% $
1 5,00 10
40,12
15 53,67
2 9,75 11
43,12
20
64,15
3 14,26 12
45,96
30
78,53
4 18,55 13
48,67
40
87,14
5 22,62 14 51,23
50
92,30

Tabela 3.1: Número de comparações ($ c $) e níveis de confiança conjunto(%).

Verificamos com isso que a insistência em realizar muitas comparações duas a duas ao nível de significância por comparação $ \alpha $, faz com que  obtenhamos conclusões de que dois tratamentos são diferentes, embora não sejam.

Família: Uma família é um conjunto de inferências para o qual é importante levar em conta alguma medida  de erro global. Por exemplo, a coleção de todas as comparações duas a duas que acabamos de discutir é uma família, em que a medida total de erros é a probabilidade de encontrarmos ao menos um Erro do Tipo I. Esta família é um exemplo de uma família finita (contendo c elementos ), mas pode haver famílias com números infinitos de elementos. Por exemplo, as inferências que incorporam cada contraste no conjunto de todos os contrastes das $ k $ médias formariam uma família infinita, no qual um contraste é uma combinação linear de duas ou mais médias em que a soma dos coeficientes é zero.

 

Taxa de erros

 

Como discutido anteriormente, quando uma família é composta por vários testes de hipóteses e cada teste de hipótese é realizado ao mesmo nível de significância $ \alpha $, então $ \alpha $ é a taxa de erro por comparação (TPC) (per-comparison error rate), isto é, a probabilidade  de rejeitarmos incorretamente cada uma das hipóteses nulas que compõem a família.  Uma taxa de erro mais apropriada é chamada de taxa de erro da família dos testes (familywise error rate (FWER)), que é a probabilidade de rejeitarmos incorretamente ao menos umas das hipóteses nulas que compõem a família.

Após especificar a FWER, o pesquisador deve ter o cuidado em realizar as análises de  comparações múltiplas que garantem a taxa de erro válida em todas as possíveis configurações (formações) das médias populacionais. Assim, dissemos que tais análises devem "proteger" a FWER.

Há ainda um terceiro tipo de taxa de erro conhecido como taxa de erro por família (TPF)(per-family error rate), que não é uma probabilidade como as outras taxas são, mas representa o valor esperado dos erros na família. Por exemplo, assumimos que a hipótese nula  global é verdadeira, se cada dos $ c $ testes é realizado com probabilidade de Erro Tipo I $ \alpha/c $, o valor esperado do Erro Tipo I é $ c\times (\alpha/c)=\alpha $. Dessa forma, quando $ \mu_1=\mu_2=\ldots=\mu_k $, a TPF é $ \alpha $. Para  outras  quaisquer configurações de médias, a TPF seria menor que $ \alpha $. Uma  desigualdade importante  e de fácil verificação é que

$$TPC\leq\ FWER \leq TPF$$

Muitos escritores seguidores de Tukey (1953) referem-se à taxa de erro da família dos testes (FWER) e à taxa de erro por família (TPF) como  taxa de erro do experimento ( experimentwise error rate) e taxa de erro por experimento (per-experiment error rate) respectivamente.

 

Métodos de Comparações Múltiplas

 

Os Métodos de Comparações Múltiplas (MCMs) são procedimentos estatísticos designados para ter em conta e controlar o aumento da probabilidade global do Erro do Tipo I o u a diminuição do intervalo de confiança global. Os MCMs podem ser categorizados como "etapa única" (single step) ou "por etapas" (stepwise). Para os procedimentos de uma etapa, cada uma  das inferências é realizada em uma única etapa, sem referência às outras inferências na família. Exemplos de MCMs de uma etapa que protegem a FWER incluem o Teste de Tukey (dados balanceados); Teste de Tukey-kramer (dados não balanceados); Teste de Dunnet; Teste de de Scheffe e Teste de Bonferroni. Esses exemplos serão vistos em detalhes na sequência.

Procedimentos por etapas realizam comparações em uma série de  etapas, em que os resultados da etapa atual influenciam, se houver, comparações feitas na etapa seguinte. Tais procedimentos podem ser divididos em dois tipos: etapa abaixo (step-down) e etapa acima (step-up).

Um procedimento "etapa abaixo" pode ser iniciado, por exemplo, testando a hipótese nula global; se está for rejeitada, passamos para a etapa seguinte. Em sucessivas etapas, uma hipótese nula é testada para um subconjunto de médias somente se elas fizerem parte de um conjunto maior de médias para as quais a hipótese nula foi rejeitada durante uma etapa anterior. O teste de Fisher é um exemplo de procedimento etapa abaixo com duas etapas e será estudado com mais detalhes na sequência.

Um exemplo de como podemos iniciar um procedimento "etapa acima" é testar uma hipótese duas a duas e dependendo dos resultados, o procedimento etapa acima para uma hipótese envolve um número maior de médias. Em cada sucessão de etapas  é tomada uma decisão que envolve um número maior de médias ou o procedimento termina.

Comparação de MCMs: Como já visto em seções anteriores, o poder de um teste de hipótese é a  medida de sua capacidade em identificar diferenças, pois identificar diferenças é normalmente o motivo da análise, assim entre testes de hipóteses adequados, o preferido é o que apresenta maior poder. Quando a análise utiliza intervalos de confiança, o MCM que apresenta o menor intervalo é o mais poderoso.

Comparações duas a duas: Em muitas situações práticas desejamos comparar somente as médias duas a duas. Frequentemente nós podemos determinar quais médias diferem entre si testando todos os pares das médias dos tratamentos. Assim, estamos interessados em contrastes da forma $ \Gamma=\mu_{i}-\mu_{j} $ para todo $ i\neq j $. Há vários procedimentos para solucionar esse problema. Apresentaremos nas próximas seções alguns desses procedimentos.