4 - Teste de Kruskal Wallis

Você está aqui

O teste de Kruskal-Wallis (KW) é uma extensão do teste de Wilcoxon-Mann-Whitney. É um teste não paramétrico utilizado para comparar três ou mais populações. Ele é usado para testar a hipótese nula de que todas as populações possuem funções de distribuição iguais contra a hipótese alternativa de que ao menos duas das populações possuem funções de distribuição diferentes.

Figura 4.1: William Henry Kruskal (1919 - 2005); Wilson Allen Wallis (1912-1998).

O teste de Kruskal-Wallis é o análogo ao teste F utilizado na ANOVA 1 fator. Enquanto a análise de variância dos testes dependem da hipótese de que todas as populações em confronto são independentes e normalmente distribuídas, o teste de Kruskal-Wallis não coloca nenhuma restrição sobre a comparação. Suponha que os dados provenham de k amostras aleatórias independentes com tamanhos amostrais n1, n2, ..., nk sendo N = n+ n+ ... + nk o número total de elementos considerados em todas as amostras.

Amostra 1 $ X_{11} $ $ X_{12} $ $ \ldots $ $ X_{1,n_1} $
Amostra 2 $ X_{21} $ $ X_{22} $ $ \dots $ $ X_{2,n_2} $
$ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $
Amostra k-1 $ X_{k-1,1} $ $ X_{k-1,2} $ $ \dots $ $ X_{k-1,n_{k-1} $
Amostra k $ X_{k,1} $ $ X_{k,2} $ $ \dots $ $ X_{k,n_k} $

Hipóteses

1) As N variáveis aleatórias $ \{X_{j1}, X_{j2}, \ldots, X_{j,n_j}\} $ com $ j=1,2,\ldots, k $ são mutuamente independentes.

2) Para cada $ j\in \{1,\ldots,k\} $ as nj variáveis aleatórias $ \{X_{j1},X_{j2},\ldots,X_{j,n_j}\} $ são uma amostra aleatória de uma distribuição contínua com função de distribuição Fj.

3) As funções de distribuição F1, F2, ..., Fk se relacionam através da relação

\[F_j(t)=F(t-\tau_j),\quad -\infty \ \textless \ \infty,\]

para j = 1, 2, ..., k, em que F é uma função de distribuição para uma distribuição contínua com mediana desconhecida e τj é o efeito do tratamento (desconhecido) para a população j.

Neste caso, a hipótese nula H0 de interesse é a de que não há diferença entre os efeitos $ \tau_1, \cdots , \tau_k $, isto é

 \tau_1=\tau_2=\ldots=\tau_k.\]

Esta hipótese nula garante que cada função de distribuição F1, F2, ..., Fk é igual, ou seja, F1 = F2 = ... = Fk.

Para aplicar o método de Kruskal-Wallis, primeiramente ordenamos todas as N observações das k amostras da menor para a maior observação e consideramos rij como sendo o posto de Xij. Tomamos

\[R_i=\sum_{j=1}^{n_i}r_{ij} \quad \hbox{e} \quad R_{i\cdot}=\frac{R_i}{n_i}, \quad i = 1,\ldots, k.\]

Deste modo, temos por exemplo, que R1 é a soma dos postos dos elementos da amostra 1 e Ri. é o posto médio destas mesmas observações. A estatística de Kruskal-Wallis H, será dada por

\[H=\frac{\frac{12}{N(N+1)}\sum_{i=1}^kn_i\left(R_{i\cdot}-\frac{N+1}{2}\right)^2}{1-\frac{ \sum_{j=1}^g t_j^3-t_j}{N^3-N}}=\frac{\left(\frac{12}{N(N+1)}\sum_{i=1}^k \frac{R_i^2}{n_i} \right)-3(N+1)}{1-\frac{\sum_{j=1}^g t_j^3-t_j}{N^3-N}}\]

em que tj é o tamanho do grupo de elementos repetidos j e g é o número de grupos. Uma observação que não se repete é considerada como um grupo de tamanho 1. Esta estatística tem, aproximadamente, uma distribuição qui-quadrado com k-1 graus de liberdade.

Os passos para realização deste teste são dados a seguir:

1. Estabelecemos as hipótese

\tau_1,\tau_2,\ldots,\tau_n \ \mbox{não são todos iguais}\end{array}\right.\]

2. Ordenamos de forma crescente de magnitude os valores deste novo conjunto de dados e associamos a cada valor seu posto correspondente, tendo cada posto o mesmo sinal do valor que este representa.

3. Calculamos o valor da estatística H. Em seguida, fixamos o nível de significância α.

4. Encontramos os valores críticos referentes ao nível de significância fixado. Neste caso, calculamos os valores Qα  de modo que P[H > Qα ] = α (sob $ H_0 $).

5. Se Hobs > Qα rejeitamos a hipótese nula de que as amostras provém de populações igualmente distribuídas.

6. O p-valor é calculado da seguinte forma

\[P-valor = P[\chi^2_{k-1} \geq H|H_0]\]

 

Exemplo 4.1

Os dados a seguir são de uma experiência clássica agrícola para avaliar o rendimento de culturas divididas em quatro grupos diferentes. Para manter a simplicidade, identificamos os tratamentos usando os números inteiros {1,2,3,4}. Queremos avaliar se os dados provém de distribuições igualmente distribuídas.

Grupos Resposta
1 83
1 91
1 94
1 89
1 89
1 96
1 91
1 92
1 90
1 84
2 91
2 90
2 81
2 83
2 84
2 83
2 88
2 91
2 89
3 101
3 100
3 91
3 93
3 96
3 95
3 94
3 81
4 78
4 82
4 81
4 77
4 79
4 81
4 80

clique aqui para efetuar o download dos dados utilizados nesse exemplo

1. Estabelecemos as hipóteses:

\tau_1,\tau_2,\ldots,\tau_n \ \mbox{não são todos iguais}\end{array}\right.\]

2. A partir dos dados temos a seguinte tabela, relacionando os postos de cada elemento, os tamanhos amostrais de cada grupo e os valores Ri para cada grupo:

j r1j r2j r3j r4j
1 11 23 34 2
2 23 19,5 33 9
3 28,5 6,5 23 6,5
4 17 11 27 1
5 17 13,5 31,5 3
6 31,5 11 30 6,5
7 23 15 28,5 4
8 26 23 6,5  
9 19,5 17    
10 13,5      
Ri 210 139,5 213,5 32
N 34 34 34 34
ni 10 9 8 7

3. Cálculo da estatística H.

\[H=\frac{\left(\frac{12}{N(N+1)}\sum_{i=1}^k \frac{R_i^2}{n_i} \right)-3(N+1)}{1-\frac{\displaystyle\sum_{j=1}^g t_j^3-t_j}{N^3-N}}=\]

\[=\frac{0,010084034*(122,5+36+675,28125+1170,035714)}{1-0,006417112}=\]

\[=20,337.\]

4. Cálculo dos valores críticos.

Fixando o nível de significância α = 0,05 e sabendo que k = 4, temos que o valor crítico corresponde ao ponto Q0,95 = 9,48.

5. Critério de rejeição.

Como Hobs = 20,337 > Q0,95 = 9,48, rejeitamos a hipótese nula.

6. Neste caso, o p-valor é dado por

\[P-valor = P[\chi^2_{k-1}\geq H_{obs}]=P[\chi^2_{3}\geq 20,337]=0,0001445.\]

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

 

Comparações Múltiplas

 

Ao compararmos vários tratamentos, por exemplo na área médica, o números de tratamentos geralmente é bastante pequeno. Porém, ao compararmos a evasão dos alunos de graduação de alguma universidade, por exemplo, obtemos maior números de tratamentos. Quando rejeitamos a hipótese nula $ H_0 $ no teste de Kruskal-Wallis, indica que ao menos um dos grupos é diferente dos demais. Porém, não temos a informação de quais são diferentes. Neste sentido, procedimento de comparações múltiplas nos permite determinar quais grupos são diferentes. Existe um procedimento simples para determinar quais os pares de grupos são diferentes.

Começamos testando as diferenças para todos os pares de grupos. Quando o tamanho da amostra é grande, estas diferenças tem distribuição assintótica normal padrão. No entanto, quando temos um grande número de diferenças e se essas diferenças não forem independentes, o procedimento de comparação múltipla deve ser ajustada de forma apropriada. Suponha que a hipótese de não haver diferença entre os $ k $ grupos foi testada e rejeitada ao nível de significância $ \alpha. $ Uma alternativa descrita em Siegel e Castellan é testar a significância dos pares de diferenças através da seguinte desigualdade,

$$|R_{i.}-R_{j.}|\geq Z_{\left(\frac{\alpha}{k(k-1)}\right)}\sqrt{\frac{N(N+1)}{12}\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}~~~(4.1)$$

em que

  • $ n_i $ e $ n_j $ são os tamanhos da amostra dos grupos $ i $ e $ j $ respectivamente;
  • $ N=n_1+n_2+\dots+n_k $ o número total de elementos considerados em todas as amostras;
  • $ R_{i.} $ e $ R_{j.} $ é o efeito dos postos (ranks) dos grupos $ i $ e $ j $ respectivamente;
  • $ |R_{i.}-R_{j.}| $ é a diferença observada;
  • $ Z_{\left(\frac{\alpha}{k(k-1)}\right)}\sqrt{\frac{N(N+1)}{12}\left(\frac{1}{n_i}+\frac{1}{n_j}\right)} $ é a diferença crítica.

Assim, se (4.1) ocorre podemos rejeitar a hipótese \tau_i=\tau_j $ e concluir que \tau_i\neq\tau_j. $ Vale lembrar que neste teste de comparações múltiplas, se temos $ k $ grupos, então o número de comparações é de $ \frac{k(k-1)}{2}. $ Agora, vamos aplicar os conceitos no seguinte exemplo.

Exemplo 4.2

Voltando ao exemplo 4.1

clique aqui para efetuar o download dos dados utilizados nesse exemplo

No procedimento de comparações múltiplas, vamos seguir os seguintes passos:

1. Calcular as diferenças observadas.

j r1j r2j r3j r4j
1 11 23 34 2
2 23 19,5 33 9
3 28,5 6,5 23 6,5
4 17 11 27 1
5 17 13,5 31,5 3
6 31,5 11 30 6,5
7 23 15 28,5 4
8 26 23 6,5  
9 19,5 17    
10 13,5      
$ \overline{R}_{i.} $ 21 15,5 26,68 4,57

Tabela 4.1: Postos para cada grupo.

 

Comparação $ \overline{R}_{i.} $ $ \overline{R}_{j.} $ $ |\overline{R}_{i.}-\overline{R}_{j.}| $
1 - 2 21 15,5 5,5
1 - 3 21 26,6875 5,6875
1 - 4 21 4,571429 16,42857143
2 - 3 15,5 26,6875 11,1875
2 - 4 15,5 4,571429 10,92857143
3 - 4 26,6875 4,571429 22,11607143

Tabela 4.2: Diferença observada para cada comparação $ k $.

2. Consultar na tabela da normal padrão o valor de Z:

$$Z_{\left(\frac{\alpha}{k(k-1)}\right)}=Z_{\left(\frac{0,05}{4(4-1)}\right)}=2,638257$$

3. Calcular as diferenças críticas:

Comparação $ Z_{\left\frac{\alpha}{k(k-1)}\right)} $ $ \sqrt{\frac{N(N+1)}{12}\left(\frac{1}{n_i}+\frac{1}{n_j}\right)} $ Diferença Crítica
1 - 2 2,638257 4,575498 12,07134
1 - 3 2,638257 4,723611 12,4621
1 - 4 2,638257 4,907477 12,94719
2 - 3 2,638257 4,838838 12,7661
2 - 4 2,638257 5,018484 13,24005
3 - 4 2,638257 5,153882 13,59727

Tabela 4.3: Diferenças Críticas.

Veja a seguir os resultados obtidos pelo software Action para o mesmo exemplo.

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

 

 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]