Skip to main content

2 - Teste de Wilcoxon-Mann-Whitney - Amostras Independentes

Consideremos duas populações P1 e P2 das quais não temos informações a respeito de suas distribuições, mas as variáveis envolvidas tenham uma escala de medida pelo menos ordinal. Ou seja, podemos abordar o caso de variáveis aleatórias qualitatitvas ordinais ou quantitativas. Consideremos também duas amostras independentes das duas populações. Queremos testar se as distribuições são iguais em localização, isto é, estaremos interessados em saber se uma população tende a ter valores maiores do que a outra, ou se elas têm a mesma mediana. Este teste é chamado de Teste de Wilcoxon-Mann-Whitney.

O teste de Wilcoxon-Mann-Whitney é baseado nos postos dos valores obtidos combinando-se as duas amostras. Isso é feito ordenando-se esses valores, do menor para o maior, independentemente do fato de qual população cada valor provém.

No caso de termos uma variável aleatória qualitativa ordinal, comumente associamos números às diversas categorias (ou classes, ou atributos), segundo as quais a variável é classificada. Por exemplo, podemos ter 1 para bom, 2 para muito bom e 3 para ótimo. Vemos, então, que esses valores são postos. Neste caso e em outras situações é preferível trabalhar com postos do que com valores arbitrários associados à variável qualitativa.

Sejam X1, X2, ..., Xm uma amostra aleatória da população P1 e Y1, Y2, ..., Yn uma amostra aleatória da população P2 de modo que os Xi's são independentes e identicamente distribuídos e os Yi's são independentes e identicamente distribuídos. Além disso, suponha que os Xi's e os Yi's são mutuamente independentes e tome a amostra Y aquela com o menor tamanho amostral, isto é, n ≤ m.

Para aplicar o teste de Wilcoxon-Mann-Whitney, supomos que F e G sejam as funções de distribuição correspondentes as populações P1 e P2, respectivamente e, neste caso, consideramos como hipótese nula, a hipótese

\[H_0: F(t)=G(t) \ \hbox{para todo} \ t.\]

A hipótese alternativa consiste em considerar que Y tende a ser maior (ou menor) que X. Um modelo útil para descrever esta alternativa é um modelo de translação chamado modelo de mudança de posição. Neste modelo temos que

\[G(t)=F(t-\Delta) \ \hbox{para todo} \ t.\]

Outra maneira de interpretação é considerar que Y tem a mesma distribuição de X+Δ. Neste caso, considerando que a esperança E(X) da população 1 exista e tomando E(Y) como a esperança da população 2, segue que

\[\Delta = E(Y)-E(X)\]

e, desta forma, a hipótese nula H0 se reduz a

\[H_0:\Delta=0.\]

Com isto, estabelecemos uma das seguintes hipóteses em um teste de Wilcoxon-Mann-Whitney:

\[\left\{\begin{array}{l}H_0:\Delta=0\\H_1:\Delta\neq0\end{array}\right.\quad\left\{\begin{array}{l}  H_0:\Delta=0\\H_1:\Delta \ \textgreater \  0\end{array}\right.\quad\left\{\begin{array}{l} H_0:\Delta=0\\H_1:\Delta  \ \textless \ 0\end{array}\right.\]

Em seguida, ordenamos todos os valores (das duas amostras) em ordem crescente e colocamos os postos associados. Consideramos Sm e Sn as somas dos postos relacionados aos elementos das amostras X e Y respectivamente. A partir dos valores Sm e Sn, calculamos os valores

\[U_{m} = S_{m}-\frac{1}{2}m(m+1)~~~(2.1)\]

e

\[U_{n} = S_{n}-\frac{1}{2}n(n+1).~~~(2.2)\]

Como S+ Sn é igual a soma de todos os postos (das duas amostras), isto é,

\[S_{m}+S_{n} = \frac{1}{2}(m+n)(m+n+1)~~~(2.3)\]

é fácil ver que os valores Um e Un estão relacionados segundo a equação abaixo

\[U_{m} = mn - U_{n}~~~(2.4)\]

por isso, apenas um dos Um, Un precisa ser calculado e, através da equação (2.4) encontramos o valor do outro de maneira fácil. No teste de Wilcoxon-Mann-Whitney, a estatística W do teste será dada por Un.


Exemplo 2.1: Duas amostras forneceram os seguintes valores de certa variável.

Amostra 1:

 29 39 60 78 82 112 125 170
192 224 263 275 276 286 369 756

Amostra 2:

126 142 156 228 245 246
370 419 433 454 478 503

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Temos na Tabela (2.1) todos os valores amostrais em ordem crescente e os postos associados. Para facilitar a identificação, valores e postos da segunda amostra foram sublinhados.

Valor 29 39 60 78 82 112 125 126 142 156
Posto 1 2 3 4 5 6 7 8 9 10
Valor 170 192 224 228 245 246 263 275 276 286
Posto 11 12 13 14 15 16 17 18 19 20
Valor 369 370 419 433 454 478 503 756    
Posto 21 22 23 24 25 26 27 28    

Tabela 2.1: Postos combinados para as duas amostras independentes.

Aqui m = 16 e n = 12. Então,

\[S_{m} = 1+2+3+4+5+6+7+11+12+13+17+18+19+20+21+28=187\]

e

\[S_n = 8+9+10+14+15+16+22+23+24+25+26+27=219\]

Então,

\[U_{m}=187-(\frac{1}{2}\times 16\times 17)=51\]

e

\[U_{n}=219-(\frac{1}{2}\times 12\times 13)=141.\]

Portanto, a estatística W é dada por

\[W=U_{n}=141.\]