2.2 - Distribuição exata da estatística de Wilcoxon-Mann-Whitney

Você está aqui

Suponha que sob H0, a distribuição de W é contínua, de modo que a probabilidade de encontrarmos valores repetidos nas amostras de X e Y é zero. Para encontrar a distribuição exata da estatística W sob H0, considere n e m os tamanhos amostrais das populações Y e X, respectivamente. Além disso, considere que N = n + m. Deste modo, temos $\left(\begin{array}{c}N\\n\end{array}\right)$ possibilidades para os ranks (posições) dos elementos de Y e cada um deles tem probabilidade $1/\left(\begin{array}{c}N\\n\end{array}\right)$. Por exemplo, no caso em que m = 3 e n = 2, existem $\left(\begin{array}{c}5\\2\end{array}\right)=10$ possibilidades para os ranks das duas observações dos elementos de Y e os valores correspondentes da estatística W são dados na seguinte tabela

Ranks Probabilidade W
1,2 1/10 3
1,3 1/10 4
1,4 1/10 5
1,5 1/10 6
2,3 1/10 5
2,4 1/10 6
2,5 1/10 7
3,4 1/10 7
3,5 1/10 8
4,5 1/10 9

Assim, sob H0, a probabilidade de que W seja igual a 5 é igual a 2/10, pois W = 5 quando a configuração dos ranks de Y é {1,4} ou {2,3} e cada uma delas ocorre com probabilidade 1/10. Deste modo, temos para a distribuição sob H0 que

Valores de W Probabilidade
3 0,1
4 0,1
5 0,2
6 0,2
7 0,2
8 0,1
9 0,1

Então, por exemplo, a probabilidade sob H0 de W ser maior ou igual a 7 é dada por

\[P[W\geq 7]=P(W=7)+P(W=8)+P(W=9)=0,2+0,1+0,1=0,4\]

Em um teste de Wilcoxon-Mann-Whitey em que o tamanho amostral n é pequeno (geralmente n < 50) e não temos observações repetidas ou nulas, utilizamos a distribuição exata da estatística W e, a partir desta distribuição, calculamos os valores críticos do teste, o p-valor e o intervalo de confiança.

1. Cálculo dos valores críticos.

Se estamos realizando um teste bilateral, então sob H0, devemos encontrar os valores críticos t1 e t2 tais que

\[P[W \ \textless \ t_1]=P[W \ \textgreater \ t_2]=\approx\frac{\alpha}{2}.\]

Se o teste é unilateral à direita, então devemos encontrar o valor crítico t tal que

\[P[W \ \textgreater \ t]\approx\alpha\]

e se o teste é unilateral à esquerda, então devemos encontrar o valor crítico t tal que

\[P[W \ \textless \ t]\approx\alpha.\]

2. Critério.

Se o teste é bilateral e Wobs < t1 ou Wobs > t2 então rejeitamos H0, caso contrário, não rejeitamos H0, ou seja, se t1 < Wobs < t2, não rejeitamos a hipótese nula H0.

No caso do teste unilateral à direita, se Wobs > t, então rejeitamos H0, caso contrário, não rejeitamos H0, ou seja, se Wobs < t, não rejeitamos a hipótese nula H0.

Se o teste é unilateral à esquerda e Wobs < t, então rejeitamos H0, caso contrário, não rejeitamos H0, ou seja, se Wobs > t, não rejeitamos a hipótese nula H0.

3. Cálculo do p-valor.

Se o teste é bilateal, o p-valor do teste exato é dado por

\[P-valor = \left\{\begin{array}{l}2P(W \ \textgreater \ W_{obs}-1) \ \hbox{se} W_{obs} \ \textgreater \ \frac{mn}{2}\\2P(W \ \textless \ W_{obs}) \ \hbox{se} W_{obs} \leq \frac{mn}{2}\end{array}\right..\]

Se o teste é unilateal à direita, o p-valor do teste exato é dado por

\[P-valor = P(W \ \textgreater \ W_{obs}-1)\]

e se o teste é unilateral à esquerda, o p-valor do teste exato é dado por

\[P-valor = P(W \ \textless W_{obs}).\]

4. Intervalo de confiança para a diferença entre os parâmetros de posição das populações Y e X.

De forma análoga a utilizada na estimativa da diferença entre os parâmetros de posição das populações Y e X, consideramos todas as m x n diferenças yi - xj ordenadas de forma crescente. Considerando que X tem m elementos e Y tem n elementos e que n ≤ m, então temos m x n diferenças deste tipo.

Sejam W(1), W(2), ..., W(mn) estas diferenças ordenadas.

Se o teste é bilateral e o nível de significância é α, encontramos os valores L e U tais que

\[P(W \ \textless \ L)\approx \frac{\alpha}{2} \qquad U = nm-L\]

e o intervalo de confiança 100(1-α)% é dado por

\[IC_{1-\alpha}(\theta)=(W^{(L)},W^{(U+1)}).\]

Se o teste é unilateral à direita, encontramos o valor L tal que

\[P(W \ \textless \ L)\approx\alpha\]

e o intervalo de confiança 100(1-α)% é dado por

\[IC_{1-\alpha}(\theta)=(W^{(L)},\infty)\]

e se o teste é unilateral à esquerda, encontramos o valor U tal que

\[P(W \ \textgreater \ U)\approx\alpha\]

e o intervalo de confiança 100(1-α)% é dado por

\[IC_{1-\alpha}(\theta)=(-\infty,W^{(U+1)}).\]

Exemplo 2.2.1:

Considere novamente o Exemplo 2.1 em que duas amostras fornecem valores de determinada variável.

Amostra 1:

 29 39 60 78 82 112 125 170
192 224 263 275 276 286 369 756

Amostra 2:

126 142 156 228 245 246
370 419 433 454 478 503

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Vamos testar se, a um nível de significância de 5%, existe diferença significativa entre as medidas de posições das duas populações. Neste caso, estabelecemos as hipóteses

\[\left\{\begin{array}{l}H_0:\Delta=0\\H_1:\Delta\neq0\end{array}\right.\]

Como já foi visto, a estatística W é dada por

\[W=141.\]

1. Cálculo dos valores críticos.

Como estamos realizando um teste bilateral, devemos encontrar os valores t1 e t2 tais que

\[P[W \ \textless \ t_1]=P[W \ \textgreater \ t_2]\approx 0,025.\]

Neste caso, temos que os valores de t1 e t2 são dados por t1 = 54 e t2 = 138.

2. Critério.

Como Wobs = 141 > t2 = 138, então rejeitamos a hipótese nula. Neste caso, temos evidência de que as duas populações não possuem medidas de posição iguais.

3. Cálculo do p-valor.

Como Wobs 141 > mn/2 = 96, o p-valor é dado por

\[P-valor = 2P(W \ \textgreater \ W_{obs}-1)=0,03733835.\]

4. Intervalo de Confiança.

Consideramos as m x n diferenças da forma yi - xj ordenadas de forma crescente na tabela abaixo

-630 -614 -600 -528 -511 -510 -386 -337 -323 -302 -278 -253
-243 -227 -213 -160 -150 -149 -144 -141 -137 -134 -133 -130
-124 -123 -121 -120 -119 -107 -98 -82 -68 -66 -58 -50
-48 -47 -44 -41 -40 -36 -35 -31 -30 -30 -29 -28
-18 -17 -14 1 1 4 12 17 21 22 30 31
36 44 44 48 50 53 54 58 60 64 64 66
74 75 76 78 82 84 85 87 94 95 96 97
103 103 107 109 113 116 117 120 121 127 133 133
134 134 143 144 146 146 147 150 156 157 158 163
164 167 168 168 168 170 178 178 179 185 186 189
191 192 195 199 200 202 203 206 207 209 215 216
217 217 227 227 228 230 240 241 245 249 254 258
262 263 279 284 286 288 292 294 307 308 308 310
311 321 329 331 333 337 341 341 342 351 353 355
359 366 372 373 376 378 380 390 391 394 394 396
400 404 415 418 421 425 425 439 443 449 464 474

Os valores de L e U para o cálculo do intervalo de confiança são dados por

\[L = 54 \ \hbox{e} \ U = 138.\]

Desta forma, segue que o intervalo com 95% de confiança é dado por

\[IC_{0,95}(\theta)=(W^{(L)},W^{(U+1)})=(4,230).\]

5. Para o cálculo da pseudo mediana da diferença entre a população Y e a população X, utilizamos a tabela acima. Como mn = 192 e 192 = 2 x 96 é um número par, a pseudo mediana é dada por

\[\hat{\Delta}=\frac{W^{(96)}+W^{(97)}}{2}=\frac{133+134}{2}=133,5.\]

Utilizando o software Action, obtemos os seguintes resultados:

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]