1.2 - Distribuição exata da estatística de Wilcoxon

Você está aqui

Para encontrar a distribuição exata de T+ sob H0, considere B o número de Zi's positivos (Zi = Xi - θ0) e sejam r1 < ... < rB os ranks (posições) ordenadas dos valores absolutos destes Zi's positivos. Podemos obter a distribuição diretamente da representação $T^+=\sum_{i=1}^Br_i$. Sob a hipótese de que as distribuições de cada Zi são todas contínuas, a probabilidade de que os valores absolutos de Zi's sejam iguais ou que algum Zi seja 0 é zero. Além disso, sob H0 as distribuições de todos os Zi's são simétricas em torno de θ = θ0. Portanto, se temos uma amostra de n elementos, temos 2n possibilidades para a configuração (r1, r2, ..., rB) e cada uma delas ocorre com probabilidade (1/2)n. Neste caso, temos que \[P(T^+=t)=\frac{u(t)}{2^n}\]

onde u(t) é o número de maneiras de atribuir valores para as configurações (r1, r2, ..., rB) de forma que  \[\sum_{i=1}^Br_i=t.\]

Exemplo 1.2.1:

Considere o caso em que temos uma amostra de n = 3 elementos.

Neste caso, temos $2^3$ = 8 possíveis configurações para (r1, r2, ..., rB) e os valores associados de T+ são dados na seguinte tabela.

B (r1, r2, ..., rB) Probability under H0 $T^+=\sum_{i=1}^Br_i$
0   1/8 0
1 r1 = 1 1/8 1
1 r1 = 2 1/8 2
1 r1 = 3 1/8 3
2 r1 = 1, r2 = 2 1/8 3
2 r1 = 1, r2 = 3 1/8 4
2 r1 = 2, r2 = 3 1/8 5
3 r1 = 1, r2 = 2, r3 = 3 1/8 6

Assim, para este exemplo, a probabilidade de T+ ser igual a 3 (P[T+ = 3]) é igual a 2/8 já que o evento T+ = 3 ocorre quando B = 1 (r1 = 3) ou quando B = 2 (r1 = 1, r2 = 2) e cada uma dessas ocorrências ocorre com probabilidade 1/8.

T+ Probabilidade sob H0
0 1/8
1 1/8
2 1/8
3 2/8
4 1/8
5 1/8
6 1/8

Em um teste de Wilcoxon em que o tamanho amostral n é pequeno (geralmente n < 50) utilizamos a distribuição exata da estatística T+ e, a partir desta distribuição, calculamos os valores críticos do teste, o p-valor e o intervalo de confiança.

1. Cálculo dos valores críticos.

Se estamos realizando um teste bilateral, então devemos encontrar os valores críticos t1 e t2 tais que \[P[T^+ \ \textless \ t_1] = P[T^+ \ \textgreater \ t_2]\approx \frac{\alpha}{2}.\]

Se o teste é unilateral à direita, então devemos encontrar o valor crítico t tal que \[P[T^+ \ \textgreater \ t] \approx \alpha\]

e se o teste é unilateral à esquerda, então devemos encontrar o valor crítico t tal que \[P[T^+ \ \textless \ t] \approx \alpha.\]

2. Critério.

Se o teste é bilateral e T+obs < t1 ou T+obs > t2 então rejeitamos H0, caso contrário não rejeitamos H0. Ou seja, se t1 ≤ T+obs ≤ t2, não rejeitamos a hipótese nula H0.

No caso do teste unilateral à direita, se T+ > t, rejeitamos a hipótese H0, caso contrário não rejeitamos H0. Isto é, se T+ ≤ t não rejeitamos a hipótese nula H0.

Se o teste é unilateral à esquerda e T+ < t, rejeitamos a hipótese H0, caso contrário não rejeitamos H0. Isto é, se T+ ≥ t não rejeitamos a hipótese nula H0.

3. Cálculo do p-valor.

Se o teste é bilateral, o p-valor do teste exato é dado por \[P-valor = \left\{\begin{array}{l}2P(T^+ \ \textgreater \ T^+_{obs}-1) \ \hbox{se} \ T^+_{obs} \ \textgreater \ \dfrac{n(n+1)}{4}\\ 2P(T^+\leq T^+_{obs}) \ \hbox{se} \ T^+_{obs} \leq \dfrac{n(n+1)}{4}\end{array}\right.\]

Se o teste é unilateral à direita, o p-valor do teste exato é dado por \[P-valor=P(T^+ \ \textgreater \ T^+_{obs}-1)\]

e se o teste é unilateral à esquerda, o p-valor do teste exato é dado por \[P-valor=P(T^+ \leq \ T^+_{obs}).\]

4. Intervalo de Confiança para o parâmetro de posição.

De forma análoga à estimativa do parâmetro de posição, consideramos as médias (Xi+Xj)/2 entre as observações Xi e Xj tal que i ≤ j. Neste caso, se temos n observações da população, segue que temos M = n(n+1)/2 médias desse tipo.

Sejam W(1), W(2), ..., W(M) os valores ordenados desta médias.

Se o teste é bilateral e o nível de significância é α encontramos os valores L e U tais que \[P(T^+ \leq L)\approx \frac{\alpha}{2} \qquad U = \frac{n(n+1)}{2}-L\]

e o intervalo de confiança 100(1-α)% para o parâmetro de posição θ é então dado por \[IC_{1-\alpha}(\theta)=(W^{(L)},W^{(U+1)}).\]

Se o teste é unilateral à direita, encontramos o valor L tal que \[P(T^+ \leq L)\approx \alpha\]

e o intervalo de confiança 100(1-α)% para o parâmetro de posição θ é então dado por \[IC_{1-\alpha}(\theta)=(W^{(L)},\infty).\]

Se o teste é unilateral à esquerda, encontramos os valores L e U tais que \[P(T^+ \leq L)\approx \alpha \qquad U = \frac{n(n+1)}{2}-L\]

e o intervalo de confiança 100(1-α)% para o parâmetro de posição θ é então dado por \[IC_{1-\alpha}(\theta)=(-\infty,W^{(U+1)}).\]

Exemplo 1.2.2

Considere a seguinte amostra

126 142 156 228 245 246
370 419 433 454 478 503

Vamos testar, com um nível de significância α = 0,05, se os dados estão distribuídos simetricamente em torno de θ0 = 220.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

1. Estabelecemos as hipóteses \[\left\{\begin{array}{l}H_0: \theta=220\\H_1: \theta\neq 220\end{array}\right.\]

já que queremos testar se os dados estão ou não distribuídos simetricamente em torno θ0 = 220.

Como já vimos no Exemplo 1.1, o valor da estatística T+ é dado por T+ = 63.

2. Cálculo dos valores críticos.

Como estamos realizando um teste bilateral, devemos encontrar os valores t1 e t2 tais que \[P(T^+ \ \textless \ t_1) = P(T^+ \ \textgreater \ t_2)\approx \frac{\alpha}{2}.\]

Neste caso, temos que os valores t1 e t2 são dados por t1 = 14 e t2 = 64. Como t1 = 14 < T+obs = 63 < t2 = 64, então não rejeitamos a hipótese nula de que os dados estão distribuídos simetricamente em torno de θ0 = 220.

3. Cálculo do p-valor.

Como o teste é bilateral, o p-valor do teste exato é dado por \[P-valor = \left\{\begin{array}{l}2P(T^+ \ \textgreater \ T^+_{obs}-1) \ \hbox{se} \ T^+_{obs} \ \textgreater \ \dfrac{n(n+1)}{4}\\ 2P(T^+\leq T^+_{obs}) \ \hbox{se} \ T^+_{obs} \leq \dfrac{n(n+1)}{4}\end{array}\right.\]

Temos que n(n+1)/4 = 52 e como T+obs = 63 > 52, segue que \[P-valor = 2P(T^+ \ \textgreater \ T^+_{obs}-1) = 2P(T^+ \ \textgreater \ 62) = 0,06396484.\]

4. Intervalo de confiança.

Para se calcular o intervalo de confiança, consideramos os valores ordenados das médias (Xi+Xj)/2 com i ≤ j. Estes valores estão calculados na tabela abaixo:

Médias ordenadas (Xi+Xj)/2
126 134 141 142 149 156
177 185 185,5 186 192 193,5
194 200,5 201 228 236,5 237
245 245,5 246 248 256 263
272,5 279,5 280,5 287,5 287,5 290
294,5 298 299 302 305 307,5
308 310 314,5 317 322,5 323,5
329,5 330,5 332 332,5 339 339,5
341 349,5 350 353 361,5 362
365,5 370 374 374,5 394,5 401,5
412 419 424 426 433 436,5
436,5 443,5 448,5 454 455,5 461
466 468 478 478,5 490,5 503

Encontramos agora os valores L e U tais que \[P(T^+\leq L)\approx\alpha/2 \qquad U = \frac{n(n+1)}{2}-L.\]

Neste caso, temos que L = 14 e U = 64 e o intervalo de confiança com será dado por \[IC_{1-\alpha}(\theta)=(W^{(14)},W^{(65)})=(200,5;433).\]

5. Estimador para o parâmetro de posição (pseudo-mediana)

A partir da tabela das médias acima, temos que a quantidade total dessas médias é M = 78 = 2k com k = 39. Neste caso, segue que \[\hat{\theta}=\frac{W^{(k)}+W^{(k+1)}}{2}=\frac{314,5+317}{2}=315,75.\]

Utilizando o software Action, os resultados são dados a seguir

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]