2.4 - Observações Repetidas

Agora vamos ver o caso em que ao observarmos duas amostras encontramos valores repetidos ou valores nulos. De forma análoga a realizada no caso de uma única amostra, quando os módulos dos números se repetem, teremos postos iguais para os números e o posto destes números será a média aritmética que os números assumiriam no caso comum.

Observação:

Se as amostras possuem valores repetidos ou nulos, o p-valor e os intervalos de confiança não são calculados de forma exata e os testes realizados são sempre assintóticos (utilizando aproximação normal)

Consideremos duas amostras X e Y de duas populações P1 e P2, com tamanhos m e n respectivamente de modo que existam valores repetidos e/ou nulos no conjunto das duas amostras. Neste caso, a estatística será modificada para

\[Z= \frac{W-\frac{1}{2}mn}{\sqrt{\frac{mn(m+n+1)}{12}-\left\{\frac{mn}{12(m+n)(m+n-1)} \sum_{j=1}^g(t_j-1)t_j(t_j+1)\right\}}}~~~(2.4.1)\]

em que tj é o tamanho do grupo de elementos repetidos j e g é o número total de grupos. Uma observação que não se repete é considerada como um grupo de tamanho 1.

Vejamos os passos para realizar este teste:

1. Estabelecemos uma das hipóteses:

\[\left\{\begin{array}{l}H_0:\Delta=0\\H_1:\Delta\neq0\end{array}\right. \quad \left\{\begin{array}{l} H_0:\Delta=0\\H_1:\Delta \ \textgreater \ 0\end{array}\right. \quad \left\{\begin{array}{l}H_0:\Delta = 0\\H_1:\Delta \ \textless \ 0\end{array}\right.~~~(2.4.2)\]

2. Ordenamos os valores da duas amostras em ordem crescente.

3. Consideramos Sm e Sn como anteriormente (soma dos postos correspondentes aos valores das amostras de tamanhos m e n respectivamente). Seja

\[W=U_n=S_n-\frac{n(n+1)}{2}.\]

4. Calculamos o valor de $Z$ utilizando a equação (2.4.1), isto é

\[Z= \frac{W-\frac{1}{2}mn}{\sqrt{\frac{mn(m+n+1)}{12}-\left\{\frac{mn}{12(m+n)(m+n-1)} \sum_{j=1}^g(t_j-1)t_j(t_j+1)\right\}}}.\]

5. Fixamos o nível de significância α.

6. Encontramos o valor crítico utilizando a distribuição Normal Padrão.

  • Se o teste é bilateral, encontramos os valores críticos Zα/2 e -Zα/2 tais que P[Z > Zα/2] = P[Z < -Zα/2] = α/2.
  • Se o teste é unilateral à direita, encontramos o valor crítico Zα tal que P[Z > Zα] = α.
  • Se o teste é unilateral à esquerda, encontramos o valor crítico -Zα tal que P[Z < -Zα] = α.

7. Critério:

  • Se o teste é bilateral e Zobs > Zα/2 ou Zobs < -Zα/2 rejeitamos a hipótese nula H0, caso contrário, não rejeitamos a hipótese nula.
  • Se o teste é unilateral à direita e Zobs > Zα rejeitamos a hipótese nula H0, caso contrário não rejeitamos a hipótese nula.
  • Se o teste é unilateral à esquerda e Zobs < -Zα rejeitamos a hipótese nula H0, caso contrário não rejeitamos a hipótese nula.

8. Cálculo do p-valor.

  • Se o teste é bilateral o p-valor é dado por

\[P-valor = P[|Z| \ \textgreater \ |Z_{obs}||H_0]=2P[Z \ \textgreater \ |Z_{obs}||H_0].\]

  • Se o teste é unilateral à direita, o p-valor é dado por

\[P-valor = P[Z \ \textgreater \ Z_{obs}|H_0].\]

  • Se o teste é unilateral à esquerda, o p-valor é dado por

\[P-valor = P[Z \ \textless \ Z_{obs}|H_0].\]

onde Z ~ N(0,1).

 

Aproximação Normal com correção de continuidade

Aqui também é conveniente utilizar uma correção de continuidade. Assim como visto anteriormente, a correção é feita de acordo com o tipo de teste utilizado.

  • Se o teste é bilateral, calculamos A dado por

\[A = W -\frac{1}{2}nm.\]

Se A ≥ 0, então

\[Z_{cor}=\frac{W-\frac{1}{2}-\frac{1}{2}mn}{\sqrt{\frac{mn(m+n+1)}{12}-\left\{\frac{mn}{12(m+n)(m+n-1)} \sum_{j=1}^g(t_j-1)t_j(t_j+1)\right\}}}.\]

 Se A < 0, então

\[Z_{cor}=\frac{W+\frac{1}{2}-\frac{1}{2}mn}{\sqrt{\frac{mn(m+n+1)}{12}-\left\{\frac{mn}{12(m+n)(m+n-1)} \sum_{j=1}^g(t_j-1)t_j(t_j+1)\right\}}}.\]

  • Se o teste é unilateral à direita, a estatística é dada por

\[Z_{cor}=\frac{W-\frac{1}{2}-\frac{1}{2}mn}{\sqrt{\frac{mn(m+n+1)}{12}-\left\{\frac{mn}{12(m+n)(m+n-1)} \sum_{j=1}^g(t_j-1)t_j(t_j+1)\right\}}}.\]

  • Se o teste é unilateral à esquerda, a estatística é dada por

\[Z_{cor}=\frac{W+\frac{1}{2}-\frac{1}{2}mn}{\sqrt{\frac{mn(m+n+1)}{12}-\left\{\frac{mn}{12(m+n)(m+n-1)} \sum_{j=1}^g(t_j-1)t_j(t_j+1)\right\}}}\]

Exemplo 2.4.1: 

Consideremos duas amostras:

Amostra 1:

0 19 22 30 31 37 55 56 66 66 67 67
68 71 73 75 75 78 79 82 83 83 88 96

Amostra 2:

13 13 22 26 33 33 59 72 72 72 77 78
78 80 81 82 85 85 85 86 88      

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Usamos o teste da aproximação normal para amostras grandes para testar a hipótese de que estes dados podem ser considerados como amostras para populações idênticas contra a hipótese de que as populações diferem em localização.

Como os tamanhos das amostras são m = 24 e n = 21, respectivamente, a aproximação para amostras grandes será suficiente.

Na Tabela 2.3.1 temos os valores das amostras 1 e 2 colocados em ordem crescente com seus respectivos postos. Os postos dos valores repetidos são as médias entre os valores que os postos assumiriam normalmente. Veja a tabela:

Valor 0 13 13 19 22 22 26 30 31 33 33 37
Posto 1 2,5 2,5 4 5,5 5,5 7 8 9 10,5 10,5 12
Valor 55 56 59 66 66 67 67 68 71 72 72 72
Posto 13 14 15 16,5 16,5 18,5 18,5 20 21 23 23 23
Valor 73 75 75 77 78 78 78 79 80 81 82 82
Posto 25 26,5 26,5 28 30 30 30 32 33 34 35,5 35,5
Valor 83 83 85 85 85 86 88 88 96      
Posto 37,5 37,5 40 40 40 42 43,5 43,5 45      

Tabela 2.4.1: Postos combinados para as duas amostras independentes com valores repetidos.

Assim, temos que

\[S_n=518,5.\]

Pela equação(2.4) temos que

\[W= U_n = S_n-\frac{n(n+1)}{2}=518,5-\frac{21\times 22}{2}= 287,5.\]

Neste caso, temos 19 grupos e o número de elementos de cada grupo pode ser visto na tabela abaixo

0 13 19 22 26 30 31 33 37 55 56 59 66 67 68 71 72 73 75 77 78 79 80 81 82 83 85 86 88 96
1 2 1 2 1 1 1 2 1 1 1 1 2 2 1 1 3 1 2 1 3 1 1 1 2 2 3 1 2 1

e então, segue que

\[\sum_{j=1}^{19}(t_j-1)t_j(t_j+1)=126\]

Usando a equação(2.4.1)  temos que

\[Z = (287,5 - 252)/\sqrt{1929,327}= 35,5/43,9241=0,8082123.\]

Ao nível de significância de 5%, temos que Z0,025 = 1,96 e como -1,96 < 0,8082123 < 1,96, não rejeitamos a hipótese de que as populações são idênticas.

O p-valor, neste caso é dado por

\[P-valor = 2P[Z \ \textgreater \ |Z_{obs}||H_0]=2P[Z \ \textgreater \ 0,8082123|H_0]=0,4189684.\]

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

 

Se tivéssemos utilizado a correção de continuidade, teríamos

\[A = W-\frac{1}{2}nm=287,5-252 = 35,5 \ \textgreater \ 0\]

e então,

\[Z_{cor}=\frac{287,5-0,5-252}{\sqrt{1929,443}}=\frac{35}{43,9241}=0,796829.\]

Deste modo, também não rejeitamos a hipótese de que as populações são idênticas, porém, neste caso, o p-valor é dado por

\[P-valor = 2P[Z \ \textgreater \ |Z_{cor}||H_0]=2P[Z \ \textgreater \ 0.796829]=0,4255504.\]

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]