Skip to main content

2.3 - Distribuição amostral de dados normais

O objetivo nesta seção é estender a noção de uma distribuição amostral a situações onde os dados tem uma distribuição normal. Novamente temos n observações X1, X2, ..., Xn, mas ao invés de termos um valor 0 ou 1, como era o caso binomial, estas variáveis tem valores que são contínuos com média μ e desvio padrão σ, e se todos os indivíduos pudessem ser medidos, um gráfico dos dados teria a distribuição normal. Ou seja, a amostra aleatória X1, X2, ..., Xn é i.i.d com função densidade de probabilidade

\[f_X(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right).\]

Imagine, por exemplo, que o objetivo seja estimar quantas horas adicionais de sono são garantidas a um indivíduo após ingerir uma determinada droga. Além disso, suponha que a droga é testada em 20 indivíduos de modo que a média amostral $ \overline{X}=0,8 $ horas. Porém, se o estudo for repetido com outros 20 participantes podemos ter outros resultados para a média amostral. Por exemplo, podemos ter $ \overline{X}=1,3 $. E, repetindo o estudo novamente, poderíamos ter $ \overline{X}=-0,2 $. Em termos estatísticos, haverá variação entre as médias amostrais.

Este problema poderia ser resolvido se repetíssemos o estudo muitas vezes, porém isto é inviável.  

Quando as observações são amostradas aleatoriamente de uma distribuição normal, a média amostral também tem uma distribuição normal. Isto é, quando n observações são amostradas aleatoriamente de uma distribuição normal com média μ e variância σ2, a média amostral tem distribuição normal com média  μ e variância σ2/n.


Estudo de Simulação: Considere uma população normal com média  μ = 10 e variância σ2 = 4. Vamos realizar um estudo de simulação para a distribuição da média amostral desta população considerando amostras de tamanho 20 dessa população. Para este estudo, vamos utilizar o Action e o software R.

Primeiramente, considere que são retiradas 15 amostras de tamanho 20 dessa população. Os dados de cada amostra são mostrados a seguir

15 amostras de tamanho 20
1 2 3
4
5 6 7 8
9
10
11
12
13
14
15
7,98 10,70 7,41 9,92 9,62 8,44 14,46 5,59 7,56 8,66 9,67 11,40 12,18 12,79 12,06
15,16 10,22 9,78 11,82 9,39 5,89 8,40 12,13 13,72 12,42 10,69 8,11 10,25 7,58 7,84
8,13 14,30 6,69 10,01 9,90 11,73 11,92 8,77 10,98 10,24 6,41 8,68 9,98 8,30 12,23
9,84 7,92 12,55 8,91 7,50 10,43 12,99 11,22 7,52 8,50 8,73 9,73 9,49 7,87 7,97
9,15 8,38 9,52 10,39 13,63 8,63 9,08 12,17 10,80 8,18 8,32 12,70 8,95 6,12 12,52
10,80 12,36 11,31 8,12 12,25 12,60 8,11 14,41 9,86 8,37 11,48 8,42 11,48 10,12 12,69
7,43 11,07 8,71 14,06 11,58 10,06 10,58 6,65 13,21 10,29 13,65 10,75 10,70 12,98 11,36
10,61 10,80 9,09 8,85 12,93 13,86 10,66 11,76 11,12 7,77 11,70 10,38 12,89 11,00 10,05
9,64 11,67 8,35 9,51 7,49 8,63 12,22 10,91 11,07 6,99 9,08 9,90 10,08 9,85 9,24
10,44 8,90 7,72 5,10 9,56 8,47 15,78 11,45 7,38 10,21 8,23 14,34 7,78 12,31 10,63
10,98 9,64 11,61 11,80 7,37 8,68 12,53 9,68 10,63 9,64 8,18 8,86 11,11 8,58 9,70
9,96 9,90 8,89 10,94 12,49 9,40 10,97 6,13 9,64 12,93 9,90 13,17 10,26 9,23 11,43
9,50 10,93 9,46 6,09 10,90 9,74 11,93 12,13 10,71 8,58 9,40 12,05 10,75 12,86 10,48
15,30 10,58 10,74 8,12 5,91 9,35 5,27 10,22 12,22 9,82 12,24 8,97 12,54 8,71 11,28
8,13 8,81 10,72 7,52 11,86 7,74 12,53 7,42 10,38 10,28 11,27 8,85 11,19 6,11 8,98
9,47 11,46 9,05 9,22 10,06 12,46 6,89 9,95 12,54 6,86 7,70 12,55 11,66 7,50 11,52
9,14 9,02 11,98 8,52 6,42 7,24 10,04 5,79 9,64 9,57 9,66 10,03 9,36 11,80 9,88
11,47 13,56 9,26 8,19 9,09 8,83 10,18 9,60 8,77 9,23 8,50 12,21 8,09 10,67 11,68
9,65 8,11 10,08 10,85 7,99 12,46 10,30 8,58 9,84 13,98 10,64 8,72 8,78 12,22 9,96
12,67 8,96 8,43 10,53 10,52 10,18 8,49 11,05 10,27 7,32 9,28 10,14 12,20 7,51 9,59

As médias amostrais de cada amostra são dadas segundo a tabela a seguir

   Médias das amostras       
1 2
3
4
5
6
7
8
9
10 11
12
13
14
15
10,27 10,37
9,57
9,42
9,82
9,74
10,67
9,78
10,39
9,49
9,74
10,50
10,49
9,71
10,55

A seguir, temos o histograma das médias amostrais

 

Observemos aqui que a média das médias é 10,03 e o desvio padrão é 0,44. Os resultados foram obtidos no Action.

Suponha agora que façamos o mesmo processo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideramos 200 amostras. Para este estudo de simulação, utilizamos o software R. Neste caso, a distribuição da média amostral é dada segundo o histograma

e a média das médias amostrais é dada por 10,02 e o desvio padrão por 0,48.

Realizando o mesmo experimento, porém agora considerando 10000 amostras de tamanho 20, a distribuição da média amostral pode ser vista segundo o histograma abaixo.

Para este caso, a média das médias amostrais foi 9,9993 e o desvio padrão foi 0,4500. Então, realmente, podemos perceber que a distribuição da média amostral se aproxima de uma distribuição normal com média $ \mu = 10 $ e desvio padrão $ \sigma/\sqrt{n}=2/\sqrt{20}=0,4472 $.

A variância da média amostral, $ \sigma^2_{\overline{X}} $, é chamado de erro quadrático médio da média amostral. Para ser mais concreto, imagine que temos uma amostra aleatória de 25 observações onde, sem que saibamos, a média populacional é 1,5 e a variância é 2 (σ2 = 2). Podemos ter uma média amostral $ \overline{X} $ = 1,45. Porém, imagine que repitamos o estudo muitas vezes de modo que tenhamos as seguintes médias amostrais

1,45; 1,53; 1,90; 1,43; 2,72; 1,70; 1,13; 1,94; 1,23; ...

De acordo com o teorema central do limites, se o estudo é repetido um grande número de vezes, a média destas médias amostrais será igual a média populacional, 1,5, e se calcularmos a variância amostral baseada nestes valores, teremos σ2/n = 2/25. Isto é, a variância das médias amostrais é igual a variância da distribuição da qual as observações foram amostradas, dividida pelo tamanho da amostra, assumindo apenas amostragem aleatória. A raiz quadrada positiva do erro quadrático médio, $ \sigma_{\overline{X}}=\sigma/\sqrt{n} $, é chamado erro padrão da média. Na prática, a variância (σ2) é raramente conhecida, mas podemos estimá-la com a variância amostral s2, que fornece uma estimativa do erro quadrático médio, s2/n e uma estimativa do erro padrão é s/$ \sqrt{n} $.

Distribuição de S2

Já vimos que a estatística S2 é um estimador não viciado da variância σ2. Vamos estudar agora a distribuição de S2. Uma distribuição que desempenaha um papel central na distribuição de S2 é a distribuição qui-quadrado.

Definição 2.3.1: Se X é uma variável aleatória com densidade

\[f_X(x)=\frac{1}{\Gamma(k/2)}\left(\frac{1}{2}\right)^{k/2}x^{k/2-1}e^{-x/2}1\!\!1_{(0,\infty)}(x)\]

então X tem uma distribuição qui-quadrado com k graus de liberdade, onde o parâmetro k é um número inteiro.

Teorema 2.3.2: Se as variáveis aleatórias Xi, i = 1, 2, ..., n são independentes normalmente distribuidas com médias μi e variâncias σi2, então

\[U=\sum_{i=1}^n\left(\frac{X_i-\mu_i}{\sigma_i}\right)^2\]

tem uma distribuição qui-quadrado com n graus de liberdade.

Corolário 2.3.3: A variância amostral S2 de uma amostra aleatória de uma distribuição normal com média μ e variância σ2, então

\[U=\frac{(n-1)S^2}{\sigma^2}\]

tem uma distribuição qui-quadrado com n-1 graus de liberdade.

Uma vez que S2 é uma função linear de U, a densidade de S2 pode ser obtida da densidade de U. Desta forma, temos que

\[f_{S^2}(y)=\left(\frac{n-1}{2\sigma^2}\right)^{(n-1)/2}\frac{1}{\Gamma[(n-1)/2]}y^{(n-3)/2}e^{-(n-1)y/2\sigma^2}1\!\!1_{(0,\infty)}(y)\]

e, com isso, S2 tem média σ2 e variância 2 σ4/(n-1).

Estudo de simulação: Analogamente ao estudo de simulação realizado acima, considere uma população normal com média μ = 10 e variância σ2 = 4. Considere as 15 amostras de tamanho 20 desta população.

 

15 amostras de tamanho 20
1 2 3
4
5 6 7 8
9
10
11
12
13
14
15
7.98 10.70 7.41 9.92 9.62 8.44 14.46 5.59 7.56 8.66 9.67 11.40 12.18 12.79 12.06
15.16 10.22 9.78 11.82 9.39 5.89 8.40 12.13 13.72 12.42 10.69 8.11 10.25 7.58 7.84
8.13 14.30 6.69 10.01 9.90 11.73 11.92 8.77 10.98 10.24 6.41 8.68 9.98 8.30 12.23
9.84 7.92 12.55 8.91 7.50 10.43 12.99 11.22 7.52 8.50 8.73 9.73 9.49 7.87 7.97
9.15 8.38 9.52 10.39 13.63 8.63 9.08 12.17 10.80 8.18 8.32 12.70 8.95 6.12 12.52
10.80 12.36 11.31 8.12 12.25 12.60 8.11 14.41 9.86 8.37 11.48 8.42 11.48 10.12 12.69
7.43 11.07 8.71 14.06 11.58 10.06 10.58 6.65 13.21 10.29 13.65 10.75 10.70 12.98 11.36
10.61 10.80 9.09 8.85 12.93 13.86 10.66 11.76 11.12 7.77 11.70 10.38 12.89 11.00 10.05
9.64 11.67 8.35 9.51 7.49 8.63 12.22 10.91 11.07 6.99 9.08 9.90 10.08 9.85 9.24
10.44 8.90 7.72 5.10 9.56 8.47 15.78 11.45 7.38 10.21 8.23 14.34 7.78 12.31 10.63
10.98 9.64 11.61 11.80 7.37 8.68 12.53 9.68 10.63 9.64 8.18 8.86 11.11 8.58 9.70
9.96 9.90 8.89 10.94 12.49 9.40 10.97 6.13 9.64 12.93 9.90 13.17 10.26 9.23 11.43
9.50 10.93 9.46 6.09 10.90 9.74 11.93 12.13 10.71 8.58 9.40 12.05 10.75 12.86 10.48
15.30 10.58 10.74 8.12 5.91 9.35 5.27 10.22 12.22 9.82 12.24 8.97 12.54 8.71 11.28
8.13 8.81 10.72 7.52 11.86 7.74 12.53 7.42 10.38 10.28 11.27 8.85 11.19 6.11 8.98
9.47 11.46 9.05 9.22 10.06 12.46 6.89 9.95 12.54 6.86 7.70 12.55 11.66 7.50 11.52
9.14 9.02 11.98 8.52 6.42 7.24 10.04 5.79 9.64 9.57 9.66 10.03 9.36 11.80 9.88
11.47 13.56 9.26 8.19 9.09 8.83 10.18 9.60 8.77 9.23 8.50 12.21 8.09 10.67 11.68
9.65 8.11 10.08 10.85 7.99 12.46 10.30 8.58 9.84 13.98 10.64 8.72 8.78 12.22 9.96
12.67 8.96 8.43 10.53 10.52 10.18 8.49 11.05 10.27 7.32 9.28 10.14 12.20 7.51 9.59

Neste caso, calculando a variância de cada uma das 15 amostras, temos que

Variância das amostras
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
4,46 3,04 2,41 4,20 4,95 4,09 6,40 6,04 3,07 3,65 3,04 3,30 2,12 5,17 2,03

A seguir, temos o histograma das variâncias das 15 amostras

A média das variâncias é 3,864 e a variância das variâncias é 1,817.

Suponha agora que façamos o mesmo estudo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideraremos 1000. Utilizamos o software Action para realizar esta simulação. A distribuição amostral da variância é dada pelo seguinte histograma

Neste caso, a média das variâncias é 4,006 e a variância é 1,694.

Realizando o mesmo experimento, mas agora considerando 10000 amostras de tamanho 20 temos que a distribuição da variância é dada pelo histograma abaixo

Neste caso, a média das variâncias é 4,026 e a variância é 1,673. Então, realmente, podemos perceber que a distribuição da variância amostral se aproxima de uma distribuição qui-quadrado com média $ \mu = 4 $ e variância $ \frac{2\sigma^4}{n-1}=\frac{2\times 16}{19}=1,684 $.