2.3 - Distribuição amostral de dados normais

Você está aqui

O objetivo nesta seção é estender a noção de uma distribuição amostral a situações em que amostramos de uma distribuição normal. Considere $ X_1 , \cdots , X_n $ uma amostra aleatória de uma distribuição normal com média $ \mu $ e variância $ \sigma^2 $.

Tomamos, por exemplo, o problema de estimar quantas horas adicionais de sono são garantidas a um indivíduo após ingerir uma determinada droga. Além disso, suponha que a droga é testada em 20 indivíduos de modo que a média amostral seja $ \overline{X}=0,8 $ horas. Porém, se o estudo for repetido com outros 20 participantes podemos ter outros resultados para a média amostral. Por exemplo, podemos ter $ \overline{X}=1,3 $. E, repetindo o estudo novamente, poderíamos ter $ \overline{X}=-0,2 $. Em termos estatísticos, haverá variação entre as médias amostrais.

Este problema poderia ser resolvido se repetíssemos o estudo infinitas vezes, porém isto é inviável.  

Quando as observações são amostradas aleatoriamente de uma distribuição normal, a média amostral também tem uma distribuição normal. Isto é, quando $ n $ observações são amostradas aleatoriamente de uma distribuição normal com média $ \mu $ e variância $ \sigma^2 $, a média amostral tem distribuição normal com média  $ \mu $ e variância $ \sigma^2/n $.

Estudo de Simulação:

Considere uma população normal com média $ \mu = 10 $ e variância $ \sigma^2=4 $. Vamos realizar um estudo de simulação para a distribuição da média amostral considerando amostras de tamanho $ 20 $ dessa população. Para este estudo, vamos utilizar o Action e o software R.

Primeiramente, considere que são retiradas $ 15 $ amostras de tamanho $ 20 $ dessa população. Os dados de cada amostra são mostrados a seguir

15 amostras de tamanho 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
7,98 10,70 7,41 9,92 9,62 8,44 14,46 5,59 7,56 8,66 9,67 11,40 12,18 12,79 12,06
15,16 10,22 9,78 11,82 9,39 5,89 8,40 12,13 13,72 12,42 10,69 8,11 10,25 7,58 7,84
8,13 14,30 6,69 10,01 9,90 11,73 11,92 8,77 10,98 10,24 6,41 8,68 9,98 8,30 12,23
9,84 7,92 12,55 8,91 7,50 10,43 12,99 11,22 7,52 8,50 8,73 9,73 9,49 7,87 7,97
9,15 8,38 9,52 10,39 13,63 8,63 9,08 12,17 10,80 8,18 8,32 12,70 8,95 6,12 12,52
10,80 12,36 11,31 8,12 12,25 12,60 8,11 14,41 9,86 8,37 11,48 8,42 11,48 10,12 12,69
7,43 11,07 8,71 14,06 11,58 10,06 10,58 6,65 13,21 10,29 13,65 10,75 10,70 12,98 11,36
10,61 10,80 9,09 8,85 12,93 13,86 10,66 11,76 11,12 7,77 11,70 10,38 12,89 11,00 10,05
9,64 11,67 8,35 9,51 7,49 8,63 12,22 10,91 11,07 6,99 9,08 9,90 10,08 9,85 9,24
10,44 8,90 7,72 5,10 9,56 8,47 15,78 11,45 7,38 10,21 8,23 14,34 7,78 12,31 10,63
10,98 9,64 11,61 11,80 7,37 8,68 12,53 9,68 10,63 9,64 8,18 8,86 11,11 8,58 9,70
9,96 9,90 8,89 10,94 12,49 9,40 10,97 6,13 9,64 12,93 9,90 13,17 10,26 9,23 11,43
9,50 10,93 9,46 6,09 10,90 9,74 11,93 12,13 10,71 8,58 9,40 12,05 10,75 12,86 10,48
15,30 10,58 10,74 8,12 5,91 9,35 5,27 10,22 12,22 9,82 12,24 8,97 12,54 8,71 11,28
8,13 8,81 10,72 7,52 11,86 7,74 12,53 7,42 10,38 10,28 11,27 8,85 11,19 6,11 8,98
9,47 11,46 9,05 9,22 10,06 12,46 6,89 9,95 12,54 6,86 7,70 12,55 11,66 7,50 11,52
9,14 9,02 11,98 8,52 6,42 7,24 10,04 5,79 9,64 9,57 9,66 10,03 9,36 11,80 9,88
11,47 13,56 9,26 8,19 9,09 8,83 10,18 9,60 8,77 9,23 8,50 12,21 8,09 10,67 11,68
9,65 8,11 10,08 10,85 7,99 12,46 10,30 8,58 9,84 13,98 10,64 8,72 8,78 12,22 9,96
12,67 8,96 8,43 10,53 10,52 10,18 8,49 11,05 10,27 7,32 9,28 10,14 12,20 7,51 9,59

As médias amostrais de cada amostra são dadas segundo a tabela a seguir

   Médias das amostras       
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
10,27 10,37 9,57 9,42 9,82 9,74 10,67 9,78 10,39 9,49 9,74 10,50 10,49 9,71 10,55

A seguir, temos o histograma das médias amostrais

 

Observemos aqui que a média das médias é 10,03 e o desvio padrão é 0,44. Os resultados foram obtidos no Action.

Suponha agora que façamos o mesmo processo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideramos 200 amostras. Para este estudo de simulação, utilizamos o software R. Neste caso, o histograma das médias obtidas pode ser visto na figura a seguir.

e a média das médias amostrais é dada por 10,02 e o desvio padrão por 0,48.

Realizando o mesmo experimento, porém agora considerando 10000 amostras de tamanho 20, a distribuição da média amostral pode ser vista segundo o histograma abaixo.

Para este caso, a média das médias amostrais foi 9,9993 e o desvio padrão foi 0,4500. Então, empiricamente, podemos perceber que a distribuição da média amostral se aproxima de uma distribuição normal com média $ \mu = 10 $ e desvio padrão $ \sigma/\sqrt{n}=2/\sqrt{20}=0,4472 $.

A variância da média amostral, $ \sigma^2_{\overline{X}} $, é chamado de erro quadrático médio da média amostral. Para ser mais concreto, imagine que temos uma amostra aleatória de 25 observações onde, sem que saibamos, a média populacional é $ 1,5 $ e a variância é $ 2 $ ($ \sigma^2= 2 $). Podemos ter uma média amostral $ \overline{X} = 1,45 $. Porém, imagine que repitamos o estudo muitas vezes de modo que tenhamos as seguintes médias amostrais

1,45; 1,53; 1,90; 1,43; 2,72; 1,70; 1,13; 1,94; 1,23; ...

De acordo com o Teorema Central do Limite, se o estudo é repetido um grande número de vezes, a média destas médias amostrais será igual a média populacional, $ 1,5 $, e se calcularmos a variância amostral baseada nestes valores, teremos $ \sigma^2/n = 2/25 $. Isto é, a variância das médias amostrais é igual a variância da distribuição da qual as observações foram amostradas, dividida pelo tamanho da amostra, assumindo apenas amostragem aleatória. A raiz quadrada positiva do erro quadrático médio, $ \sigma_{\overline{X}}=\sigma/\sqrt{n} $, é chamado erro padrão da média. Na prática, a variância ($ \sigma^2 $) é raramente conhecida, mas podemos estimá-la com a variância amostral $ s^2 $, que fornece uma estimativa do erro quadrático médio, $ s^2/n $ e uma estimativa do erro padrão é $ s/\sqrt{n} $.

Distribuição de $ s^2 $

Temos que a estatística $ s^2 $ é um estimador não viciado da variância $ \sigma^2 $. Vamos estudar agora a distribuição de $ s^2 $. Uma distribuição que desempenha um papel central na distribuição de $ s^2 $ é a distribuição qui-quadrado.

Definição 2.3.1:

Se X é uma variável aleatória com densidade 

\[f_X(x)=\frac{1}{\Gamma(k/2)}\left(\frac{1}{2}\right)^{k/2}x^{k/2-1}e^{-x/2}1\!\!1_{(0,\infty)}(x)\]

então X tem uma distribuição qui-quadrado com k graus de liberdade, onde o parâmetro k é um número inteiro.

Teorema 2.3.1:

Se as variáveis aleatórias $ X_i, i = 1, 2, \ldots, n $ são independentes e normalmente distribuídas com médias $ \mu_i $ e variâncias $ \sigma_i^2 $, então 

\[U=\sum_{i=1}^n\left(\frac{X_i-\mu_i}{\sigma_i}\right)^2\]

tem uma distribuição qui-quadrado com n graus de liberdade.

Demonstração: 

De fato, para cada $ i $, se $ X_i\sim N(\mu_1,\sigma_1^2) $ então 

\[\frac{X_i-\mu_i}{\sigma_i}\sim N(0,1)\]

e, usando o Teorema 6.3.1 do livro de Probabilidades, segue o resultado.

Teorema 2.3.1:

Se $ X_1,X_2,\ldots,X_n $ é uma amostra aleatória de uma distribuição normal padrão, então, valem as seguintes propriedades:

(i) $ \overline{X} $ e $ \sum_{i=1}^n(X_i-\overline{X})^2 $ são independentes.

(ii) $ \sum_{i=1}^n(X_i-\overline{X})^2 $ tem uma distribuição qui-quadrado com $ n-1 $ graus de liberdade.

Demonstração:

(i) A demonstração será feita somente para o caso $ n=2 $, mas ressaltamos que o resultado é válido para todo $ n\in\mathbb{N} $. Quando $ n=2 $, temos que 

\[\overline{X} = \frac{X_1+X_2}{2}\]


\[\sum_{i=1}^n(X_i-\overline{X})^2 = \left(X_1-\frac{X_1+X_2}{2}\right)^2+\left(X_2 - \frac{X_1 +X_2}{2}\right)^2 = \frac{(X_1-X_2)^2}{4}+\frac{(X_2-X_1)^2}{4}\]

de onde concluímos que

\[\sum_{i=1}^n(X_i-\overline{X})^2=\frac{(X^2-X_1)^2}{2}\]

de modo que $ \overline{X} $ é uma função de $ X_1+X_2 $ e $ \sum(X_i-\overline{X})^2 $ é uma função de $ X_2-X_1 $ e então, para provar que $ \overline{X} $ e $ \sum(X_i-\overline{X})^2 $ são independentes, é suficiente mostrar que $ X_1+X_2 $ e $ X_2-X_1 $ são independentes. Sendo $ M_{Y}(t) $ a função geradora de momentos da variável aleatória $ Y $, temos que 

\[M_{X_1+X_2}(t_1) = \mathbb{E}[e^{t_1(X_1+X_2)}]=\mathbb{E}[e^{t_1X_1}e^{t_1X_2}] = \mathbb{E}[e^{t_1X_1}]\mathbb{E}[e^{t_1X_2}]=\exp\left(\frac{1}{2}t_1^2\right)\exp\left(\frac{1}{2}t_1^2\right) = \exp(t_1^2)\]

e, de forma análoga, 

\[M_{X_1-X_2}(t_2) = \exp(t_2^2).\]

Além disso, podemos verificar que 

\[M_{X_1+X_2,X_2-X_1}(t_1,t_2) = M_{X_1+X_2}(t_1)M_{X_2-X_1}(t_2)\]

o que mostra que $ X_1+X_2 $ e $ X_2-X_1 $ são independentes.

(ii) Consideramos o resultado (i) para o caso em que temos $ n $ arbitrário. Além disso, observamos que 

\[\sum X_i^2 = \sum(X_i-\overline{X}+\overline{X})^2 = \sum(X_i-\overline{X})^2+2\overline{X}\sum(X_i-\overline{X})+\sum\overline{X}^2 = \sum(X_i-\overline{X})^2+n\overline{X}^2\]

e que $ \sum(X_i-\overline{X})^2 $ e $ n\overline{X}^2 $ são independentes. Então 

\[M_{\sumX_i^2}(t) = M_{\sum(X_i-\overline{X})^2}(t)M_{n\overline{X}^2}(t)\]

e, portanto,  

\[M_{\sum(X_i-\overline{X})}^2(t) = \frac{M_{\sumX_i^2}(t)}{M_{n\overline{X}^2}(t)}= \left(\frac{1}{1-2t}\right)^{\frac{n-1}{2}}, \ t \ \textless \ \frac{1}{2}.\]

Como $ \sqrt{n}\overline{X} $ tem uma distribuição normal padrão, segue que $ n\overline{X}^2 $ tem uma distribuição qui-quadrado com um grau de liberdade. Além disso, a função geradora de momentos de $ \sum(X_i-\overline{X})^2 $ é igual a de uma distribuição qui-quadrada com $ n-1 $ graus de liberdade, completando a demonstração.

Corolário 2.3.1:

Se $ s^2 $ é a variância amostral de uma amostra aleatória $ X_1, \ldots, X_n $ de uma distribuição normal com média $ \mu $ e variância $ \sigma^2 $, então 

\[U=\frac{(n-1)s^2}{\sigma^2}\]

tem uma distribuição qui-quadrado com n-1 graus de liberdade.

Demonstração:

De fato, se $ X_i\sim N(\mu,\sigma^2) $ para todo $ i $, então 

\[Z_i = \frac{X_i-\mu}{\sigma}\sim N(0,1).\]

Temos que 

\[U = \frac{(n-1)s^2}{\sigma^2}=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2}\]

Reescrevendo $ X_i = Z_i\sigma+\mu $, segue que 

\[(X_i-\overline{X})^2 = \left(Z_i\sigma+\mu-\sum_{i=1}^n\frac{Z_i\sigma+\mu}{n}\right)^2 = \left(Z_i\sigma+\mu-\sigma\overline{Z}-\mu\right)^2\]

e, portanto, 

\[(X_i-\overline{X})^2 = (Z_i\sigma-\sigma\overline{Z})^2 = (\sigma(Z_i-\overline{Z}))^2=\sigm^2 (Z_i-\overline{Z})^2.\]

Desta forma, 

\[U = \sum_{i=1}^n\frac{(X_i-\overline{X})^2}{\sigma^2}=\sum_{i=1}^n\frac{\sigma^2(Z_i-\overline{Z})^2}{\sigma^2}=\sum_{i=1}^n(Z_i-\overline{Z})^2\]

e, a partir do item (ii) do Teorema 2.3.1, concluímos que $ U $ tem uma distribuição qui-quadrado com $ n-1 $ graus de liberdade.

Uma vez que $ s^2 $ é uma função linear de $ U $, a densidade de $ s^2 $ pode ser obtida da densidade de $ U $. Desta forma, temos que 

\[f_{S^2}(y)=\left(\frac{n-1}{2\sigma^2}\right)^{(n-1)/2}\frac{1}{\Gamma[(n-1)/2]}y^{(n-3)/2}e^{-(n-1)y/2\sigma^2}1\!\!1_{(0,\infty)}(y)\]

e, com isso, $ s^2 $ tem média $ \sigma^2 $ e variância $ \frac{2\sigma^4}{n-1} $.

Estudo de simulação:

Analogamente ao estudo de simulação realizado acima, considere uma população normal com média $ \mu = 10 $ e variância $ \sigma^2= 4 $. Considere as 15 amostras de tamanho 20 desta população.

15 amostras de tamanho 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
7.98 10.70 7.41 9.92 9.62 8.44 14.46 5.59 7.56 8.66 9.67 11.40 12.18 12.79 12.06
15.16 10.22 9.78 11.82 9.39 5.89 8.40 12.13 13.72 12.42 10.69 8.11 10.25 7.58 7.84
8.13 14.30 6.69 10.01 9.90 11.73 11.92 8.77 10.98 10.24 6.41 8.68 9.98 8.30 12.23
9.84 7.92 12.55 8.91 7.50 10.43 12.99 11.22 7.52 8.50 8.73 9.73 9.49 7.87 7.97
9.15 8.38 9.52 10.39 13.63 8.63 9.08 12.17 10.80 8.18 8.32 12.70 8.95 6.12 12.52
10.80 12.36 11.31 8.12 12.25 12.60 8.11 14.41 9.86 8.37 11.48 8.42 11.48 10.12 12.69
7.43 11.07 8.71 14.06 11.58 10.06 10.58 6.65 13.21 10.29 13.65 10.75 10.70 12.98 11.36
10.61 10.80 9.09 8.85 12.93 13.86 10.66 11.76 11.12 7.77 11.70 10.38 12.89 11.00 10.05
9.64 11.67 8.35 9.51 7.49 8.63 12.22 10.91 11.07 6.99 9.08 9.90 10.08 9.85 9.24
10.44 8.90 7.72 5.10 9.56 8.47 15.78 11.45 7.38 10.21 8.23 14.34 7.78 12.31 10.63
10.98 9.64 11.61 11.80 7.37 8.68 12.53 9.68 10.63 9.64 8.18 8.86 11.11 8.58 9.70
9.96 9.90 8.89 10.94 12.49 9.40 10.97 6.13 9.64 12.93 9.90 13.17 10.26 9.23 11.43
9.50 10.93 9.46 6.09 10.90 9.74 11.93 12.13 10.71 8.58 9.40 12.05 10.75 12.86 10.48
15.30 10.58 10.74 8.12 5.91 9.35 5.27 10.22 12.22 9.82 12.24 8.97 12.54 8.71 11.28
8.13 8.81 10.72 7.52 11.86 7.74 12.53 7.42 10.38 10.28 11.27 8.85 11.19 6.11 8.98
9.47 11.46 9.05 9.22 10.06 12.46 6.89 9.95 12.54 6.86 7.70 12.55 11.66 7.50 11.52
9.14 9.02 11.98 8.52 6.42 7.24 10.04 5.79 9.64 9.57 9.66 10.03 9.36 11.80 9.88
11.47 13.56 9.26 8.19 9.09 8.83 10.18 9.60 8.77 9.23 8.50 12.21 8.09 10.67 11.68
9.65 8.11 10.08 10.85 7.99 12.46 10.30 8.58 9.84 13.98 10.64 8.72 8.78 12.22 9.96
12.67 8.96 8.43 10.53 10.52 10.18 8.49 11.05 10.27 7.32 9.28 10.14 12.20 7.51 9.59

Neste caso, calculando a variância de cada uma das 15 amostras, temos que

Variância das amostras
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
4,46 3,04 2,41 4,20 4,95 4,09 6,40 6,04 3,07 3,65 3,04 3,30 2,12 5,17 2,03

A seguir, temos o histograma das variâncias das 15 amostras

A média das variâncias é 3,864 e a variância das variâncias é 1,817.

Suponha agora que façamos o mesmo estudo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideraremos 1000. Utilizamos o software Action para realizar esta simulação. A distribuição amostral da variância é dada pelo seguinte histograma

Neste caso, a média das variâncias é 4,006 e a variância é 1,694.

Realizando o mesmo experimento, mas agora considerando 10000 amostras de tamanho 20 temos que a distribuição da variância é dada pelo histograma abaixo

Neste caso, a média das variâncias é 4,026 e a variância é 1,673. Então, realmente, podemos perceber que a distribuição da variância amostral se aproxima de uma distribuição qui-quadrado com média $ \mu = 4 $ e variância $ \frac{2\sigma^4}{n-1}=\frac{2\times 16}{19}=1,684 $.

Inferência

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]