- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
O objetivo nesta seção é estender a noção de uma distribuição amostral a situações em que amostramos de uma distribuição normal. Considere $X_1 , \cdots , X_n$ uma amostra aleatória de uma distribuição normal com média $\mu$ e variância $\sigma^2$.
Tomamos, por exemplo, o problema de estimar quantas horas adicionais de sono são garantidas a um indivíduo após ingerir uma determinada droga. Além disso, suponha que a droga é testada em 20 indivíduos de modo que a média amostral seja $\overline{X}=0,8$ horas. Porém, se o estudo for repetido com outros 20 participantes podemos ter outros resultados para a média amostral. Por exemplo, podemos ter $\overline{X}=1,3$. E, repetindo o estudo novamente, poderíamos ter $\overline{X}=-0,2$. Em termos estatísticos, haverá variação entre as médias amostrais.
Este problema poderia ser resolvido se repetíssemos o estudo infinitas vezes, porém isto é inviável.
Quando as observações são amostradas aleatoriamente de uma distribuição normal, a média amostral também tem uma distribuição normal. Isto é, quando $n$ observações são amostradas aleatoriamente de uma distribuição normal com média $\mu$ e variância $\sigma^2$, a média amostral tem distribuição normal com média $\mu$ e variância $\sigma^2/n$.
Considere uma população normal com média $\mu = 10$ e variância $\sigma^2=4$. Vamos realizar um estudo de simulação para a distribuição da média amostral considerando amostras de tamanho $20$ dessa população. Para este estudo, vamos utilizar o Action e o software R.
Primeiramente, considere que são retiradas $15$ amostras de tamanho $20$ dessa população. Os dados de cada amostra são mostrados a seguir
15 amostras de tamanho 20 | ||||||||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
7,98 | 10,70 | 7,41 | 9,92 | 9,62 | 8,44 | 14,46 | 5,59 | 7,56 | 8,66 | 9,67 | 11,40 | 12,18 | 12,79 | 12,06 |
15,16 | 10,22 | 9,78 | 11,82 | 9,39 | 5,89 | 8,40 | 12,13 | 13,72 | 12,42 | 10,69 | 8,11 | 10,25 | 7,58 | 7,84 |
8,13 | 14,30 | 6,69 | 10,01 | 9,90 | 11,73 | 11,92 | 8,77 | 10,98 | 10,24 | 6,41 | 8,68 | 9,98 | 8,30 | 12,23 |
9,84 | 7,92 | 12,55 | 8,91 | 7,50 | 10,43 | 12,99 | 11,22 | 7,52 | 8,50 | 8,73 | 9,73 | 9,49 | 7,87 | 7,97 |
9,15 | 8,38 | 9,52 | 10,39 | 13,63 | 8,63 | 9,08 | 12,17 | 10,80 | 8,18 | 8,32 | 12,70 | 8,95 | 6,12 | 12,52 |
10,80 | 12,36 | 11,31 | 8,12 | 12,25 | 12,60 | 8,11 | 14,41 | 9,86 | 8,37 | 11,48 | 8,42 | 11,48 | 10,12 | 12,69 |
7,43 | 11,07 | 8,71 | 14,06 | 11,58 | 10,06 | 10,58 | 6,65 | 13,21 | 10,29 | 13,65 | 10,75 | 10,70 | 12,98 | 11,36 |
10,61 | 10,80 | 9,09 | 8,85 | 12,93 | 13,86 | 10,66 | 11,76 | 11,12 | 7,77 | 11,70 | 10,38 | 12,89 | 11,00 | 10,05 |
9,64 | 11,67 | 8,35 | 9,51 | 7,49 | 8,63 | 12,22 | 10,91 | 11,07 | 6,99 | 9,08 | 9,90 | 10,08 | 9,85 | 9,24 |
10,44 | 8,90 | 7,72 | 5,10 | 9,56 | 8,47 | 15,78 | 11,45 | 7,38 | 10,21 | 8,23 | 14,34 | 7,78 | 12,31 | 10,63 |
10,98 | 9,64 | 11,61 | 11,80 | 7,37 | 8,68 | 12,53 | 9,68 | 10,63 | 9,64 | 8,18 | 8,86 | 11,11 | 8,58 | 9,70 |
9,96 | 9,90 | 8,89 | 10,94 | 12,49 | 9,40 | 10,97 | 6,13 | 9,64 | 12,93 | 9,90 | 13,17 | 10,26 | 9,23 | 11,43 |
9,50 | 10,93 | 9,46 | 6,09 | 10,90 | 9,74 | 11,93 | 12,13 | 10,71 | 8,58 | 9,40 | 12,05 | 10,75 | 12,86 | 10,48 |
15,30 | 10,58 | 10,74 | 8,12 | 5,91 | 9,35 | 5,27 | 10,22 | 12,22 | 9,82 | 12,24 | 8,97 | 12,54 | 8,71 | 11,28 |
8,13 | 8,81 | 10,72 | 7,52 | 11,86 | 7,74 | 12,53 | 7,42 | 10,38 | 10,28 | 11,27 | 8,85 | 11,19 | 6,11 | 8,98 |
9,47 | 11,46 | 9,05 | 9,22 | 10,06 | 12,46 | 6,89 | 9,95 | 12,54 | 6,86 | 7,70 | 12,55 | 11,66 | 7,50 | 11,52 |
9,14 | 9,02 | 11,98 | 8,52 | 6,42 | 7,24 | 10,04 | 5,79 | 9,64 | 9,57 | 9,66 | 10,03 | 9,36 | 11,80 | 9,88 |
11,47 | 13,56 | 9,26 | 8,19 | 9,09 | 8,83 | 10,18 | 9,60 | 8,77 | 9,23 | 8,50 | 12,21 | 8,09 | 10,67 | 11,68 |
9,65 | 8,11 | 10,08 | 10,85 | 7,99 | 12,46 | 10,30 | 8,58 | 9,84 | 13,98 | 10,64 | 8,72 | 8,78 | 12,22 | 9,96 |
12,67 | 8,96 | 8,43 | 10,53 | 10,52 | 10,18 | 8,49 | 11,05 | 10,27 | 7,32 | 9,28 | 10,14 | 12,20 | 7,51 | 9,59 |
As médias amostrais de cada amostra são dadas segundo a tabela a seguir
Médias das amostras | ||||||||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
10,27 | 10,37 | 9,57 | 9,42 | 9,82 | 9,74 | 10,67 | 9,78 | 10,39 | 9,49 | 9,74 | 10,50 | 10,49 | 9,71 | 10,55 |
A seguir, temos o histograma das médias amostrais
Observemos aqui que a média das médias é 10,03 e o desvio padrão é 0,44. Os resultados foram obtidos no Action.
Suponha agora que façamos o mesmo processo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideramos 200 amostras. Para este estudo de simulação, utilizamos o software R. Neste caso, o histograma das médias obtidas pode ser visto na figura a seguir.
e a média das médias amostrais é dada por 10,02 e o desvio padrão por 0,48.
Realizando o mesmo experimento, porém agora considerando 10000 amostras de tamanho 20, a distribuição da média amostral pode ser vista segundo o histograma abaixo.
Para este caso, a média das médias amostrais foi 9,9993 e o desvio padrão foi 0,4500. Então, empiricamente, podemos perceber que a distribuição da média amostral se aproxima de uma distribuição normal com média $\mu = 10$ e desvio padrão $\sigma/\sqrt{n}=2/\sqrt{20}=0,4472$.
A variância da média amostral, $\sigma^2_{\overline{X}}$, é chamado de erro quadrático médio da média amostral. Para ser mais concreto, imagine que temos uma amostra aleatória de 25 observações onde, sem que saibamos, a média populacional é $1,5$ e a variância é $2$ ($\sigma^2= 2$). Podemos ter uma média amostral $\overline{X} = 1,45$. Porém, imagine que repitamos o estudo muitas vezes de modo que tenhamos as seguintes médias amostrais
1,45; 1,53; 1,90; 1,43; 2,72; 1,70; 1,13; 1,94; 1,23; ...
De acordo com o Teorema Central do Limite, se o estudo é repetido um grande número de vezes, a média destas médias amostrais será igual a média populacional, $1,5$, e se calcularmos a variância amostral baseada nestes valores, teremos $\sigma^2/n = 2/25$. Isto é, a variância das médias amostrais é igual a variância da distribuição da qual as observações foram amostradas, dividida pelo tamanho da amostra, assumindo apenas amostragem aleatória. A raiz quadrada positiva do erro quadrático médio, $\sigma_{\overline{X}}=\sigma/\sqrt{n}$, é chamado erro padrão da média. Na prática, a variância ($\sigma^2$) é raramente conhecida, mas podemos estimá-la com a variância amostral $s^2$, que fornece uma estimativa do erro quadrático médio, $s^2/n$ e uma estimativa do erro padrão é $s/\sqrt{n}$.
Temos que a estatística $s^2$ é um estimador não viciado da variância $\sigma^2$. Vamos estudar agora a distribuição de $s^2$. Uma distribuição que desempenha um papel central na distribuição de $s^2$ é a distribuição qui-quadrado.
Se X é uma variável aleatória com densidade \[f_X(x)=\frac{1}{\Gamma(k/2)}\left(\frac{1}{2}\right)^{k/2}x^{k/2-1}e^{-x/2}1\!\!1_{(0,\infty)}(x)\]
então X tem uma distribuição qui-quadrado com k graus de liberdade, onde o parâmetro k é um número inteiro.
Se as variáveis aleatórias $X_i, i = 1, 2, \ldots, n$ são independentes e normalmente distribuídas com médias $\mu_i$ e variâncias $\sigma_i^2$, então \[U=\sum_{i=1}^n\left(\frac{X_i-\mu_i}{\sigma_i}\right)^2\]
tem uma distribuição qui-quadrado com n graus de liberdade.
De fato, para cada $i$, se $X_i\sim N(\mu_1,\sigma_1^2)$ então \[\frac{X_i-\mu_i}{\sigma_i}\sim N(0,1)\]
e, usando o Teorema 6.3.1 do livro de Probabilidades, segue o resultado.
Se $X_1,X_2,\ldots,X_n$ é uma amostra aleatória de uma distribuição normal padrão, então, valem as seguintes propriedades:
(i) $\overline{X}$ e $\sum_{i=1}^n(X_i-\overline{X})^2$ são independentes.
(ii) $\sum_{i=1}^n(X_i-\overline{X})^2$ tem uma distribuição qui-quadrado com $n-1$ graus de liberdade.
(i) A demonstração será feita somente para o caso $n=2$, mas ressaltamos que o resultado é válido para todo $n\in\mathbb{N}$. Quando $n=2$, temos que \[\overline{X} = \frac{X_1+X_2}{2}\]
e \[\sum_{i=1}^n(X_i-\overline{X})^2 = \left(X_1-\frac{X_1+X_2}{2}\right)^2+\left(X_2 - \frac{X_1 +X_2}{2}\right)^2 = \frac{(X_1-X_2)^2}{4}+\frac{(X_2-X_1)^2}{4}\]
de onde concluímos que \[\sum_{i=1}^n(X_i-\overline{X})^2=\frac{(X^2-X_1)^2}{2}\]
de modo que $\overline{X}$ é uma função de $X_1+X_2$ e $\sum(X_i-\overline{X})^2$ é uma função de $X_2-X_1$ e então, para provar que $\overline{X}$ e $\sum(X_i-\overline{X})^2$ são independentes, é suficiente mostrar que $X_1+X_2$ e $X_2-X_1$ são independentes. Sendo $M_{Y}(t)$ a função geradora de momentos da variável aleatória $Y$, temos que \[M_{X_1+X_2}(t_1) = \mathbb{E}[e^{t_1(X_1+X_2)}]=\mathbb{E}[e^{t_1X_1}e^{t_1X_2}] = \mathbb{E}[e^{t_1X_1}]\mathbb{E}[e^{t_1X_2}]=\exp\left(\frac{1}{2}t_1^2\right)\exp\left(\frac{1}{2}t_1^2\right) = \exp(t_1^2)\]
e, de forma análoga, \[M_{X_1-X_2}(t_2) = \exp(t_2^2).\]
Além disso, podemos verificar que \[M_{X_1+X_2,X_2-X_1}(t_1,t_2) = M_{X_1+X_2}(t_1)M_{X_2-X_1}(t_2)\]
o que mostra que $X_1+X_2$ e $X_2-X_1$ são independentes.
(ii) Consideramos o resultado (i) para o caso em que temos $n$ arbitrário. Além disso, observamos que \[\sum X_i^2 = \sum(X_i-\overline{X}+\overline{X})^2 = \sum(X_i-\overline{X})^2+2\overline{X}\sum(X_i-\overline{X})+\sum\overline{X}^2 = \sum(X_i-\overline{X})^2+n\overline{X}^2\]
e que $\sum(X_i-\overline{X})^2$ e $n\overline{X}^2$ são independentes. Então \[M_{\sumX_i^2}(t) = M_{\sum(X_i-\overline{X})^2}(t)M_{n\overline{X}^2}(t)\]
e, portanto, \[M_{\sum(X_i-\overline{X})}^2(t) = \frac{M_{\sumX_i^2}(t)}{M_{n\overline{X}^2}(t)}= \left(\frac{1}{1-2t}\right)^{\frac{n-1}{2}}, \ t \ \textless \ \frac{1}{2}.\]
Como $\sqrt{n}\overline{X}$ tem uma distribuição normal padrão, segue que $n\overline{X}^2$ tem uma distribuição qui-quadrado com um grau de liberdade. Além disso, a função geradora de momentos de $\sum(X_i-\overline{X})^2$ é igual a de uma distribuição qui-quadrada com $n-1$ graus de liberdade, completando a demonstração.
Se $s^2$ é a variância amostral de uma amostra aleatória $X_1, \ldots, X_n$ de uma distribuição normal com média $\mu$ e variância $\sigma^2$, então \[U=\frac{(n-1)s^2}{\sigma^2}\]
tem uma distribuição qui-quadrado com n-1 graus de liberdade.
De fato, se $X_i\sim N(\mu,\sigma^2)$ para todo $i$, então \[Z_i = \frac{X_i-\mu}{\sigma}\sim N(0,1).\]
Temos que \[U = \frac{(n-1)s^2}{\sigma^2}=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2}\]
Reescrevendo $X_i = Z_i\sigma+\mu$, segue que \[(X_i-\overline{X})^2 = \left(Z_i\sigma+\mu-\sum_{i=1}^n\frac{Z_i\sigma+\mu}{n}\right)^2 = \left(Z_i\sigma+\mu-\sigma\overline{Z}-\mu\right)^2\]
e, portanto, \[(X_i-\overline{X})^2 = (Z_i\sigma-\sigma\overline{Z})^2 = (\sigma(Z_i-\overline{Z}))^2=\sigm^2 (Z_i-\overline{Z})^2.\]
Desta forma, \[U = \sum_{i=1}^n\frac{(X_i-\overline{X})^2}{\sigma^2}=\sum_{i=1}^n\frac{\sigma^2(Z_i-\overline{Z})^2}{\sigma^2}=\sum_{i=1}^n(Z_i-\overline{Z})^2\]
e, a partir do item (ii) do Teorema 2.3.1, concluímos que $U$ tem uma distribuição qui-quadrado com $n-1$ graus de liberdade.
Uma vez que $s^2$ é uma função linear de $U$, a densidade de $s^2$ pode ser obtida da densidade de $U$. Desta forma, temos que \[f_{S^2}(y)=\left(\frac{n-1}{2\sigma^2}\right)^{(n-1)/2}\frac{1}{\Gamma[(n-1)/2]}y^{(n-3)/2}e^{-(n-1)y/2\sigma^2}1\!\!1_{(0,\infty)}(y)\]
e, com isso, $s^2$ tem média $\sigma^2$ e variância $\frac{2\sigma^4}{n-1}$.
Analogamente ao estudo de simulação realizado acima, considere uma população normal com média $\mu = 10$ e variância $\sigma^2= 4$. Considere as 15 amostras de tamanho 20 desta população.
15 amostras de tamanho 20 | ||||||||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
7.98 | 10.70 | 7.41 | 9.92 | 9.62 | 8.44 | 14.46 | 5.59 | 7.56 | 8.66 | 9.67 | 11.40 | 12.18 | 12.79 | 12.06 |
15.16 | 10.22 | 9.78 | 11.82 | 9.39 | 5.89 | 8.40 | 12.13 | 13.72 | 12.42 | 10.69 | 8.11 | 10.25 | 7.58 | 7.84 |
8.13 | 14.30 | 6.69 | 10.01 | 9.90 | 11.73 | 11.92 | 8.77 | 10.98 | 10.24 | 6.41 | 8.68 | 9.98 | 8.30 | 12.23 |
9.84 | 7.92 | 12.55 | 8.91 | 7.50 | 10.43 | 12.99 | 11.22 | 7.52 | 8.50 | 8.73 | 9.73 | 9.49 | 7.87 | 7.97 |
9.15 | 8.38 | 9.52 | 10.39 | 13.63 | 8.63 | 9.08 | 12.17 | 10.80 | 8.18 | 8.32 | 12.70 | 8.95 | 6.12 | 12.52 |
10.80 | 12.36 | 11.31 | 8.12 | 12.25 | 12.60 | 8.11 | 14.41 | 9.86 | 8.37 | 11.48 | 8.42 | 11.48 | 10.12 | 12.69 |
7.43 | 11.07 | 8.71 | 14.06 | 11.58 | 10.06 | 10.58 | 6.65 | 13.21 | 10.29 | 13.65 | 10.75 | 10.70 | 12.98 | 11.36 |
10.61 | 10.80 | 9.09 | 8.85 | 12.93 | 13.86 | 10.66 | 11.76 | 11.12 | 7.77 | 11.70 | 10.38 | 12.89 | 11.00 | 10.05 |
9.64 | 11.67 | 8.35 | 9.51 | 7.49 | 8.63 | 12.22 | 10.91 | 11.07 | 6.99 | 9.08 | 9.90 | 10.08 | 9.85 | 9.24 |
10.44 | 8.90 | 7.72 | 5.10 | 9.56 | 8.47 | 15.78 | 11.45 | 7.38 | 10.21 | 8.23 | 14.34 | 7.78 | 12.31 | 10.63 |
10.98 | 9.64 | 11.61 | 11.80 | 7.37 | 8.68 | 12.53 | 9.68 | 10.63 | 9.64 | 8.18 | 8.86 | 11.11 | 8.58 | 9.70 |
9.96 | 9.90 | 8.89 | 10.94 | 12.49 | 9.40 | 10.97 | 6.13 | 9.64 | 12.93 | 9.90 | 13.17 | 10.26 | 9.23 | 11.43 |
9.50 | 10.93 | 9.46 | 6.09 | 10.90 | 9.74 | 11.93 | 12.13 | 10.71 | 8.58 | 9.40 | 12.05 | 10.75 | 12.86 | 10.48 |
15.30 | 10.58 | 10.74 | 8.12 | 5.91 | 9.35 | 5.27 | 10.22 | 12.22 | 9.82 | 12.24 | 8.97 | 12.54 | 8.71 | 11.28 |
8.13 | 8.81 | 10.72 | 7.52 | 11.86 | 7.74 | 12.53 | 7.42 | 10.38 | 10.28 | 11.27 | 8.85 | 11.19 | 6.11 | 8.98 |
9.47 | 11.46 | 9.05 | 9.22 | 10.06 | 12.46 | 6.89 | 9.95 | 12.54 | 6.86 | 7.70 | 12.55 | 11.66 | 7.50 | 11.52 |
9.14 | 9.02 | 11.98 | 8.52 | 6.42 | 7.24 | 10.04 | 5.79 | 9.64 | 9.57 | 9.66 | 10.03 | 9.36 | 11.80 | 9.88 |
11.47 | 13.56 | 9.26 | 8.19 | 9.09 | 8.83 | 10.18 | 9.60 | 8.77 | 9.23 | 8.50 | 12.21 | 8.09 | 10.67 | 11.68 |
9.65 | 8.11 | 10.08 | 10.85 | 7.99 | 12.46 | 10.30 | 8.58 | 9.84 | 13.98 | 10.64 | 8.72 | 8.78 | 12.22 | 9.96 |
12.67 | 8.96 | 8.43 | 10.53 | 10.52 | 10.18 | 8.49 | 11.05 | 10.27 | 7.32 | 9.28 | 10.14 | 12.20 | 7.51 | 9.59 |
Neste caso, calculando a variância de cada uma das 15 amostras, temos que
Variância das amostras | ||||||||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
4,46 | 3,04 | 2,41 | 4,20 | 4,95 | 4,09 | 6,40 | 6,04 | 3,07 | 3,65 | 3,04 | 3,30 | 2,12 | 5,17 | 2,03 |
A seguir, temos o histograma das variâncias das 15 amostras
A média das variâncias é 3,864 e a variância das variâncias é 1,817.
Suponha agora que façamos o mesmo estudo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideraremos 1000. Utilizamos o software Action para realizar esta simulação. A distribuição amostral da variância é dada pelo seguinte histograma
Neste caso, a média das variâncias é 4,006 e a variância é 1,694.
Realizando o mesmo experimento, mas agora considerando 10000 amostras de tamanho 20 temos que a distribuição da variância é dada pelo histograma abaixo
Neste caso, a média das variâncias é 4,026 e a variância é 1,673. Então, realmente, podemos perceber que a distribuição da variância amostral se aproxima de uma distribuição qui-quadrado com média $\mu = 4$ e variância $\frac{2\sigma^4}{n-1}=\frac{2\times 16}{19}=1,684$.
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.