2.2 - Distribuição amostral de uma variável aleatória binomial

Você está aqui

A noção de uma distribuição amostral é talvez mais fácil de explicar e ilustrar quando trabalhamos com a distribuição binomial.

Para exemplificar, suponha que queremos determinar a proporção de adultos com idade superior aos 40 que sofrem de artrite. Logo, podemos definir uma variável aleatória $ X $ da seguinte maneira 

\[X=\left\{\begin{array}{l}1, \ \hbox{se o indivíduo é portador de artrite}\\0, \ \hbox{se o indivíduo não é portador de artrite}\end{array}\right\]

logo, temos que X é uma variável discreta, com distribuição de Bernoulli tal que 

\[\mu=\mathbb{E}(X)=p, \quad \sigma^2= \ \text{Var}(X)=p(1-p).\]

Retirada uma amostra aleatória $ X_1, X_2, \ldots, X_n $ sem reposição de tamanho $ n $ dessa população, e indicando por $ Y_n $ o total de indivíduos portadores de artrite nessa amostra, sabemos que 

\[Y_n\sim \ \hbox{Binomial}(n,p)\]

ou seja, 

\[\mathbb{P}(Y_n=k)=\left(\begin{array}{l}n\\k\end{array}\right)p^k(1-p)^{n-k}.\]

Vamos definir por $ \hat{p} $ a proporção de indivíduos portadores de artrite, ou seja, 

\[\hat{p}=\frac{Y_n}{n}.\]

Então, 

\[\mathbb{P}(Y_n=k)=\mathbb{P}(Y_n/n=k/n)=\mathbb{P}(\hat{p}=k/n),\]

ou seja, a distribuição amostral de $ \hat{p} $ é obtida da distribuição de $ Y_n $. Observamos que  

\[Y_n=X_1+X_2+\ldots+X_n\]

onde cada $ X_i $ tem distribuição de Bernoulli com média $ \mu = p $ e variância $ \sigma^2 = p(1-p) $ com $ p $ desconhecido e $ X_i $ é independente de $ X_j $ se $ i\neq j $. Desta forma, podemos escrever que 

\[Y_n=\sum_{i=1}^nX_i=n\sum_{i=1}^n\frac{X_i}{n}=n\overline{X}\]

mas, pelo Teorema Central do Limite, $ \overline{X} $ terá distribuição aproximadamente normal, com média $ p $ e variância $ p(1-p)/n $, ou seja 

\[\overline{X}\sim N\left(p,\frac{p(1-p)}{n}\right).\]

Logo, a transformação $ Y_n=n\overline{X} $ terá a distribuição 

\[Y_n\sim N(np,np(1-p)).\]

Podemos observar que $ \overline{X} $, na expressão acima, é a própria variável $ \hat{p} $ e, desse modo, para $ n $ grande podemos considerar a distribuição amostral de $ p $ como aproximadamente normal 

\[\hat{p}\sim N\left(p,\frac{p(1-p)}{n}\right)\]

Exemplo 2.2.1:

Suponha que queremos saber a porcentagem de casamentos que terminam em divórcio entre casais que vivem em São Paulo. Como não temos recursos suficientes para checar todos os arquivos, vamos estimar esta porcentagem baseados em alguns dados disponíveis. Suponha que temos dados sobre 10 casais: 

\[X_1=1, X_2=0, X_3=0, X_4=0, X_5=1, X_6=0, X_7=0, X_8=0, X_9=0, X_{10}=1.\]

Isto é, o primeiro casal se divorciou, os próximos três não se divorciaram, o quinto casal se divorciou e assim por diante. O número de divórcios entre estes casais é 

\[\sum_{i=1}^{10}X_i=1+0+0+0+1+0+0+0+0+1=3,\]

então a probabilidade estimada de um divórcio é 

\[\hat{p}=\frac{3}{10}=0,3.\]

Note que para a distribuição binomial, se sabemos a real probabilidade de divórcio, $ p $, poderíamos calcular a probabilidade de termos $ \hat{p}=0,3 $ baseados em uma amostra de tamanho $ 10 $. Quando $ n = 10 $, esta é justamente a probabilidade de observamos $ 3 $ divórcios, ou seja, 

\[p(3)=\left(\begin{array}{c}10\\3\end{array}\right)p^3(1-p)^7.\]

Se, por exemplo, $ p=0,4 $, então $ p(3)=0,215 $. Isto é, a probabilidade de tomarmos $ \hat{p} = 0,3 $ é 0,215. Mais geralmente, se observamos x sucessos, a estimativa de p é $ \hat{p}=x/n $, a qual ocorre com probabilidade p(x), onde p(x) é a função de probabilidade da distribuição Binomial(10,p).

Estudo de simulação:

Suponha que a taxa de divórcio de uma população é $ p = 0,3 $. Imagine agora 1000 equipes de pesquisadores e suponha que cada equipe estima a taxa de divórcio baseada em dados de 10 casais. Neste caso, diferentes equipes de pesquisadores conseguirão resultados diferentes. Por exemplo, a primeira equipe consegue $ \hat{p}=0,5 $, a segunda equipe consegue $ \hat{p}=0,1 $, e assim por diante. A distribuição amostral de $ \hat{p} $ se refere a distribuição dos valores de $ \hat{p} $ que as equipes de pesquisadores conseguiriam ao conduzir o mesmo estudo. Na tabela a seguir, temos a distribuição de $ \hat{p} $.

$ \hat{p} $ n
0 29
0,1 122
0,2 240
0,3 253
0,4 200
0,5 107
0,6 41
0,7 7
0,8 1
0,9 0
1 0

Com esses dados, podemos concluir que 

\[\mathbb{E}(\hat{p})=0,2999 \quad \text{Var}(\hat{p})=0,02125124.\]

Lembrando que $ \hat{p}=\overline{X} $ e, segundo o Teorema 2.2, temos que 

\[\mathbb{E}(\hat{p})=\mathbb{E}(\overline{X})=\mu\]

onde $ \mu $ é a média populacional. Como a população tem distribuição $ \text{Bernoulli}(0,3) $, sabemos que $ \mathbb{E}(X) = 0,3 $ e $ \text{Var}(X) = 0,3 \times 0,7 = 0,21 $.

Inferência

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]