7.3.2 - Teorema Central do Limite

Você está aqui

O teorema central do limite nos remete à convergência de somas de variáveis aleatórias para uma distribuição normal e é considerado, pela sua importância na teoria e em aplicações, como o teorema básico mais central da probabilidade. A palavra central para esse teorema limite foi dado pelo matemático George Polya. O nome mais usual é "Teorema Central do Limite" que deixa explícito que o adjetivo central se refere ao teorema e não ao limite.

Para demonstrarmos o Teorema Central do Limite necessitamos de dois assuntos importantes, que são as funções características vista na seção anterior (para mais detalhes consulte Função Característica ou Transformada de Fourier) e a convergência em distribuição vista na seção de convergência de variáveis aleatórias (para mais detalhes consulte Convergência de variáveis aleatórias). Com todas as ferramentas necessárias em mãos, podemos finalmente demonstrar algumas versões do teorema central do limite. No entanto, Helland demonstrou que existe apenas um teorema central do limite, que os demais são todos casos particulares. Entretanto a demonstração deste resultado é complexa e exige uma teoria mais avançada que a desenvolvida aqui. Este conteúdo é abordado no tópico Teorema Central do Limite para soma de variáveis aleatórias dependentes.

Teorema 7.3.2.1: 

Sejam $ \{X_i\}_{i\geq 1} $ uma sequência de variáveis aleatórias independentes e identicamente distribuídas, $ X_i $ com média $ \mu $ e variância $ \sigma^2 $ para $ i\geq 1 $, em que $ 0~\textless ~\sigma^2~\textless~ \infty $. Definimos $ S_n=\displaystyle\sum_{i=1}^{n}X_i  $, então 

$$\frac{S_n-n\mu}{\sigma\sqrt{n}}\xrightarrow{D}N(0,1).$$

Demonstração:

Primeiramente vamos supor que $ X_n $  tem média zero $ (\mu=0). $ Podemos supor este fato sem perda de generalidade, pois se $ \mu\neq 0, $ definimos $ Y_n=X_n-\mu $. Pelo teorema 7.2.2.2, basta mostrarmos que: 

\[\varphi_{S_n/\sigma\sqrt{n}}(t)\rightarrow e^{-t^2/2},\forall t \in \mathbb{R}.\]

Utilizando a Proposição 7.2.1.2 e a Proposição 7.2.1.3, concluímos que 

\[\varphi_{S_n/\sigma\sqrt{n}}(t)=\varphi_{S_n}\left(\frac{t}{\sigma\sqrt{n}}\right)=\prod_{k=1}^{n}\varphi_{X_k}\left(\frac{t}{\sigma\sqrt{n}}\right)=\left(\varphi_{X_1}\left(\frac{t}{\varphi\sqrt{n}}\right)\right)^{n},\]

Como por hipótese $ X_n $ apresenta variância limitada, temos que $ \varphi $ apresenta pelo menos duas derivadas contínuas.

Desta forma, utilizando da formula de Taylor, temos que 

\[\varphi(t)=\varphi(0)+\varphi^{\prime}(0)t+\varphi^{\prime\prime}(\theta(t))\frac{t^2}{2},\]

no qual $ |\theta(t)|\leq|t| $.

Logo, 

\[\varphi(t)=\varphi(0)+\varphi^{\prime}(0)t+\varphi^{\prime\prime}(\theta(t))\frac{t^2}{2}+\frac{t^2}{2}[\varphi^{\prime\prime}(\theta(t))-\varphi^{\prime\prime}(0)],\]

com $ \varphi^{\prime\prime}(\theta(t))-\varphi(0)\rightarrow 0 $ quando $ t\rightarrow 0 $.

Como $ \varphi(0)=1 $, e pelo corolário 7.2.1.1 concluímos que $ \varphi^{\prime}(0)=i\mu=0 $ e $ \varphi^{\prime\prime}(0)=i^2\mathbb{E}[X_1^{2}]=-\mathbb{E}[X_1^2]=-\sigma^2. $

Assim, temos que 

\[\varphi(t)=1-\frac{\sigma^2 t^2}{2}+\frac{t^2}{2}~o(t),\]

no qual $ \displaystyle \lim_{t\rightarrow 0}o(t)=0. $ Por isso, para cada t fixo, 

\[\varphi^{n}\left(\frac{t}{\sigma\sqrt{n}}\right)=\left[1-\frac{t^2}{2n}+\frac{t^2}{2\sigma^2 n}~o\left(\frac{t}{\sigma\sqrt{n}}\right)\right]^n= \left[ 1-\frac{t^2}{2n}\left\{1-\frac{1}{\sigma^2}~o\left(\frac{t}{\sigma\sqrt{n}}\right)\right\} \right]^n\rightarrow e^{-t^2/2},\]

pois $ 1-\dfrac{1}{\sigma^2}~o\left(\frac{t}{\sigma\sqrt{n}}\right)\rightarrow 1 $ quando $ n \rightarrow \infty $ e para números complexos, $ c_n\rightarrow c \Rightarrow \left(1+\frac{c_n}{n}\right)^n\rightarrow e^c $.

E portanto o resultado segue.

$ \Box $

A condição de Lindeberg é um resultado muito importante para o teorema central do limite, pois é uma condição suficiente e para certas condições também é necessária. A condição de Lindeberg é enunciada da seguinte forma.

Definição 7.3.2.1: (Condição de Lindeberg)

Seja $ \{X_n\}_{n\geq 1} $ sequência de variáveis aleatórias independentes com $ \mathbb{E}[X_n]=\mu_n $ e $ \text{Var}(X_n)=\sigma^2_n $ existem e são finitos e tomamos $ s_n\doteq \displaystyle\sum^n_{i=1}\sigma^2_i. $ Então 

\[\text{Para todo}~\epsilon\textgreater 0,\quad\quad\displaystyle\lim_{n\rightarrow\infty}\frac{1}{s_n^2}\sum_{k=1}^{n}\int_{\{x;~|x-\mu_k|\textgreater \epsilon s_n\}}(x-\mu_k)^2dF_k(x)=0\quad (\text{Lind})\]

Corolário 7.3.2.1: 

Sejam $ X_1 , X_2 , \cdots $ variáveis aleatórias independentes e identicamente distribuídas com distribuição binomial com parâmetro $ p~(0 \textless p \textless 1) $. Então 

$$\displaystyle\frac{S_n -np}{\sqrt{np(1-p)}}$$

converge em distribuição para uma normal padronizada $ (N(0,1)). $

Demonstração:

Este teorema também ficou conhecido como Teorema Central do Limite de De Moivre e Laplace. Sua demonstração segue quase que imediatamente do teorema 7.3.2.1.

Basta observar que os $ X_i^\prime s $ são independentes e identicamente distribuídas com média $ \mu=p $ e variância $ \sigma^2=p(1-p) $ e o resultado segue.

$ \Box $

Agora, vamos fazer algumas observações sobre o ponto de vista intuitivo da condição de Lindeberg.

Notemos que a condição de Lindeberg significa, que de certa forma, as parcelas $ \displaystyle\frac{X_k-\mu_k}{s_n} $ da soma $ \displaystyle \frac{S_n-\mathbb{E}[S_n]}{s_n} $ são uniformemente pequenas se n for muito grande.

Um exemplo para esse fato é notarmos que a condição de Lindeberg implica $ \displaystyle\max_{1\leq k\leq n}\frac{\sigma_k^2}{s_n^2}\rightarrow 0 $

Assim para n grande, as variâncias das parcelas são uniformemente pequenas em relação à variância da soma. Esse fato pode ser observado da seguinte forma.

Notemos que para todo k 

$$\displaystyle\frac{\sigma^2_k}{s_n^2}=\frac{1}{s_n^2}\int_{|x-\mu_k|\leq \epsilon s_n}(x-\mu_k)^2dF_k(x)+\frac{1}{s_n^2}\int_{|x-\mu_k|\textgreater \epsilon s_n}(x-\mu_k)^2dF_k(x)\leq $$

 

$$\leq \displaystyle \frac{1}{s_n^2}\int_{|x-\mu_k|\leq \epsilon s_n}\epsilon^2 s_n^2dF_k(x)+\frac{1}{s_n^2}\sum_{j=1}^{n}\int_{|x-\mu_k|\textgreater \epsilon s_n}(x-\mu_j)^2dF_j(x)\leq$$

 

$$\leq \displaystyle\frac{1}{s_n^2}\int_{-\infty}^{\infty}\epsilon^2 s_n^2dF_k(x)+\frac{1}{s^2_n}\sum_{j=1}^{n}\int_{|x-\mu_j|\textgreater \epsilon s_n}(x-\mu_j)^2dF_j(x).$$

Como a primeira parcela é igual a $ \epsilon^2 $ que não depende de k, então temos que 

$$\displaystyle\max_{1\leq k \leq n}\frac{\sigma^2_k}{s_n^2}\leq \epsilon^2 + \frac{1}{s_n^2}\sum_{k=1}^n\int_{|x-\mu_k|\textgreater \epsilon s_n}(x-\mu_k)^2dF_k(x),$$

no qual converge para $ \epsilon^2 $, pela condição de Linderberg.

Logo, como vale para todo $ \epsilon\textgreater 0 $, temos $ \displaystyle\max {\frac{\sigma_k^2}{s_n^2}}\rightarrow 0 $.

Notem que intuitivamente isso nos diz que a soma de pequenas quantidades independentes com média zero tem aproximadamente uma distribuição normal.

Um exemplo deste fato intuitivo é quando consideramos a altura média da população brasileira. A diferença entre da altura de uma pessoa qualquer e a média tem distribuição normal com média zero e variância $ \sigma^2. $ Notemos que cada pessoa contribui com uma parcela pequena.

Teorema 7.3.2.2: 

Seja $ \{X_i\}_{i\geq 1} $ uma sequência de variáveis aleatórias independentes e quadrado integráveis, para algum $ \text{Var}(X_n)=\sigma_n^2\textgreater0 $ e $ \mathbb{E}[X_n]=\mu_n. $ Definimos

$ S_n=X_1+\cdots+X_n $

$ s_n=\sqrt{\text{Var}(S_n)}=\sqrt{\sigma^2_1+\cdots+\sigma_{n}^2}. $

Então

$ \displaystyle\frac{S_n-\mathbb{E}[S_n]}{s_n} $ converge em distribuição para $ N(0,1) $ quando $ n\rightarrow \infty $.

Demonstração:

É suficiente que a condição de Lindeberg seja satisfeita: 

\[\forall\epsilon\textgreater 0,\quad\quad\displaystyle\lim_{n\rightarrow\infty}\frac{1}{s_n^2}\sum_{k=1}^{n}\int_{\{x;~|x-\mu_k|\textgreater \epsilon s_n\}}(x-\mu_k)^2dF_k(x)=0\quad (\text{Lind})\]

Agora, vamos mostrar que as funções características das somas parciais padronizadas convergem para a função característica da $ N(0,1) $ para qualquer t, da mesma forma como mostramos que a função característica converge então converge em distribuição.

Desta forma mostramos que: 

$$\displaystyle\varphi_{\{(S_n-\mathbb{E}[S_n])/s_n\}}(t)=\prod_{k=1}^{n}\mathbb{E}[e^{it((X_k-\mu_k)/s_n)}]\rightarrow e^{-\frac{t^2}{2}}$$

Primeiramente fixamos t, além disso vamos utilizar as duas versões da fórmula de Taylor aplicada à função $ g(x)=e^{itx} $

$$\displaystyle e^{itx}=1+itx+\gamma_1(x)\frac{t^2 x^2}{2},$$

em que $ |\gamma_1(x)|\leq 1 $ 

$$\displaystyle e^{itx}=1+itx-\frac{t^2 x^2}{2}+\gamma_{2}(x)\frac{t^3 x^3}{6},$$

em que $ |\gamma_2(x)|\leq 1 $

Seja $ \epsilon \textgreater 0 $ e ainda $ |x|\textgreater \epsilon $ para a primeira formula de Taylor e na segunda para $ |x|\leq \epsilon $. Assim podemos escrever $ e^{itx} $ da seguinte forma geral: 

$$\displaystyle e^{itx}=1+itx-\frac{t^2 x^2}{2}+\theta_{\epsilon}(x),\quad (7.3.2.1)$$

no qual, 

$$\theta_{\epsilon}(x) = \left\{ \begin{array}{l} \{1+\gamma_1(x)\}\dfrac{t^2 x^2}{2}, \quad~\hbox{se} \ |x|\textgreater \epsilon; \\ \gamma_2(x)\dfrac{t^3 x^3}{6}, \quad\quad \quad\quad \hbox{se} \ |x|\leq \epsilon.\end{array} \right.\quad~(7.3.2.2)$$

Consequentemente, 

$$\displaystyle \mathbb{E}\left[\exp\left\{it\left(\frac{X_k-\mu_k}{s_n}\right)\right\}\right]=\int \exp\left\{it\left(\frac{x-\mu_k}{s_n}\right)\right\}dF_k(x)\overset{\text{eq.}~(7.3.2.1)}{=}$$

 

$$=\int \left\{1+it\left(\frac{x-\mu_k}{s_n}\right)-\frac{t^2}{2}\left(\frac{x-\mu_k}{s_n}\right)^2+\underbrace{\theta_{\epsilon}}_{\text{eq.}~(7.3.2.2)}\left(\frac{x-\mu_k}{s_n}\right)\right\}dF_k(x)=$$

 

$$\displaystyle=1+it~\mathbb{E}\left[\frac{X_k-\mu_k}{s_n}\right]-\frac{t^2}{2}\mathbb{E}\left[\left(\frac{X_k-\mu_k}{s_n}\right)^2\right]+$$

 

$$+\frac{t^2}{2}\int_{|x-\mu_k|\textgreater \epsilon s_n}\left\{1+\gamma_1\left(\frac{x-\mu_k}{s_n}\right)\left(\frac{x-\mu_k}{s_n}\right)^2\right\}dF_k(x)+$$

 

$$+\frac{t^3}{6}\int_{|x-\mu_k|\leq \epsilon s_n}\gamma_2\left(\frac{x-\mu_k}{s_n}\right)\left(\frac{x-\mu_k}{s_n}\right)^3 dF_k(x)$$

Como $ \mathbb{E}[X_k]=\mu_k $ e $ \text{Var}[X_k]=\sigma_k^2 $, temos

$ \displaystyle \mathbb{E}\left[\exp\left\{it\left(\frac{X_k-\mu_k}{s_n}\right)\right\}\right]=1-\frac{t^2\sigma^{2}_k}{2s_n^{2}}+e_{n,k} $

no qual o resto $ e_{n,k} $ satisfaz a seguinte desigualdade 

$$\displaystyle |e_{n,k}|\leq t^2 \int_{|x-\mu_k|\textgreater \epsilon s_n}\left(\frac{x-\mu_k}{s_n}\right)^2 dF_k (x)+\frac{|t|^3}{6}\int_{|x-\mu_k|\leq \epsilon s_n}\epsilon \left(\frac{x-\mu_k}{s_n}\right)^2dF_k(x)\leq$$

 

$$\displaystyle \leq \frac{t^2}{s_n^2}\int_{|x-\mu_k|\textgreater \epsilon s_n}(x-\mu_k)^2dF_k(x)+\frac{\epsilon |t|^3}{6s_n^2}\int_{-\infty}^{\infty}(x-\mu_k)^2dF_k(x).$$

Temos então

$ \displaystyle\sum_{k=1}^{n}|e_{n,k}|\leq \underbrace{\frac{t^2}{s_n^2}\sum_{k=1}^{n}\int_{|x-\mu_k|\textgreater \epsilon s_n}(x-\mu_k)^2dF_k(x)}_{(*)\overset{n\rightarrow \infty}{\longrightarrow} 0}+\frac{\epsilon |t^3|}{3}. $

Pela condição de Linderberg, $ (*) $ tende a zero quando $ n\rightarrow \infty $. Logo, para n suficientemente grande,

$ \displaystyle \sum_{k=1}^{n}|e_{n,k}|\leq \frac{\epsilon |t|^3}{3} $

Então vamos tomar uma sequência de $ \epsilon $'s que converge para zero. Tome $ \epsilon=\displaystyle \frac{1}{j} $, existe $ n_j $ tal que para $ n\geq n_j $,

$ \displaystyle \sum_{k=1}^{n}|e_{n,k}|\leq \frac{|t|^3}{3j}\rightarrow 0, $

no qual o resto $ e_{n,k} $ são determinados pela fórmula baseada em $ \epsilon=\frac{1}{j} $. Assim

$ \displaystyle\varphi_{\{(S_n-\mathbb{E}[S_n])/s_n\}}(t)=\prod_{k=1}^{n}\left(1-\frac{t^2\sigma^2_k}{2 s_n^2}+e_{n,k}\right) $

Se tomarmos $ e_{n,k}\rightarrow 0 $. Desta forma basta provarmos que $ \displaystyle \prod_{k=1}^{n}\left(1-\frac{t^2\sigma^2_k}{2 s_n^2}\right)\rightarrow e^{-t^2/2} $.

De fato, isto acontece, pois no caso de variáveis independentes e identicamente distribuídas, com $ c_n\rightarrow c $ implica que $ \displaystyle\left(1+\frac{c_n}{n}\right)^n\rightarrow e^c. $

$ \Box $

Proposição 7.3.2.1: 

Seja $ \{X_i\}_{i\geq 1} $ uma sequência de variáveis aleatórias independentes e identicamente distribuídas com $ \mathbb{E}[X_n]=\mu $ e $ \text{Var}[X_n]=\sigma^2 $, em que $ 0\textless \sigma^2 \textless \infty $

$ \dfrac{S_n-n\mu}{\sigma\sqrt{n}}\overset{\mathcal{D}}{\rightarrow} N(0,1) $

Demonstração:

Vamos verificar a condição de Linderberg: $ s^2_n=n\sigma^2 $ e para $ \epsilon\textgreater 0 $

$$\displaystyle \frac{1}{n\sigma^2}\sum_{k=1}^{n}\int_{|x-\mu|\leq \epsilon \sigma \sqrt{n}}(x-\mu)^2dF_k(x)=$$

 

$$=\frac{1}{\sigma^2}\int_{|x-\mu|\leq \epsilon \sigma \sqrt{n}}(x-\mu)^2dF_1(x)\rightarrow \frac{1}{\sigma^2}\int_{-\infty}^{\infty}(x-\mu)^2dF_1(x)=\frac{\sigma^2}{\sigma^2}=1$$

em que a última convergência decorre da definição da integral e a igualdade para $ \sigma^2 $ decorre da definição da variância.

$ \Box $

Definição 7.3.2.2: (Condição de Lyapunov)

Seja $ \{X_n\}_{n\geq 1} $ sequência de variáveis aleatórias independentes com $ \mathbb{E}[X_n]=\mu_n $ e $ \text{Var}(X_n)=\sigma^2_n $ existem e são finitos e tomamos $ s_n\doteq \displaystyle\sum^n_{i=1}\sigma^2_i. $ Então 

\[\text{Para algum}~\delta\textgreater 0,\quad\quad\displaystyle \frac{1}{s^{2+\delta}_n}\sum^n_{k=1}\mathbb{E}\left[|X_k-\mu_k|^{2+\delta}\right]\xrightarrow{n\rightarrow \infty}0\quad (\text{Lyap})\]

Proposição 7.3.2.2:

A condição de Lyapunov implica na condição de Lindeberg.

Demonstração:

Suponhamos a condição de Lyapunov satisfeita, isto é, para algum $ \delta\textgreater 0 $ 

$$\frac{1}{s^{2+\delta}_n}\sum^n_{k=1}\mathbb{E}\left[|X_k-\mu_k|^{2+\delta}\right]\overset{n\rightarrow\infty}{\longrightarrow}0$$

Para $ \varepsilon\textgreater 0, $ então 

$$\mathbb{E}\left[|X_k-\mu_k|^{2+\delta}\right]=\int_{\mathbb{R}}|x-\mu_k|^{2+\delta}dF_k(x)\geq \int_{\{x;~x|x-\mu_k|\geq \varepsilon s_n\}}|x-\mu_k|^{2+\delta}dF_k(x)$$

$ \displaystyle\geq (\varepsilon s_n)^\delta \int_{\{x;~|x-\mu_k|\geq \varepsilon s_n\}}(x-\mu_k)^2dF_k(x) $

Portanto, 

$$\frac{1}{s^2_n}\sum^n_{k=1}\int_{\{x;~x|x-\mu_k|\geq \varepsilon s_n\}}(x-\mu_k)^2dF_k(x)\leq \frac{1}{\varepsilon^\delta}\frac{1}{s^{2+\delta}_{n}}\sum^n_{k=1}\mathbb{E}\left[|X_k-\mu_k|^{2+\delta}\right]$$

 

$ \Box $

Proposição 7.3.2.3: 

Seja $ \{X_i\}_{i\geq 1} $ uma sequência de variáveis aleatórias independentes e satisfaz as condições de Lyapunov. Então $ \dfrac{S_n-\mathbb{E}[S_n]}{s_n} $ converge em distribuição $ N(0,1). $

Demonstração:

Para demonstrarmos essa proposição basta verificarmos a condição de Lyapunov, pois esta implica na condição de Lindeberg.

Para $ \varepsilon \textgreater 0 $, da proposição 7.3.2.2, temos que 

$$\frac{1}{s^2_n}\sum^n_{k=1}\int_{\{x;~|x-\mu_k|\geq \varepsilon s_n\}}(x-\mu_k)^2dF_k(x)\leq \frac{1}{\varepsilon^\delta}\frac{1}{s^{2+\delta}_{n}}\sum^n_{k=1}\mathbb{E}\left[|X_k-\mu_k|^{2+\delta}\right]\overset{n\rightarrow\infty}{\longrightarrow}0$$

 

$ \Box $

Proposição 7.3.2.4: 

Seja $ \{X_i\}_{i\geq 1} $ uma sequência de variáveis aleatórias independentes tal que para todo $ n\geq 1 $  

$$|X_k|\leq K\leq \infty$$

em que $ K $ é uma constante e $ s_n\rightarrow\infty, $ quando $ n\rightarrow\infty. $ Então 

$$\frac{1}{s^2_n}\sum^n_{k=1}\int_{\{x;~|x-\mu_k|\geq \varepsilon s_n\}}|x-\mu_k|^2dF_k(x)\leq (2K)^2\frac{\sigma^2_k}{\varepsilon^2~s^2_n}$$

e satifaz as condições do Teorema Central do Limite.

Demonstração:

Seja as hipóteses satisfeitas então pela desigualdade de Chebyshev temos que 

$$\sum^n_{k=1}\int_{\{x;~|x-\mu_k|\geq \varepsilon s_n\}}|x-\mu_k|^2dF_k(x)=\mathbb{E}\left[(x-\mu_k)^21\!\!1_{\{|x-\mu_k|\geq \varepsilon s_n\}}\right]$$

 

$$\leq (2K)^2\mathbb{P}\{|x-\mu_k|\geq \varepsilon s_n\}\leq (2K)^2\frac{\sigma^2_k}{\varepsilon^2 s^2_n}$$

Logo, usando a hipótese que $ s_n\rightarrow\infty, $ temos 

$$\frac{1}{s^2_n}\sum^n_{k=1}\int_{\{x;~|x-\mu_k|\geq \varepsilon s_n\}}|x-\mu_k|^2dF_k(x)\leq \frac{(2K)^2}{\varepsilon^2 s^2_n}\overset{n\rightarrow\infty}{\longrightarrow}0$$

Portanto, a condição de Lindeberg é satisfeita e com isso o Teorema Central do Limite é verificado.

$ \Box $ 

Exemplo 7.3.2.2: 

Seja $ T_n=\dfrac{S_n-\mathbb{E}[S_n]}{s_n} $ e $ F_{T_n}(x)=\mathbb{P}\{T_n\leq x\} $. Então pelo teorema 7.3.2.2  temos que para todo $ x\in \mathbb{R} $ 

$$F_{T_n}(x)\overset{n\rightarrow\infty}{\longrightarrow}\Phi(x),$$

Desde que $ \Phi(x) $ é contínua, esta convergência é uniforme. Assim, 

$$\sup_{x\in\mathbb{R}}|F_{T_n}(x)-\Phi(x)|\overset{n\rightarrow \infty}{\longrightarrow} 0$$

Em particular, obtemos que 

$$\mathbb{P}\{S_n\leq x\}-\Phi\left(\frac{x-\mathbb{E}[S_n]}{s_n}\right)\overset{n\rightarrow \infty}{\longrightarrow} 0$$

Portanto, para n suficientemente grande, $ S_n $ tem distribuição aproximadamente normal com média $ \mathbb{E}[S_n] $ e variância $ s^2_n. $

Exemplo 7.3.2.3:

Um candidato a prefeito da cidade de São Carlos gostaria de ter uma ideia de quantos votos receberá nas próximas eleições. Para isto, foi feito uma pesquisa com os cidadães, em que $ p $ representa a proporção de votos do candidato com $ 0\leq p\textless 1. $ Quantas pessoas devem ser entrevistadas com 95% de confiança para que o valor de $ p $ tenha sido determinado com erro inferior a 5%, supondo que as escolhas de cada pessoa sejam independentes.

Seja $ n $ o número de candidatos, denotamos $ X_i, ~i=1,\dots,n $ a variável aleatória de Bernoulli que assume valor 1, com probabilidade p, se a i-ésima pessoa entrevistada declara a intenção de votar no candidato. Assume o valor 0, com probabilidade $ 1-p $ caso contrário.

Assim, temos que $ \mathbb{P}[X_i=1]=p $ e $ \mathbb{P}[X_i=0]=1-p. $ Consequentemente, $ \mathbb{E}[X_i]=p $ e $ \text{Var}(X_i)=p(1-p) $ para todo $ i=1,\dots,n. $

Logo, do enunciado queremos $ n $ mínimo de modo que 

$$\mathbb{P}\left[\left|\frac{S_n}{n}-p\right|\leq 0,05\right]\geq 0,95$$

em que $ S_n=X_1+\dots+X_n. $

Mas, temos que  

$$\mathbb{P}\left[\left|\frac{S_n}{n}-p\right|\leq0,05\right]=\mathbb{P}\left[-0,05\leq \frac{S_n-np}{n}\leq 0,05\right]=$$

 

$$=\mathbb{P}\left[-0,05\sqrt{\frac{n}{p(1-p)}}\leq \frac{S_n-np}{\sqrt{np(1-p)}}\leq 0,05\sqrt{\frac{n}{p(1-p)}}\right]\geq 0,95$$

Pelo TCL, temos que para $ n $ suficientemente grande 

$$\Phi\left(0,05\sqrt{\frac{n}{p(1-p)}}\right)-\Phi\left(-0,05\sqrt{\frac{n}{p(1-p)}}\right)\geq 0,95$$

Logo, basta escolhermos $ n $ tal que 

$$0,05\sqrt{\frac{n}{p(1-p)}}\overset{(\text{Obs.})}{\geq} 1,96\quad\Rightarrow\quad n\geq \left(\frac{1,96}{0,05}\right)^2p(1-p)$$

 

$$(\text{Obs})\quad\left\{\begin{array}{l}\Phi(x)-\Phi(-x)=0,95\\ \Phi(x)+\Phi(-x)=1\end{array}\right.\quad\Rightarrow\quad\Phi(x)=0,975$$

Como $ p(1-p)\leq \frac{1}{4}, $ temos que 

$$n\geq \left(\frac{1,96}{0,05}\right)^2\frac{1}{4}\approx384,16$$

Portanto, devemos entrevistar pelo menos 385 eleitores.

Probabilidades

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]