3.5 - Propriedades dos Estimadores

Você está aqui

Como vimos na seção anterior, é importante que os estimadores possuam algumas características desejáveis. Consideremos uma amostra $ (X_1, X_2, \cdots, X_n) $ de uma população $ X $. Seja $ \theta $ o parâmetro de interesse da população que desejamos estimar, como por exemplo $ \mu = \mathbb{E}(X) $ ou $ \sigma^2 = \text{Var}(X) $.

Definição 3.5.1: 

Um estimador $ T = T(X_1, X_2, \cdots, X_n) $ é dito não viciado (não viesado) para algum parâmetro populacional $ \theta $ se 

\[\mathbb{E}(T)=\theta,\]

para todo $ \theta $. Se a igualdade acima não ocorre, dizemos que $ T $ é um estimador viciado (viesado) e a diferença $ V(T,\theta) = \mathbb{E}(T) - \theta $ é chamada de vício (viés) de $ T $.

Teorema 3.5.1: 

Seja $ X_1, X_2, \cdots, X_n $ uma amostra aleatória i.i.d. de uma população e seja $ g(x) $ uma função tal que $ \mathbb{E}[g(X_1)] $ e $ \hbox{Var}[g(X_1)] $ existam. Então

\[\mathbb{E}\left(\sum_{i=1}^ng(X_i)\right)=n(\mathbb{E}(g(X_1))\]


\[\text{Var}\left(\sum_{i=1}^ng(X_i)\right)=n(\text{Var}(g(X_1)).\]

Demonstração: 

Para provar a primeira equação, notemos que 

\[\mathbb{E}\left(\sum_{i=1}^ng(X_i)\right)=\sum_{i=1}^n\mathbb{E}(g(X_i))=n(\mathbb{E}(g(X_1))).\]

Uma vez que os $ X_i $'s são identicamente distribuídos, a segunda igualdade é verdadeira pois $ \mathbb{E}(g(X_i))=\mathbb{E}(g(X_1)) $ para todo $ i $. Note que aqui, a independência de $ X_1, X_2, \cdots, X_n $ não é necessária para esta igualdade. Na verdade, a igualdade acima é verdadeira para qualquer coleção de $ n $variáveis aleatórias independentes e igualmente distribuídas.

Para provar a segunda igualdade, observe que 

\[\text{Var}\left(\sum_{i=1}^ng(X_i)\right)=\mathbb{E}\left[\sum_{i=1}^n g(X_i)-\mathbb{E}\left(\sum_{i=1}^n g(X_i)\right)\right]^2=\mathbb{E}\left[\sum_{i=1}^n(g(X_i)-\mathbb{E}[g(X_i)])\right]^2.\]

Nesta última expressão, existem $ n^2 $ termos. Primeiramente, existem $ n $ termos da forma 

\[(g(X_i)-\mathbb{E}[g(X_i)])^2, \quad i = 1, \ldots, n\]

e, para cada um deles, temos que 

\[\mathbb{E}(g(X_i)-\mathbb{E}[g(X_i)])^2= \ \text{Var}(g(X_i))= \ \text{Var}(g(X_1))\]

uma vez que as variáveis são identicamente distribuidas. Os $ n(n-1) $ termos restantes são todos da forma 

\[(g(X_i)-\mathbb{E}[g(X_i)])(g(X_j)-\mathbb{E}[g(X_j)]) \ \hbox{com} \ i\neq j.\]

Para cada um destes termos temos que 

\[\mathbb{E}[(g(X_i)-\mathbb{E}[g(X_i)])(g(X_j)-\mathbb{E}[g(X_j)])= \ \text{Cov}(g(X_i),g(X_j))=0\]

pois as variáveis são independentes. Desta forma, fica claro que 

\[\text{Var}\left(\sum_{i=1}^ng(X_i)\right)=n(\text{Var}(g(X_1)).\]

Teorema 3.5.2: 

Seja $ X_1, X_2, \cdots, X_n $ uma amostra aleatória independente e igualmente distribuída de uma população com média $ \mu $ e variância $ \sigma^2 \ \textless \ \infty $. Então

a) $ \mathbb{E}(\overline{X})=\mu, $

b) $ \mathbb{E}(s^2)=\sigma^2 $.

Demonstração: 

Para provar (a), basta tomar $ g(X_i) = \frac{X_i}{n} $, deste modo, $ \mathbb{E}(g(X_i)) = \frac{\mu}{n} $. Então, pelo Teorema 3.5.1 temos que 

\[\mathbb{E}(\overline{X})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^nX_i\right)=\frac{1}{n}\mathbb{E}\left(\sum_{i=1}^n X_i\right)=\frac{1}{n}n\mathbb{E}(X_1)=\mu.\]

De maneira similar, para a variância amostral, temos que 

\[\mathbb{E}(s^2)=\mathbb{E}\left(\frac{1}{n-1}\left[\sum_{i=1}^nX_i^2-n\overline{X}^2\right]\right)=\frac{1}{n-1}(n\mathbb{E}(X_1^2)-n\mathbb{E}(\overline{X}^2)\]

ou seja, 

\[\mathbb{E}(s^2)=\frac{1}{n-1}\left(n(\sigma^2+\mu^2)-n\left(\frac{\sigma^2}{n}+\mu^2 \right)\right)=\sigma^2.\]

Desta forma, podemos concluir que $ \overline{X} $ e $ s^2 $ são estimadores não viciados da média populacional $ \mu $ e da variância populacional $ \sigma^2 $.

Proposição 3.5.1: 

Seja $ X_1,X_2, \cdots ,X_n $ uma amostra aleatória de uma população com distribuição normal $ N(\mu,\sigma^2) $. O estimador $ s=\displaystyle \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2} $ é viesado.

De fato, observe primeiramente que $ X_i\sim N(\mu,\sigma^2) $ então 

\[\frac{(n-1)s^2}{\sigma^2}=\sum^{i=1}_{n}(X_i-\overline{X})^2\sim \chi^2_{n-1}\]

Este fato decorre do Corolário 2.3.1. Lembramos que a distribuição qui-quadrado é dada por 

\[f(x)=\displaystyle \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2}exp\left(-\frac{x}{2}\right), ~~ x\in (0,\infty)\]

Com isso em mente vamos calcular o valor esperado de $ s $ para mostrarmos que $ \mathbb{E}(s)\neq\sigma $. De fato, 

\[\mathbb{E}\left(s\right)=\mathbb{E}\left(\sqrt{\frac{n-1}{n-1}\frac{\sigma^2}{\sigma^2}s^2}\right)=\sqrt{\frac{\sigma^2}{n-1}}\mathbb{E}\left(\sqrt{\frac{N-1}{\sigma}s^2}\right)\]


\[=\sqrt{\frac{\sigma^2}{n-1}}\int^{0}_{\infty}\sqrt{x}\frac{1}{2^{(n-1)/2}\Gamma(\frac{(n-1)}{2})}x^{((n-1)/2)-1}\exp(-x/2)dx\]


\[=\sqrt{\frac{\sigma^2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)}\int_{0}^{\infty}\frac{1}{2^{(n-1)/2}\Gamma(n/2)}x^{(n/2)-1}\exp(-x/2)dx\]


\[=\sqrt{\frac{\sigma^2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)}\frac{2^{n/2}}{2^{(n-1)/2}}\int_{0}^{\infty}\frac{1}{2^{n/2}\Gamma(n/2)}x^{(n/2)-1}\exp(-x/2)dx\]


\[=\sigma\sqrt{\frac{2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)} \approx\sigma\left(1-\frac{1}{4n}-\frac{7}{32n^2}-\frac{19}{128n^3}+o(n^{-4})\right) \approx\sigma\left(1-\frac{1}{4n}\right)\]

Logo o viés é dado por 

\[\sigma - \mathbb{E}(s)=\sigma\left(1-\sqrt{\frac{2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)}\right)\approx\frac{\sigma}{4n}\]

Portanto, de fato temos que o estimador $ s $ é viesado embora $ s^2 $ não seja, pois como sabemos $ \mathbb{E}(s^2)=\sigma^2 $ .

Outro conceito importante para ser definido é o de consistência de um estimador. Já verificamos no Capítulo de Distribuições Amostrais que, conforme o tamanho amostral n cresce, a distribuição da média amostral $ \bar{X} $ torna-se cada vez mais concentrada em torno da média populacional $ \mu $. Sempre que um estimador torna-se cada vez mais próximo do parâmetro, dizemos que o estimador é consistente. Matematicamente, consideramos a seguinte definição:

Definição 3.5.2:

Seja $ \{T_n\} $ uma sequência de estimadores de um parâmetro de interesse $ \theta $. Dizemos que esta sequência de estimadores é consistente se, dado $ \epsilon \ \textgreater \ 0 $ arbitrário 

\[\mathbb{P}\left(|T_n - \theta|\textgreater\epsilon\right)\rightarrow 0, \quad n\rightarrow\infty.\]

Proposição 3.5.2:

A sequência de estimadores $ \{T_n\} $ de um parâmetro $ \theta $ é consistente se 

\[\lim_{n\rightarrow\infty}\mathbb{E}\left(T_n\right) = \theta \ \hbox{e} \ \lim_{n\rightarrow\infty}\text{Var}\left(T_n\right) = 0.\]

Observação 3.5.1: 

Observe que, se $ \{T_n\} $ for uma sequência não viciada de estimadores de $ \theta $, então a primeira condição estará claramente satisfeita. A partir do resultado anterior, é evidente que a média amostral $ \bar{X} $ e a proporção $ \hat{p} $ são estimadores consistentes da média populacional $ \mu $ e da proporção populacional $ p $, respectivamente.

Exemplo 3.5.1: 

Considere a variância amostral $ s^2 $. Do Teorema 3.5.2, temos que $ s^2 $ é um estimador não viciado de $ \sigma^2 $. Podemos demonstrar que, se $ X_1, X_2, \cdots, X_n $ é uma amostra independente e igualmente distribuída de uma população qualquer, então 

\[\hbox{Var}\left(s^2\right) = \sigma^4\left(\frac{2}{n-1}+\frac{k}{n}\right)\]

onde $ k $ é a curtose da distribuição.

Desta forma, temos que $ \lim_{n\rightarrow\infty}\hbox{Var}\left(s^2\right) = 0 $ e, portanto, concluímos que $ s^2 $ é um estimador consistente para $ \sigma^2 $.

Exemplo 3.5.2: 

Seja $ X_1, X_2, \cdots, X_n $ uma amostra i.i.d de uma população com média $ \mu $ e variância $ \sigma^2 $ e considere os seguintes estimadores para a média populacional $ \mu $

\[\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \qquad \hbox{e} \qquad X^\prime = \frac{1}{n+1}\left(2X_1 + X_2 + \cdots + X_n\right)\]

Utilizando o Teorema 3.5.1, é fácil concluir que $ \mathbb{E}\left(\bar{X}\right) = \mathbb{E}\left(X^\prime\right) = \mu $, de onde concluímos que ambos os estimadores de $ \mu $ são não viciados. Calculando as variâncias, temos que 

\[\text{Var}\left(\bar{X}\right) = \ \text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \ \text{Var}\left(X_i\right) = \frac{\sigma^2}{n}.\]


\[\text{Var}\left(X^\prime\right) = \ \text{Var}\left(\frac{2X_1+X_2+\cdots+X_n}{n+1}\right) = \frac{(n+3)\sigma^2}{(n+1)^2}.\]

Neste caso, temos que $ \lim_{n\rightarrow\infty}\text{Var}(\bar{X}) = \lim_{n\rightarrow\infty}\frac{\sigma^2}{n} = 0 $ e $ \lim_{n\rightarrow\infty}\text{Var}(X^\prime) = \lim_{n\rightarrow\infty}\frac{(n+3)\sigma^2}{(n+1)^2} = 0 $. Logo, tanto $ \overline{X} $ quanto X' são estimadores consistentes para o parâmetro $ \mu $.

Neste caso, é necessário algum critério para decidir qual seria um "melhor" estimador de um mesmo parâmetro. Diremos então que o "melhor" estimador é chamado de estimador mais eficiente.

Definição 3.5.3:

Suponha que $ T $ e $ T $' sejam dois estimadores não viciados de um mesmo parâmetro $ \theta $. Se 

\[\text{Var}\left(T\right) \ \textless \ \text{Var}\left(T'\right)\]

então dizemos que $ T $ é um estimador mais eficiente do que $ T $'.

Considerando o Exemplo 3.5.1, temos que 

\[\text{Var}\left(\overline{X}\right) = \frac{\sigma^2}{n} \textless \frac{(n+3)\sigma^2}{(n+1)^2} = \ \text{Var}\left(X^\prime\right).\]

de onde concluímos que $ \overline{X} $ é um estimador mais eficiente do que $ X $'.

Quanto menor for a diferença entre o estimador $ T $ e o parâmetro $ \theta $, menor será o erro cometido ao estimar o parâmetro $ \theta $ pelo estimador $ T $. Esta diferença $ e = T - \theta $ é chamada de erro amostral.

Definição 3.5.4: 

Definimos o erro quadrático médio (EQM) do estimador $ T $ como sendo o valor esperado do erro amostral ao quadrado, isto é, 

\[\text{EQM}(T;\theta) = \mathbb{E}(e^2) = \mathbb{E}\left((T-\theta)^2\right).\]

Escrevendo $ T - \theta = T - \mathbb{E}(T) + \mathbb{E}(T) - \theta $, temos a partir da Definição 3.5.4, que 

\[\text{EQM}(T,\theta) = \mathbb{E}\left((T-\mathbb{E}(T))^2\right) + 2\mathbb{E}\left((T-\mathbb{E}(T))(\mathbb{E}(T)-\theta)\right) + \mathbb{E}\left((\mathbb{E}(T)-\theta)^2\right),\]

de onde concluímos que 

\[\text{EQM}(T,\theta) = \mathbb{E}\left((T - \mathbb{E}(T))^2\right) + \mathbb{E}\left((\mathbb{E}(T)-\theta)^2\right),\]

pois $ \mathbb{E}(T) - \theta $ é uma constante e $ \mathbb{E}(T-\mathbb{E}(T)) = 0 $. De onde segue que 

\[\text{EQM}(T,\theta) = \ \text{Var}(T) + V(T,\theta)^2\]

onde $ V(T,\theta) $ é o vício do estimador $ T $.

Novamente, voltando ao Exemplo 3.5.2, temos que 

\[\text{EQM}(\bar{X},\mu) = \ \text{Var}(\overline{X}) + V(\bar{X},\mu)^2 = \text{Var}(\overline{X}) = \frac{\sigma^2}{n}\]


\[\text{EQM}(X^\prime,\mu) = \text{Var}(X^\prime) + V(X^\prime,\mu)^2 = \ \text{Var}(X\prime) = \frac{(n+3)\sigma^2}{(n+1)^2}\]

já que os estimadores são não viciados e, neste caso, $ V = 0 $. Portanto, concluímos que o estimador $ \overline{X} $ é um estimador que possui menor erro quadrático médio, isto é, tem melhor acurácia.

Exemplo 3.5.3: 

Seja $ X_1, \ldots, X_n $ uma amostra i.i.d de uma distribuição normal com média $ \mu $ e variância $ \sigma^2 $ e considere o estimador $ s^2 $ para $ \sigma^2 $. Do Teorema 3.5.2 temos que este estimador é não-viciado e, portanto, 

\[V(s^2,\sigma^2) = 0.\]

Desta forma, o erro quadrático médio deste estimador é dado por 

\[\text{EQM}(s^2,\sigma^2) = \text{Var}(s^2) = \frac{2\sigma^4}{n-1}.\]

Observação 3.5.2:

Pode parecer intuitivo que, ao utilizar estimadores não-viciados, tenhamos um erro quadrático médio pequeno, porém nem sempre isso ocorre, ou seja, controlar o vício do estimador não garante um controle do erro quadrático médio. As vezes, um estimador com um pequeno aumento no vício pode gerar um grande decrescimento na variância e, consequentemente, um erro quadrático médio menor.

Exemplo 3.5.4:

Considere novamente a amostra i.i.d do Exemplo 3.5.3 de uma distribuição normal com média $ \mu $ e variância $ \sigma^2 $ e considere o estimador de máxima verossimilhança para $ \sigma^2 $, ou seja, o estimador 

\[\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(X_i -\bar{X})^2 = \frac{n-1}{n}s^2.\]

Temos que 

\[\mathbb{E}(\hat{\sigma}^2) = \mathbb{E}\left(\frac{n-1}{n}s^2\right) = \frac{n-1}{n}\sigma^2,\]

de forma que $ \hat{\sigma}^2 $ é um estimador viciado de $ \sigma^2 $. Calculando a variância de $ \hat{\sigma}^2 $, temos que 

\[\hbox{Var}(\hat{\sigma}^2) = \hbox{Var}\left(\frac{n-1}{n}s^2\right)=\left(\frac{n-1}{n}\right)^2\hbox{Var}(s^2) = \frac{2(n-1)\sigma^4}{n^2},\]

de forma que o erro quadrático médio $ \text{EQM}(\hat{\sigma}^2) $ é dado por 

\[\text{EQM}(\hat{\sigma}^2) = \mathbb{E}(\hat{\sigma}^2-\sigma^2)^2 = \frac{2(n-1)\sigma^4}{n^2}+\left(\frac{n-1}{n}\sigma^2 - \sigma^2\right)^2 = \left(\frac{2n-1}{n^2}\right)\sigma^4.\]

Desta forma, 

\[\text{EQM}(\hat{\sigma}^2) = \left(\frac{2n-1}{n^2}\right)\sigma^4\textless\left(\frac{2}{n-1}\right)\sigma^4=\text{EQM}(s^2),\]

 e, portanto, $ \hat{\sigma}^2 $ possui um erro quadrático médio menor do que $ s^2 $.

Observação 3.5.3:

Como o erro quadrático médio é uma função do parâmetro, não podemos, em geral, dizer que existe um melhor estimador a partir da comparação de seus erros quadráticos médios. Porém, sua informação pode, eventualmente, fornecer um guia a seguir na escolha entre estimadores.

O objetivo agora é encontrar o melhor estimador não-viciado de um parâmetro $ \theta $, que será definido a seguir.

Definição 3.5.5:

Dizemos que um estimador $ T $ de um parâmetro $ \theta $ é o melhor estimador não-viciado se $ \mathbb{E}(T) = \theta $ e, para qualquer outro estimador $ T $' com $ \mathbb{E}(T^\prime) = \theta $, tivermos que $ \hbox{Var}(T)\leq\hbox{Var}(T^\prime) $. Neste caso, $ T $ é também chamado de estimador não viciado de variância uniformemente mínima (ENVVUM) de $ \theta $.

Apesar da Definição 3.5.5, encontrar o ENVVUM de um parâmetro $ \theta $, quando este existe, nem sempre é uma tarefa muito fácil. Para exemplificar, consideremos o seguinte exemplo.

Exemplo 3.5.5:

Sejam $ X_1,\ldots,X_n $variáveis aleatórias independentes e igualmente distribuídas com distribuição de Poisson com parâmetro $ \lambda $ e considere $ \overline{X} $ e $ s^2 $ a média e a variância amostral, respectivamente. Sabemos que uma distribuição de Poisson com parâmetro $ \lambda $ possui média e variância iguais a $ \lambda $. Como $ \overline{X} $ e $ s^2 $ são estimadores não viciados, temos que 

\[\mathbb{E}(\overline{X}) = \lambda\]


\[\mathbb{E}(s^2) = \lambda.\]

Para determinar o melhor estimador, devemos agora comparar suas variâncias. Utilizando o Teorema 3.5.1 temos que $ \hbox{Var}(\overline{X}) = \lambda/n $, porém o cálculo de $ \hbox{Var}(s^2) $ é um pouco mais complicado e este é um dos problemas em encontrar o ENVVUM de um parâmetro. Para este caso particular, temos que $ \hbox{Var}(\overline{X})\leq\hbox{Var}(s^2) $ para todo $ \lambda $. Mas, considere agora a classe de estimadores 

\[C_a(\overline{X},S^2) = a\bar{X} + (1-a)S^2, \ a\in\mathbb{R}.\]

Para cada $ a\in\mathbb{R} $, temos que $ \mathbb{E}(C_a) = \lambda $ de forma que temos um número infinito que estimadores não viciados de $ \lambda $. Sabemos que $ \overline{X} $ é um estimador melhor do que $ s^2 $, porém, ele continua sendo melhor do que todo $ C_a(\overline{X},s^2) $?

Suponha agora, que possamos encontrar um limitante inferior $ B(\theta) $ para a variância de qualquer estimador não viciado do parâmetro $ \theta $ de interesse. Neste caso, se existir um estimador não viciado $ T $ do parâmetro $ \theta $ tal que $ \hbox{Var}(T) = B(\theta) $, então, este será o ENVVUM. Para isto, utilizamos a desigualdade de Cramer-Rao, enunciada abaixo.

Teorema 3.5.3 (Desigualdade de Cramer-Rao): 

Seja $ X_1,\ldots,X_n $ uma amostra aleatória com função densidade de probabilidade $ f(x|\theta) $ e seja $ T(\textbf{X}) = T(X_1,\ldots,X_n) $ qualquer estimador que satisfaz 

\[\frac{d}{d\theta}\mathbb{E}(T(\textbf{X}))=\int_{-\infty}^\infty\frac{\partial}{\partial\theta}[T(\textbf{x})f(\textbf{x}|\theta)]d\textbf{x}\]

e $ \hbox{Var}(T(\textbf{X}))\textless\infty $. Então 

\[\hbox{Var}(T(\textbf{X})) \geq \frac{\left(\frac{d}{d\theta}\mathbb{E}(T(\textbf{X}))\right)^2}{\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(\textbf{X}|\theta)\right)^2\right)}.\]

Teorema 3.5.4 (Desigualdade de Cramer-Rao, caso i.i.d):

Se as hipóteses do Teorema 3.4.3 estão satisfeitas e, além disso, a amostra aleatória $ X_1, \ldots, X_n $ é i.i.d com função densidade de probabilidade $ f(x|\theta) $, então 

\[\hbox{Var}(T(\textbf{X}))\geq \frac{\left(\frac{d}{d\theta}\mathbb{E}(T(\textbf{X}))\right)^2}{n\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right)^2\right).}\]

Observação 3.5.4: 

A desigualdade de Cramer-Rao também se aplica para o caso de variáveis aleatórias discretas. Neste caso, utilizamos a função de probabilidade ao invés da função densidade de probabilidade e, observamos que basta substituir a integral pelo somatório. Apesar de $ f(x|\theta) $ não ser diferenciável em $ x $, ela o é em $ \theta $.

A quantidade $ \mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(\textbf{X}|\theta)\right)^2\right) $ é chamada de informação de Fisher. A informação de Fisher recebe este nome pois fornece um limitante para a variância do ENVVUM de $ \theta $. Conforme a informação aumenta e temos mais informação sobre o parâmetro $ \theta $, temos um menor limitante para a variância do ENVVUM.

Proposição 3.5.3:

Se $ f(x,\theta) $ satisfaz 

\[\frac{d}{d\theta}\mathbb{E}\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right) = \int\frac{\partial}{\partial\theta}\left[\left(\frac{\partial}{\partial\theta}\log f(x|\theta)\right)f(x|\theta)\right]dx\]

então 

\[\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right)^2\right)=-\mathbb{E}\left(\frac{\partial^2}{\partial\theta^2}\log f(X|\theta)\right).\]

Voltando ao Exemplo 3.5.5, como $ X $ tem distribuição de Poisson com parâmetro $ \lambda $, a igualdade 

\[\frac{d}{d\theta}\mathbb{E}\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right) = \int\frac{\partial}{\partial\theta}\left[\left(\frac{\partial}{\partial\theta}\log f(x|\theta)\right)f(x|\theta)\right]dx\]

é satisfeita (exercício!), temos da Proposição 3.5.3 que 
\[\mathbb{E}\left(\left(\frac{\partial}{\partial\lambda}\log f(X|\lambda)\right)^2\right) = -\mathbb{E}\left(\frac{\partial^2}{\partial\lambda^2}\log f(X|\lambda)\right) = -\mathbb{E}\left(\frac{\partial^2}{\partial\lambda^2}\log\left(\frac{e^{-\lambda}\lambda^X}{X!}\right)\right)\]

de onde segue que 
\[\mathbb{E}\left(\left(\frac{\partial}{\partial\lambda}\log f(X|\lambda)\right)^2\right) = -\mathbb{E}\left(-\frac{X}{\lambda^2}\right) = \frac{1}{\lambda}.\]

Então, pela desigualdade de Cramer-Rao no caso i.i.d (Teorema 3.5.4), segue que, para qualquer estimador não-viciado $ T(\textbf{X}) $ vale a desigualdade 
\[\hbox{Var}(T(\textbf{X})\geq \frac{\left(\frac{d}{d\lambda}\mathbb{E}\left(T(\textbf{X})\right)\right)^2}{n\mathbb{E}\left(\left(\frac{\partial}{\partial\lambda}\log f(X|\lambda)\right)^2\right)} = \frac{\lambda}{n}.\]

Como $ \hbox{Var}(\bar{X}) = \lambda/n $, segue que $ \bar{X} $ é o ENVVUM de $ \lambda $, além de ser o estimador de máxima verossimilhança de $ \lambda $ segundo vimos no Exemplo 3.4.2.

Exemplo 3.5.6: 

Seja $ X_1,\ldots,X_n $ uma amostra i.i.d de uma distribuição uniforme no intervalo $ [0,\theta] $. Neste caso, temos que a função densidade de probabilidade $ f(x|\theta) $ é dada por 
\[f(x|\theta) = \left\{\begin{array}{l}\frac{1}{\theta}, \ \hbox{se} \ x\in[0,\theta] \\ 0 \ \hbox{caso contrário}.\]

Segue então que 
\[\frac{\partial}{\partial\theta}\log (f(x|\theta)) = \frac{\partial}{\partial\theta}-\log(\theta) = -\frac{1}{\theta}\]

de forma que 
\[\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right)^2\right) = \frac{1}{\theta^2}.\]

Desta forma, se $ T $ é um estimador não-viciado do parâmetro $ \theta $, segue da desigualdade de Cramer-Rao que 
\[\hbox{Var}(T) \geq \frac{\theta^2}{n}.\]

Vamos considerar o estimador de máxima verossimilhança de $ \theta $ dado por $ T =\max\{X_1,\ldots,X_n\} $ (verifique o Exemplo 3.4.4 da Seção 3.4). Inicialmente, observamos que $ T $ tem função densidade de probabilidade dada por 
\[f_{T}(x|\theta) = \frac{nx^{n-1}}{\theta^n} \ \hbox{se} \ 0\leq x\leq \theta,\]

de modo que 
\[\mathbb{E}(T) = \int_0^\theta\frac{nx^n}{\theta^n}dx=\frac{n}{n+1}\theta.\]

Portanto, $ T = \max\{X_1,\ldots,X_n\} $ é um estimador viciado do parâmetro $ \theta $. Porém, o estimador $ T^\prime = \frac{n+1}{n}T $ é, obviamente, não-viciado. Além disso, temos que 
\[\hbox{Var}\left(\frac{n+1}{n}T\right) = \frac{1}{n(n+2)}\theta^2,\]

que é uniformemente menor do que $ \theta^2/n $. Isto indica que a desigualdade de Cramér-Rao se aplica a esta função densidade de probabilidade. Em geral, a desigualdade não se aplica para f.d.p's que dependem do parâmetro de interesse.
 

Propriedades resultantes da desigualdade de Cramer-Rao

A partir da desigualdade de Cramer-Rao, obtemos algumas propriedades importantes:
1) Sob condições de regularidade satisfeitas, se $ T(\textbf{X}) $ é um estimador não-viciado de $ \psi(\theta) $ e se $ \hbox{Var}(T(\textbf{X})) = \frac{[\psi'(\theta)]^2}{I(\theta)} $, então $ T(\textbf{X}) $ é um ENVVUM de $ \psi(\theta) $.
2) Sob condições de regularidade satisfeitas, se $ T(\textbf{X}) $ é um estimador não-viciado de $ \theta $ e se $ \hbox{Var}(T(\textbf{X})) = \frac{1}{I(\theta)} $, então $ T(\textbf{X}) $ é um ENVVUM para $ \theta $.
Esta é uma consequência direta do item anterior. Basta observar que, se $ T(\textbf{X}) $ é um estimador não-viciado de $ \theta $, então, neste caso, $ \psi(\theta) = \theta $, de forma que $ \psi^\prime(\theta) = 1 $ e assim, se $ \hbox{Var}(T(\textbf{X})) = \frac{1}{I(\theta)} $, utilizando a Desigualdade de Cramer-Rao, temos que esta é a menor variância possível para um estimador não-viciado de $ \theta $.
3) Se $ f(\textbf{x}|\theta) $ pertence a família exponencial 
\[f(\textbf{x}|\theta) = h(\textbf{x})\exp\left\{c(\theta)T(\textbf{x})+d(\theta)\right\}\]

e se $ c(\cdot) $ tem derivada contínua não nula sobre $ \Theta $, então 
\[\hbox{Var}\theta(T(\textbf{X})) = \frac{[\psi^\prime(\theta)]^2}{I(\theta)}\]

em que $ \psi(\theta) = \mathbb{E}(T(\textbf{X})) $ e $ T(\textbf{X}) $ é ENVVUM para $ \psi(\theta) $.
4) A quantidade $ \frac{[\psi^\prime(\theta)]^2}{I(\theta)} $ é chamada de limite inferior de Cramer-Rao para a variância do estimador não-viciado de $ \psi(\theta) $ (apenas sob condições de regularidade satisfeitas).

Teorema 3.5.5 (Teorema de Rao-Blackwell): 

Seja $ X_1,\ldots,X_n $ uma amostra aleatória com função de probabilidade ou função densidade de probabilidade $ f(\textbf{x}|\theta) $, $ T = T(X_1,\ldots,X_n) $ uma estatística suficiente para $ \theta $ e seja $ S = S(X_1,\ldots,X_n) $ um estimador não viciado qualquer de $ \psi(\theta) $. Tomando $ \phi(T) = T^\ast(\textbf{X}) = \mathbb{E}(S(\textbf{X})|T(\textbf{X})) $, temos que $ T^\ast(\textbf{X}) $ é independente de $ \theta $, pois $ T(\textbf{X}) $ é suficiente para $ \theta $. Além disso, $ \mathbb{E}(T^\ast(\textbf{X})) = \psi(\theta) $ e $ \hbox{Var}(T^\ast(\textbf{X}))\leq \hbox{Var}(S(\textbf{X})) $ para todo $ \theta $. Isto é, $ T^\ast(\textbf{X}) $ é um estimador não-viciado uniformemente melhor de $ \psi(\theta) $.

Demonstração:  

De fato, temos que 
\[\mathbb{E}(T^\ast(\textbf{X})) = \mathbb{E}\left(\mathbb{E}(S(\textbf{X})|T(\textbf{X}))\right) = \mathbb{E}(S(\textbf{X})) = \psi(\theta).\]

e, portanto, $ T^\ast(\textbf{X}) $ é um estimador não viciado para $ \psi(\theta) $. Além disso, 
\[\hbox{Var}(S(\textbf{X}))=\hbox{Var}\left[\mathbb{E}(S(\textbf{X})|T(\textbf{X}))\right]+\mathbb{E}\left[ \hbox{var}(S(\textbf{X})|T(\textbf{X}))\right]\]

de onde segue que 
\[\hbox{Var}(S(\textbf{X}))=\hbox{Var}(T^\ast(\textbf{X})) + \mathbb{E}\left[\hbox{Var}(S(\textbf{X})| T(\textbf{X})) \right] \geq\hbox{Var}(T^\ast(\textbf{X}))\]

Assim, $ T^\ast(\textbf{X}) $ é uniformemente melhor do que $ S(\textbf{X}) $. Além disso, como $ S(\textbf{X}) $ é função somente da amostra e $ T(\textbf{X}) $ é uma estatística suficiente, segue que a distribuição de $ S(\textbf{X})|T(\textbf{X}) $ independe de $ \theta $. Portanto, $ T^\ast(\textbf{X}) $ é, de fato, um estimador e, além disso, é não viciado e uniformemente melhor para $ \psi(\theta) $.
Em outras palavras, condicionar qualquer estimador não-viciado de $ \psi(\theta) $ a uma estatística suficiente para $ \theta $ resultará em um melhor estimador, de forma que na busca de estimadores não-viciados ótimos, somente consideramos estatísticas que são funções de uma estatística suficiente. No entanto, o Teorema de Rao-Blackwell não fornece o ENVVUM.

Teorema 3.5.6 (Teorema de Lehmann-Scheffé): 

Seja $ X_1,\ldots,X_n $ uma amostra aleatória da variável aleatória $ X $ com função de probabilidade ou função densidade de probabilidade $ f(x|\theta) $, $ T(\textbf{X}) $ uma estatística suficiente e completa para $ \theta $ e $ S(\textbf{X}) $ um estimador não-viciado de $ \psi(\theta) $. Então, $ T^\ast(\textbf{X}) = \mathbb{E} (S(\textbf{X})|T(\textbf{X})) $ é um ENVVUM para $ \psi(\theta) $ e, se $ \var(T^\ast(\textbf{X}))<\infty $ para todo $ \theta $, $ T^\ast(\textbf{X}) $ é o único ENVVUM para $ \psi(\theta) $.

Demonstração: 

Como $ T^\ast(\textbf{X}) = \mathbb{E}(S(\textbf{X})|T(\textbf{X})) $ temos que 
\[\mathbb{E}(T^\ast(\textbf{X}))=\mathbb{E}\left[\mathbb{E}(S(\textbf{X})|T(\textbf{X}))\right]=\mathbb{E}(S(\textbf{X})) = \psi(\theta).\]

Logo, $ T^\ast(\textbf{X}) $ é um estimador não-viciado de $ \psi(\theta) $.
Agora, na procura de ENVVUM's para $ \psi(\theta) $, basta procurar entre os que são função de $ T(\textbf{X}) $ (pois os que não são podem ser melhorados através do Teorema de Rao-Blackwell). Portanto, basta provar que há um único estimador não-viciado de $ \psi(\theta) $ que é função de $ T(\textbf{X}) $.
Para isto, suponha que existem $ T_1(\textbf{X}) $ e $ T_2(\textbf{X}) $, ambos função de $ T $, tais que 
\[\mathbb{E}(T_1(\textbf{X})) = \mathbb{E}(T_2(\textbf{X})) = \psi(\theta).\]

Mas então, $ \mathbb{E}(T_1(\textbf{X})-T_2(\textbf{X})) = 0 $ e, como $ T $ é completa, implica que $ T_1(\textbf{X})-T_2(\textbf{X}) = 0 $, logo $ T_1(\textbf{X}) = T_2(\textbf{X}) $ com probabilidade $ 1 $.
A seguir, temos um roteiro de como utilizar o Teorema de Lehmann-Scheffé para encontrar um ENVVUM para $ \psi(\theta) $.
1) Procurar uma estatística suficiente e completa $ T(\textbf{X}) $.
2) Obter uma estatística $ h(T(\textbf{X})) $ (função de $ T(\textbf{X}) $ que seja um estimador não-viciado de $ \psi(\theta) $. Assim, $ h(T(\textbf{X})) $ será um ENVVUM para $ \psi(\theta) $.

Exemplo 3.5.7:

Seja $ X_1,\ldots,X_n $ uma amostra aleatória i.i.d com distribuição de Bernoulli com parâmetro $ \theta $ com $ 0 \ \tetless \ \theta \ \textless \ 1 $. Verificar que $ \frac{n}{n+1}\overline{X}(1-\overline{X}) $ é um ENVVUM para $ \theta(1-\theta) $.
Observe que, se $ f(\textbf{x}|\theta) $ pertence a família exponencial. De fato, temos que 
\[f(\textbf{x}|\theta) = \prod_{i=1}^nf(x_i|\theta) = \prod_{i=1}^n\theta^{x_i}(1-\theta)^{1-x_i}=\theta^{\sum_{i=1}^nx_i}(1-\theta)^{n-\sum_{i=1}^nx_i}\]

e então 
\[f(\textbf{x}|\theta) = \exp\left\{\sum_{i=1}^nx_i\log(\theta)+\left(n-\sum_{i=1}^nx_i\right)\log(1-\theta)\right\} = \exp\left\{n\bar{x}\log\left(\frac{\theta}{1-\theta}\right)+n\log(1-\theta)\right\},\]

de onde concluímos, a partir do Teorema 3.1.1.3, que $ T(\textbf{X}) = \overline{X} $ é uma estatística suficiente para $ \theta $. Além disso, como $ 0 \ \textless \ \theta \ \textless \1 $, e então, o espaço paramétrico $ \Theta $ contém um conjunto aberto de $ \mathbb{R} $ e, portanto, segue do Teorema 3.1.1.6, que $ T(\textbf{X}) $ também é uma estatística completa para $ \theta $.
Considere agora a estatística $ S(\textbf{X}) $ dada por 
\[S(\textbf{X}) = \frac{n}{n-1}\overline{X}(1-\overline{X})\]

que é função de $ T(\textbf{X}) $. Temos que 
\[\mathbb{E}(S(\textbf{X})) = \frac{n}{n-1}\mathbb{E}(\overline{X}-\overline{X}^2) = \frac{n}{n-1}\left[\mathbb{E}(\overline{X})-\text{Var}(\overline{X})-\mathbb{E}^2(\overline{X})\right]\]

e então  
\[\mathbb{E}(S(\textbf{X}))=\frac{n}{n-1}\left[\theta-\frac{\theta(1-\theta)}{n}-\theta^2\right] = \frac{n}{n-1}\left[\frac{n-1}{n}(\theta(1-\theta))\right] = \theta(1-\theta).\]

de onde concluímos que $ S(\textbf{X}) = \frac{n}{n-1}\overline{X}(1-\overline{X}) $ é um estimador não viciado de $ \psi(\theta) = \theta(1-\theta) $ e, portanto, segue do Teorema de Lehmann-Scheffé que $ S(\textbf{X}) $ é o único ENVVUM para $ \theta(1-\theta) $.

Dúvidas sobre esse conteúdo? Comente:

Inferência

Sobre o Portal Action

O Portal Action é mantido por Estatcamp - Consultoria Estatística e Qualidade e por DIGUP - Desenvolvimento de Sistemas e Consultoria Estatística, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]