3.4 - Estimadores de Máxima Verossimilhança

Você está aqui

O princípio de máxima verossimilhança é um dos procedimentos usados para se obter estimadores. Ele trata o problema de estimação baseado nos resultados obtidos pela amostra e devemos determinar qual a distribuição, dentre todas aquelas definidas pelos possíveis valores de seus parâmetros, com maior possibilidade de ter gerado tal amostra. Consideremos uma população e uma variável aleatória $X$, relacionada a essa população, com função de probabilidade (se $X$ é uma variável aleatória discreta) ou função densidade de probabilidade (se $X$ é uma variável aleatória contínua) $f(x,\theta)$, sendo $\theta$ o parâmetro desconhecido. Seja $\mathcal{P}=\{\mathbb{P}_\theta:~\theta \in\Theta\}_{n\geq 1}$ sequência de modelos, com espaço paramétrico $\Theta\in\mathbb{R}^p.$ Desta forma, retiramos uma amostra aleatória simples de $X$, de tamanho $n$, $X_1,\ldots,X_n$, e sejam $x_1,\ldots,x_n$ os valores efetivamente observados.

A função de verossimilhança $L$ é definida por \[L(\theta;x_1,\ldots,x_n)=f(x_1;\theta)\times\ldots\times f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta).\]

Se $X$ é uma variável aleatória discreta com função de distribuição p(x,θ), a função de verossimilhança é dada por  \[L(\theta;x_1,\ldots,x_n)=p(x_1;\theta)\times\ldots\times p(x_n;\theta)=\prod_{i=1}^n p(x_i;\theta).\]

que deve ser interpretada como uma função de $\theta$Com isso, dizemos que $\widehat{\theta}$ é um estimador de máxima verossimilhança (EMV) para $\theta=\theta_0$, se $f(\mathbf{x};\widehat{\theta})\in\mathcal{P}$ e para algum$f(\mathbf{x};\theta_0)\in\mathcal{P}$ obtemos

$$\prod^n_{i=1}f(\mathbf{x};\widehat{\theta})\geq \prod^n_{i=1}f(\mathbf{x};\theta_0)$$

desde que qualquer parametrização seja identificável.  Em outras palavras:

$$L(\widehat{\theta};\mathbf{x})=\sup_{\theta_0\in\Theta}L(\theta_0;\mathbf{x})$$

A seguir definimos a função escore como:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}$$

cujas propriedades são $\mathbb{E}(U)=0$ e $\text{Cov}(U)=\mathbb{E}\left(-\frac{\partial U^\top}{\partial \theta}\right)=\mathbb{E}\left(-\frac{\partial^2 \log L(\theta)}{\partial \theta \partial \theta^\top}\right)=J.$ Já a matriz de informação observada é dada por:

$$\mathcal{I}=-\frac{\partial U^\top}{\partial \theta}=-\frac{\partial^2 \log L(\theta) }{\partial \theta \partial \theta^\top}$$

O próximo passo é expandirmos em série de Taylor em torno de $\widehat{\theta}.$ Para isto, tomamos $\widehat{U}=0$ e obtemos:

$$\log L(\widehat{\theta})-\log L(\theta)=\frac{1}{2!}(\theta-\widehat{\theta})^\top \widehat{\mathcal{I}}(\theta-\widehat{\theta})$$

Expansão para função escore é dada por:

$$\widehat{U}-U=\frac{\partial U^\top}{\partial \theta}(\theta-\widehat{\theta})$$

Igualando $\widehat{U}=0$ obtemos a relação aproximada:

$$\mathcal{I}^{-1}U=\theta-\widehat{\theta}$$

Para mostrar a utilização deste resultado, tomamos um caso particular, que é o caso em que existe uma densidade de probabilidade, caso contrário teríamos que definir uma derivada de Radon-Nikodym e não é o objetivo deste seção. Com isso, sob condições de regularidade, ou seja, utilizamos funções $g:\Theta\rightarrow \mathbb{R}^p$ suaves ou de classe $C^\infty(\Theta,\mathbb{R}^p).$  

Desta forma, dado que $\theta$ é o verdadeiro parâmetro, o primeiro momento do escore é zero. De fato,

$$\mathbb{E} \left[\left.{\frac {\partial }{\partial \theta }}\log f(X;\theta )\right|\theta \right] =\int {\frac {{\frac {\partial }{\partial \theta }}f(x;\theta )}{f(x;\theta )}}f(x;\theta )\,dx ={\frac {\partial }{\partial \theta }}\int f(x;\theta )\,dx ={\frac {\partial }{\partial \theta }}1=0.$$

Consequentemente, aplicamos o método de Newton-Raphson para o cálculo do estimador de máxima verossimilhança. Para isto, utilizamos a equação iterativa:

$$\theta^{(j+1)}=\theta^{(j)}+(\mathcal{I}^{(j)})^{-1}U^{(j)}$$

Ao substituirmos a informação observada pela esperada, obtemos:

$$J^{-1}U=\theta-\widehat{\theta}$$

Com isso, obtemos o método de escore de Fisher dada por:

$$\theta^{(j+1)}=\theta^{(j)}+(J^{(j)})^{-1}U^{(j)}$$

O estimador de máxima verossimilhança é obtido quando $|\widehat{\theta}^{(j+1)}-\widehat{\theta}^{(j)}|\textless \varepsilon,$ em que $\varepsilon$ é o erro na estimação, ou seja, quando a diferença entre as iterações é menor que um erro $\varepsilon.$ Para definirmos taxa de convergência, supomos uma métrica $d$ e fixamos um n. Deta forma, dizemos que a taxa de convergência de $\theta_n$ para $\theta$ é $O(\varepsilon_n)$ se $d(\theta_n,\theta)=O_{\mathbb{P}}(\varepsilon_n).$

Observação: Se a matriz de Informação Observada é aproximadamente singular em algum momento no processo de iteração, pode resultar na não convergência do método.

Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo os passos abaixo:

  • Encontrar a função de verossimilhança;
  • Aplicar a função ln;
  • Derivar em relação ao parâmetro $\theta$;
  • Igualar o resultado a zero.
  • Verificar que este estimador é ponto de máximo.

A seguir aplicamos os conceitos para algums distribuições de probabilidade conhecidas.

Exemplo 3.4.1:

Seja $X$ uma variável aleatória com distribuição Bernoulli(p). Tomemos uma amostra aleatória $X_1,\ldots,X_n$ de $X$. Qual é o estimador de máxima verossimilhança para $p$?

Como $X \sim \ \text{Bernoulli}(p)$, a função de probabilidade de $X$ é \[f_p(x)=p^x(1-p)^{1-x}.\]

Desta forma, a função de verossimilhança é dada por \[L(p;x_1,\ldots,x_n)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{\sum_{i=1}^n(1-x_i)}.\]

Para encontrar o estimador de máxima verossimilhança para $p$, devemos encontrar o valor de $p$ para o qual a função de verossimilhança $L(p;x_1,\ldots,x_n)$ é máxima. Aplicando a função logaritmo natural (ln) na função de verossimilhança $L(p;x_1,\ldots,x_n)$, temos que \[\ln L(p,x_1,\ldots,x_n)=\sum_{i=1}^nx_i\ln(p)+\sum_{i=1}^n(1-x_i)\ln(1-p)\]

e, derivando em relação a $p$, segue que \[\frac{d\ln L(p;x_1,\ldots,x_n)}{dp}=\frac{(1-p)\displaystyle\sum_{i=1}^nx_i-p\sum_{i=1}^n(1-x_i)}{p(1-p)}.\]

Igualando o resultado a zero, obtemos que \[\frac{(1-\hat{p})\displaystyle \sum_{i=1}^nx_i-\hat{p}(\displaystyle\sum_{i=1}^n(1-x_i))}{\hat{p}(1-\hat{p})}=0\Leftrightarrow \hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\overline{x}.\]

É fácil verificar, utilizando o teste da segunda derivada que $\hat{p}=\frac{1}{n}\overline{X}$ é realmente um estimador de máxima verossimilhança para $p$.

Exemplo 3.4.2:

Seja $X$ uma variável aleatória com distribuição de Poisson e parâmetro $\lambda$. Tomemos uma amostra aleatória $X_1,\ldots,X_n$ independente e igualmente distribuída de $X$. Qual é o estimador de máxima verossimilhança para $\lambda$?

Como X $\sim \ \text{Poisson}(\lambda)$, a função de probabilidade de $X$ é \[f_{\lambda}(x)=\frac{\lambda^xe^{-\lambda}}{x!}, \quad k\in\mathbb{N}.\]

Desta forma, a função de verossimilhança é dada por \[L(\lambda;x_1,\ldots,x_n)=\prod_{i=1}^n\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}\]

Ou seja,  \[L(\lambda;x_1,\ldtos,x_n)=\frac{1}{\prod_{i=1}^nx_i!}\lambda^{\sum_{i=1}^nx_i}e^{-n\lambda}.\]

Para encontrar o estimador de máxima verossimilhança para $\lambda$, devemos encontrar o valor de $\lambda$ para o qual a função de verossimilhança $L(\lambda;x_1,\ldots,x_n)$ é máxima.

Aplicamos a função logaritmo natural (ln) na função de verossimilhança $L(\lambda;x_1,\ldots,x_n)$. Desta forma, temos que \[\ln L(\lambda;x_1,\ldots,x_n)=\ln\left(\frac{1}{\prod_{i=1}^nx_1!}\right)+\sum_{i=1}^nx_i\ln\lambda-n\lambda\]

e, derivando em relação a $\lambda$, segue que \[\frac{d\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda}=\frac{1}{\lambda}\sum_{i=1}^nx_i-n.\]

Igualando o resultado a zero, segue que \[\frac{1}{\hat{\lambda}}\sum_{i=1}^nx_i-n=0\Leftrightarrow\hat{\lambda}=\frac{\sum_{i=1}^nx_i}{n}=\overline{x}.\]

Neste caso, o possível estimador de máxima verossimilhança para o parâmetro $\lambda$ é $\hat{\lambda}=\overline{X}$. Basta verificar se este ponto é realmente um ponto de máximo. Para isto, vamos calcular a segunda derivada de $\ln L(\lambda;x_1,\ldots,x_n)$. \[\frac{d^2\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda^2}=-\frac{1}{\lambda^2}\sum_{i=1}^nx_i \ \textless \ 0.\]

Portanto, concluímos que $\hat{\lambda}=\overline{X}$ é um estimador de máxima verossimilhança para o parâmetro $\lambda$.

Exemplo 3.4.3: 

Seja $X$ uma variável aleatória com distribuição Normal com média $\mu$ e variância $\sigma^2$. Tomemos uma amostra aleatória independente e igualmente distribuída $X_1,\ldots,X_n$ de $X$. Qual o estimador de máxima verossimilhança para $\theta = (\mu,\sigma^2)$?

Como $X \sim N(\mu,\sigma^2)$, a função densidade de $X$ é \[f_{\mu,\sigma^2}(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right], \quad -\infty \ \textless \ x \ \textless \ \infty.\]

Assim, a função de verossimilhança é dada por \[L(\mu,\sigma^2;x_1,\ldots,x_n)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2\right]\]

Ou seja, \[L(\mu,\sigma^2;x_1,\ldots,x_n)=(2\pi)^{-n/2}(\sigma^2)^{-n/2}\exp\left[-\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma}\right)^2\right].\]

Para encontrar o estimador de máxima verossimilhança para  $\theta = (\mu,\sigma^2)$ devemos encontrar os valores de $\mu$ e $\sigma^2$ para os quais a função de verossimilhança, $L(\mu,\sigma^2; x_1,\ldots,x_n)$, é máxima.

Para isso primeiramente aplicaremos a função ln, \[\ln L(\mu,\sigma^2;x_1,\ldots,x_n)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln(\sigma^2)-\frac{1}{2}\sum_{i=1}^n \frac{(x_i-\mu)^2}{\sigma^2}.\]

Agora vamos derivar em relação a $\mu$: \[\frac{\partial L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu}=-\frac{2}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)(-1)=\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right).\]

Igualando o resultado a zero obtemos: \[\sum_{i=1}^{n}\left(\frac{x_{i}-\hat{\mu}}{\sigma^{2}}\right)=0\Leftrightarrow\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow n\hat{\mu}=\sum_{i=1}^{n}x_{i}\Leftrightarrow\hat{\mu}=\bar{x}.\]

E então, o possível estimador de máxima verossimilhança da média populacional $\mu$ é $\overline{X}$. Basta avaliar agora se realmente $\overline{x}$ é ponto de máximo. Para isto, \[\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu^2}=\frac{\partial^2}{\partial\mu^2}\left[\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)\right]=-\frac{n}{\sigma^2}\ \textless \ 0.\]

Assim, concluimos que $\overline{x}$ é realmente um ponto de máximo e, portanto, o estimador de máxima verossimilhança para $\mu$ é $\hat{\mu}=\overline{X}$. Vamos agora encontrar o estimador de máxima verossimilhança para a variância $\sigma^2$. Para isso, derivamos a função em relação a $\sigma^2$: \[\frac{\partial\ln L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2.\]

Igualando a zero, temos que \[-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2=0\Leftrightarrow -n+\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^2}=0\Leftrightarrow\hat{\sigma}^2=\frac{(n-1)}{n}s^2.\]

Como \[\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=\frac{1}{(\sigma^2)^2}\left(\frac{n}{2}-\frac{(n-1)s^2}{\sigma^2}\right)\]

que, avaliado em $\hat{\sigma}^2=\frac{(n-1)s^2}{n}$ é tal que \[\frac{\partial^2 L(\mu,\hat{\sigma}^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=-\frac{n}{2}\frac{1}{(\hat{\sigma}^2)^2} \ \textless \ 0.\]

Portanto, o estimador de máxima verossimilhança para $\sigma^2$ é $\displaystyle\hat{\sigma}^2=\frac{(n-1)}{n}s^2$, onde $\displaystyle s^2=\frac{\sum_{i=1}^n(x_i-\mu)^2}{n-1}$.

O exemplo a seguir nos mostra que nem sempre a estratégia acima pode ser aplicada.

Exemplo 3.4.4

Seja $X$ uma variável aleatória uniformemente distribuída em $[0,\theta]$ e $X_1, \ldots, X_n$ uma amostra aleatória i.i.d de $X$. Esta distribuição tem função densidade de probabilidade dada por \[f(x|\theta) = \left\{\begin{array}{l}\frac{1}{\theta}, \ \hbox{se} \ 0\leq x\leq\theta, \\ 0 \ \hbox{caso contrário}\end{array}\right.\]

A função de verossimilhança é dada por \[L(\theta;X_1,\ldots,X_n) = \prod_{i=1}^nf(X_i|\theta)=\frac{1}{\theta^n}1\!\!1_{\{X_1,\ldots,X_n\in[0,\theta]\}} = \frac{1}{\theta^n}1\!\!1_{\max\{X_1,\ldots,X_n\}\leq\theta}.\]

e, como $\frac{1}{\theta^n}$ é uma função decrescente de $\theta$, a estimativa será o menor valor possível de $\theta$ para o qual $\theta\geq X_i$ para $i= 1, \ldots, n$. Este valor é $\theta = \max\{X_1,\ldots,X_n\}$, de onde segue que  o estimador de máxima verossimilhança de $\theta$ é $\hat{\theta}=\max\{X_1,\ldots,X_n\}$.

Exemplo 3.4.5:

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição exponencial e parâmetro $\theta=\lambda$ e $f(x) = \lambda \exp(-\lambda x),$ a densidade de probabilidade para $x\geq 0$ e 0 caso contrário. Neste caso, vamos procurar o candidato $\theta$ que maximiza a função $L(\theta).$ A função de verossimilhança para a distribuição Exponencial é obtida da seguinte forma:

$$L(\lambda)=\prod_{i=1}^{n}f(x_i;\theta)=\prod_{i=1}^{n}\lambda \exp(-\lambda x_{i})=\lambda^{n} \exp\left(-\lambda \sum_{i=1}^{n} x_{i}\right).$$

Com isso, o logaritmo da função de verossimilhança é dado por

$$\log L(\lambda)=n \log (\lambda) - \lambda \displaystyle\sum_{i=1}^{n}x_{i}$$

Derivando essa expressão em relação a $\lambda$, obtemos

$$\dfrac{\partial \log L(\lambda)}{\partial \lambda}=\dfrac{n}{\lambda}-\sum_{i=1}^{n}x_{i},$$

e igualando a zero, temos que a expressão do estimador de máxima verossimilhança $\widehat{\lambda}$ é dada por

$$\widehat{\lambda}=\dfrac{n}{\displaystyle\sum_{i=1}^{n}x_i}=\frac{1}{\overline{x}}.$$

Como a distribuição exponencial é um caso particular da próxima distribuição de probabilidade, a matriz de informação observada será dada no próximo tópico.

Inferência

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]