3.4 - Estimadores de Máxima Verossimilhança

Você está aqui

O princípio de máxima verossimilhança é um dos procedimentos usados para se obter estimadores. Ele trata o problema de estimação baseado nos resultados obtidos pela amostra e devemos determinar qual a distribuição, dentre todas aquelas definidas pelos possíveis valores de seus parâmetros, com maior possibilidade de ter gerado tal amostra. Consideremos uma população e uma variável aleatória $ X $, relacionada a essa população, com função de probabilidade (se $ X $ é uma variável aleatória discreta) ou função densidade de probabilidade (se $ X $ é uma variável aleatória contínua) $ f(x,\theta) $, sendo $ \theta $ o parâmetro desconhecido. Seja ~\theta \in\Theta\}_{n\geq 1} $ sequência de modelos, com espaço paramétrico $ \Theta\in\mathbb{R}^p. $ Desta forma, retiramos uma amostra aleatória simples de $ X $, de tamanho $ n $, $ X_1,\ldots,X_n $, e sejam $ x_1,\ldots,x_n $ os valores efetivamente observados.

A função de verossimilhança $ L $ é definida por 

\[L(\theta;x_1,\ldots,x_n)=f(x_1;\theta)\times\ldots\times f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta).\]

Se $ X $ é uma variável aleatória discreta com função de distribuição p(x,θ), a função de verossimilhança é dada por  

\[L(\theta;x_1,\ldots,x_n)=p(x_1;\theta)\times\ldots\times p(x_n;\theta)=\prod_{i=1}^n p(x_i;\theta).\]

que deve ser interpretada como uma função de $ \theta $Com isso, dizemos que $ \widehat{\theta} $ é um estimador de máxima verossimilhança (EMV) para $ \theta=\theta_0 $, se $ f(\mathbf{x};\widehat{\theta})\in\mathcal{P} $ e para algum$ f(\mathbf{x};\theta_0)\in\mathcal{P} $ obtemos

$$\prod^n_{i=1}f(\mathbf{x};\widehat{\theta})\geq \prod^n_{i=1}f(\mathbf{x};\theta_0)$$

desde que qualquer parametrização seja identificável.  Em outras palavras:

$$L(\widehat{\theta};\mathbf{x})=\sup_{\theta_0\in\Theta}L(\theta_0;\mathbf{x})$$

A seguir definimos a função escore como:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}$$

cujas propriedades são $ \mathbb{E}(U)=0 $ e $ \text{Cov}(U)=\mathbb{E}\left(-\frac{\partial U^\top}{\partial \theta}\right)=\mathbb{E}\left(-\frac{\partial^2 \log L(\theta)}{\partial \theta \partial \theta^\top}\right)=J. $ Já a matriz de informação observada é dada por:

$$\mathcal{I}=-\frac{\partial U^\top}{\partial \theta}=-\frac{\partial^2 \log L(\theta) }{\partial \theta \partial \theta^\top}$$

O próximo passo é expandirmos em série de Taylor em torno de $ \widehat{\theta}. $ Para isto, tomamos $ \widehat{U}=0 $ e obtemos:

$$\log L(\widehat{\theta})-\log L(\theta)=\frac{1}{2!}(\theta-\widehat{\theta})^\top \widehat{\mathcal{I}}(\theta-\widehat{\theta})$$

Expansão para função escore é dada por:

$$\widehat{U}-U=\frac{\partial U^\top}{\partial \theta}(\theta-\widehat{\theta})$$

Igualando $ \widehat{U}=0 $ obtemos a relação aproximada:

$$\mathcal{I}^{-1}U=\theta-\widehat{\theta}$$

Para mostrar a utilização deste resultado, tomamos um caso particular, que é o caso em que existe uma densidade de probabilidade, caso contrário teríamos que definir uma derivada de Radon-Nikodym e não é o objetivo deste seção. Com isso, sob condições de regularidade, ou seja, utilizamos funções \Theta\rightarrow \mathbb{R}^p $ suaves ou de classe $ C^\infty(\Theta,\mathbb{R}^p). $  

Desta forma, dado que $ \theta $ é o verdadeiro parâmetro, o primeiro momento do escore é zero. De fato,

$$\mathbb{E} \left[\left.{\frac {\partial }{\partial \theta }}\log f(X;\theta )\right|\theta \right] =\int {\frac {{\frac {\partial }{\partial \theta }}f(x;\theta )}{f(x;\theta )}}f(x;\theta )\,dx ={\frac {\partial }{\partial \theta }}\int f(x;\theta )\,dx ={\frac {\partial }{\partial \theta }}1=0.$$

Consequentemente, aplicamos o método de Newton-Raphson para o cálculo do estimador de máxima verossimilhança. Para isto, utilizamos a equação iterativa:

$$\theta^{(j+1)}=\theta^{(j)}+(\mathcal{I}^{(j)})^{-1}U^{(j)}$$

Ao substituirmos a informação observada pela esperada, obtemos:

$$J^{-1}U=\theta-\widehat{\theta}$$

Com isso, obtemos o método de escore de Fisher dada por:

$$\theta^{(j+1)}=\theta^{(j)}+(J^{(j)})^{-1}U^{(j)}$$

O estimador de máxima verossimilhança é obtido quando $ |\widehat{\theta}^{(j+1)}-\widehat{\theta}^{(j)}|\textless \varepsilon, $ em que $ \varepsilon $ é o erro na estimação, ou seja, quando a diferença entre as iterações é menor que um erro $ \varepsilon. $ Para definirmos taxa de convergência, supomos uma métrica $ d $ e fixamos um n. Deta forma, dizemos que a taxa de convergência de $ \theta_n $ para $ \theta $ é $ O(\varepsilon_n) $ se $ d(\theta_n,\theta)=O_{\mathbb{P}}(\varepsilon_n). $

Observação: Se a matriz de Informação Observada é aproximadamente singular em algum momento no processo de iteração, pode resultar na não convergência do método.

Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo os passos abaixo:

  • Encontrar a função de verossimilhança;
  • Aplicar a função ln;
  • Derivar em relação ao parâmetro $ \theta $;
  • Igualar o resultado a zero.
  • Verificar que este estimador é ponto de máximo.

A seguir aplicamos os conceitos para algums distribuições de probabilidade conhecidas.

Exemplo 3.4.1:

Seja $ X $ uma variável aleatória com distribuição Bernoulli(p). Tomemos uma amostra aleatória $ X_1,\ldots,X_n $ de $ X $. Qual é o estimador de máxima verossimilhança para $ p $?

Como $ X \sim \ \text{Bernoulli}(p) $, a função de probabilidade de $ X $ é 

\[f_p(x)=p^x(1-p)^{1-x}.\]

Desta forma, a função de verossimilhança é dada por 

\[L(p;x_1,\ldots,x_n)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{\sum_{i=1}^n(1-x_i)}.\]

Para encontrar o estimador de máxima verossimilhança para $ p $, devemos encontrar o valor de $ p $ para o qual a função de verossimilhança $ L(p;x_1,\ldots,x_n) $ é máxima. Aplicando a função logaritmo natural (ln) na função de verossimilhança $ L(p;x_1,\ldots,x_n) $, temos que 

\[\ln L(p,x_1,\ldots,x_n)=\sum_{i=1}^nx_i\ln(p)+\sum_{i=1}^n(1-x_i)\ln(1-p)\]

e, derivando em relação a $ p $, segue que 

\[\frac{d\ln L(p;x_1,\ldots,x_n)}{dp}=\frac{(1-p)\displaystyle\sum_{i=1}^nx_i-p\sum_{i=1}^n(1-x_i)}{p(1-p)}.\]

Igualando o resultado a zero, obtemos que 

\[\frac{(1-\hat{p})\displaystyle \sum_{i=1}^nx_i-\hat{p}(\displaystyle\sum_{i=1}^n(1-x_i))}{\hat{p}(1-\hat{p})}=0\Leftrightarrow \hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\overline{x}.\]

É fácil verificar, utilizando o teste da segunda derivada que $ \hat{p}=\frac{1}{n}\overline{X} $ é realmente um estimador de máxima verossimilhança para $ p $.

Exemplo 3.4.2:

Seja $ X $ uma variável aleatória com distribuição de Poisson e parâmetro $ \lambda $. Tomemos uma amostra aleatória $ X_1,\ldots,X_n $ independente e igualmente distribuída de $ X $. Qual é o estimador de máxima verossimilhança para $ \lambda $?

Como X $ \sim \ \text{Poisson}(\lambda) $, a função de probabilidade de $ X $ é 

\[f_{\lambda}(x)=\frac{\lambda^xe^{-\lambda}}{x!}, \quad k\in\mathbb{N}.\]

Desta forma, a função de verossimilhança é dada por 

\[L(\lambda;x_1,\ldots,x_n)=\prod_{i=1}^n\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}\]

Ou seja,  

\[L(\lambda;x_1,\ldtos,x_n)=\frac{1}{\prod_{i=1}^nx_i!}\lambda^{\sum_{i=1}^nx_i}e^{-n\lambda}.\]

Para encontrar o estimador de máxima verossimilhança para $ \lambda $, devemos encontrar o valor de $ \lambda $ para o qual a função de verossimilhança $ L(\lambda;x_1,\ldots,x_n) $ é máxima.

Aplicamos a função logaritmo natural (ln) na função de verossimilhança $ L(\lambda;x_1,\ldots,x_n) $. Desta forma, temos que 

\[\ln L(\lambda;x_1,\ldots,x_n)=\ln\left(\frac{1}{\prod_{i=1}^nx_1!}\right)+\sum_{i=1}^nx_i\ln\lambda-n\lambda\]

e, derivando em relação a $ \lambda $, segue que 

\[\frac{d\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda}=\frac{1}{\lambda}\sum_{i=1}^nx_i-n.\]

Igualando o resultado a zero, segue que 

\[\frac{1}{\hat{\lambda}}\sum_{i=1}^nx_i-n=0\Leftrightarrow\hat{\lambda}=\frac{\sum_{i=1}^nx_i}{n}=\overline{x}.\]

Neste caso, o possível estimador de máxima verossimilhança para o parâmetro $ \lambda $ é $ \hat{\lambda}=\overline{X} $. Basta verificar se este ponto é realmente um ponto de máximo. Para isto, vamos calcular a segunda derivada de $ \ln L(\lambda;x_1,\ldots,x_n) $

\[\frac{d^2\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda^2}=-\frac{1}{\lambda^2}\sum_{i=1}^nx_i \ \textless \ 0.\]

Portanto, concluímos que $ \hat{\lambda}=\overline{X} $ é um estimador de máxima verossimilhança para o parâmetro $ \lambda $.

Exemplo 3.4.3: 

Seja $ X $ uma variável aleatória com distribuição Normal com média $ \mu $ e variância $ \sigma^2 $. Tomemos uma amostra aleatória independente e igualmente distribuída $ X_1,\ldots,X_n $ de $ X $. Qual o estimador de máxima verossimilhança para $ \theta = (\mu,\sigma^2) $?

Como $ X \sim N(\mu,\sigma^2) $, a função densidade de $ X $ é 

\[f_{\mu,\sigma^2}(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right], \quad -\infty \ \textless \ x \ \textless \ \infty.\]

Assim, a função de verossimilhança é dada por 

\[L(\mu,\sigma^2;x_1,\ldots,x_n)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2\right]\]

Ou seja, 

\[L(\mu,\sigma^2;x_1,\ldots,x_n)=(2\pi)^{-n/2}(\sigma^2)^{-n/2}\exp\left[-\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma}\right)^2\right].\]

Para encontrar o estimador de máxima verossimilhança para  $ \theta = (\mu,\sigma^2) $ devemos encontrar os valores de $ \mu $ e $ \sigma^2 $ para os quais a função de verossimilhança, $ L(\mu,\sigma^2; x_1,\ldots,x_n) $, é máxima.

Para isso primeiramente aplicaremos a função ln, 

\[\ln L(\mu,\sigma^2;x_1,\ldots,x_n)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln(\sigma^2)-\frac{1}{2}\sum_{i=1}^n \frac{(x_i-\mu)^2}{\sigma^2}.\]

Agora vamos derivar em relação a $ \mu $

\[\frac{\partial L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu}=-\frac{2}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)(-1)=\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right).\]

Igualando o resultado a zero obtemos: 

\[\sum_{i=1}^{n}\left(\frac{x_{i}-\hat{\mu}}{\sigma^{2}}\right)=0\Leftrightarrow\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow n\hat{\mu}=\sum_{i=1}^{n}x_{i}\Leftrightarrow\hat{\mu}=\bar{x}.\]

E então, o possível estimador de máxima verossimilhança da média populacional $ \mu $ é $ \overline{X} $. Basta avaliar agora se realmente $ \overline{x} $ é ponto de máximo. Para isto, 

\[\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu^2}=\frac{\partial^2}{\partial\mu^2}\left[\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)\right]=-\frac{n}{\sigma^2}\ \textless \ 0.\]

Assim, concluimos que $ \overline{x} $ é realmente um ponto de máximo e, portanto, o estimador de máxima verossimilhança para $ \mu $ é $ \hat{\mu}=\overline{X} $. Vamos agora encontrar o estimador de máxima verossimilhança para a variância $ \sigma^2 $. Para isso, derivamos a função em relação a $ \sigma^2 $

\[\frac{\partial\ln L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2.\]

Igualando a zero, temos que 

\[-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2=0\Leftrightarrow -n+\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^2}=0\Leftrightarrow\hat{\sigma}^2=\frac{(n-1)}{n}s^2.\]

Como 

\[\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=\frac{1}{(\sigma^2)^2}\left(\frac{n}{2}-\frac{(n-1)s^2}{\sigma^2}\right)\]

que, avaliado em $ \hat{\sigma}^2=\frac{(n-1)s^2}{n} $ é tal que 

\[\frac{\partial^2 L(\mu,\hat{\sigma}^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=-\frac{n}{2}\frac{1}{(\hat{\sigma}^2)^2} \ \textless \ 0.\]

Portanto, o estimador de máxima verossimilhança para $ \sigma^2 $ é $ \displaystyle\hat{\sigma}^2=\frac{(n-1)}{n}s^2 $, onde $ \displaystyle s^2=\frac{\sum_{i=1}^n(x_i-\mu)^2}{n-1} $.

O exemplo a seguir nos mostra que nem sempre a estratégia acima pode ser aplicada.

Exemplo 3.4.4

Seja $ X $ uma variável aleatória uniformemente distribuída em $ [0,\theta] $ e $ X_1, \ldots, X_n $ uma amostra aleatória i.i.d de $ X $. Esta distribuição tem função densidade de probabilidade dada por 

\[f(x|\theta) = \left\{\begin{array}{l}\frac{1}{\theta}, \ \hbox{se} \ 0\leq x\leq\theta, \\ 0 \ \hbox{caso contrário}\end{array}\right.\]

A função de verossimilhança é dada por 

\[L(\theta;X_1,\ldots,X_n) = \prod_{i=1}^nf(X_i|\theta)=\frac{1}{\theta^n}1\!\!1_{\{X_1,\ldots,X_n\in[0,\theta]\}} = \frac{1}{\theta^n}1\!\!1_{\max\{X_1,\ldots,X_n\}\leq\theta}.\]

e, como $ \frac{1}{\theta^n} $ é uma função decrescente de $ \theta $, a estimativa será o menor valor possível de $ \theta $ para o qual $ \theta\geq X_i $ para $ i= 1, \ldots, n $. Este valor é $ \theta = \max\{X_1,\ldots,X_n\} $, de onde segue que  o estimador de máxima verossimilhança de $ \theta $ é $ \hat{\theta}=\max\{X_1,\ldots,X_n\} $.

Exemplo 3.4.5:

Sejam $ (X_i)_{1\leq i\leq n} $ variáveis aleatórias com distribuição exponencial e parâmetro $ \theta=\lambda $ e $ f(x) = \lambda \exp(-\lambda x), $ a densidade de probabilidade para $ x\geq 0 $ e 0 caso contrário. Neste caso, vamos procurar o candidato $ \theta $ que maximiza a função $ L(\theta). $ A função de verossimilhança para a distribuição Exponencial é obtida da seguinte forma:

$$L(\lambda)=\prod_{i=1}^{n}f(x_i;\theta)=\prod_{i=1}^{n}\lambda \exp(-\lambda x_{i})=\lambda^{n} \exp\left(-\lambda \sum_{i=1}^{n} x_{i}\right).$$

Com isso, o logaritmo da função de verossimilhança é dado por

$$\log L(\lambda)=n \log (\lambda) - \lambda \displaystyle\sum_{i=1}^{n}x_{i}$$

Derivando essa expressão em relação a $ \lambda $, obtemos

$$\dfrac{\partial \log L(\lambda)}{\partial \lambda}=\dfrac{n}{\lambda}-\sum_{i=1}^{n}x_{i},$$

e igualando a zero, temos que a expressão do estimador de máxima verossimilhança $ \widehat{\lambda} $ é dada por

$$\widehat{\lambda}=\dfrac{n}{\displaystyle\sum_{i=1}^{n}x_i}=\frac{1}{\overline{x}}.$$

Como a distribuição exponencial é um caso particular da próxima distribuição de probabilidade, a matriz de informação observada será dada no próximo tópico.

Inferência

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]