Estimadores de máxima verossimilhança
O princípio de máxima versossimilhança é um dos procedimentos usados para se obter estimadores. Consideremos uma população e uma variável aleatória X, relacionada a essa população, com função de probabilidade (se X é uma variável aleatória discreta) ou função densidade de probabilidade (se X é contínua) ƒ(x,θ), sendo θ o parâmetro desconhecido. Retiremos uma amostra aleatória simples de X, de tamanho n, X1,...,Xn, e sejam x1,...,xn os valores efetivamente observados.
A função de verossimilhança L é definida por
![]() |
Se
é uma variável aleatória discreta com função de distribuição p(x,θ), a função de verossimilhança é dada por
![]() |
que deve ser interpretada como uma função de θ. O estimador de máxima verossimilhança de θ é o valor que maximiza L(θ;x1,...,xn).
Como encontrar o estimador de máxima verossimilhança
- Encontrar a função de verossimilhança;
- Aplicar a função ln;
- Derivar em relação ao parâmetro θ;
- Igualar o resultado a zero.
- Verificar que este estimador é ponto de máximo.
Exemplo 3.1: Seja X uma variável aleatória com distribuição Bernoulli(p). Tomemos uma amostra aleatória X1, ..., Xn de X. Qual é o estimador de máxima verossimilhança para p?
Como X
Bernoulli(p), a função de probabilidade de X é
![]() |
Desta forma, a função de verossimilhança é dada por
![]() |
Para encontar o estimador de máxima verossimilhança para p, devemos encontrar o valor de p para o qual a função de verossimilhança L(p;x1,...,xn) é máxima. Aplicando a função logaritmo natural (ln) na função de verossimilhança L(p;x1,...,xn), temos que
![]() |
e, derivando em relação a p, segue que
![]() |
Igualando o resultado a zero, obtemos que
![]() |
É fácil verificar, utilizando o teste da segunda derivada que
é realmente um estimador de máxima verossimilhança para p.
Exemplo 3.2: Seja X uma variável aleatória com distribuição Poisson(λ). Tomemos uma amostra aleatória X1, ..., Xn iid de X. Qual é o estimador de máxima verossimilhança para λ?
Como X
Poisson(λ), a função de probabilidade de X é
![]() |
Desta forma, a função de verossimilhança é dada por
![]() |
Ou seja,
![]() |
Para encontrar o estimador de máxima verossimilhança para λ, devemos encontrar o valor de λ para o qual a função de verossimilhança L(λ;x1,...,xn) é máxima.
Aplicamos a função logaritmo natural (ln) na função de verossimilhança L(λ;x1,...,xn). Desta forma, temos que
![]() |
e, derivando em relação a λ, segue que
![]() |
Igualando o resultado a zero, segue que
![]() |
Neste caso, o possível estimador de máxima verossimilhança para o parâmetro λ é
. Basta verificar se este ponto é realmente um ponto de máximo. Para isto, vamos calcular a segunda derivada de ln L(λ; x1,...,xn).
![]() |
Portanto, concluímos que
é um estimador de máxima verossimilhança para o parâmetro λ.
Exemplo 3.3: Seja X uma variável aleatória com distribuição Normal com média μ e variância σ2. Tomemos uma amostra aleatória iid X1,...,Xn de X. Qual o estimador de máxima verossimilhança para θ=(μ,σ2)?
Como X
N(μ,σ2), a função densidade de X é
![]() |
Assim, a função de verossimilhança é dada por
![]() |
Ou seja,
![]() |
Para encontrar o estimador de máxima verossimilhança para θ=(μ,σ2) devemos encontrar os valores de μ e σ2 para os quais a função de verossimilhança, L(μ,σ2; x1,...,xn), é máxima.
Para isso primeiramente aplicaremos a função ln,
![]() |
Agora vamos derivar em relação a μ:
![]() |
Igualando o resultado a zero obtemos:
![]() |
E então, o possível estimador de máxima verossimilhança da média populacional μ é
. Basta avaliar agora se realmente
é ponto de máximo. Para isto,
![]() |
Assim, concluimos que
é realmente um ponto de máximo e, portanto, o estimador de máxima verossimilhança para μ é
. Vamos agora encontrar o estimador de máxima verossimilhança para a variância σ2. Para isso, derivamos a função em relação a σ2:
![]() |
Igualando a zero, temos que
![]() |
Como
![]() |
que, avaliado em
é tal que
![]() |
Portanto, o estimador de máxima verossimilhança para σ2 é
, onde
.

![\[L(\theta;x_1,\ldots,x_n)=f(x_1;\theta)\times\ldots\times f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta).\]](/sites/default/files/tex/f0ad5a411420e5b8f1a55d7cd93ab32306ad0e43.png)
![\[L(\theta;x_1,\ldots,x_n)=p(x_1;\theta)\times\ldots\times p(x_n;\theta)=\prod_{i=1}^n p(x_i;\theta).\]](/sites/default/files/tex/e77425bd0b28e34b6467617feded949f6726615a.png)
![\[f_p(x)=p^x(1-p)^{1-x}.\]](/sites/default/files/tex/5c78312bdc95e87c66cbaf1abe73adc732aae989.png)
![\[L(p;x_1,\ldots,x_n)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{\sum_{i=1}^n(1-x_i)}.\]](/sites/default/files/tex/e6f64b3b66ee2aa2dfdf315a32d9bd9901f20ed8.png)
![\[\ln L(p,x_1,\ldots,x_n)=\sum_{i=1}^nx_i\ln(p)+\sum_{i=1}^n(1-x_i)\ln(1-p)\]](/sites/default/files/tex/1ebe311b655fb775cb13a1a7c86643cadfc4536a.png)
![\[\frac{d\ln L(p;x_1,\ldots,x_n)}{dp}=\frac{(1-p)\displaystyle\sum_{i=1}^nx_i-p\sum_{i=1}^n(1-x_i)}{p(1-p)}.\]](/sites/default/files/tex/25ad0da84c913574bae5ae66fbbf5756afbc20a9.png)
![\[\frac{(1-\hat{p})\displaystyle \sum_{i=1}^nx_i-\hat{p}(\displaystyle\sum_{i=1}^n(1-x_i))}{\hat{p}(1-\hat{p})}=0\Leftrightarrow \hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\overline{x}.\]](/sites/default/files/tex/56f3ca0945ee4e277d55f174ae232330a853fc5d.png)
![\[f_{\lambda}(x)=\frac{\lambda^xe^{-\lambda}}{x!}, \quad k\in\mathbb{N}.\]](/sites/default/files/tex/d842fed83e8639a31e9c8cf53d4518fe231b4486.png)
![\[L(\lambda;x_1,\ldots,x_n)=\prod_{i=1}^n\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}\]](/sites/default/files/tex/b7ef1dd875be46656c6ac9873acfb4e644d9a396.png)
![\[L(\lambda;x_1,\ldtos,x_n)=\frac{1}{\prod_{i=1}^nx_i!}\lambda^{\sum_{i=1}^nx_i}e^{-n\lambda}.\]](/sites/default/files/tex/c9cf80569086c1a62607a5c0e466e2f356262698.png)
![\[\ln L(\lambda;x_1,\ldots,x_n)=\ln\left(\frac{1}{\prod_{i=1}^nx_1!}\right)+\sum_{i=1}^nx_i\ln\lambda-n\lambda\]](/sites/default/files/tex/9370187d1588349fd7eb820fec2bf85f5ddce701.png)
![\[\frac{d\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda}=\frac{1}{\lambda}\sum_{i=1}^nx_i-n.\]](/sites/default/files/tex/0713febff0025eeca5a867c61d7e5095de30fc23.png)
![\[\frac{1}{\hat{\lambda}}\sum_{i=1}^nx_i-n=0\Leftrightarrow\hat{\lambda}=\frac{\sum_{i=1}^nx_i}{n}=\overline{x}.\]](/sites/default/files/tex/c5f985e624710195472fd65d4bafcc35484caa80.png)
![\[\frac{d^2\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda^2}=-\frac{1}{\lambda^2}\sum_{i=1}^nx_i \ \textless \ 0.\]](/sites/default/files/tex/bbabc76f73559ed459ce634c22d8ba8069e67162.png)
![\[f_{\mu,\sigma^2}(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right], \quad -\infty \ \textless \ x \ \textless \ \infty.\]](/sites/default/files/tex/51262fb18e2837c852c75044828d7565b1ecbf5d.png)
![\[L(\mu,\sigma^2;x_1,\ldots,x_n)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2\right]\]](/sites/default/files/tex/6245f41a93de9e7b54451c4e6e3a66cf4bcac1c0.png)
![\[L(\mu,\sigma^2;x_1,\ldots,x_n)=(2\pi)^{-n/2}(\sigma^2)^{-n/2}\exp\left[-\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma}\right)^2\right].\]](/sites/default/files/tex/ecd2b319de62b5414e94c0920db0ab7818a19424.png)
![\[\ln L(\mu,\sigma^2;x_1,\ldots,x_n)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln(\sigma^2)-\frac{1}{2}\sum_{i=1}^n \frac{(x_i-\mu)^2}{\sigma^2}.\]](/sites/default/files/tex/b6bf31a7f13986c6f71a1876343bc423ebf4d08e.png)
![\[\frac{\partial L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu}=-\frac{2}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)(-1)=\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right).\]](/sites/default/files/tex/878ecd10e481cb47375ca18c273e1a9afab82411.png)
![\[\sum_{i=1}^{n}\left(\frac{x_{i}-\hat{\mu}}{\sigma^{2}}\right)=0\Leftrightarrow\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow n\hat{\mu}=\sum_{i=1}^{n}x_{i}\Leftrightarrow\hat{\mu}=\bar{x}.\]](/sites/default/files/tex/d28617537922ea86d888944a7149284a816561b8.png)
![\[\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu^2}=\frac{\partial^2}{\partial\mu^2}\left[\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)\right]=-\frac{n}{\sigma^2}\ \textless \ 0.\]](/sites/default/files/tex/bfbac92af26a55d75c605ce4d2ae633965a0194d.png)
![\[\frac{\partial\ln L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2.\]](/sites/default/files/tex/8a3c2752b0bd0fe4874a64ead76e2717275d6cbb.png)
![\[-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2=0\Leftrightarrow -n+\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^2}=0\Leftrightarrow\hat{\sigma}^2=\frac{(n-1)}{n}s^2.\]](/sites/default/files/tex/9e7991a464866828faa0615af0b2b829f800e094.png)
![\[\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=\frac{1}{(\sigma^2)^2}\left(\frac{n}{2}-\frac{(n-1)s^2}{\sigma^2}\right)\]](/sites/default/files/tex/84f25353eaf4c1dcf0a463c61a5cd618ca34bffc.png)
![\[\frac{\partial^2 L(\mu,\hat{\sigma}^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=-\frac{n}{2}\frac{1}{\hat{\sigma}}2} \ \textless \ 0.\]](/sites/default/files/tex/f93e08b22f37bca16b3b1751197471814b9c049a.png)