3.4.1 - Métodos numéricos dos estimadores de máxima verossimilhança

Você está aqui

O método de máxima verossimilhança trata o problema de estimação baseado nos resultados obtidos pela amostra e devemos determinar qual a distribuição, dentre todas aquelas definidas pelos possíveis valores de seus parâmetros, com maior possibilidade de ter gerado tal amostra. Nesta seção, vamos focar nos estimadores para variáveis aleatórias contínuas e sem censura. Então, seja $ (\Omega,\mathcal{F},\mathbb{P}) $ espaço de probabilidade, consideremos uma população e uma variável aleatória $ X $, relacionada a essa população, com função densidade de probabilidade (se $ X $ é uma variável aleatória contínua) $ f(x,\theta) $, sendo $ \theta $ o parâmetro desconhecido. Seja ~\theta \in\Theta\}_{n\geq 1} $ sequência de modelos, com espaço paramétrico $ \Theta\in\mathbb{R}^p. $ Desta forma, retiramos uma amostra aleatória simples de $ X $, de tamanho $ n $, $ X_1,\ldots,X_n $, e sejam $ x_1,\ldots,x_n $ os valores efetivamente observados.

A função de verossimilhança $ L $ é definida por 

\[L(\theta;\mathbf{x})=f(x_1;\theta)\times\ldots\times f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta)\quad\quad \text{com}~\mathbf{x}=(x_1\dots x_n)^\top.\]

Com isso, dizemos que $ \widehat{\theta} $ é um estimador de máxima verossimilhança (EMV) para $ \theta=\theta_0 $, se $ f(\mathbf{x};\widehat{\theta})\in\mathcal{P} $ e para algum$ f(\mathbf{x};\theta_0)\in\mathcal{P} $ obtemos

$$\prod^n_{i=1}f(\mathbf{x};\widehat{\theta})\geq \prod^n_{i=1}f(\mathbf{x};\theta_0)$$

desde que qualquer parametrização seja identificável.  Em outras palavras:

$$L(\widehat{\theta};\mathbf{x})=\sup_{\theta_0\in\Theta}L(\theta_0;\mathbf{x})$$

A seguir definimos a função escore como:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}$$

cujas propriedades são $ \mathbb{E}(U)=0 $ e $ \text{Cov}(U)=\mathbb{E}\left(-\frac{\partial U^\top}{\partial \theta}\right)=\mathbb{E}\left(-\frac{\partial^2 \log L(\theta)}{\partial \theta \partial \theta^\top}\right)=J. $ Já a matriz de informação observada é dada por:

$$\mathcal{I}=-\frac{\partial U^\top}{\partial \theta}=-\frac{\partial^2 \log L(\theta) }{\partial \theta \partial \theta^\top}$$

O próximo passo é expandirmos em série de Taylor em torno de $ \widehat{\theta}. $ Para isto, tomamos $ \widehat{U}=0 $ e obtemos:

$$\log L(\widehat{\theta})-\log L(\theta)=\frac{1}{2!}(\theta-\widehat{\theta})^\top \widehat{\mathcal{I}}(\theta-\widehat{\theta})$$

Expansão para função escore é dada por:

$$\widehat{U}-U=\frac{\partial U^\top}{\partial \theta}(\theta-\widehat{\theta})$$

Igualando $ \widehat{U}=0 $ obtemos a relação aproximada:

$$\mathcal{I}^{-1}U=\theta-\widehat{\theta}$$

Para mostrar a utilização deste resultado, tomamos um caso particular, que é o caso em que existe uma densidade de probabilidade, caso contrário teríamos que definir uma derivada de Radon-Nikodym e não é o objetivo deste seção. Com isso, sob condições de regularidade, ou seja, utilizamos funções \Theta\rightarrow \mathbb{R}^p $ suaves ou de classe $ C^\infty(\Theta,\mathbb{R}^p). $  

Desta forma, dado que $ \theta $ é o verdadeiro parâmetro, o primeiro momento do escore é zero. De fato,

$$\mathbb{E} \left[\left.{\frac {\partial }{\partial \theta }}\log f(X;\theta )\right|\theta \right] =\int {\frac {{\frac {\partial }{\partial \theta }}f(x;\theta )}{f(x;\theta )}}f(x;\theta )\,dx ={\frac {\partial }{\partial \theta }}\int f(x;\theta )\,dx ={\frac {\partial }{\partial \theta }}1=0.$$

Consequentemente, aplicamos o método de Newton-Raphson para o cálculo do estimador de máxima verossimilhança. Para isto, utilizamos a equação iterativa:

$$\theta^{(j+1)}=\theta^{(j)}+(\mathcal{I}^{(j)})^{-1}U^{(j)}$$

Ao substituirmos a informação observada pela esperada, obtemos:

$$J^{-1}U=\theta-\widehat{\theta}$$

Com isso, obtemos o método de escore de Fisher dada por:

$$\theta^{(j+1)}=\theta^{(j)}+(J^{(j)})^{-1}U^{(j)}$$

O estimador de máxima verossimilhança é obtido quando $ |\widehat{\theta}^{(j+1)}-\widehat{\theta}^{(j)}|\textless \varepsilon, $ em que $ \varepsilon $ é o erro na estimação, ou seja, quando a diferença entre as iterações é menor que um erro $ \varepsilon. $ Para definirmos taxa de convergência, supomos uma métrica $ d $ e fixamos um n. Deta forma, dizemos que a taxa de convergência de $ \theta_n $ para $ \theta $ é $ O(\varepsilon_n) $ se $ d(\theta_n,\theta)=O_{\mathbb{P}}(\varepsilon_n). $

Observação: Se a matriz de Informação Observada é aproximadamente singular em algum momento no processo de iteração, pode resultar na não convergência do método.

A seguir aplicamos os conceitos para algums distribuições de probabilidade conhecidas.

 

Distribuição Normal

O EMV para distribuição normal foram tratados no capítulo estimador de máxima verossimilhança (EMV). O teste de aderência para distribuição normal foi tratado no capítulo teste de normalidade.

A matriz de informação observada é dada por:

\[\mathcal{I}(\mu,\sigma^2)=-\dfrac{\partial[U(\theta)]^\top}{\partial\theta}=-\dfrac{\partial \log L(\mu,\sigma^2)}{\partial\theta\partial \theta^\top}=-\begin{bmatrix}\dfrac{\partial^2}{\partial\mu^2}\log L(\mu,\sigma^2)~~\dfrac{\partial^2}{\partial\mu\partial\sigma^2}\log L(\mu,\sigma^2)\\\dfrac{\partial^2}{\partial\sigma^2\partial\mu}\log L(\mu,\sigma^2)~~\dfrac{\partial^2}{\partial(\sigma^2)^2}\log L(\mu,\sigma^2)\end{bmatrix}=-\left[\begin{array}{l}G_{11}(\mu,\sigma^2) ~~G_{12}(\mu,\sigma^2)\\G_{21}(\mu,\sigma^2)~~G_{22}(\mu,\sigma^2)\end{array}\right]\]

em que

$$G_{11}(\mu,\sigma^2)=\dfrac{\partial^2\log L(\mu,\sigma^2)}{\partial\mu^2}=-\frac{n}{\sigma^2}$$

    

$$G_{22}(\mu,\sigma^2)= \dfrac{\partial^2\log L(\mu,\sigma^2)}{\partial (\sigma^2)^2} =\frac{1}{(\sigma^2)^2}\left(\frac{n}{2}-\frac{(n-1)s^2}{\sigma^2}\right)=\frac{n}{2(\sigma^2)^2}-\frac{1}{(\sigma^2)^3}\sum^n_{i=1}\left(x_i-\mu\right)^2$$

    

$$G_{12}(\mu,\sigma^2)=G_{21}(\mu,\sigma^2)=-\frac{1}{(\sigma^2)^2}\sum^n_{i=1}\left(x_i-\mu\right)$$

.

E a matriz de informação esperada é dada por:

\[\mathbb{E}[~\mathcal{I}(\mu,\sigma^2)~]=\begin{bmatrix}\mathbb{E}[~\dfrac{n}{\sigma^2}~]\qquad\qquad\qquad\mathbb{E}[~\dfrac{1}{(\sigma^2)^2}\sum^n_{i=1}\left(x_i-\mu\right)~]\\ \mathbb{E}[~\dfrac{1}{(\sigma^2)^2}\sum^n_{i=1}\left(x_i-\mu\right)~]\qquad\mathbb{E}[~\dfrac{n}{2(\sigma^2)^2}-\dfrac{1}{(\sigma^2)^3}\sum^n_{i=1}\left(x_i-\mu\right)^2]\end{bmatrix}=\begin{bmatrix}\dfrac{n}{2\sigma^2}\qquad\qquad0~\\~~0\qquad\qquad\dfrac{n}{2\sigma^4}\end{bmatrix}\]

Distribuição Exponencial

Sejam $ (X_i)_{1\leq i\leq n} $ variáveis aleatórias com distribuição exponencial e parâmetro $ \theta=\lambda $ e $ f(x) = \lambda \exp(-\lambda x), $ a densidade de probabilidade para $ x\geq 0 $ e 0 caso contrário. Neste caso, vamos procurar o candidato $ \theta $ que maximiza a função $ L(\theta). $ A função de verossimilhança para a distribuição Exponencial é obtida da seguinte forma:

$$L(\lambda)=\prod_{i=1}^{n}f(x_i;\theta)=\prod_{i=1}^{n}\lambda \exp(-\lambda x_{i})=\lambda^{n} \exp\left(-\lambda \sum_{i=1}^{n} x_{i}\right).$$

Com isso, o logaritmo da função de verossimilhança é dado por

$$\log L(\lambda)=n \log (\lambda) - \lambda \displaystyle\sum_{i=1}^{n}x_{i}$$

Derivando essa expressão em relação a $ \lambda $, obtemos

$$\dfrac{\partial \log L(\lambda)}{\partial \lambda}=\dfrac{n}{\lambda}-\sum_{i=1}^{n}x_{i},$$

e igualando a zero, temos que a expressão do estimador de máxima verossimilhança $ \widehat{\lambda} $ é dada por

$$\widehat{\lambda}=\dfrac{n}{\displaystyle\sum_{i=1}^{n}x_i}=\frac{1}{\overline{x}}.$$

E a informação observada é:

$$\mathcal{I}(\lambda)= -\dfrac{\partial^2 \log L(\lambda)}{\partial \lambda^2}=\dfrac{n}{\lambda^2}$$

 

Distribuição Weibull

 

Sejam $ (X_i)_{1\leq i\leq n} $ variáveis aleatórias com distribuição Weibull e parâmetros $ \theta=(\alpha,\delta) $ e

\[f(x)=\left\{\begin{array}{l}\dfrac{\delta}{\alpha^{\delta}}x^{\delta-1}\exp\left[-\left(\dfrac{x}{\alpha}\right)^{\delta}\right], \ \hbox{se} \ x\geq0\\ 0 \ \hbox{se} \ x \ \textless \ 0\end{array}\right.\]

a densidade de probabilidade.  A função de verossimilhança de $ \alpha $ e $ \delta $ para a distribuição de Weibull é dada por

$$L(\alpha,\delta)=\left\{\prod_{i=1}^{n}f(x_i;\theta)\right\}=\left\{\prod_{i=1}^{n} \dfrac{\delta}{\alpha^{\delta}} x_i^{\delta - 1} \exp \left[-\left(\dfrac{x_i}{\alpha}\right)^{\delta}\right]\right\}=\dfrac{\delta^n}{\alpha^{n\delta}}\left(\prod_{i=1}^{n}x_i\right)^{\delta-1}\exp\left\{-\dfrac{1}{\alpha^{\delta}} \sum_{i=1}^{n} x_i^{\delta}\right\}.$$

Com isso, a função de log-verossimilhança é dada por

$$\log L(\alpha,\delta)= n\log(\delta) - n\delta \log (\alpha) + (\delta-1)\sum_{i=1}^{n} \log(x_i) - \dfrac{1}{\alpha^{\delta}}\sum_{i=1}^{n} x_i^{\delta}$$

Derivando essa expressão em relação a $ \alpha $ e $ \delta $ e igualando a zero, obtemos as seguintes expressões para os estimadores de máxima verossimilhança $ \widehat{\alpha} $ e $ \widehat{\delta} $

$$\dfrac{\displaystyle\sum_{i=1}^{n}x_i^{\widehat{\delta}}\log(x_i)}{\displaystyle\sum_{i=1}^{n}x_i^{\widehat{\delta}}}- \dfrac{1}{\widehat{\delta}}-\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}\log(x_i)=0,~~~~~~~~~~~~~~~(7.1.1.1)$$

$$\widehat{\alpha}=\left(\dfrac{1}{n}\sum_{i=1}^{n}x_i^{\widehat{\delta}}\right)^{1/\widehat{\delta}}.~~~~~~~~~~~~~~~(7.1.1.2)$$

Os estimadores de máxima verossimilhança são os valores $ \widehat{\alpha} $ e $ \widehat{\delta} $ que satisfazem as equações (7.1.1.1) e (7.1.1.2). A solução desse sistema de equações para um conjunto de dados particular deve ser obtida por meio de um método numérico. A seguir, aplicamos o método de Newton-Raphson que usa a matriz de derivadas segundas (F) da função de log-verossimilhança e sua expressão é dada por

$$\widehat{\theta}^{(k+1)}=\widehat{\theta}^{(k)}-F^{-1} (\widehat{\theta}^{(k)})U(\widehat{\theta}^{(k)}),~~~~~~~~~~~~~~~(7.1.1.3)$$

em que

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}.$$

A expressão (7.1.1.3) é baseada na expansão de $ U(\widehat{\theta}^{(k)}) $ em série de Taylor em torno de $ \widehat{\theta}^{(k)} $. Partindo de um valor inicial $ \widehat{\theta}^{(0)}=0 $ o método atualiza esse valor a cada passo, convergindo para a solução desejada. Em geral, obtemos convergência em poucos passos com um erro relativo, em média, menor que 0,001 entre dois passos consecutivos. Observe que a matriz de derivadas G para o modelo Exponencial se reduz a um único número, dado por

$$G(\alpha)=\dfrac{\partial^2 \log L(\alpha)}{\partial \alpha^2}=\dfrac{n}{\alpha^2}-2\dfrac{\displaystyle\sum_{i=1}^{n}x_i}{\alpha^3}=\dfrac{n}{\alpha^2}\left(1-2\dfrac{\overline{x}}{\alpha}\right).$$

Já para o modelo de Weibull $ G(\alpha, \delta) $ é uma matriz simétrica 2x2 com os seguintes elementos

$$G_{11}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha^2}$$

$$G_{22}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \delta^2}$$

$$G_{12}(\alpha,\delta)=G_{21}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha \partial \delta}$$

A seguir construímos a matriz de informação observada. Para distribuição Weibull descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\alpha,\delta)}{\partial \alpha}, \dfrac{\partial L(\alpha,\delta)}{\partial \delta}\right)^\top$$

em que

$$\dfrac{\partial \log L(\alpha,\delta)}{\partial \alpha}=-\dfrac{\delta}{\alpha}\left(n+\frac{1}{\alpha^\delta}\sum^n_{i=1}x^\delta_i\right)$$

$$\dfrac{\partial L(\alpha,\delta)}{\partial \delta}=\frac{n}{\delta}-n\log \alpha + \sum^n_{i=1}\log x_i - \sum^n_{i=1} \left(\dfrac{x_i}{\alpha}\right) ^\delta \log \left(\dfrac{x_i}{\alpha}\right)$$

 

A matriz de informação observada é dada por:

$$\mathcal{I}(\alpha,\delta)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\alpha,\delta)}{\partial \theta\partial \theta^\top}=-\left[\begin{array}{l}\dfrac{\partial^2 }{\partial \alpha^2}\log L(\alpha,\delta)~~\dfrac{\partial^2 }{\partial \alpha\partial \delta}\log L(\alpha,\delta)\\\\ \dfrac{\partial^2 }{\partial \delta\partial \alpha}\log L(\alpha,\delta)~~\dfrac{\partial^2 }{\partial \delta^2}\log L(\alpha,\delta)\end{array}\right]=-\left[\begin{array}{l}G_{11}(\alpha,\delta) ~~G_{12}(\alpha,\delta)\\G_{21}(\alpha,\delta)~~G_{22}(\alpha,\delta)\end{array}\right]$$

em que

$$G_{11}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha^2}=\frac{n\delta}{\alpha^2} - \dfrac{\delta\left(\delta+1\right)}{\alpha^{\delta + 2}} \sum^n_{i=1} x_i^\delta$$

$$G_{22}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \delta^2}=-\frac{n}{\delta^2} - \sum^n_{i=1}\left(\log \dfrac{x_i}{\alpha}\right)^2 \left(\dfrac{x_i}{\alpha}\right)^{\delta}$$

$$G_{12}(\alpha,\delta)=G_{21}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha \partial \delta}=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \delta \partial \alpha}=-\frac{n}{\alpha}\; + \;\frac{1}{\alpha}\sum^n_{i=1} \left(\dfrac{x_i}{\alpha}\right) ^\delta - \sum^n_{i=1}\left(\log \dfrac{x_i}{\alpha}\right)^2 \left(\dfrac{x_i}{\alpha}\right)^{\delta}$$

ou seja,

$$\mathcal{I}(\alpha,\delta)=-\begin{bmatrix}\dfrac{n\delta}{\alpha^2}-\dfrac{\delta(\delta+1)}{\alpha^{\delta+2}}\sum\limits_{i=1}^nx_{i}^\delta\qquad\qquad\qquad\qquad-\dfrac{n}{\delta^2}-\dfrac{1}{\alpha}\sum\limits_{i=1}^n(\dfrac{x_{i}}{\alpha})^\delta-\sum\limits_{i=1}^n(\log\dfrac{x_{i}}{\alpha})^2 (\dfrac{x_{i}}{\alpha})^\delta\\\\ \dfrac{n}{\delta^2}-\dfrac{1}{\alpha}\sum\limits_{i=1}^n(\dfrac{x_{i}}{\alpha})^\delta-\sum\limits_{i=1}^n(\log\dfrac{x_{i}}{\alpha})^2 (\dfrac{x_{i}}{\alpha})^\delta\qquad\qquad\qquad\qquad-\dfrac{n}{\delta^2}-\sum\limits_{i=1}^n(\log\dfrac{x_{i}}{\alpha})^2 (\dfrac{x_{i}}{\alpha})^\delta \\\end{bmatrix}$$

 

Distribuição Gama

 

Sejam $ (X_i)_{1\leq i\leq n} $ variáveis aleatórias com distribuição Gama e parâmetros $ \alpha \ \textgreater \ 0 $ (também denominado parâmetro de forma) e $ \beta \ \textgreater \ 0 $ (parâmetro de taxa), denotando-se $ X \sim \ \text{Gama}(\alpha,\beta) $, se sua função densidade é dada por

\[f(x)=\left\{\begin{array}{l}\dfrac{\beta^{\alpha}x^{\alpha-1}e^{-\beta x}}{\Gamma({\alpha})} \ \hbox{se} \ x\geq0\\ 0, \ \hbox{caso contrário}\end{array}\right.\]

A função de verossimilhança para $ \alpha $ e $ \beta $ é dada por:

$$L(\alpha,\beta)=\prod^n_{i=1}f(x_i;(\alpha,\beta))=\prod^n_{i=1}\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}_i e^{-\beta x_i}= \left(\frac{\beta^\alpha}{\Gamma(\alpha)}\right)^n \exp\left\{-\beta \sum^n_{i=1}x_i\right\} \prod^n_{i=1} x^{\alpha-1}_i$$

Com isso, a função log-verossimilhança é dada por:

$$\log L(\alpha,\beta)=n\alpha\log\beta -n\log \Gamma(\alpha)-\beta \sum^n_{i=1}x_i+(\alpha-1)\sum^n_{i=1}\log x_i$$

A seguir construímos a matriz de informação observada. Para distribuição Gama descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\alpha,\beta)}{\partial \alpha}, \dfrac{\partial \log L(\alpha,\beta)}{\partial \beta}\right)^\top$$

    

em que

$$\dfrac{\partial \log L(\alpha,\beta)}{\partial \alpha}= n\log \beta-n\frac{\Gamma^\prime (\alpha)}{\Gamma (\alpha)}+\sum^n_{i=1}\log x_i$$

$$\dfrac{\partial L(\alpha,\beta)}{\partial \beta}= \frac{n\alpha}{\beta}-\sum^n_{i=1}x_i$$

Com isso, tomamos $  \widehat{U}=0  $ e obtemos:

$$\widehat{\alpha}=\overline{x}\widehat{\beta}$$

$$\widehat{\beta}=\exp\left\{ \frac{\Gamma^\prime(\alpha)}{\Gamma(\alpha)}-\sum^n_{i=1}\frac{\log x_i}{n} \right\}$$

Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

$$\mathcal{I}(\alpha,\beta)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\alpha,\beta)}{\partial \theta\partial \theta^\top}=-\left[\begin{array}{l}\dfrac{\partial^2 }{\partial \alpha^2}\log L(\alpha,\beta)~~\dfrac{\partial^2 }{\partial \alpha\partial \beta}\log L(\alpha,\beta)\\\dfrac{\partial^2 }{\partial \beta\partial \alpha}\log L(\alpha,\beta)~~\dfrac{\partial^2 }{\partial \beta^2}\log L(\alpha,\beta)\end{array}\right]=-\left[\begin{array}{l}G_{11}(\alpha,\beta) ~~G_{12}(\alpha,\beta)\\G_{21}(\alpha,\beta)~~G_{22}(\alpha,\beta)\end{array}\right]$$

    

em que

$$G_{11}(\alpha,\beta)= \dfrac{\partial^2 \log L(\alpha,\beta)}{\partial \alpha^2} = n\left(\frac{\Gamma^{\prime}(\alpha)}{\Gamma(\alpha)}\right)^2 -n\frac{\Gamma^{\prime\prime}(\alpha)}{\Gamma(\alpha)}$$

    

$$G_{22}(\alpha,\beta)= \dfrac{\partial^2 \log L(\alpha,\beta)}{\partial \beta^2} = -\frac{n\alpha}{\beta^2}$$

    

$$G_{12}(\alpha,\beta)=G_{21}(\alpha,\beta)=\dfrac{\partial^2 \log L(\alpha,\beta)}{\partial \alpha \partial \beta} = \frac{n}{\beta}$$

ou seja,

$$\mathcal{I}(\alpha,\beta)=-\left[\begin{array}{l}n\left(\dfrac{\Gamma^{\prime}(\alpha)}{\Gamma(\alpha)}\right)^2 -n\left(\dfrac{\Gamma^{\prime\prime}(\alpha)}{\Gamma(\alpha)}\right)\qquad\quad\dfrac{n}{\beta}\\\\ ~~\dfrac{n}{\beta}\qquad\qquad\qquad\qquad\qquad\qquad-\dfrac{n\alpha}{\beta^2} \\\end{array}\right]$$

 

Distribuição Logística

 

Sejam $ (X_i)_{1\leq i\leq n} $ variáveis aleatórias com distribuição Logística e parâmetros de locação μ e de escala s,  com função densidade de probabilidade dada por:

$$f(x)=\dfrac{1}{s}\dfrac{\exp\left\{\dfrac{x-\mu}{s}\right\}}{\left(1+\exp\left\{\dfrac{x-\mu}{s}\right\}\right)^2},\quad x,\mu\in \mathbb{R},~~s\textgreater 0.$$

A função de verossimilhança para $ \mu $ e s é dada por:

$$L(\mu,s)=\prod^n_{i=1}f(x_i;(\mu,s))=\prod^n_{i=1} \dfrac{1}{s} \dfrac{\exp\left\{\dfrac{x_i-\mu}{s}\right\}}{\left(1+\exp\left\{\dfrac{x_i-\mu}{s}\right\}\right)^2}$$

Com isso, a função log-verossimilhança é dada por:

$$\log L(\mu,s)=-n\log s +\sum^n_{i=1}\left(\dfrac{x_i-\mu}{s}\right)-2\sum^n_{i=1}\log \left(1+\exp\left\{\dfrac{x_i-\mu}{s}\right\}\right)$$

A seguir construímos a matriz de informação observada. Para distribuição Logística descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\mu,s)}{\partial \mu}, \dfrac{\partial L(\mu,s)}{\partial s}\right)^\top$$

    

em que

$$\dfrac{\partial \log L(\mu,s)}{\partial \mu}= -\dfrac{n}{s}~+~2~ \sum\limits_{i=1}^n\left[\dfrac{\exp\left\{\dfrac{x_i-\mu}{s}\right\}}{1+\exp\left\{\dfrac{x_i-\mu}{s}\right\}}~\dfrac{1}{s}\right]$$

$$\dfrac{\partial \log L(\mu,s)}{\partial s}= -\frac{n }{s} -\sum^n_{i=1}\left(\dfrac{x_i-\mu}{s^2}\right)~+~2~ \sum\limits_{i=1}^n\left[ \dfrac{\exp\left\{\dfrac{x_i-\mu}{s}\right\}}{1+\exp\left\{\dfrac{x_i-\mu}{s}\right\}}~\dfrac{x_i-\mu}{s^2}\right] $$

Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

$$\mathcal{I}(\mu,s)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\mu,s)}{\partial \theta\partial \theta^\top}=-\left[\begin{array}{l}\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,s)~~\dfrac{\partial }{\partial \mu\partial s}\log L(\mu,s)\\\dfrac{\partial^2 }{\partial s \partial \mu}\log L(\mu,s)~~\dfrac{\partial^2 }{\partial s^2}\log L(\mu,s)\end{array}\right]=-\left[\begin{array}{l}G_{11}(\mu,s) ~~G_{12}(\mu,s)\\G_{21}(\mu,s)~~G_{22}(\mu,s)\end{array}\right]$$

  

em que

$$G_{11}(\mu,s)= -~2~\sum^n_{i=1}\left[\dfrac{\exp\left\{\dfrac{x_i-\mu}{s}\right\}}{\left(1+\exp\left\{-\dfrac{x_i-\mu}{s}\right\}\right)^2}~\dfrac{1}{s^2}\right]$$

    

$$G_{22}(\mu,s)= \dfrac{n}{s^2} +\dfrac{2}{s^3}\sum^n_{i=1}(x_i-\mu)-\dfrac{4}{s^3}\sum^n_{i=1}\left[(x_i-\mu)\dfrac{\exp\left\{\dfrac{x_i-\mu}{s}\right\}}{1+\exp\left\{\dfrac{x_i-\mu}{s}\right\}}\right]- ~\dfrac{2}{s^4}~\sum^n_{i=1}\left[\left(x_i-\mu\right)^2\dfrac{\exp\left\{\dfrac{x_i-\mu}{s}\right\}}{\left(1+\exp\left\{\dfrac{x_i-\mu}{s}\right\}\right)^2}\right]$$

    

$$G_{12}(\mu,s)=G_{21}(\mu,s)= \dfrac{n}{s^2} + ~2~\sum^n_{i=1}\left[ \dfrac{\left(-\dfrac{1}{s^2}\cdot\exp\left\{\dfrac{x_i-\mu}{s}\right\}\right)\left(\dfrac{x_i+s-\mu}{s}+\exp\left\{\dfrac{x_i-\mu}{s}\right\}\right)}{\left(1+\exp\left\{\dfrac{x_i-\mu}{s}\right\}\right)^2}\right]$$

    
    

 

Distribuição Log-Normal

Sejam $ (X_i)_{1\leq i\leq n} $ variáveis aleatórias com distribuição Log-Normal e parâmetros de locação $ \mu $ e de escala $ \sigma $,  com função densidade de probabilidade dada por:
    

\[f(x;\mu,\sigma^2)=\left\{\begin{array}{l}\dfrac{1}{\sqrt{\left(2\pi\sigma^2\right)}~x}\exp\left[\dfrac{-(\log(x)-\mu)^2}{2\sigma^2}\right], \ \hbox{se} \ x \ \textgreater \ 0\\0, \ \hbox{caso contrário}\end{array}\right.\]

    
A função de verossimilhança de $ \mu $ e $ \sigma^2 $ para a distribuição de Log-Normal é:
    

\[L(\mu,\sigma^2)=\left\{\prod_{i=1}^{n}f(x_i;\theta)\right\}=\left\{\prod_{i=1}^{n} \dfrac{1}{\sqrt{\left(2\pi\sigma^2\right)}~x_{i}}\exp\left[\dfrac{-(\log(x_{i})-\mu)^2}{2\sigma^2}\right]\right\}\]

    
Com isso, a função de log-verossimilhança é dada por:
    

\[\log L(\mu,\sigma^2)= -\dfrac{n}{2}\log(2\pi) - \dfrac{n}{2}\log(\sigma^2) - \sum_{i=1}^{n} \log(x_i) - \dfrac{1}{2\sigma^2}\sum_{i=1}^{n} (\log(x_i)-\mu)^2\]

    
A seguir construímos a matriz de informação observada. Para distribuição Log-Normal descrevemos a função escore:
    

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\mu,\sigma^2)}{\partial \mu}, \dfrac{\partial \log L(\mu,\sigma^2)}{\partial \sigma^2}\right)^\top$$

    
em que  
    

$$\dfrac{\partial \log L(\mu,\sigma^2)}{\partial \mu}=\dfrac{1}{\sigma^2}\sum^n_{i=1}(\log x_i-\mu)$$

$$\dfrac{\partial \log L(\mu,\sigma^2)}{\partial \sigma^2}=-\dfrac{n}{2\sigma^2}+\sum^n_{i=1}\dfrac{(\log x_i-\mu)^2}{2(\sigma^2)^2}$$

    
Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

\[\mathcal{I}(\mu,\sigma^2)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\mu,\sigma^2)}{\partial \theta\partial \theta^\top}=-\left[\begin{array}{lr}\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,\sigma^2)~~~~~~~\dfrac{\partial^2 }{\partial \mu\partial \sigma^2}\log L(\mu,\sigma^2)\\\ \dfrac{\partial^2 }{\partial \sigma^2\partial \mu}\log L(\mu,\sigma^2)~~\dfrac{\partial^2 }{\partial (\sigma^2)^2}\log L(\mu,\sigma^2)\end{array}\right]=-\left[\begin{array}{lc}~-\dfrac{n}{\sigma^2}\qquad\qquad\qquad\qquad\qquad 0\\~~~0\qquad\dfrac{n}{2(\sigma^2)^2}-\sum\limits_{i=1}^n\dfrac{(\log(x_i)-\mu)^2}{(\sigma^2)^3}\end{array}\right]\]

 

Distribuição Gumbel

Sejam $ (X_i)_{1\leq i\leq n} $ variáveis aleatórias com distribuição gumbel e parâmetros de locação $ \mu $ e de escala $ \sigma $,  com função densidade de probabilidade dada por:

\[f(x;\mu,\sigma)=\left\{\begin{array}{l}\dfrac{1}{\sigma }\exp\left[-\dfrac{x-\mu}{\sigma}-\exp\left(-\dfrac{x-\mu}{\sigma}\right)\right], \ \hbox{se} \ x \ \textgreater \ 0\\0, \ \hbox{caso contrário}\end{array}\right.\]

A função de verossimilhança de $ \mu $ e $ \sigma $ para a distribuição de gumbel é:

\[L(\mu,\sigma)=\left\{\prod_{i=1}^{n}f(x_i;\theta)\right\}=\dfrac{1}{\sigma^n}\exp\left\lbrace -\sum^n_{i=1}\left[\dfrac{x_i-\mu}{\sigma}+\exp\left(-\dfrac{x_i-\mu}{\sigma}\right)\right]\right\rbrace \]

Com isso, a função de log-verossimilhança é dada por:

\[\log L(\mu,\sigma)= -n\log\sigma -\sum^n_{i=1}\left[\dfrac{x_i-\mu}{\sigma}+\exp\left(-\dfrac{x_i-\mu}{\sigma}\right)\right]\]

A seguir construímos a matriz de informação observada. Para distribuição Log-normal descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\mu,\sigma)}{\partial \mu}, \dfrac{\partial \log L(\mu,\sigma)}{\partial \sigma}\right)^\top$$

em que  

$$\dfrac{\partial \log L(\mu,\sigma)}{\partial \mu}=\sum^n_{i=1}\left[\dfrac{1}{\sigma}\left( 1-\exp\left(-\dfrac{x_i-\mu}{\sigma}\right) \right) \right]$$

$$\dfrac{\partial \log L(\mu,\sigma)}{\partial \sigma}=-\dfrac{n}{\sigma}+\sum^n_{i=1}\left[ \dfrac{x_i-\mu}{\sigma^2}\left( 1-\exp\left(-\dfrac{x_i-\mu}{\sigma}\right)\right) \right] $$

Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

\[\mathcal{I}(\mu,\sigma)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\mu,\sigma)}{\partial \theta\partial \theta^\top}=-\left[\begin{array}{lr}\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,\sigma)~~\dfrac{\partial^2 }{\partial \mu\partial \sigma}\log L(\mu,\sigma)\\\\ \dfrac{\partial^2 }{\partial \sigma\partial \mu}\log L(\mu,\sigma^2)~~\dfrac{\partial^2 }{\partial \sigma^2}\log L(\mu,\sigma^2)\end{array}\right] \]

em que

$$\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,\sigma)=-\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n\left[\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace\right]$$

$$\dfrac{\partial^2 }{\partial \sigma^2}\log L(\mu,\sigma^2)=\dfrac{n}{\sigma^2}-\sum^n_{i=1}\left[\dfrac{2(x_i-\mu)}{\sigma^3}-\dfrac{2(x_i-\mu)}{\sigma^3}\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace +\left(\dfrac{x_i-\mu}{\sigma^2}\right)^2\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace \right]$$

$$\dfrac{\partial^2 }{\partial \mu\partial \sigma}\log L(\mu,\sigma)=\dfrac{\partial^2 }{\partial \sigma\partial \mu}\log L(\mu,\sigma^2)=\sum^n_{i=1}\left[-\dfrac{1}{\sigma^2}+\dfrac{1}{\sigma^2}\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace -\left(\dfrac{x_i-\mu}{\sigma^3}\right)\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace \right]$$

    

Inferência

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]