4.1.1 - Transformação de Box-Cox

Você está aqui

Quando a distribuição normal não se adéqua aos dados, muitas vezes é útil aplicar a transformação de Box-Cox para obtermos a normalidade. Considerando X1, ..., Xn os dados originais, a transformação de Box-Cox consiste em encontrar um λ tal que os dados transformados Y1, ..., Yn se aproximem de uma distribuição normal. Esta transformação é dada por


$$Y_i(\lambda) = \left\{ \begin{array}{ll} \ln(X_i),~~~~~~\textrm{se $\lambda = 0$,} \\ \\ \dfrac{X_i^{\lambda} - 1}{\lambda},~~~~\textrm{se $\lambda \neq 0$,}\end{array} \right.$$

 

Método de Estimação

Precisamos então, encontrar uma estimativa para o parâmetro de transformação $ \lambda $. Uma das formas de estimar $ \lambda $ é utilizando o método de máxima verossimelhança. 

Assumimos que $ Y_i(\lambda), i=1,...,n $ é uma função monotona tal que $ Y_i(\lambda) \sim N(\mu,\sigma^2) $ para algum $ \lambda $ fixo. Portanto, a função de máxima verissimilhança de $ Y_i(\lambda) $ em relação às observações originais $ Y_i $ é obtida multiplicando a função de máxima verossimilhança pelo Jacobiano da transformação, temos então:

$$L\left(Y_i(\lambda), \mu, \sigma^2\right) = \dfrac{1}{(2\pi)^{n/2}\sigma^n} \exp \left\{\dfrac{-\sum^{n}_{i=1}\left(Y_i(\lambda) - \mu\right)^2}{2\sigma^2}\right\} J(\lambda, Y)$$

em que

$$J(\lambda, Y) = \prod_{i=1}^n \left|\dfrac{\partial Y_i(\lambda)}{\partial Y_i}\right| = \prod_{i=1}^n Y_i^{\lambda-1}$$

Desta forma, temos que para um $ \lambda $ fixo, os estimadores $ \hat{\sigma}^2(\lambda) $ e $ \hat{\mu}(\lambda) $ são dados por: 

$$\hat{\mu}(\lambda) =\bar{Y}(\lambda)=\dfrac{\sum_{i=1}^n Y_i(\lambda)}{n}$$

$$\hat{\sigma}^2(\lambda) = \dfrac{\sum_{i=1}^n(Y_i(\lambda) - \bar{Y}(\lambda))^2}{n}$$

Em seguida, substituímos os valores de $ \mu $ e $ \sigma^2 $ pelos estimadores de máxima verossimelhança encontrados acima, $ \hat{\mu}(\lambda) $ e $ \hat{\sigma}^2(\lambda) $, respectivamente, na função de máxima verossimilhança. Desta forma, obtemos o logaritimo da função de máxima verossimilhança dependendo somente de $ \lambda $

$$\ell(\lambda) =\log\left[L(\lambda| Y_i, \hat{\mu}, \hat{\sigma^2})\right]=-\dfrac{n\pi}{2}- \dfrac{1}{2}\log\hat{\sigma}^2(\lambda) + (1-\lambda)\log (Y_i)$$

Precisamos então, enncontrar $ \lambda $ que maximiza $ \ell(\lambda) $.  Uma forma que encontramos na literatura para facilitar a estimativa de $ \lambda $ utilizar a forma normalizada da transformação, $ Z_i(\lambda) $,  para que desta forma termos $ J(\lambda,Z) = 1 $. Considere a seguinte função:

$$Z_i(\lambda) = \dfrac{Y_i(\lambda)}{\left[J(\lambda,Y)\right]^{1/n}}$$

Desta forma, o logaritmo da função de máxima verossimilhança fica

$$\ell(\lambda) =\log\left[L(\lambda| Z_i, \hat{\mu}, \hat{\sigma^2})\right]=-\dfrac{n\pi}{2}- \dfrac{1}{2}\log\hat{\sigma}^2(Z,\lambda)$$

onde

$$\hat{\sigma}^2(Z,\lambda) =\dfrac{\sum_{i=1}^n(Z_i(\lambda) - \bar{Z}(\lambda))^2}{n}$$

Portanto, maximizar $ \ell(\lambda) $ é equivalente a encontrar o mínimo de $ \hat{\sigma}^2(Z,\lambda) $ em relação a $ \lambda $.

Box e Cox (1964) afirmam que após a transformação adequada das observações $ Y $ para $ Y(\lambda) $ os valores esperados das observações transformadas estarão normalmente distribuidos com variância constante.

O Action Stat estima o valor de lambda através de simulações. Geramos 500 valores para $ \lambda $, de -2,5 a 2,5 aumentando em 0,01. Em seguida, para cada valor de $ \lambda $ calculamos o valor do logaritimo da função de máxima verossimilhança. Assim basta tomarmos o valor de $ l\lambda $ que corresponde ao máximo do logaritimo da função de máxima verossimilhança.

Aplicação da Transformação

Após aplicarmos essa transformação aos dados, as especificações e os parâmetros do processo (média, variabilidade inerente e total) são obtidos para os dados transformados, aplicando a análise via dados normais. Da mesma forma, os índices são calculados para os dados transformados com a distribuição normal.

Para verificarmos se a transformação foi eficiente basta analisarmos a normalidade dos dados transformados via histograma, papel de probabilidade normal ou teste de normalidade de Kolmogorov-Smirnov ou Anderson-Darling.

 

Exemplo 4.1.1.1: 

Considere um processo em início de desenvolvimento. Deste processo coletamos uma amostra com 30 unidades, organizados na Tabela 4.1. Considerando o Limite Superior de Especificação LSE = 4, vamos calcular o índice de performance para o processo. 

Tabela 4.1.1: Dados referentes a um processo em desenvolvimento.

1,278258 4,47932 2,035204 3,757334 1,985193
0,017442 0,096113 0,992143 5,958947 3,193834
1,763441 1,503284 0,714152 1,973829 4,359103
0,350306 3,618302 1,084793 0,680619 0,645437
0,499543 0,19454 1,195303 0,088677 1,003296
0,009417 1,845016 1,707286 0,360242 0,309148

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Utilizando o Software Action vamos fazer um teste de normalidade e verificar através da estatística de Anderson-Darling se os dados acima seguem uma distribuição normal.

Figura 4.1.1: Teste de normalidade.

Como o p-valor associado ao teste de Anderson-Darling é menor que 0,05 rejeitamos a hipótese de que a distribuição dos dados é aproximadamente normal.

Dessa maneira, como os dados da Tabela 4.1.1 não podem ser modelados por uma distribuição normal, vamos fazer uma transformação nesses dados com o objetivo de encontrar normalidade.

Aplicando a Transformação de Box-Cox obtemos um valor de λ = 0,3283, que maximiza a log-verossimilhança para a transformação realizada (ver Figura 4.1.2).

Figura 4.1.2: Logaritmo da função de verossimilhança para λ.

Com isso, podemos verificar através do p-valor associado ao teste de Anderson-Darling que após a transformação os dados têm distribuição aproximadamente normal.

Na Tabela 4.1.2 estão dispostos os dados obtidos pela transformação. O valor da média amostral para os dados transformados é $ \overline{x} $ = 0,08211.

Tabela 4.1.2: Dados transformados.

0,255662 1,937336 0,800318 1,657929 0,769029
-2,23985 -1,63421 -0,00788 2,426862 1,41358
0,623524 0,436188 -0,31872 0,761846 1,893027
-0,88741 1,600062 0,082486 -0,36145 -0,40782
-0,62067 -1,26646 0,183727 -1,67105 0,003292
-2,38755 0,678407 0,584744 -0,86749 -0,97419

Da mesma forma, a transformação aplicada aos dados deve ser aplicada aos limites de especificação. Assim, o limite superior de especificação transformado é dado por


$$LSE = \dfrac{4^{(0,3283)}-1}{0,3283} = 1,75558$$

Feito isso, podemos fazer uma análise da capacidade e performance do processo para dados normais, como discutido na seção 3.

Então, antes dos cálculos, vamos fazer uma análise da estabilidade do processo através de um gráfico de controle.

Figura 4.1.3: Gráficos I-MR.

Podemos observar que não existem pontos fora dos limites de controle, indicando que o processo não está fora de controle no período considerado.

Assim, para o método de variabilidade a longo prazo temos


$$\widehat{\sigma} = s = \sqrt{\dfrac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{n - 1}} = \sqrt{\dfrac{44,68805}{29}} = 1,241357$$

e com isso,


$$PPS = \dfrac{LSE - \widehat{\mu}}{3\widehat{\sigma}} = \dfrac{1,75558 - 0,08211}{3 \ast 1,241357} = 0,44937$$


$$P_{pk} = PPS = 0,44937$$

Calculando o valor de Z, obtemos


$$Z_{LSE} = \dfrac{LSE - \widehat{\mu}}{\widehat{\sigma}} = \dfrac{1,75558 - 0,08211}{1,241357} = 1,3481$$

Calculando o PPMTotal


$$PPM_{Total} = PPM_{LSE} = [1 - \Phi(Z_{LSE})] \times 1.000.000 = [1 - \Phi(1,3481)] \times 1.000.000 = 88813,11$$

Para o método de variabilidade a curto prazo, temos


$$\widehat{\sigma} = \dfrac{\overline{R}}{d_2} = \dfrac{1,385638}{1,128} = 1,228402$$

sendo d2 = 1,128 (para n = 2) tabelado no Apêndice.


$$C_{pk} = CPS = \dfrac{LSE - \widehat{\mu}}{3\widehat{\sigma}} = \dfrac{1,75558 - 0,08211}{3 \ast 1,228402} = 0,4541049$$

Calculando o valor de Z, obtemos


$$Z_{LSE} = \dfrac{LSE - \widehat{\mu}}{\widehat{\sigma}} = \dfrac{1,75558 - 0,08211}{1,228402} = 1,362315$$

Calculando o PPMTotal


$$PPM_{Total} = PPM_{LSE} = [1 - \Phi(Z_{LSE})] \times 1.000.000 = [1 - \Phi(1,362315)] \times 1.000.000 = 86549,25$$

A seguir temos os resultados obtidos pelo Software Action para esse exemplo.

 

Figura 4.1.4: Análise de Performance do Processo com a transformação de Box-Cox.

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Capacidade

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]