O sistema de curvas de Johnson é constituído por três famílias de distribuições, geradas a partir da seguinte função:

$$Y = \gamma + \eta k_i(X, \lambda, \varepsilon)$$

em que $ Y $ representa a variável normal padronizada, $ X $ é a observação a ser transformada, $ \eta, \gamma, \lambda $ e $ \varepsilon $ são os parâmetros específicos da transformação de Johnson que precisam ser estimados. A função $ k_i(X,\lambda,\varepsilon) $ é a função que caracteriza cada família do sistema de curvas. 

As três famílias características do sistema de curvas de Johnson são:

 k_1(X,\lambda, \varepsilon) = senh^{-1}\left(\dfrac{X-\varepsilon}{\lambda}\right), \quad \text{em que} \quad -\infty \textless X \textless\infty$$

 k_2(X,\lambda, \varepsilon) = ln\left(\dfrac{X-\varepsilon}{\lambda+ \varepsilon -X}\right), \quad \text{em que} \quad \varepsilon \textless X \textless \varepsilon + \lambda$$

 k_3(X,\lambda, \varepsilon) = ln\left(\dfrac{X-\varepsilon}{\lambda}\right), \quad \text{em que} \quad \varepsilon \textless X \textless \infty$$

 

Escolha da Família

Para a escolha da família, precisamos inicialmente escolher um valor de $ Z $ tal que $ Z \textgreater 0 $. O valor de $ Z $ é relacionado ao tamanho da amostra a ser transformada e dificilmente será um valor maior do que 1, devido à dificuldade na estimação do percentil correspondente a $ \pm 3Z $. Na literatura, é recomendado utilizar um valor de $ Z $ próximo a $ 0,5 $.

Após escolhido o valor de $ Z $ calculamos as probabilidades acumuladas $ \Phi(-3Z), \Phi(-Z), \Phi(Z) $ e $ \Phi(3Z) $, em que $ \Phi $ representa função da distribuição acumulada da normal padrão. Em seguida, precisamos encontrar os respectivos percentis $ X_{-3Z}, X_{-Z}, X_{Z} $ e $ X_{3Z} $ da amostra. Para isso, ordenamos as observações da amostra $ X_{(1)} \leq X_{(2)} \leq\cdots\leq X_{(n)} $ e para cada valor de $ \xi=-3Z,-Z,Z $ e $ 3Z $ encontramos os percentil $ X_{(i)} $ correspondente a $ \Phi(\xi) $ respeitando a seguinte relação: $ (i-1/2)/n = \Phi(\xi) $, assim $ X_{\xi} = X_{(i)} $, para cada valor de $ \xi $.

Desta forma, podemos calcular a função discriminadora:

$$F_D = \dfrac{mn}{p^2}$$

em que:

$$m = X_{3Z} - X_{Z};$$

$$n = X_{-Z} - X_{-3Z};$$

$$p=X_{Z} - X_{-Z}.$$

Slifker e  Shapiro (1980) provaram que se $ F_D \textgreater 1 $, a família $ S_U $ será utilizada, se $ F_D \textless 1 $, utilizaremos a família $ S_B $ e se $ F_D = 1 $ a família $ S_L $ será utilizada. No caso da família $ S_L $ precisamos considerar uma tolerância para valores próximos a 1 pois sempre estaremos lidando com estimativas de valores e obter resultado exatamente igual a 1 não será possível do ponto de vista numérico. 

Os softwares estatísticos encontram o melhor valor de $ Z $ através de uma simulação de 100 valores para $ Z $, de $ 0,25 $ a $ 1,25 $. Nessa simulação, efetuamos as estimativas dos parâmetros para cada valor de $ Z $ em cada família e assim, escolhemos o valor de $ Z $ e a família de distribuição em que os dados transformados apresentam o melhor resultado no teste de normalidade de Anderson-Darling.

No Action Stat seguimos o seguinte algoritmo para a escolha do valor de $ Z $ e para determinar a melhor família para a transformação das observações:

  1. Encontramos as estimativas dos parâmetros para as três famílias segundo o método de comparação de quantil (descrito abaixo) para todos os 100 valores de $ Z $;
  2. Verificamos para cada valor de $ Z $ se utilizando as estimativas encontrada, o domínio da função característica é respeitado em cada família, caso contrário esse valor de $ Z $ é desconsiderado para a família em que o domínio da função característica não é respeitado;
  3. Calculamos a transformação para as 3 famílias em todos os valores de $ Z $ considerados;
  4. Escolhemos o valor de $ Z $ e a família utilizada para a transformação considerando o maior P-Valor do teste de normalidade de Anderson-Darling aplicado nos dados transformados.

 

Estimação dos Parâmetros

Para cada família, precisamos estimar os parâmetros: $ \gamma, \eta, \lambda $ e $ \varepsilon $. Para isso, utilizamos o método de comparação de quantil (ver, Slifker e  Shapiro (1980)). Consideramos os valores dos quantis $ \alpha_j, j = 1,...,4 $ tal que:

$$Z_{\alpha_1} = -3Z = \Phi^{-1}(\alpha_1)$$

$$Z_{\alpha_2} = -Z = \Phi^{-1}(\alpha_2)$$

$$Z_{\alpha_3} = Z = \Phi^{-1}(\alpha_3)$$

$$Z_{\alpha_4} = 3Z = \Phi^{-1}(\alpha_4)$$

em que $ \Phi $ é a função de distribuição acumulada da normal padrão. Calculamos então $ X_{\alpha_j} = F^{-1}(\alpha_j), j=1,...,4 $. Tal que $ F $ representa a função de distribuição acumulada empírica das observações $ X $. Desta forma, teremos quatro equações no seguinte formato:

$$Z_{\alpha_j} = \gamma + \eta k_i(X_{\alpha_j}, \omega, \varepsilon), \quad j=1,...,4.$$

onde $ k_i(X_{\alpha_j}, \lambda, \varepsilon) $ é a função característica da família escolhida. Resolvendo o sistema com 4 equações e 4 incógnitas obtemos as estimativas para $ \eta, \gamma, \omega $ e $ \varepsilon $.

É possível mostrar que, para a família $ S_U $, a estimativa dos parâmetros são dadas por:

$$\eta = 2Z\left\{ cosh^{-1}\left[\dfrac{1}{2}\left(\dfrac{m+n}{p}\right)\right]\right\}^{-1}$$

$$\gamma = \eta senh^{-1} \left \{ \left(\dfrac{n-m}{p}\right) \left[2\left(\dfrac{mn}{p^2}-1\right)^{1/2}\right]^{-1}\right\}$$

$$\lambda = 2p\left(\dfrac{mn}{p^2}-1\right)^{1/2}\left[\left(\dfrac{m+n}{p}-2\right)\left(\dfrac{m+n}{p}+2\right)^{1/2}\right]^{-1}$$

$$\varepsilon = \dfrac{X_{Z} + X_{-Z}}{2} + p \left(\dfrac{n-m}{p}\right) \left[ 2\left(\dfrac{m+n}{p}-2\right)\right]^{-1}$$

Na família $ S_B $ as estimativas são:

$$\eta = Z \left\{cosh^{-1}\left(\dfrac{1}{2}\left[\left(1 + \dfrac{p}{m}\right)\left(1 + \dfrac{p}{n}\right)\right]^{1/2}\right)\right\}^{-1}$$

$$\gamma = \eta sinh^{-1}\left\{\left(\dfrac{p}{n} - \dfrac{p}{m}\right)\left[\left(1+\dfrac{p}{m}\right)\left(1+\dfrac{p}{n}\right)-4\right]^{1/2}\left[2\left(\dfrac{p^2}{mn}-1\right)\right]^{-1}\right\}$$

$$\lambda= p\left\{\left[\left(1+\dfrac{p}{m}\right)\left(1+\dfrac{p}{n}\right)-2\right]^2-4\right\}\left(\dfrac{p^2}{mn}-1\right)^{-1}$$

$$\varepsilon = \dfrac{X_{Z} + X_{-Z}}{2}-\dfrac{\lambda}{2} + p\left(\dfrac{p}{m} - \dfrac{p}{n}\right)\left[2\left(\dfrac{p^2}{mn} - 1\right)\right]^{-1}$$

A família $ S_L $ é essencialmente a família lognormal com três parâmetros, uma vez que podemos eliminar o parâmetros $ \lambda $ fazendo a seguinte reparametrização: $ \gamma^{*} = \gamma - \eta ln(\lambda) $. Desta forma, os parâmetros são estimados por:

$$\eta = 2Z\left[ln\left(\dfrac{m}{p}\right)\right]^{-1}$$

$$\gamma^{*} = \eta ln\left[\dfrac{\dfrac{m}{p}-1}{p\left(\dfrac{m}{p}\right)^{1/2}}\right]$$

$$\varepsilon = \dfrac{X_{Z} + X_{-Z}}{2} - \dfrac{p}{2}\dfrac{\left(\dfrac{m}{p}+1\right)}{\left(\dfrac{m}{p}-1\right)}$$

 

Transformação das Observações

Agora que já definimos a família a ser utilizada e estimamos os parâmetros, precisamos apenas calcular a transformação de Johnson:

Família Transformação
$ S_U $ $ Y = \gamma + \eta senh^{-1}\left(\dfrac{X - \varepsilon}{\lambda}\right) $
$ S_B $ $ Y = \gamma + \eta ln\left(\dfrac{X - \varepsilon}{\lambda + \varepsilon - X}\right) $
$ S_L $ $ Y = \gamma^{*} + \eta ln(X - \varepsilon) $

 

em que $ Y $ corresponde aos dados transformados. 

 

Exemplo 4.1.2.1:

Considere uma amostra com 32 observações do volume do frasco de um medicamento. Neste caso o limite Inferior de Especificação  é dado por LIE = 30.

30,39 31,16 31,01 32,92 30,31 31,99 32,31
31,33 31,17 30,84 32,78 30,96 31,20 30,55
31,06 30,82 31,23 32,92 30,98 31,21 31,41
31,19 31,30 31,55 32,01 31,44 31,10 32,50
31,09 30,84 31,69 31,06      

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Primeiramente, vamos verificar a normalidade dos dados:

 

Ao nível de significância de 0,05 rejeitamos a hipótese de que os dados possuem distribuição aproximadamente normal. Portanto, não podemos modelar os dados por uma distribuição normal. Neste caso, aplicamos transformação aos dados com o objetivo de encontrar a normalidade para os dados trnansformados. Primeiramente, vamos aplicar a transformação de Box-Cox:

Mais uma vez, ao nível de significância de 0,05 rejeitamos a hipótese de normalidade dos dados transformados. Portanto, a transformação de Box e Cox não foi efetiva na tentativa de normalizar os dados. Na sequência, partimos para a transformação de Johnson. Através do Action Stat, obtemos:

 

Com um P-valor de $ 0,73 $ no teste de Anderson e Darling, concluímos que a transformação de Johnson foi eficaz para normalizar os dados. Assim, vamos realizar a análise de capacidade do processo com os dados transformados. Para isto, a transformação aplicada aos dados também precisa ser aplicada aos limites de especificação. Neste caso, o limite inferior de especificação transformado é dado por:

$$LIE^{*} =\gamma+\eta \ast senh^{-1}\left(\dfrac{LIE - \varepsilon}{\lambda}\right) = -0,389 + 0,586\ast senh^{-1}\left(\dfrac{30 - 31,077}{0,170}\right) = -1,881$$

Portanto, podemos fazer uma análise da capacidade e performance do processo para dados normais, como discutido na seção 3. Inicialmente, vamos fazer uma análise da estabilidade do processo, para os dados transformados,  através de um gráfico de controle.

Observamos que existe um ponto fora dos limites de controle no gráfico de amplitude móvel, o que indica que o processo esta fora de controle.  Efetuando os calculos para o método a longo prazo temos:

$$\hat{\sigma} = s = \sqrt{\dfrac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1} }= \sqrt{\dfrac{24,828}{31}} = 0,9128$$

Assim, podemos calcular:

$$PPI = \dfrac{LIE^{*} - \hat{\mu}}{3\hat{\sigma}} = \dfrac{-1,881 -0,008}{3 \ast 0,9128} = 0,6841$$

$$P_{PK} = PPI = 0,6841$$

Calculando $ PPM_{Total} $

$$PPM_{Total} = PPM_{LIE} = \Phi\left( \dfrac{LIE^{*} - \hat{\mu}}{\hat{\sigma}}\right) \times 1.000.000 = \Phi(-2,052381)\times 1.000.000 = 20066,31$$

em que $ \Phi $ representa a função de distribuição acumulada da normal padrão.

Utilizando o Action Stat obtemos os seguintes resultados:

 

 Análise de Performance do Processo com a transformação de Johnson

Figura 4.1.2.1: Análise de Performance do Processo com a transformação de Johnson

Análise de Capacidade

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]