3.1 - Equivalência

Na análise da equivalência, temos como objetivo avaliar a similaridade entre os métodos Tradicional e Alternativo. Para isto, utilizamos a regressão logística, uma técnica amplamente aplicada na análise de dados binários. No caso deste estudo, temos como variável resposta a "positivação'' ou "esterilidade'' da amostra. Portanto, esta variável resposta assume apenas dois valores, fato que impossibilita a aplicação de métodos tradicionais de regressão. Por outro lado, temos como variáveis independentes, o Método (Tradicional/Alternativo) e a Contaminação (UFC/mL). Assim, aplicamos a regressão logística com uma variável independente contínua (Contaminação) e uma variável independente categórica (Método), com o interesse em testar as seguintes hipóteses:

 \ \text{Os métodos não são equivalentes.}\end{array}\right.$$

Na tabela abaixo, apresentamos um resumo dos dados para os diferentes métodos e níveis de contaminação.

Método Contaminação Tamanho da Amostra Positivação Proporção
Alternativo 0,5 168 103  61,3%
Alternativo 2 168 133 79,2%
Alternativo 5 168 166 98,8% 
Alternativo 50 168 168 100% 
Tradicional 0,5 168 71 42,3% 
Tradicional 2 168 99 58,9% 
Tradicional 5 168 142 84,5% 
Tradicional 50 168 168 100% 

 Tabela 5.4.1.1: Resumo dos resultados.

Temos uma amostra de 1344 observações independentes da terna $ (x_i,m_i,y_i),i=1,\dots,n, $ no qual

  • $ x_i $: é o valor da variável explicativa (método, contaminação);
  • $ m_i $: é a quantidade de replicatas (número de ensaios);
  • $ y_i $: é o número de replicatas detectadas (positivações) com microrganismos em replicatas;
  • n: é o total de combinações.

Com isso, assumimos que a variável resposta tem distribuição de probabilidade binomial tal que:

$$P[Y_i=y_i]=\binom{m_i}{y_i}\pi_i^{y_i}(1-\pi_i)^{m_i-y_i}.$$

Para adequarmos a resposta média ao modelo linear usamos a função de ligação:

$$\pi_i=\pi(\text{Método}_i,\text{Contaminação}_i)=\frac{e^{\beta_0+\beta_1\text{Método}_i+\beta_2\text{Contaminação}_i}}{1+e^{\beta_0+\beta_1\text{Método}_i+\beta_2\text{Contaminação}_i}},\,i=1,\ldots,n,$$

Que representa a probabilidade de positivação. Reescrevendo a equação obtemos:

$$g(X)=g(\text{Método}_i,\text{Contaminação}_i)=\ln\left(\frac{\pi_i}{1-\pi_i}\right)=\beta_0+\beta_1\text{Método}_i+\beta_2\text{Contaminação}_i.\quad\quad\quad (1)$$

em que:

$ g(\text{Método}_i,\text{Contaminação}_i) $ é a resposta (função de odds);
$ \text{Método}_i $ é a variável referente ao método (Tradicional: 1 ou Rápido: 0);
$ \text{Contaminação}_i $ é a variável referente à contaminação (medida em UFC);
$ \beta_0,\beta_1 $ e $ \beta_2 $ são os parâmetros do modelo.

Para estimarmos os parâmetros $ \beta_0,\beta_1 $ e $ \beta_2 $ utilizamos o método da máxima verossimilhança. De forma geral, o método de máxima verossimilhança nos fornece valores para os parâmetros desconhecidos que maximizam a probabilidade de se obter determinado conjunto de dados (probabilidade de positivação). Assumindo que $ (x_0,m_0,y_0 ), $ $ \dots, $ $ (x_n,m_n,y_n ), $ são independentes, a função de verossimilhança é dada por:

$$P\left[ Y_1=y_1,\ldots,y_n|\beta_0,\beta_1\right]=\prod_{i=1}^n\binom{m_i}{y_i}\pi_i^{y_i}(1-\pi_i)^{m_i-y_i}$$

Assim, aplicando o logaritmo ($ \ln $) em ambos os lados da expressão anterior e usando a equação (1) obtemos a função de verossimilhança da seguinte forma:

$$L~(\beta_0,\beta_1,\beta_2|(x_i;m_i;y_i))=\sum^n_{i=1}y_i~\beta_0+\beta_1\text{Método}_i+\beta_2\text{Contaminação}_i-\sum^n_{i=1} m_i\,\ln(1+e^{\beta_0+\beta_1\text{Método}_i+\beta_2\text{Contaminação}_i})\label{eq_LV}$$

Os estimadores de máxima verossimilhança para os parâmetros $ \beta_0,\beta_1 $ e $ \beta_2 $ são os valores $ \hat{\beta}_0,\hat{\beta}_1 $ e $ \hat{\beta}_2 $ que maximizam a função de verossimilhança.

Após estimarmos os coeficientes, temos interesse em assegurar a significância das variáveis no modelo. Isto geralmente envolve formulação e teste de uma hipótese estatística para determinar se a variável independente no modelo é significativamente relacionada com a variável resposta. Assim, afim de testarmos as hipóteses utilizamos o teste de Wald. O teste de Wald é obtido por comparação entre a estimativa de máxima verossimilhança do parâmetro ($ \hat{\beta}_j $) e a estimativa de seu erro padrão. A razão resultante, sob a hipótese \beta_j=0 $ tem distribuição normal padrão. Assim, vamos considerar a seguinte hipótese:

{\beta}_{j}\neq0\end{array}\right.$$

A estatística do teste Wald para a regressão logística é

$$W_0=\frac{\hat{\beta}_0}{\widehat{DP}(\hat{\beta}_0)}=\frac{0,30837}{0,13992}=2,20384$$

$$W_1=\frac{\hat{\beta}_1}{\widehat{DP}(\hat{\beta}_1)}=\frac{0,53831}{0,05065}=10,6284$$

$$W_2=\frac{\hat{\beta}_2}{\widehat{DP}(\hat{\beta}_2)}=\frac{-1,02498}{0,15575}=-6,58086$$

O p-valor é definido como $ P(|Z|\textgreater |W_j|) $, sendo que Z denota a variável aleatória da distribuição normal padrão.

Para o intercepto 

$ \mbox{p-valor}=P(|Z|\textgreater 2,20384) = 0,0275 $

Para a contaminação 

$ \mbox{p-valor}=P(|Z|\textgreater 10,6284) = 0,000 $

Para o método

$ \mbox{p-valor}=P(|Z|\textgreater -6,58086) = 0,000 $

As estimativas dos parâmetros, respectivos desvios padrão e o teste de Wald para análise da significância dos parâmetros são apresentados abaixo.

 

Tabela 5.4.1.2: Estimativa dos parâmetros.

Na regressão logística há três parâmetros. O parâmetro "Método Trad'', compara a capacidade de positivação do método tradicional com a capacidade de positivação do método alternativo (considerado baseline), para os quatro níveis de contaminação analisados. Como o p-valor associado a este parâmetro é desprezível, detectamos diferença significativa entre os métodos com relação à capacidade de positivação. Além disso, dado que o valor do parâmetro é negativo (-1,02), concluimos que o método alternativo tem uma capacidade de positivação maior que o método tradicional.  O terceiro parâmetro "Contaminação'' refere-se ao impacto da contaminação na capacidade de positivação dos métodos. Obviamente que quanto maior a contaminação maior a capacidade de positivação de ambos os métodos (valor do parâmetro positivo de 0,54 com p-valor desprezível). O gráfico abaixo ilustra estes resultados, no qual a capacidade de positivação dos métodos pode ser comparada. Observamos que para níveis de contaminação baixos, o método alternativo apresenta índices de positivação muito melhores que o método tradicional, enquanto que para níveis altos de contaminação os índices de positivação são similares.

 

Figura 5.4.1.1: Equivalência.

Em resumo, considerando todos os microrganismos, o método alternativo apresentou uma probabilidade de positivação significativamente maior que o método tradicional, principalmente em baixos níveis de contaminação. Desta forma, os métodos são considerados equivalentes.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]