4.2.4 Variáveis independentes categóricas

Você está aqui

4.2.4.1 Variável Independente Dicotômica

Vamos considerar variáveis explicativas assumindo valores discretos. Por exemplo, considere uma única variável explicativa $ X $ com níveis A ou B. Para estimar os parâmetros do modelo, estas variáveis são substituídas por valores numéricos, por exemplo 0 para o nível A e 1 para o nível B.  Esses valores são chamados de codificação das categorias da variável qualitativa. Assim, a mesma teoria desenvolvida para o modelo logístico considerando variáveis explicativas contínuas pode ser aplicado para esses casos. Através dos valores da Tabela 4.2.4.1.1, a odds Ratio será interpretado por: 

$$OR=\cfrac{\cfrac{\pi(1)}{1 - \pi(1)}}{\cfrac{\pi(0)}{1 - \pi(0)}} = \cfrac{\cfrac{\cfrac{e^{\beta_0+\beta_1}}{1+e^{\beta_0+\beta_1}}}{\cfrac{1}{1+e^{\beta_0+\beta_1}}}}{\cfrac{\cfrac{e^{\beta_0}}{1+e^{\beta_0}}}{\cfrac{1}{1+e^{\beta_0}}}}=exp(\beta_1)~~~~~~~~(4.2.4.1.1)$$

  x=1 x=0
y=1 $ \pi(1)=\cfrac{exp(\beta_0+\beta_1)}{1+exp(\beta_0+\beta_1)} $ $ \pi(0)=\cfrac{exp(\beta_0)}{1+exp(\beta_0)} $
y=0 $ 1-\pi(1)=\cfrac{1}{1+exp(\beta_0+\beta_1)} $ $ 1-\pi(0)=\cfrac{1}{1+exp(\beta_0)} $
Total 1 1

Tabela 4.2.4.1.1: Valores do Modelo de Regressão Logística quando a variável independente é dicotômica.

Portanto podemos fazer algumas análises, 

$$OR\textgreater 1~~~\Rightarrow~~\cfrac{\pi_{1}}{1-\pi_{1}}~~\textgreater~~\cfrac{\pi_{0}}{1-\pi_{0}}~~\Rightarrow~~\pi_B~~\textgreater ~~\pi_A$$


$$OR\textless 1~~~\Rightarrow ~~ \cfrac{\pi_1}{1 - \pi_1}~~\textless~~\cfrac{\pi_0}{1 - \pi_0}~~\Rightarrow~~ \pi_B~~\textless~~\pi_A$$

Antes de fazer conclusões a respeito da odds ratio encontrada, é importante considerar o efeito que a codificação da variável tem no valor da estimativa da odds. Vimos que $ \hat{OR}=exp(\hat{\beta}_1) $. Mas esse resultado é válido apenas quando a variável independente é codificada em 0 ou 1.

A estimativa do log da odds ratio para uma variável independente com dois níveis a e b é: 

$$ln[\hat{OR}(a,b)]=\hat{g}(x=a)-\hat{g}(x=b)$$


$$=(\hat{\beta}_0+\hat{\beta}_1.a)-(\hat{\beta}_0+\hat{\beta}_1.b)$$


$$=\hat{\beta}_1(a-b).$$

Assim, a estimativa da odds ratio é dada por: 

$$\hat{OR}(a,b)=exp[\hat{\beta}_1(a-b)].$$

O método da codificação também influencia nos limites do intervalo de confiança. Assim, o intervalo de confiança é: 

$$IC(OR,1-\alpha)= [exp(\hat{\beta_1}(a-b)-z_{1-\alpha/2}|a-b|DP[(\hat{\beta_1})]);~~~exp(\hat{\beta_1}(a-b)+z_{1-\alpha/2}|a-b|DP[(\hat{\beta_1})])].$$

Em que |a-b| é o valor absoluto de (a-b). Desde que possamos controlar a codificação das variáveis dicotômicas (duas categorias), Hosmer e Lemeshow (1976) recomendam a codificação em 0 ou 1.

4.2.4.2 Variáveis com mais de duas categorias

Suponha que ao invés de duas categorias, a variável independente tem mais de duas categorias ($ k\textgreater 2 $). Essa variável poderia ser, por exemplo, a raça: branco, preto, amarelo ou outros. Vamos supor que a Tabela 4.2.4.1.2 é a classificação cruzada da variável raça (x) em relação á variável resposta (y). Vale frisar que os dados são fictícios. 

  branco preto amarelo outros Total
y=1 5 20 15 10 50
y=0 20 10 10 10 50
  25 30 25 20 100

Tabela 4.2.4.1.2: Classificação cruzada dos dados hipotéticos da raça em relação a variável resposta binária.

Assim como no caso da variável independente dicotômica, precisamos codificar a variável explicativa.  Mas quando temos mais de duas categorias, temos as variáveis codificadas que são chamadas de variáveis dummies. Além disso, no caso de variável com mais de duas categorias temos que especificar a de referência em que a odds ratio das demais categorias são comparadas com ela. Na Tabela 4.2.4.1.3 temos a codificação da variável raça.

Raça Variáveis Dummies 
  D1 D2 D3
Amarelo 0 0 0
Branco 1 0 0
 Outros 0 1 0
Preto  0 0 1

Tabela 4.2.4.1.3: Codificação da variável raça

Vale ressaltar que temos k categorias da variável explicativa, temos então k-1 variáveis dummies. Assim, o preditor linear é dado por: 

$$\beta_0+\beta_1D1+\beta_2D2+\beta_3D3.$$

A variável de referência é aquela em que os valores de todas as dummies é 0, que no caso é a raça amarelo.

A comparação da raça branco com amarelo é: 

$$ln[\hat{OR}(Branco,Amarelo)]=\hat{g}(Branco)-\hat{g}(Amarelo)=$$


$$=[\hat{\beta}_0+\hat{\beta}_1(D1=1)+\hat{\beta}_2(D2=0)+\hat{\beta}_3(D3=0)]-[\hat{\beta}_0+\hat{\beta}_1(D1=0)+\hat{\beta}_2(D2=0)+\hat{\beta}_3(D3=0)]$$


$$=[\hat{\beta}_0+\hat{\beta}_1]-[\hat{\beta}_0]$$


$$=\hat{\beta}_1.$$

Assim, a estimativa da Odds Ratio(Branco, Amarelo) é: 

$$\hat{OR}(Branco,Amarelo)=exp(\hat{\beta}_1).$$

Agora comparando a raça outros em relação à amarelo, temos: 

$$ln[\hat{OR}(Outros,Amarelo)]=\hat{g}(Outros)-\hat{g}(Amarelo)=$$


$$=[\hat{\beta}_0+\hat{\beta}_1(D1=0)+\hat{\beta}_2(D2=1)+\hat{\beta}_3(D3=0)]-[\hat{\beta}_0+\hat{\beta}_1(D1=0)+\hat{\beta}_2(D2=0)+\hat{\beta}_3(D3=0)]$$


$$=[\hat{\beta}_0+\hat{\beta}_2]-[\hat{\beta}_0]$$

$$=\hat{\beta}_2.$$

Assim, a estimativa da Odds Ratio(Outros, Amarelo) é: 

$$\hat{OR}(Outros,Amarelo)=exp(\hat{\beta}_2).$$

Analogamente, temos que: 

$$\hat{OR}(Preto,Amarelo)=exp(\hat{\beta}_3).$$

Exemplo 4.2.3.1

Um experimento DOE foi proposto para avaliar a influência das váriáveis em um sistema de medição. Após a realização de um brainstorming verificou-se que as variáveis mais influentes no modelo foram o preparador e a sonda. Para a análise deste sistema de medição realizou-se um experimento completo com dois fatores e dois níveis. Os dados coletados estão organizados na Tabela 4.2.3.1.

Concordância Não-Concordância Sonda Preparador Total
928 32 A A 960
862 98 B B 960
830 130 A B 960
932 28 B A 960

Tabela 4.2.3.1: Dados do sistema de medição.

Para este exemplo, o seguinte modelo foi proposto: 

$$\mbox{Probabilidade de falha}=\pi_i = \frac{\exp[\beta_0 + \beta_1~x_1 +\beta_2~x_2]}{1+\exp[\beta_0 + \beta_1~x_1 +\beta_2~x_2]}$$

Considerando a variável $ x_1 $ = Preparador e $ x_2 $ = Sonda, temos:

  Variáveis (codificadas)
Níveis Sonda (x1) Preparador(x2)
A 0 0
B 1 1

Tabela 4.2.3.2: Codificação das variáveis qualitativas.

A partir da função de máxima verossimilhança, os parâmetros do modelos foram obtidos.

$ \widehat{\beta}_0 $ =-3,30347  (Intercepto)
$ \widehat{\beta}_1 $ =-0,27926  (Sonda - Nível B)
$ \widehat{\beta}_2 $ =1,43136   (Preparador - Nível B)

Da tabela (4.2.3.2) calculamos a probabilidade de falha do sistema de medição.

Para $ x_1 = 0 $ e $ x_2 = 0 $ ( Nível A - Sonda e Nível A - Preparador) 

$$\mbox{Probabilidade de falha}=\pi_i = \frac{\exp[-3,30347 -0,27926~(0) +1,43136~(0)]}{1+\exp[-3,30347 -0,27926~(0) +1,43136~(0)]} = 0,03544$$

Para $ x_1 = 1 $ e $ x_2 = 0 $ ( Nível B - Sonda e Nível A - Preparador) 

$$\mbox{Probabilidade de falha}=\pi_i = \frac{\exp[-3,30347 -0,27926~(1) +1,43136~(0)]}{1+\exp[-3,30347 -0,27926~(1) +1,43136~(0)]} = 0,027041$$

Para $ x_1 = 0 $ e $ x_2 = 1 $ ( Nível A - Sonda e Nível B - Preparador) 

$$\mbox{Probabilidade de falha}=\pi_i = \frac{\exp[-3,30347 -0,27926~(0) +1,43136~(1)]}{1+\exp[-3,30347 -0,27926~(0) +1,43136~(1)]} = 0,13329$$

Para $ x_1 = 1 $ e $ x_2 = 1 $ ( Nível B - Sonda e Nível B - Preparador) 

$$\mbox{Probabilidade de falha}=\pi_i = \frac{\exp[-3,30347 -0,27926~(1) +1,43136~(1)]}{1+\exp[-3,30347 -0,27926~(1) +1,43136~(1)]} = 0,104202$$

E as estimativas da probabilidade de ocorrência do evento de interesse são:

Sonda Preparador Probabilidade
A A 0,035452
B B 0,104202
A B 0,133298
B A 0,027048

Tabela 4.2.3.3: Probabilidade do evento.

As estimativas da odds ratio são:

Sonda: $ \hat{OR}(B,A) = exp(\hat{\beta}_1)=0,76 $

Preparador: $ \hat{OR}(B,A)=exp(\hat{\beta}_2)= 4,18 $.

Antes de calcular o intervalo de confiança para a odds ratio, é preciso calcular as estimativas para o desvio padrão, por meio da matriz $ \Sigma(\beta)=[X'VX]^{-1} $

$$\Sigma(\beta) =\left[\left[ \begin{array}{cccc}1~~~~1~~~~1~~~~1\\0~~~~1~~~~0~~~~1\\0~~~~1~~~~1~~~~0\\\end{array}\right]_{4x3}\times\left[\begin{array}{cccc}960*0,035(1-0,035) ~~~~0~~~~\ldots~~~~0\\0~~~~960*0,104(1-0,104)~~~~\ldots~~~~0\\0~~~~0~~~~960*0,133(1-0,133)~~~~0\\~~~~0~~~~\ldots~~~~960*0,027(1-0,027)\\\end{array}\right]_{4x4}\times \right.$$


$$\left.\times\left[\begin{array}{ccc}1~~~~0~~~~0\\1~~~~1~~~~1\\1~~~~0~~~~1\1~~~~1~~~~0\\\end{array}\right]_{4x3}\right]^{-1}=\small\left[\begin{array}{ccc}{\bf 0,020177}~~~~-0,00681~~~~-0,01713\\-0,00681~~~~{\bf 0,015664}~~~~-0,00019 \\-0,01713~~~~-0,00019~~~~{\bf 0,022204} \\\end{array} \right]_{2x2}$$

As estimativas dos desvios padrão são:

Para $ \beta_0 = \sqrt{ \sigma^2(\widehat{\beta}_0) } = \sqrt{0,0201 } =0,142045 $
Para $ \beta_1 = \sqrt{ \sigma^2(\widehat{\beta}_1) } = \sqrt{0,015662 } = 0,125156 $
Para $ \beta_2 = \sqrt{ \sigma^2(\widehat{\beta}_2) } = \sqrt{0,02220 } = 0,149009 $

Os resultados da estatística do teste Wald são:

$ W_0=\cfrac{\widehat{\beta}_0}{\widehat{DP}(\widehat{\beta}_0)}=\cfrac{-3,30347}{0,142045}=-23,26 $
$ W_1=\cfrac{\widehat{\beta}_1}{\widehat{DP}(\widehat{\beta}_1)}=\cfrac{-0,279268}{0,125156}= -2,23 $
$ W_2=\cfrac{\widehat{\beta}_2}{\widehat{DP}(\widehat{\beta}_2)}=\cfrac{1,43136}{0,149009}= 9,61 $

A significância dos parâmetros são testados considerando as seguintes hipóteses: 

\beta_j \neq 0\\\end{array} \right.~~~~j=0, 1, 2.$$

Os valores de p-valor para o teste de hipótese são:

Para $ \beta_0 = P(|Z| \textgreater 23,26) = 0,000 $
Para $ \beta_1 = P(|Z| \textgreater 2,23) = 0,026 $
Para $ \beta_2 = P(|Z| \textgreater 7,73) = 0,000 $

Dessa forma, rejeitamos $ H_0 $ a um nível de significância $ \alpha = 0,05 $ e concluímos assim que os parâmetros $ \beta_0 $, $ \beta_1 $ e $ \beta_2 $ são significativos no modelo.

Os intervalos de confiança para a Odds Ratio das variáveis são:

Para $ \beta_1 $ ( Sonda - tipo B ) 


$$\left[\exp(-0,2792 - 1,96*(0,1251) \right.~~;~~\left. \exp(-0,2792 + 1,96*(0,1251)\right]$$


$$\left[\exp(-0,2792 -0,2451) \right.~~;~~\left.\exp(-0,2792 +0,2451)\right]$$


$$\left[\exp(-0,5243) \right.~~;~~\left. \exp(-0,0341) \right]$$


$$\left[0,591\right.~~;~~\left.0,97\right]$$

Para $ \beta_2 $ ( Preparador - tipo B )


$$\left[\exp(1,4313 - 1,96*(0,149) \right.~~;~~\left. \exp(1,4313 + 1,96*(0,149)\right]$$


$$\left[\exp(1,4313 -0,2920) \right.~~;~~\left. \exp(1,4313 +0,2920) \right]$$


$$\left[\exp(1,1393) \right.~~;~~\left. \exp(1,723) \right]$$


$$\left[3,124 \right.~~;~~\left. 5,60 \right]$$

Como o Intervalo de Confiança da Odds Ratio do nível B da sonda em relação ao nível A é menor que 1, concluímos que a sonda B apresenta menos chance de falha no sistema de medição quando  comparada a sonda A. 

Como o Intervalo de Confiança da Odds Ratio do nível B do preparador em relação ao nível A é maior que 1, concluímos que o preparador B apresenta maior chance de falha no sistema de medição quando comparado ao preparador A.

 

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]