8 - Modelos Log Lineares para Tabelas de Contingência

Você está aqui

Neste módulo, vamos estudar a aplicação de modelos de regressão de Poisson para a análise das tabelas cruzadas. A distribuição de Poisson é talvez uma das mais populares na aplicação de modelos log-lineares para tabelas cruzadas, pois são baseados na existência de uma estreita relação entre ela e a distribuição multinomial. Consideramos tabelas cruzadas simples, ou seja, tabelas 2 x 2. No entanto, os conceitos a serem introduzidos se aplicam igualmente aos casos mais gerais.

Exemplo 8.1

Para testar o efeito de um medicamento para um certo tipo de doença, foram selecionados 1330 pacientes, em que cruzamos o tipo de tratamento (medicamento ou placebo) e a presença ou ausência de efeitos em relação ao tipo de doença. Há vários esquemas de amostragem que poderíamos ter conduzido estes dados.

Tratamento Efeitos do Medicamento Total
Presente Ausente
Medicamento 551 114 665
Placebo 213 452 665
Total 764 566 1330

Tabela 8.1: Tabela de Tratamento versus Efeito do Medicamento.

 

A seguir, vamos apresentar o modelo Poisson para tabelas cruzadas.

Modelo de Poisson

Um modelo alternativo para os dados da Tabela 8.1 é tratarmos as quatro frequências das variáveis aleatórias independentes de Poisson, pois estamos tratando primeiramente de uma tabela 2x2. A física possível do modelo é imaginar que existem quatro grupos de pessoas, um para cada célula da tabela, e que os membros de cada grupo chegam ao acaso em um hospital ou centro médico durante um período de tempo, digamos que para um exame de saúde. Neste modelo o tamanho total da amostra não é fixo e todas as contagens são, portanto, aleatórias.

Partindo do pressuposto de que as observações são independentes, a distribuição conjunta das quatro contagens é um produto de distribuições de Poisson:

$ P[Y=y]=\displaystyle\prod^r_{i=1}\prod^c_{j=1} \cfrac{\lambda_{ij}^{y_{ij}}\exp{\{-\lambda_{ij}\}}}{y_{ij}!}~~~~(8.1) $

tomando log obtemos o log da verossimilhança usual de Poisson.

Em termos da estrutura sistemática do modelo, podemos considerar três modelos log-lineares para as contagens esperadas:

$ \bullet $ modelo nulo;

$ \bullet $ modelo aditivo;

$ \bullet $ modelo saturado.

No modelo nulo supomos que todos os tipos de pacientes (4 tipos de pacientes) chegam ao laboratório na mesma proporção. Já no modelo aditivo supomos que a taxa de chegada depende do tratamento e da presença ou ausência de efeitos sobre a doença, mas não na combinação dos dois. Por fim, no modelo saturado diríamos que cada grupo tem seu próprio ritmo ou número esperado de chegadas.

Neste ponto, você pode tentar ajustar o modelo de Poisson aditivo para as quatro contagens na Tabela 8.1, tratamento e supor o efeito do medicamento como fatores ou preditores discretos.

Se pudermos escrever os valores ajustados, descobriremos que eles são exatamente os mesmos que no modelo multinomial. Esse resultado, evidentemente, não é uma coincidência. Testar a hipótese de independência no modelo multinomial é exatamente equivalente a testar a qualidade do ajuste do modelo de Poisson aditivo. A prova rigorosa desse resultado pode ser vista em (Fienberg,2006), mas podemos fornecer informações suficientes para mostrar que o resultado é intuitivamente razoável de entender quando pode ser usado.

Primeiro, observamos que, se as quatro contagens independentes têm distribuição de Poisson, sua soma tem distribuição Poisson com média igual à soma das médias. Simbolicamente, se $ Y_{ij}\sim P(\lambda_{ij}), $ então o total $ Y_{..}=\displaystyle\sum^r_{i=1}\sum^c_{j=1} Y_{ij} $ tem distribuição de Poisson com média $ \lambda_{..}=\displaystyle\sum^r_{i=1}\sum^c_{j=1} \lambda_{ij} $. Além disso, a distribuição condicional das quatro contagens dado o seu total é multinomial com probabilidades:

$ \pi_{ij}=\frac{\lambda_{ij}}{n} $

no qual usamos $ n $ para a observação total $ y_{..}=\displaystyle\sum^r_{i=1}\sum^c_{j=1} y_{ij}. $ Este resultado decorre diretamente do fato de que a distribuição condicional das contagens $ Y $ dado o seu total $ Y_{..} $ pode ser obtida como a relação entre a distribuição conjunta da contagem e do total (que é o mesmo que a distribuição conjunta das contagens, o que implica a total) para a distribuição marginal do total. Dividindo a distribuição conjunta dada na Equação (7.2) por marginais, que é Poisson com média $ \lambda_{..}, $ que nos leva diretamente à distribuição multinomial.

Em segundo lugar, notamos que a estrutura sistemática dos dois modelos é a mesma.

No modelo de independência, a probabilidade conjunta é o produto das marginais:

$ \pi_{ij}=\pi_{i.}\pi_{j.} $

Assim tomando o $ \log $ obtemos:

$ \log\pi_{ij}=\log\pi_{i.}+\log\pi_{.j}, $

que ainda pode ser escrita em termos das frequências esperadas $ E_{ij} = n\pi_{ij} $ , como:

$ n\times n\times\pi_{ij}=n\times \pi_{i.}\times n\times\pi_{j.} $

Aplicando o $ \log $ temos:

$ \log(n\times \underbrace{n~\pi_{ij}}_{E_{ij}})=\log(\underbrace{n~\pi{i.}}_{E_{i.}})+\log(\underbrace{n~\pi_{.j}}_{E_{.j}}) $

$ \log E_{ij}=\log E_{i.}+\log E_{.j}-\log n~~~~(8.2) $

Somando em i para a equação 8.2, temos:

$ \sum^r_{i=1}\log E_{ij}=\sum^r_{i=1}\log E_{i.}+r\log E_{.j}-r\log n $

Agora somamos em j para a equação 8.2:

$ \sum^c_{j=1}\log E_{ij}=c\log E_{i.}+\sum^c_{j=1}\log E_{.j}-c\log n  $

que é exatamente a estrutura do modelo de Poisson aditivo:

$ \log\lambda_{ij}=\eta+\alpha_i+\beta_j $

Em ambos os casos, o registro da contagem esperada depende da linha e da coluna, mas não a combinação dos dois. Na verdade, é apenas as restrições que diferem entre os dois modelos. O modelo multinomial restringe as probabilidades conjuntas e marginais para adicionar um. O modelo de Poisson utiliza o método de referência das células e conjuntos $ \alpha_1=\beta_1=0. $

Se a estrutura sistemática e aleatória dos dois modelos é a mesma, então não teremos nenhuma surpresa se eles produzirem os mesmos valores ajustados e levar aos mesmos testes de hipóteses. Em (Fienberg,2006) mostra que temos a equivalência das duas distribuições condicionais contidas em $ n $, mas na análise de Poisson o total $ n $ é aleatória e não condicionadas em seu valor. Lembremos, contudo, que o modelo de Poisson, incluindo a constante, reproduz exatamente o total da amostra. Acontece que não necessitamos de condições em n, pois o modelo reproduz o seu valor exato de qualquer maneira.

Uma outra equivalência para o modelo de Poisson está quanto ao uso de outra técnica para o tratamento destes dados, que é a de modelos lineares generalizados, os detalhes destes modelo será tratado em um outro conteúdo estatístico. No software Action este modelo já está implementado, assim usamos esta ferramenta para tratarmos o uso de modelos log lineares para tabelas cruzadas. Portanto, reescrevendo o modelo (8.2) obtemos:

$ \log E_{ij}=\beta_0+\beta_1~X_1+\beta_2~X_2~~~~(8.3) $

A moral desta história é que não precisamos nos preocupar com modelos multinomiais e pode sempre recorrer ao modelo de Poisson equivalentemente. Embora o ganho é trivial no caso de uma tabela $ 2\times 2 $, pode ser muito significativo à medida que avançamos para classificações cruzadas envolvendo três ou mais variáveis, particularmente não temos que nos preocupar com a maximização da probabilidade multinomial sob restrições. O único truque que precisamos aprender é como traduzir as perguntas de independência que surgem no contexto multinomial para os modelos log lineares correspondentes no contexto de Poisson.

 

Exemplo 8.2

Voltando ao exemplo 8.1

Tratamento Efeito Quantidade
1 1 551
1 2 114
2 1 213
2 2 452

em que, para a variável tratamento temos que 1 é o medicamento e 2 é placebo e 1. Já para a variável Efeitos temos que 1 é presente e 2 é ausente. Assim, usando a equação (8.3) temos o seguinte modelo:

$ \log(E_{ij})=\beta_0+\beta_1*\mbox{Tratamento}+\beta_2*\mbox{Efeito} $

Usando o software Action, temos:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Agora, vamos calcular os valores esperados que é o mesmo para o teste Qui-Quadrado para tabelas cruzadas. Então temos:

$ E_{11}=\exp\left(\beta_0+\beta_1*1+\beta_2*1\right)=\exp(6,24+(-1,32)*1+(-0,29)*1)=382 $

$ E_{12}=\exp\left(\beta_0+\beta_1*1+\beta_2*2\right)=\exp(6,24+(-1,32)*1+(-0,29)*2)=283 $

$ E_{21}=\exp\left(\beta_0+\beta_1*2+\beta_2*1\right)=\exp(6,24+(-1,32)*2+(-0,29)*1)=382 $

$ E_{22}=\exp\left(\beta_0+\beta_1*2+\beta_2*2\right)=\exp(6,24+(-1,32)*2+(-0,29)*2)=283 $

Agora, mostramos o resultado obtidos pelo software Action para o teste Qui-Quadrado:

Observe que os valores da tabela dos Valores Esperados são os mesmos obtidos pelo preditor linear do modelo Poisson e o p-valor da estatística Qui-Quadrado é bem próximo do p-valor para o coeficiente do efeito, com isso, temos as mesmas conclusões, ou seja, as variáveis são independentes.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]