- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
Neste módulo, vamos estudar a aplicação de modelos de regressão de Poisson para a análise das tabelas cruzadas. A distribuição de Poisson é talvez uma das mais populares na aplicação de modelos log-lineares para tabelas cruzadas, pois são baseados na existência de uma estreita relação entre ela e a distribuição multinomial. Consideramos tabelas cruzadas simples, ou seja, tabelas 2 x 2. No entanto, os conceitos a serem introduzidos se aplicam igualmente aos casos mais gerais.
Para testar o efeito de um medicamento para um certo tipo de doença, foram selecionados 1330 pacientes, em que cruzamos o tipo de tratamento (medicamento ou placebo) e a presença ou ausência de efeitos em relação ao tipo de doença. Há vários esquemas de amostragem que poderíamos ter conduzido estes dados.
Tratamento | Efeitos do Medicamento | Total | |
Presente | Ausente | ||
Medicamento | 551 | 114 | 665 |
Placebo | 213 | 452 | 665 |
Total | 764 | 566 | 1330 |
Tabela 8.1: Tabela de Tratamento versus Efeito do Medicamento.
A seguir, vamos apresentar o modelo Poisson para tabelas cruzadas.
Um modelo alternativo para os dados da Tabela 8.1 é tratarmos as quatro frequências das variáveis aleatórias independentes de Poisson, pois estamos tratando primeiramente de uma tabela 2x2. A física possível do modelo é imaginar que existem quatro grupos de pessoas, um para cada célula da tabela, e que os membros de cada grupo chegam ao acaso em um hospital ou centro médico durante um período de tempo, digamos que para um exame de saúde. Neste modelo o tamanho total da amostra não é fixo e todas as contagens são, portanto, aleatórias.
Partindo do pressuposto de que as observações são independentes, a distribuição conjunta das quatro contagens é um produto de distribuições de Poisson:
$P[Y=y]=\displaystyle\prod^r_{i=1}\prod^c_{j=1} \cfrac{\lambda_{ij}^{y_{ij}}\exp{\{-\lambda_{ij}\}}}{y_{ij}!}~~~~(8.1)$
tomando log obtemos o log da verossimilhança usual de Poisson.
Em termos da estrutura sistemática do modelo, podemos considerar três modelos log-lineares para as contagens esperadas:
$\bullet$ modelo nulo;
$\bullet$ modelo aditivo;
$\bullet$ modelo saturado.
No modelo nulo supomos que todos os tipos de pacientes (4 tipos de pacientes) chegam ao laboratório na mesma proporção. Já no modelo aditivo supomos que a taxa de chegada depende do tratamento e da presença ou ausência de efeitos sobre a doença, mas não na combinação dos dois. Por fim, no modelo saturado diríamos que cada grupo tem seu próprio ritmo ou número esperado de chegadas.
Neste ponto, você pode tentar ajustar o modelo de Poisson aditivo para as quatro contagens na Tabela 8.1, tratamento e supor o efeito do medicamento como fatores ou preditores discretos.
Se pudermos escrever os valores ajustados, descobriremos que eles são exatamente os mesmos que no modelo multinomial. Esse resultado, evidentemente, não é uma coincidência. Testar a hipótese de independência no modelo multinomial é exatamente equivalente a testar a qualidade do ajuste do modelo de Poisson aditivo. A prova rigorosa desse resultado pode ser vista em (Fienberg,2006), mas podemos fornecer informações suficientes para mostrar que o resultado é intuitivamente razoável de entender quando pode ser usado.
Primeiro, observamos que, se as quatro contagens independentes têm distribuição de Poisson, sua soma tem distribuição Poisson com média igual à soma das médias. Simbolicamente, se $Y_{ij}\sim P(\lambda_{ij}),$ então o total $Y_{..}=\displaystyle\sum^r_{i=1}\sum^c_{j=1} Y_{ij}$ tem distribuição de Poisson com média $\lambda_{..}=\displaystyle\sum^r_{i=1}\sum^c_{j=1} \lambda_{ij}$. Além disso, a distribuição condicional das quatro contagens dado o seu total é multinomial com probabilidades:
$\pi_{ij}=\frac{\lambda_{ij}}{n}$
no qual usamos $n$ para a observação total $y_{..}=\displaystyle\sum^r_{i=1}\sum^c_{j=1} y_{ij}.$ Este resultado decorre diretamente do fato de que a distribuição condicional das contagens $Y$ dado o seu total $Y_{..}$ pode ser obtida como a relação entre a distribuição conjunta da contagem e do total (que é o mesmo que a distribuição conjunta das contagens, o que implica a total) para a distribuição marginal do total. Dividindo a distribuição conjunta dada na Equação (7.2) por marginais, que é Poisson com média $\lambda_{..},$ que nos leva diretamente à distribuição multinomial.
Em segundo lugar, notamos que a estrutura sistemática dos dois modelos é a mesma.
No modelo de independência, a probabilidade conjunta é o produto das marginais:
$\pi_{ij}=\pi_{i.}\pi_{j.}$
Assim tomando o $\log$ obtemos:
$\log\pi_{ij}=\log\pi_{i.}+\log\pi_{.j},$
que ainda pode ser escrita em termos das frequências esperadas $E_{ij} = n\pi_{ij}$ , como:
$n\times n\times\pi_{ij}=n\times \pi_{i.}\times n\times\pi_{j.}$
Aplicando o $\log$ temos:
$\log(n\times \underbrace{n~\pi_{ij}}_{E_{ij}})=\log(\underbrace{n~\pi{i.}}_{E_{i.}})+\log(\underbrace{n~\pi_{.j}}_{E_{.j}})$
$\log E_{ij}=\log E_{i.}+\log E_{.j}-\log n~~~~(8.2)$
Somando em i para a equação 8.2, temos:
$\sum^r_{i=1}\log E_{ij}=\sum^r_{i=1}\log E_{i.}+r\log E_{.j}-r\log n$
Agora somamos em j para a equação 8.2:
$\sum^c_{j=1}\log E_{ij}=c\log E_{i.}+\sum^c_{j=1}\log E_{.j}-c\log n $
que é exatamente a estrutura do modelo de Poisson aditivo:
$\log\lambda_{ij}=\eta+\alpha_i+\beta_j$
Em ambos os casos, o registro da contagem esperada depende da linha e da coluna, mas não a combinação dos dois. Na verdade, é apenas as restrições que diferem entre os dois modelos. O modelo multinomial restringe as probabilidades conjuntas e marginais para adicionar um. O modelo de Poisson utiliza o método de referência das células e conjuntos $\alpha_1=\beta_1=0.$
Se a estrutura sistemática e aleatória dos dois modelos é a mesma, então não teremos nenhuma surpresa se eles produzirem os mesmos valores ajustados e levar aos mesmos testes de hipóteses. Em (Fienberg,2006) mostra que temos a equivalência das duas distribuições condicionais contidas em $n$, mas na análise de Poisson o total $n$ é aleatória e não condicionadas em seu valor. Lembremos, contudo, que o modelo de Poisson, incluindo a constante, reproduz exatamente o total da amostra. Acontece que não necessitamos de condições em n, pois o modelo reproduz o seu valor exato de qualquer maneira.
Uma outra equivalência para o modelo de Poisson está quanto ao uso de outra técnica para o tratamento destes dados, que é a de modelos lineares generalizados, os detalhes destes modelo será tratado em um outro conteúdo estatístico. No software Action este modelo já está implementado, assim usamos esta ferramenta para tratarmos o uso de modelos log lineares para tabelas cruzadas. Portanto, reescrevendo o modelo (8.2) obtemos:
$\log E_{ij}=\beta_0+\beta_1~X_1+\beta_2~X_2~~~~(8.3)$
A moral desta história é que não precisamos nos preocupar com modelos multinomiais e pode sempre recorrer ao modelo de Poisson equivalentemente. Embora o ganho é trivial no caso de uma tabela $2\times 2$, pode ser muito significativo à medida que avançamos para classificações cruzadas envolvendo três ou mais variáveis, particularmente não temos que nos preocupar com a maximização da probabilidade multinomial sob restrições. O único truque que precisamos aprender é como traduzir as perguntas de independência que surgem no contexto multinomial para os modelos log lineares correspondentes no contexto de Poisson.
Voltando ao exemplo 8.1
Tratamento | Efeito | Quantidade |
1 | 1 | 551 |
1 | 2 | 114 |
2 | 1 | 213 |
2 | 2 | 452 |
em que, para a variável tratamento temos que 1 é o medicamento e 2 é placebo e 1. Já para a variável Efeitos temos que 1 é presente e 2 é ausente. Assim, usando a equação (8.3) temos o seguinte modelo:
$\log(E_{ij})=\beta_0+\beta_1*\mbox{Tratamento}+\beta_2*\mbox{Efeito}$
Usando o software Action, temos:
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
Agora, vamos calcular os valores esperados que é o mesmo para o teste Qui-Quadrado para tabelas cruzadas. Então temos:
$E_{11}=\exp\left(\beta_0+\beta_1*1+\beta_2*1\right)=\exp(6,24+(-1,32)*1+(-0,29)*1)=382$
$E_{12}=\exp\left(\beta_0+\beta_1*1+\beta_2*2\right)=\exp(6,24+(-1,32)*1+(-0,29)*2)=283$
$E_{21}=\exp\left(\beta_0+\beta_1*2+\beta_2*1\right)=\exp(6,24+(-1,32)*2+(-0,29)*1)=382$
$E_{22}=\exp\left(\beta_0+\beta_1*2+\beta_2*2\right)=\exp(6,24+(-1,32)*2+(-0,29)*2)=283$
Agora, mostramos o resultado obtidos pelo software Action para o teste Qui-Quadrado:
Observe que os valores da tabela dos Valores Esperados são os mesmos obtidos pelo preditor linear do modelo Poisson e o p-valor da estatística Qui-Quadrado é bem próximo do p-valor para o coeficiente do efeito, com isso, temos as mesmas conclusões, ou seja, as variáveis são independentes.
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.