2.1 - A estatística de Log-rank Ponderado

Você está aqui

O teste de Log-rank foi proposto por Mantel-Haennszel (1959) para comparar duas populações. Este teste foi estendido por Aalen (1978) e Gill (1980) para comparar duas curvas de sobrevivência sujeitas a dados censurados. O caso de $J$ populações com diversas estruturas de censura foi desenvolvido por Andersen et al (1982).

Esse teste não paramétrico é baseado na diferença entre as taxas de falha (ou funções intensidade) de cada curva de sobrevivência. Apesar do teste de Log-rank ser o teste não paramétrico mais utilizado para se comparar duas ou mais populações sujeitas a dados censurados, este teste apresentada duas restrições. Primeiro, toda a teoria assintótica envolvida com o teste de Log-rank, tem como hipótese o fato das populações envolvidas terem distribuições contínuas ou no máximo mistas. Segundo, o teste de Log-rank não apresenta bom comportamento quando as funções intensidade cruzam.

Os teoremas gerais propostos por Gill (1980) e Andersen et al (1982) não são aplicáveis ao caso discreto.  O caso puramente discreto foi recentemente tratado por Leão e Ohashi (2011). Segundo Leão e Ohashi, o teste de Log-rank é consistente apenas para o caso em que não ocorrem cruzamentos entre as funções intensidade. Klein e Moeschberger (1997) mostraram que o teste de Log-rank tem baixo poder em situações no qual as funções intensidade cruzam.  A principal causa do baixo poder neste tipo de situação, é que as diferenças iniciais em favor de uma população (antes do cruzamento) são canceladas após o cruzamento pelas diferenças em favor da outra população.

No caso de duas populações, diversas soluções foram avaliadas em Klein e Moeschberger (1997), entre elas, citamos a classe de testes do tipo Renyi, proposta por Gill (1980). Entretanto, estes testes são aplicados apenas no caso de duas populações e para populações com distribuições contínuas. Baseado no clássico teste de Cramér von-Mises, Leão e Ohashi (2011) propuseram modificações no teste de Log-rank de tal forma que este é consistente para qualquer hipótese alternativa.

Nesta seção, vamos estender as estatísticas de Log-rank Ponderadas proposta por Fleming e Harrington (1990) para comparar $J$ populações discretas na presença de censura arbitrária. Lembramos que $R^{n^\star}(i)=R^{n_1}(i)+\dots+R^{n_J}(i)$ é o número total de eventos de interesse da categoria $i$ e que $V^{n^\star}(i)=V^{n_1}(i)+\dots+V^{n_J}(i)$ é o número total de ítens sob Risco na categoria $i$, para qualquer $i=1,2,\dots,k$. Além disso, denotamos por $n^{\star} = (n_1, n_2 , \cdots , n_J)$ o vetor de números naturais correspondente ao tamanho da amostra retirado de cada população e $n=n_1 + n_2 + \cdots n_J$ o total de elementos nas amostras. Também dizemos que $n^\star \rightarrow \infty$ se $n_p \rightarrow \infty$ para todo $p=1 \cdots , J$. Vamos derivar uma classe de estatísticas de teste para a hipótese $H_0:h^1(\ell)=h^2(\ell)=\dots=h^J(\ell)$, para todo $\ell=1,\dots,i$, no qual $i$ pode ser finito ou não. A seguir, denotamos a sequência de $\mathbb{F}$ tempos de parada $$d^u=\sup \left\{\ell:\min_{q \in \mathcal{J}}\theta^q (\ell)\textgreater0 \right\},$$

em que $\theta^q(\ell):=P[X^q\geq\ell],\quad q\in\{1,\dots,J\},~\ell\geq0~~\text{e}$ $$d^u_{n^\star}=\sup \left\{ \ell: \min_{q \in \mathcal{J} } V^{n_q}( \ell )\textgreater 0 \right\},~n^\star\in \mathbb{N}^J.$$

Podemos verificar que $d^u_{n^\star}\rightarrow d^u$ em probabilidade quando $n^\star\rightarrow \infty,$ em que $1\leq d^u\leq\infty$ e $d^u_{n^\star}\textless\infty$ para todo $n^\star\in\mathbb{N}^J$ (propriedades $S_1$ e $S_2$ do artigo de Leão e Ohashi). É importante ressaltar que todos os resultados assintóticos deste trabalho são obtidos com a hipótese de proporcionalidade do tamanho da amostra (2.1). Considerando o problema de duas populações $(J=2),$ Fleming e Harrington (1990) propuseram as seguintes  estatísticas de Log-rank Ponderada, $$LR(n^\star,d^u_{n^\star})=\sum^i_{\ell=1}U^{n_1}_{n_2}(n^\star,\ell)[\hat{h}^{n_2}(\ell)-\hat{h}^{n_1}(\ell)],$$

com função de ponderação dada por $$U^{n_1}_{n_2}(n^\star,\ell)=\left(\frac{1}{n}\right)^{1/2}u(n^\star,\ell)\left(\frac{V^{n_1}(\ell)V^{n_2}(\ell)}{V^{n^\star}(\ell)}\right)1\!\!1_{\{V^{n_1}(\ell)\textgreater 0\}}$$

em que $u$ é um processo previsível, limitado, que converge em probabilidade para uma função limitada $w: \{0,1,2, \cdots , k \} \rightarrow \Bbb{R}$ e $n=n_1 + n_2$. Uma das principais ponderações é a classe de Tarone-Ware (1977), $$u(n^\star,\ell)=\left(\frac{V^{n^\star}(\ell)}{n}\right)^{\gamma},\quad\text{em que}~n=\sum^J_{i=1}n_i,~\gamma\textgreater0,$$

e as classes introduzidas por Harrington e Fleming  (1982), $$u(n^\star,\ell)=\left[\prod^{\ell-1}_{j=0}\left(1-\frac{\Delta R^{n^\star}(j)}{V^{n^\star}(j)}\right)\right]^{\rho}\left[1-\prod^{\ell-1}_{j=0}\left(1-\frac{\Delta R^{n^\star}(j)}{V^{n^\star}(j)}\right)\right]^{\gamma},~~~\gamma \geq 0,~\rho \geq 0.$$

Se tomarmos $u(n^\star,\ell) = 1$ para todo $\ell$, obtemos a clássica estatística de Log-rank. Na tabela (2.1) temos as funções de ponderação mais utilizadas (ver Klein e Moeschberger página 210).

Peso $u(n^\star,\ell)$
Log-rank 1
Gehan $\displaystyle\frac{V^{n^\star}(\ell)}{n}$
Tarone e Ware $\gamma\textgreater 0$ $\displaystyle\left(\frac{V^{n^\star}(\ell)}{n}\right)^\gamma$
Peto e Peto $\displaystyle\prod^{\ell-1}_{j=1}\left(1-\left(\frac{\Delta R^{n^\star}(j)}{1+V^{n^\star}(j)}\right)\right)$
Peto e Peto Modificado $\displaystyle\prod^{\ell-1}_{j=1}\left(1-\left(\frac{\Delta R^{n^\star}(j)}{1+V^{n^\star}(j)}\right)\right)~\left[\frac{\left(V^{n^\star}(j)\right)}{1+\left(V^{n^\star}(j)\right)}\right]$
Fleming e Harrington $\gamma\textgreater0,~\rho\geq0$ $\displaystyle\left[\prod^{\ell-1}_{j=0}\left(1-\cfrac{\Delta R^{n^\star}(j)}{V^{n^\star}(j)}\right)\right]^{\rho}\left[1-\prod^{\ell-1}_{j=0}\left(1-\cfrac{\Delta R^{n^\star}(j)}{V^{n^\star}(j)}\right)\right]^{\gamma}$

Tabela 2.1: Funções de ponderação.

A escolha do processo de ponderação $u(n^\star,\ell)$ determina a função poder da estatística do teste contra diferentes hipóteses alternativas. A estatística escolhida será mais sensível com relação às diferenças entre as funções intensidades nas categorias em que $u(n^\star,\cdot)$ é grande e menos sensível nas categorias em que $u(n^\star,\cdot)$ é pequena. Para os processos de ponderação do tipo Fleming e Harrington com $\rho\textgreater0, \gamma=0,$ intuitivamente, têm um bom poder para detectar precocemente diferenças (entre as funções intensidades) que desaparecem ao longo do tempo. Por outro lado, com o mesmo processo mas $\rho=0, \gamma\textgreater0$ será mais poderosa contra as alternativas com funções intensidade não proporcionais. O processo de ponderação do tipo log-rank, tem desempenho satisfatório para alternativas com funções de intensidade constantes ou proporcionais.

Agora, vamos tratar para o problema de $J$ populações. Para testarmos a hipótese nula $H_0: h^1=\dots=h^J$, derivamos uma generalização da estatística de Log-rank ponderada proposta por Fleming e Harrington (2005) que pode ser encontrada em Andersen et al.. Usando a função de ponderação $$U^{n_q}_{n_{q_1}} (n^{\star}, \ell )=\left(\frac{1}{n}\right)^{\frac{1}{2}}u(n^\star,\ell)\left(\frac{V^{n_q}(\ell)V^{n_{q_1}}(\ell)}{V^{n^\star}(\ell)}\right)1\!\!1_{\{V^{n_q}(\ell)\textgreater 0\}},\quad\text{em que}~n=n_1+\dots+n_J$$

obtemos $$LR_{q}({n^{\star}}, j)=\sum_{q_1\neq q}\sum_{\ell=1}^{j}U^{n_q}_{n_{q_1}} (n^{\star}, \ell ) \left[ \hat{h}^{n_q} (\ell)-\hat{h}^{n_{q_1}} (\ell)\right]$$

$$=\sum_{\ell=1}^{j}\left( \frac{1}{n} \right)^{1/2} u (n^{\star}, \ell) \left[ \Delta R^{n_q} (\ell) - V^{n_q} (\ell)\frac{\Delta R^{n^{\star}} (\ell)}{V^{n^{\star}} (\ell)} \right]$$

$$=\sum_{\ell=1}^{j} \left( \frac{1}{n} \right)^{1/2} u (n^{\star}, \ell) V^{n_q} (\ell) \left[ \frac{\Delta R^{n_q} (\ell)}{V^{n_q} (\ell)} - \frac{\Delta R^{n^{\star}} (\ell)}{V^{n^{\star}} (\ell)} \right], ~n^\star\in \mathbb{N}^J,~j\ge 1.$$

Agora, segue do Teorema (3.1) (Leão e Ohashi (2012)) e Proposição (2.1), que sob $H_0$ o vetor aleatório $$LR({n^{\star}}, d^u_{n^{\star}}) :=(LR_1({n^{\star}},d^u_{n^{\star}}), \ldots , LR_{J}({n^{\star}},d^u_{n^{\star}}))^T$$

converge em distribuição para $N(0,\displaystyle\Gamma(d^u))$ quando $n^{\star}\rightarrow \infty$, em que $\Gamma(d^u)$ admite um estimador consistente $\hat{\Gamma}(n^\star,d^u_{n^\star}),$ na forma $\hat{\Gamma}(n^\star,i):=\displaystyle\sum^i_{\ell=1} \hat{Q}(\ell),~i\geq 1$ com $$\hat{Q}(\ell)_{i,j}=\langle\hat{Q}(\ell)a_i,a_j\rangle$$

para todo $a\in \mathbb{R}^J$ e $\langle \cdot , \cdot \rangle_{\mathbb{R}^J}$ o produto interno no $\mathbb{R}^J$.  A forma matricial é dada por $$\hat{Q}(\ell)_{i,j}=\left(\begin{array}{llll}\hat{\phi}^2_{1,n^\star}(1)\quad~~~~\dots~~~~\hat{\psi}_{n^\star}(1,2,2) ~~~~\dots~~~~\hat{\psi}_{n^\star}(1,J-1,k-1)\\\hat{\psi}_{n^\star}(2,1,1)\quad~~~~\dots~~~~\hat{\phi}^2_{2,n^\star}(2)~~~~~~\dots~~~~\hat{\psi}_{n^\star}(2,J-1,k-1)\\\vdots\quad\quad\quad\quad\quad\vdots\quad\quad\quad\quad\ddots\quad\quad\quad\quad\vdots \\\hat{\psi}_{n^\star}(k-1,1,1)\quad~~~~\dots~~~~\hat{\psi}_{n^\star}(k-1,2,2)\quad~~~~\dots~~~~\hat{\phi}^2_{J-1,n^\star}(k-1)\\\end{array}\right)_{k-1\times k-1}$$
em que

$$\hat{\phi}^2_{q,n^\star}(\ell):=\sum_{q_1\neq q}\left[\frac{|U^{n_q}_{n_{q_1}}(n^\star,\ell)|^2}{V^{n_{q_1}}(\ell)}\hat{h}^{n_{q_1}}(\ell)[1-\hat{h}^{n_{q_1}}(\ell)]+\frac{|U^{n_q}_{n_{q_1}}(n^\star,\ell)|^2}{V^{n_{q}}}\hat{h}^{n_{q}}(\ell)[1-\hat{h}^{n_{q}}(\ell)]\right]+$$

$$+2\sum_{q_1,q_2\in A_q}\frac{U^{n_q}_{n_{q_1}}(n^\star,\ell)U^{n_q}_{n_{q_2}}(n^\star,\ell)}{V^{n_{q}}(\ell)}\hat{h}^{n_{q}}(\ell)[1-\hat{h}^{n_{q}}(\ell)],~~~\ell\geq 1$$

no qual, $A_q=\{(x,y)\in \mathcal{J}\times \mathcal{J}; x\neq y, x\neq q, y\neq q, 1\leq x \textless y \leq J \}$ e $\mathcal{J}=\{1,\dots,J\}.$

Além disso, $$\hat{\psi}_{n^\star}(k,r,\ell):=\sum_{q_1,q_2\in A(k,r)}\cfrac{U^{n_k}_{n_{q_1}}(n^\star,\ell)U^{n_r}_{n_{q_1}}(n^\star,\ell)}{V^{n_{q_1}(\ell)}}1\!\!1_{\{V^{n_{q_1}}(\ell)\textgreater 0\}}\hat{h}^{q_1}(\ell)[1-\hat{h}^{q_1}(\ell)]-$$

$$-\sum_{q_1\neq k}\cfrac{U^{n_k}_{n_{q_1}}(n^\star,\ell)U^{n_r}_{n_{k}}(n^\star,\ell)}{V^{n_{k}(\ell)}}1\!\!1_{\{V^{n_{k}}(\ell)\textgreater0\}}\hat{h}^{k}(\ell)[1-\hat{h}^{k}(\ell)]-$$

$$-\sum_{q_2\neq r}\cfrac{U^{n_r}_{n_{q_2}}(n^\star,\ell)U^{n_k}_{n_{r}}(n^\star,\ell)}{V^{n_{r}(\ell)}}1\!\!1_{\{V^{n_{r}}(\ell)\textgreater0\}}\hat{h}^{r}(\ell)[1-\hat{h}^{r}(\ell)],~~~~\ell\geq 1$$

em que, $$A(k,r)= \{(q_1,q_2)\in \mathcal{J}\times \mathcal{J}; q_1\neq k,q_2\neq r, q_1=q_2\}~e~\mathcal{J}=\{1,\dots,J\}.$$

No entanto, como uma consequência da definição da estatística $LR_q(n^\star,d^u_{n^\star})$, temos que $\displaystyle \sum^J_{q=1}LR_q(n^\star,d^u_{n^\star}) = 0.$ Assim, o vetor aleatório das estatísticas de Log-rank Ponderado é linearmente dependente e a matriz de covariância assintótica $\Gamma(n^\star,d^u_{n^\star})$ tem posto não superior a $J-1.$ Sob condições gerais sobre $h^p$ $(p=1,\dots,J),$ tal como a existência para qualquer $q, p=1,\dots,J$ de pelo menos um índice $\ell\leq i$ tal que $h^p(\ell)\textgreater0$ e $h^q(\ell)\textgreater0,$ pode ser provado que o posto de $\Gamma(i)$ é  $J-1,$ para qualquer $i\geq 1$ (ver, Gill (1986), Apêndice 1). Da mesma forma, o estimador da covariância $$\hat{\Gamma}(n^\star,i):=\sum^i_{\ell=1}\hat{Q}(n^\star,\ell),~~~~i\geq 1$$

tem posto $J-1.$ Além disso, para qualquer $q, p = 1,\dots,J$, existe pelo menos um índice $\ell\leq i$ tal que $\Delta R^{n_p}(\ell)$ e $\Delta R^{n_q}(\ell)$ são positivos. Além disso, como $\hat{\Gamma}(n^\star,i)$ é um estimador consistente de $\Gamma(i),$  obtemos que a probabilidade de $\hat{\Gamma}(n^\star,i)$ converge para $1$ quando $n^\star$ tende ao infinito. Assim, sob $H_0,$ a estatística $$X^2(n^\star,d^u_{n^\star})=LR(n^\star,d^u_{n^\star})^T\hat{\Gamma}(n^\star,d^u_{n^\star})^{-1}LR(n^\star,d^u_{n^\star})$$

tem distribuição assintótica Qui-Quadrado com $J- 1$ graus de liberdade, no qual $\hat{\Gamma}^{-1}(n^\star,d^u_{n^\star})$ é uma inversa generalizada. Portanto, se excluirmos a última linha e última coluna de $\hat{\Gamma}(n^\star,d^u_{n^\star}),$ resultando em $\hat{\Gamma}_0(n^\star,d^u_{n^\star})=\displaystyle\sum^j_{\ell=1}\hat{Q}_0(n^\star,\ell),j\geq1,$ obtemos por consistência de $\hat{\Gamma}(n^\star,d^u_{n^\star})$ que o posto é $J-1,$ ou seja, a probabilidade de $\hat{\Gamma}$ ter posto $J-1$ cresce para 1 quando $n^\star\rightarrow\infty.$  Assim, tomando o vetor aleatório $$ LR_0(n^\star,d^u_{n^\star})=(LR_1(n^\star,d^u_{n^\star}),\dots,LR_{J-1}(n^\star,d^u_{n^\star}))^T,$$

concluímos que $$X^2(n^\star,d^u_{n^\star})=LR_0(n^\star,d^u_{n^\star})^T\hat{\Gamma}_0(n^\star,d^u_{n^\star})^{-1}LR_0(n^\star,d^u_{n^\star})$$

tem distribuição assintótica Qui-Quadrado com $J-1$ graus de liberdade, no qual $\hat{\Gamma}_0(n^\star,d^u_{n^\star})^{-1}$ é a inversa clássica.

Para investigarmos o poder do teste, removemos o pressuposto de $H_0$. Neste caso, temos que $$LR_{q}( {n^{\star}}, i)=\sum_{\ell=1}^{i} \sum_{q_1\neq q}U^{n_q}_{n_{q_1}} (n^{\star}, \ell ) \left[ \hat{h}^{n_q} (\ell) -\hat{h}^{n_{q_1}} (\ell)\right] =$$

$$=\sum_{\ell=1}^{i} \sum_{q_1\neq q}U^{n_q}_{n_{q_1}} (n^{\star}, \ell ) \left[ \frac{ \Delta Y^{n_q}(\ell)1\!\!1_{\{V^{n_q}(\ell)\textgreater0\}}}{V^{n_q}(\ell)}-\frac{\Delta Y^{n_{q_1}}(\ell) 1\!\!1_{\{V^{n_{q_1}}(\ell)\textgreater0 \}}}{V^{n_{q_1}}(\ell)} \right] +$$

$$+\sum_{\ell=1}^{i}\sum_{q_1\neq q}U^{n_q}_{n_{q_1}}(n^{\star},\ell)\left[ h^{q}(\ell)-h^{q_1}(\ell)\right], ~ i \in \mathcal{K}.$$

Seja $\{Q_n : n \in \mathbb{N}\}$ uma sequência de testes estatísticos e $\{R_n : n \in \mathbb{N}\}$ as respectivas regiões de rejeição associadas a um nível de significância fixado. Dizemos que uma sequência de estatísticas de teste $Q_n$ é consistente com uma hipótese alternativa $H_1$ se $\lim_n P(Q_n \in R_n \mid H_1)=1$, veja Fleming e Harrington (1991) para mais detalhes. A classe de  hipóteses  alternativas $H_1: h^1(\ell)\textgreater h^q(\ell)$, para qualquer $\ell =1, \cdots , k-1$ e $q=2,\cdots,J$ é chamado de hipóteses alternativas de intensidades ordenadas.

Lema 2.1.1:

Sob hipóteses alternativas de intensidades ordenadas, o teste de Log-rank Ponderado $X^2(k-1)$ é consistente, para $k$ finito ou não.

Demonstração:

ver Watanabe A.H.

Exemplo 2.1.1:

Voltando ao exemplo citado na seção de introdução.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Pelos gráficos da função de sobrevivência e das funções de intensidade, notamos um cruzamento severo (aproximadamente em 1000 dias) e pode causar uma dificuldade em detectar diferenças significativas entre $W_1$ e $W_2.$

 

O teste de Log-rank Ponderado não detecta diferença significativa ao nível de significância $\alpha=0,05,$ para o peso log-rank $u(n^\star,\ell)=1,$ Nas demais seção estatística de Cramér-von Mises, vamos apresentar uma estatística que detecta diferenças quando temos cruzamento das funções de intensidade.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]