2.3 - A estatística de Cramér-von Mises

Você está aqui

Nesta seção, enunciamos a estatística de Cramér-von Mises proposta por Leão e Ohashi para populações discretas na presença de censura. A seguir, definimos a primeira categoria observada nas amostras por $$d^l_{n^{\star}} = \inf \{ \ell : \Delta R^{n^{\star}} (\ell ) \textgreater 0 \}~~~(2.3.1)$$

e assumimos que todos os processos ponderados tem a forma (2.3.1). Assim, $d^l_{n^{\star}}\rightarrow d^l$ em probabilidade quando $n^\star\rightarrow \infty$ em que, $$d^l:= \inf \{ \ell : b_1 h^1(\ell) + \cdots +b_J h^J (\ell)\textgreater0\}$$

para $b_p=\displaystyle\lim_{n^\star\rightarrow\infty}\frac{n_p}{n},~p\in\mathcal{J}$ (ver Leão e Ohashi  pág.19).

Para testarmos a homogeneidade das populações discretas na presença de censura arbitrária com infinitas categorias, enunciamos uma versão da estatística de Cramér-von Mises proposto no trabalho de Leão e Ohashi (os detalhes matemáticos podem ser vistos neste trabalho).

Primeiramente, consideramos $LR(n^\star,r)$ com $n^\star\in \mathbb{N}^J$ e $r\geq 1$ ponderado pela sequência $\hat{\phi}_{n^\star}=\{\hat{\phi}_{1,n^\star}(r),\dots,\hat{\phi}_{J,n^\star}(r) : r =1,2,3, \cdots\}$ no espaço de Hilbert $\ell^2(\mathbb{N})$, obtendo $$GLR_q(n^\star, \hat{\phi}_{n^\star} ,r)=\hat{\phi}_{q, n^\star}(r)LR_{q}(n^\star,r);\quad q=1,\ldots,J-1~~~(2.3.2)$$

Assim, temos que $$GLR(n^\star, \hat{\phi}_{n^\star} ,r)=\left(\hat{\phi}_{1, n^\star}(r)LR_{1}(n^\star,r), \dots, \hat{\phi}_{J-1, n^\star}(r)LR_{J-1}(n^\star,r)\right)^T$$

$$\overset{(2.3.2)}{=}\left(GLR_1(n^\star, \hat{\phi}_{n^\star} ,r), \dots, GLR_{J-1}(n^\star, \hat{\phi}_{n^\star} ,r)\right)^T~~~~(2.3.3)$$

para $r\geq1$ e $n^\star \in \mathbb{N}^J.$

Construímos agora $M_0(\ell):=\text{diag}(\phi_1(\ell),\ldots,\phi_{J-1}(\ell))$ e o operador de covariância, porém, usamos a notação $\Gamma_0$ em vez de $\Gamma$ na forma quadrática. Denotamos o operador linear $\mathcal{Y}_0(d^l,d^u):\ell^2\rightarrow\ell^2$ de modo que $(J-1)k(d^l,i)$-ésima coordenada de $\mathcal{Y}_0(d^l,d^u)a\doteq Y_0(d^l,i)(a_1,\ldots,a_{(J-1)k(d^l,i)})$ para $a\in \ell^2$ e $k(d^l,i)=i-d^l+1; i\geq d^l$. Assim, introduzimos o conjunto $L(d^l_{n^\star},d^u_{n^\star})=\{ d^l_{n^\star}\leq\ell\leq d^u_{n^\star}: \Delta R^{n^\star} (\ell) \textgreater 0\}$ das categorias observáveis e $L(n^\star)$ a cardinalidade. Para um determinado $n^\star\in\mathbb{N}^J$ e $a\in \ell^2$, definimos $$\hat{\mathcal{{Y}}}_0(d^l_{n^\star}, d^u_{n^\star})a$$

uma sequência real em que a $(J-1)L(n^{\star})$-ésima coordenada é obtida por $$\hat{Y}_0(d^l_{n^\star}, d^u_{n^\star})(a_1\ldots, a_{(J-1)L(n^{\star})});$$

e $\hat{Y}_0(d^l_{n^\star},d^u_{n^\star})$ é o operador aleatório auto-adjunto definido pela seguinte forma quadrática no espaço $\mathbb{R}^{(J-1)L(n^{\star})}.$ Assim, obtemos o seguinte produto interno $$\langle \hat{\mathcal{Y}}_0(d^l_{n^{\star}},d^u_{n^\star})a,a\rangle=\sum_{j \in L(d^l_{n^\star},d^u_{n^\star})} \langle \hat{M}_0(j)\hat{\Gamma}_0(j) \hat{M}_0(j)a_j,a_j\rangle_{\mathbb{R}^{J-1}} +$$

$$+\sum_{\{ \ell\textless j : \ell, j \in L(d^l_{n^\star},d^u_{n^\star})\}} \langle \hat{M}_0(\ell) \hat{\Gamma}_0(\ell) \hat{M}_0(j)a_{\ell},a_j\rangle_{\mathbb{R}^{J-1}} +$$

$$+\sum_{ \{ j \textless \ell : \ell, j \in L(d^l_{n^\star},d^u_{n^\star}) \}} \langle \hat{M}_0(\ell) \hat{\Gamma}_0(j) \hat{M}_0(j)a_{\ell},a_j\rangle_{\mathbb{R}^{J-1}}$$

em que $\hat{M}_0(\cdot):=\text{diag}(\hat{\phi}_{1,n^\star}(\cdot),\ldots,\hat{\phi}_{J-1,n^\star}(\cdot))$ e $a\in \mathbb{R}^{(J-1)L(n^{\star})}$.  Para escrevermos a forma matricial, definimos $I$ como sendo a última categoria do conjunto das categorias observáveis $L(d^l_{n^\star},d^u_{n^\star}),$ com isso a última posição da matriz é definida como $K=I (J-1).$ Assim, forma matricial é escrita da seguinte forma:

$\big[ \hat{\mathcal{Y}}_0(1,I) \big]_{\ell j}=\left(\begin{array}{ccccc}\hat{M}_0(1)\hat{\Gamma}_0(n^\star , 1) \hat{M}_0(1) \quad \dots \quad\hat{M}_0(2)\hat{\Gamma}_0(n^\star , 2) \hat{M}_0(1) \quad \dots \quad\hat{M}_0(K)\hat{\Gamma}_0(n^\star , K) \hat{M}_0(1) \\\vdots~~~~~~~~\ddots~~~~~~~~\vdots~~~~~~~\ddots~~~~~~~~\vdots\\\hat{M}_0(1)\hat{\Gamma}_0(n^\star , i) \hat{M}_0(i)\quad\dots\quad\hat{M}_0(i)\hat{\Gamma}_0(n^\star , i) \hat{M}_0(i) \quad\dots\quad \hat{M}_0(K)\hat{\Gamma}_0(n^\star , K) \hat{M}_0(i)\\\vdots~~~~~~~~\ddots~~~~~~~~\vdots~~~~~~~~\ddots~~~~~~~~\vdots\\\hat{M}_0(1)\hat{\Gamma}_0(n^\star , K) \hat{M}_0(K) \quad\dots\quad\hat{M}_0(i)\hat{\Gamma}_0(n^\star , K) \hat{M}_0(K) \quad\dots\quad \hat{M}_0(K)\hat{\Gamma}_0(n^\star , K) \hat{M}_0(K)\\\end{array}\right)$

Portanto, $\mathcal{\hat{Y}}_0(d^l_{n^\star}, d^u_{n^\star}):\ell^2\rightarrow \ell^2$ é uma sequência bem definida de operadores aleatórios auto-adjuntos de posto finito.

Por fim, definimos a estatística de Cramér-von Mises associadas aos modelos discretos na presença de censura da seguinte forma $$CVM (n^\star,d^l_{n^{\star}} , d^u_{n^{\star}}) := \|GLR(n^\star, \hat{\phi}_{n^\star}, d^l_{n^{\star}},d^u_{n^{\star}})\|^2_{\ell^2}; n^\star\in \mathbb{N}^{J-1}.$$

Vamos enunciar dois teoremas do artigo de Leão e Ohashi, que são resultados fundamentais para a estatística de Cramér-von Mises.

Teorema 2.3.1:

Suponha que os pressupostos (M1, M2, M3', M4') e (H1') (Leão e Ohashi ) são satisfeitos e seja $1\leq d^l\leq d^u\textless\infty$ e que as propriedades (S1-S2) também são satisfeitas. Então o limite $\lim_{n^\star\rightarrow\infty}GLR(n^\star, \hat{\phi}_{n^\star}, d^l_{n^{\star}},d^u_{n^{\star}})$ é uma medida de Gauss com média zero em $\ell^2$ com o operador covariância $\mathcal{\hat{Y}}(d^l_{n^\star}, d^u_{n^\star})$ em $\ell^2$. Em particular, $$\|GLR(n^\star, \hat{\phi}_{n^\star}, d^l_{n^{\star}},d^u_{n^{\star}})\|^2_{\ell^2}\rightarrow \sum_{s=1}^{\infty} \sum_{q=1}^{J-1} \lambda_{sq}\chi^2_{sq}~~~~~\text{em distribuição quando}~n^\star\rightarrow \infty$$

em que $\{\lambda_{sq} ; s\geq 1, q=1, \ldots , J-1\}$ são os auto-valores do operador de covariância $\mathcal{Y}_0(d^l,d^u)$ e $\{\chi^2_{sq},~~s\geq 1,q=1,\dots,J\}$ é um subconjunto de variáveis aleatórias i.i.d. Qui-Quadrado com um grau de liberdade

Assim, como consequência do teorema (2.3.1) e da proposição (2.1), obtemos o seguinte resultado.

Teorema 2.3.2:

Assumimos que $U$ pertence a classe $\mathcal{K}$ e satisfaz a condição de proporcionalidade do tamanho da amostra da proposição (2.1) e seja $(d^l,d^u, d^l_{n^\star},d^l_{n^\star})$ as categorias dos tempos de parada. Então, sob $H_0$ $$CVM (n^\star,d^l_{n^{\star}} , d^u_{n^{\star}})\rightarrow \sum_{s=1}^{\infty} \sum_{q=1}^{J-1} \lambda_{sq}\chi^2_{sq}~~~~~\text{em distribuição quando}~n^\star\rightarrow \infty$$

em que $\{\lambda_{sq} ; s\geq 1, q=1, \ldots , J-1\}$ são os auto-valores do operador de covariância $\mathcal{Y}_0(d^l,d^u).$ Em particular, se $X^q$ é quadrado integrável para todo $q\in \mathcal{J}$ então $$\Lambda(n^\star)\doteq\sum_{s=1}^{L(n^\star)} \sum_{q=1}^{J-1} \hat{\lambda}_{sq}\chi^2_{sq}1\!\!1_{\{A(n^\star)\}}\rightarrow\sum_{s=1}^{\infty} \sum_{q=1}^{J-1} \lambda_{sq}\chi^2_{sq}~~~~~\text{em distribuição quando}~n^\star\rightarrow \infty~~~~(2.3.4)$$

em que $\{\hat{\lambda}_{sq} ; 1\leq s\leq L(n^\star), q=1, \ldots , J-1\}$ são os auto-valores aleatórios do estimador do operador de covariância $\hat{\mathcal{Y}}_0(d^l,d^u),$ e $A(n^\star)\doteq\{\hat{\mathcal{Y}}_0(d^l,d^u),~~\text{é não negativo}\},$ desde que $P[A(n^\star)]\rightarrow1$ quando $n^\star\rightarrow \infty.$

Notamos que à partir de (2.3.4), o p-valor para o teste de hipótese sob $H_0$ é dada por $$P [\Lambda(n^\star)\textgreater CVM (n^\star,d^l_{n^{\star}} , d^u_{n^{\star}}) | H_0],$$

com $\Lambda(n^\star)$ soma ponderada de variáveis aleatórias Qui-Quadrado independentes. Para calcularmos o p-valor usamos um dos algoritmos descritos na literatura, como por exemplo (Robert B. Davies [4]).

Exemplo 2.3.1:

Voltando ao exemplo citado na seção de introdução.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Pelos gráficos da função de sobrevivência e das funções de intensidade, notamos um cruzamento severo (aproximadamente em 1000 dias) e pode causar uma dificuldade em detectar diferenças significativas entre $W_1$ e $W_2.$

 

O teste de Cramér-von Mises ao contrário do teste de Log-rank Ponderado detecta diferença significativa ao nível de significância $\alpha=0,05,$ para o peso log-rank $u(n^\star,\ell)=1.$ Logo, a estatística de Cramér-von Mises têm um bom desempenho quando temos cruzamento severo das funções de intensidade.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]