5.2.2 - Análise para dados de gordura

Você está aqui

Nesta seção consideramos duas variáveis Pos_Dose (dias após aplicada a dose) e log_fig (logaritmo da concentração de resíduos de gordura), neste caso, podemos estabelecer uma regressão linear simples cujo modelo estatístico é


$$Y_{ij}=\beta_0+\beta_1~x_{i}+\varepsilon_{ij}\quad i=1,\cdots, n;$$

em que,

  • $ Y_{ij} $: representa a j-ésima medição do logaritmo da concentração de resíduos de gordura referente ao i-ésimo dia após aplicada a dose;
  • $ X_{i} $: representa o i-ésimo dia após aplicada a dose;
  • $ \beta_0 $: representa o coeficiente linear ou intercepto (concentração fictícia no tempo t=0);
  • $ \beta_1 $: representa o coeficiente angular;
  • $ \varepsilon_{ij} $: representa o j-ésimo erro cometido na medição do i-ésimo  logaritmo da concentração de resíduos de gordura. Consideramos que os $ \varepsilon_{ij} $ são independentes e identicamente distribuídos com distribuição $ N(0,\sigma^2) $ .

Para os dados da tabela 5.3.1, vamos seguir o passo 1 e inspecionar os dados.

Passo 1: Inspeção dos dados.

Neste passo é fundamental verificar os dados abaixo do limite de detecção e segundo EMEA, para estes dados  definimos estes valores como metade do limite de detecção.

Especificamente para este conjunto de dados, para a variável gordura, o dia 35 foi excluído do cálculo por causa de muitos valores abaixo do limite de detecção (10 de 12 observações) como visto na aplicação para dados de tecido de fígado. 

Com isso, temos o seguinte conjunto de dados:

N Pos_Dose log_fat
1 7 4,572647
2 7 5,4161
3 7 5,365041
4 7 3,877432
5 7 4,781641
6 7 5,322034
7 7 5,059425
8 7 6,109248
9 7 4,178992
10 7 5,277094
11 7 5,000585
12 7 5,31074
13 14 0
14 14 2,424803
15 14 4,366913
16 14 3,94739
17 14 3,520461
18 14 3,210844
19 14 0,832909
20 14 2,76001
21 14 3,94739
22 14 2,60269
23 14 3,113515
24 14 3,756538
25 21 3,295837
26 21 2,197225
27 21 1,916923
28 21 1,916923
29 21 1,916923
30 21 2,424803
31 21 3,701302
32 21 2,197225
33 21 1,504077
34 21 2,197225
35 21 2,197225
36 21 0
37 28 1,504077
38 28 1,504077
39 28 2,197225
40 28 1,916923
41 28 0
42 28 1,504077
43 28 0
44 28 0
45 28 1,504077
46 28 2,197225
47 28 2,60269
48 28 0

Tabela 5.3.2.1: Resíduo marcador de gordura.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Agora, vamos para o passo 2.

Passo 2: Cálculo dos parâmetros regressão linear de dados log transformados.

Solução:

 

N Pos_Dose log_fat Pos_Dose2 log_fat2 Pos_Dose x log_fat
1 7 4,573 49 20,909 32,009
2 7 5,416 49 29,334 37,913
3 7 5,365 49 28,784 37,555
4 7 3,877 49 15,034 27,142
5 7 4,782 49 22,864 33,471
6 7 5,322 49 28,324 37,254
7 7 5,059 49 25,598 35,416
8 7 6,109 49 37,323 42,765
9 7 4,179 49 17,464 29,253
10 7 5,277 49 27,848 36,940
11 7 5,001 49 25,006 35,004
12 7 5,311 49 28,204 37,175
13 14 0 196 0 0
14 14 2,425 196 5,880 33,947
15 14 4,367 196 19,070 61,137
16 14 3,947 196 15,582 55,263
17 14 3,520 196 12,394 49,286
18 14 3,211 196 10,310 44,952
19 14 0,833 196 0,694 11,661
20 14 2,760 196 7,618 38,640
21 14 3,947 196 15,582 55,263
22 14 2,603 196 6,774 36,438
23 14 3,114 196 9,694 43,589
24 14 3,757 196 14,112 52,592
25 21 3,296 441 10,863 69,213
26 21 2,197 441 4,828 46,142
27 21 1,917 441 3,675 40,255
28 21 1,917 441 3,675 40,255
29 21 1,917 441 3,675 40,255
30 21 2,425 441 5,880 50,921
31 21 3,701 441 13,700 77,727
32 21 2,197 441 4,828 46,142
33 21 1,504 441 2,262 31,586
34 21 2,197 441 4,828 46,142
35 21 2,197 441 4,828 46,142
36 21 0 441 0 0
37 28 1,504 784 2,262 42,114
38 28 1,504 784 2,262 42,114
39 28 2,197 784 4,828 61,522
40 28 1,917 784 3,675 53,674
41 28 0 784 0 0
42 28 1,504 784 2,262 42,114
43 28 0 784 0 0
44 28 0 784 0 0
45 28 1,504 784 2,262 42,114
46 28 2,197 784 4,828 61,522
47 28 2,603 784 6,774 72,875
48 28 0 784 0 0
Soma 840 135,150 17640 516,591 1857,495
Média 17,5 2,816      

 

As médias amostrais das variáveis Dias após aplicada a dose (X) e Logaritmo da concentração de resíduos no tecido de fígado (Y) são, respectivamente, 


$$\overline{x}=\dfrac{1}{48}\sum_{i=1}^{48}x_i=17,5\quad\text{e}\quad\overline{y}=\dfrac{1}{48}\sum_{i=1}^{48} y_i=2,811008.$$

Além disso, na Tabela, apresentamos os valores de x2, y2 e xy para cada observação i=1,...,48. 

 

Da tabela calculamos as somas de quadrados da seguinte forma:


$$S_{xx}=\sum^n_{i=1}x_i^2-n\overline{x}^2=17640-48\times 17,5^2=2940$$


$$S_{yy}=\sum^n_{i=1}y_i^2-n\overline{y}^2= 516,591 - 48 \times 2,816^2=136,057$$


$$S_{xy}=\sum^n_{i=1}x_i y_i-n\overline{x}\overline{y}=1857,495 - 48 \times 17,5 \times 2,816=-507,6386.$$

Logo, as estimativas dos parâmetros $ \beta_{1} $ e $ \beta_{0} $ são, respectivamente


$$\widehat\beta_1=\dfrac{S_{xy}}{S_{xx}}=\dfrac{-507,6386}{2940}=-0,17267\quad\text{e }\quad\widehat\beta_0=\overline{y}-\widehat{\beta}_1\overline{x}=2,816-(-0,17267)\times 17,5=5,8372.$$

Portanto, o modelo ajustado é dado por


$$\log(\text{fat})~=~5,84~-~0,17~\times\mbox{Pos}_{\text{dose}}.$$

Com isso, temos os seguintes resultados obtidos pelo software Action.

 Para entender como executar essa função do Software Action, você pode consultar o  manual do usuário.

Passo 3: Inspeção visual da linha de regressão.

Tanto a linha de regressão para o fígado e para a linha de regressão de gordura passada através todos os grupos de abate. Não há pontos de tempo devem ser excluídos no final ou no início da linha.

Passo 4: Homogeneidade das variâncias.

A seguir, apresentamos alguns testes obtidos pelo software Action. A EMEA cita algumas estatísticas como por exemplo o teste de Cochran, já o MAPA cita o teste de Brown-Forsythe.
Com isso, testamos a seguinte hipótese:


~\mbox{pelo menos um dos}~\sigma_i^2\mbox{'s}~\mbox{diferente,} \quad i=1,\ldots,k.\\\end{array}\right.$$

Todos os testes obtidos pelo software Action, p-valores acima do nível de significância $ \alpha=0,05. $ Logo não rejeitamos a hipótese nula de homocedasticidade, isto é, as variâncias são homogêneas.

 Para entender como executar essa função do Software Action, você pode consultar o  manual do usuário.

Passo 5: Teste de Falta de Ajuste (Lack of Fit).

Agora, vamos testar a falta de ajuste do modelo linear, para isto, considere as seguintes hipóteses:


 E(Y_i) \neq\beta_0+\beta_1~x_i~~\mbox{modelo linear inadequado}\\\end{array}\right.$$

Figura: ANOVA para o teste de linearidade da regressão.

De acordo com os resultados obtidos, temos que rejeitamos a hipótese nula de que o modelo linear é adequado. No passo seguinte, vamos avaliar os resíduos para obtermos o valor que causa esta falta de ajusto no modelo.

Passo 6: Cálculo dos resíduos e gráficos da análise de diagnóstico de acordo com a recomendação da FDA 1983.

Primeiramente, vamos analisar a normalidade dos resíduos, porém observe os principais critérios para análise de resíduos.

 

Critério
Diagnóstico Fórmula Valor
hii (Leverage) $ 2\dfrac{p+1}{n} $ 0,12
DFFITS $ 2\sqrt{\dfrac{p}{n}} $ ±0,41
DCOOK 1 1
DFBETA $ \dfrac{2}{\sqrt{n}} $ ±0,29
Resíduos Padronizados (-2,2) 2
Resíduos Studentizados (-2,2) 2

Para isto considere as hipóteses:


 \hbox{Os dados não seguem uma distribuição normal.}\end{array}\right.\]

Dos resultados obtidos, pelo teste de Ryan-Joiner e Shapiro-Wilk, rejeitamos a hipótese de normalidade dos resíduos. Agora, vamos analisar os pontos influentes.

Dos resultados obtidos, temos que o ponto 13 é um ponto influente. Com isso, notamos uma melhora do modelo, como vemos a seguir.

Por fim, vamos avaliar outra suposição do modelo, que é a independência dos resíduos, para isto considere as hipóteses.


 \hbox{Os resíduos não são independentes.}\end{array}\right.\]

Dos resultados obtidos, temos que os resíduos são independentes (p-valor=0,28) ao nível de significância 5%.

 

Passo 7: O cálculo dos limites de tolerância superior unilateral de 95% (ambos com um nível de confiança de 95%).

 


$$TL_{\text{sup}}=\exp(\widehat{Y}_{i}+\widehat{\sigma}k_{1,i}), \quad i=p_0,\dots,p_f$$

em que $ \widehat{\sigma}=\sqrt{QME} $ é estimado pelo quadrado médio do erro, que é o desvio padrão dos resíduos, $ [p_0,p_f] $ é o intervalo do tempo de depleção escolhido para previsão.

$ k_{1,i} $ é dado por:


$$k_{1,i}=\dfrac{t^\star_{\left(n-p;1-\alpha\right)}(\sqrt{n^\star_i}Z^\star_P)}{\sqrt{n^\star_i}}$$

em que $ t^\star_{\left(n-p;1-\alpha\right)}(\gamma) $ é o quantil da distribuição t-Student não central com d graus de liberdade e $ \gamma $ é o parâmetro de não centralidade, com nível de confiança de (1-$ \alpha $). Já $ Z^\star_P $ é o quantil da distribuição normal padrão com nível de cobertura P. O parâmetro $ n^\star_i $ é dado por:


$$n^\star_i=\dfrac{\widehat{\sigma}^2}{se(\widehat{y}_i)^2}$$

Vamos tomar como exemplo Pos Dose igual a 26. Com isso temos que:


$$se(\widehat{y}_i)=\dfrac{1}{n}+\dfrac{(x_0-\overline{x})}{\displaystyle\sum^n_{i=1}(x_i-\overline{x})^2}=\dfrac{1}{48}+\dfrac{72,25}{2940}=0,213092$$

 


$$n^\star_i=\dfrac{QME}{se(\widehat{y}_i)^2}=\dfrac{1,05228}{0,21309^2}=23,17381$$


$$Z_P=Z_{0,95}=1,64485$$

Assim, temos que o parâmetro de não centralidade é $ \delta=\sqrt{n^\star_i}Z_{0,95}=\sqrt{23,17381}1,6485=7,91819, $ consequentemente


$$k_{1,i}=\dfrac{t^\star_{\left(n-p;1-\alpha\right)}(\sqrt{n^\star_i}Z^\star_P)}{\sqrt{n^\star_i}}=\dfrac{t^\star_{\left(46;0,95\right)}(7,91819)}{\sqrt{23,17381}}=\dfrac{10,37652}{4,813918}=2,155526$$

Portanto, a tolerância limite para o tempo de 26 (em dias) é dada por:


$$\log(TL_{\text{sup}})=\widehat{Y}_{i}+\widehat{\sigma}k_{1,i}=1,435+1,0258\times 2,155526=3,559$$

A concentração em μg/kg é


$$TL_{\text{sup}}=\exp(\log(TL_{\text{sup}}))=e^{3,559}=35,1$$

Os demais pontos é calculado na tabela 5.3.2.2.

 

Pos_Dose $ \hat{y} $ $ \sqrt{QME} $ $ a=(x_0-\overline{x})^2 $ $ b=\displaystyle\sum^n_{i=1}(x_i-\overline{x})^2 $ $ \frac{a}{b} $ $ \frac{1}{n}+\frac{a}{b} $ se $ n^\star $ $ \delta $ $ t^\star(\delta) $ K log(LS) LS
26 1,348 1,0258 72,25 2940 0,0246 0,045 0,213 23,174 7,918 10,377 2,156 3,559 35,132
27 1,175 1,0258 90,25 2940 0,0307 0,052 0,227 20,420 7,433 9,818 2,173 3,404 30,085
28 1,003 1,0258 110,25 2940 0,0375 0,058 0,242 18,039 6,986 9,328 2,196 3,255 25,932
29 0,830 1,0258 132,25 2940 0,0450 0,066 0,257 15,988 6,577 8,873 2,219 3,106 22,340
30 0,657 1,0258 156,25 2940 0,0531 0,074 0,272 14,224 6,204 8,420 2,233 2,948 19,059*
31 0,485 1,0258 182,25 2940 0,0620 0,083 0,288 12,705 5,863 8,037 2,255 2,798 16,404
32 0,312 1,0258 210,25 2940 0,0715 0,092 0,304 11,395 5,552 7,688 2,278 2,648 14,129
33 0,139 1,0258 240,25 2940 0,0817 0,103 0,320 10,261 5,269 7,374 2,302 2,501 12,192
34 -0,033 1,0258 272,25 2940 0,0926 0,113 0,337 9,276 5,010 7,072 2,322 2,349 10,471
35 -0,206 1,0258 306,25 2940 0,1042 0,125 0,354 8,418 4,772 6,816 2,349 2,204 9,059
36 -0,379 1,0258 342,25 2940 0,1164 0,137 0,370 7,667 4,555 6,571 2,373 2,056 7,812

 

Tabela 5.3.2.2: Resultados do cálculo da Tolerância limite para depleção nos tecidos de gordura (LMR abaixo de 20μg/kg).

Passo 8: Determinação do período de segurança (período de carência para depleção de resíduos)

Do gráfico, notamos que o dia que intercepta o limite de tolerância para o LMR = log(20)μg/kg é 30. Portanto, o tempo de carência ou intervalo de segurança para depleção de resíduos é de 30 dias.

 

 

 

 

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]