Considere o experimento para linearidade de uma metodologia analítca com o HPLC. Os dados foram obtidos a partir de três soluções estoques pesadas de forma independentes.  Neste experimento, temos 5 pontos de concentração e três réplicas obtidas de diluições das soluções estoques.  

Concentração Área
31800 88269
31680 86954
31600 88492
36080 99580
36600 101235
36150 100228
39641 108238
40108 109725
40190 110970
43564 118102
43800 119044
43800 119044
43776 118292
47680 129714
47800 129481
47341 130213

clique aqui para efetuar o download dos dados utilizados nesse exemplo

 Neste exemplo, utilizamos a seguinte notação:

  • X: Concentração
  • Y: Área

Estimamos o parâmetros do modelo linear através do método dos mínimos quadrados ordinários. Para isto, utilizamos as seguintes quantidades:

  • $  \bar{X}  $ = 39854
  • $  \bar{Y}  $ = 109235,8
  • $  S_{xx}  $ = 463741158
  • $  S_{yy}  $ = 3135113424
  • $  S_{xy}  $ = 1204279553
  Estimativa Desvio Padrão Estat.t P-Valor Limite inferior Limite superior
Intercepto 5739,7948 1442,3545 3,9795 0,0016 2623,7772 8855,8123
Concentração 2,5969 0,03358 72,4499 0 2,5194 2,6743

Assim, o modelo ajustado é dado por: 

Área = 5739,7948 + 2,5969 * Concentração

Com a tabela acima, além das estimativas dos parâmetros, podemos avaliar a significância dos parâmetros por meio do teste T. Em relação ao parâmetro intercepto, temos que as hipóteses são dadas por:

$ H_{0} $ : Intercepto é igual a zero.

$ H_{1} $ : Intercepto é diferente de zero.

 A estatística de teste é dada por:

$$ T = \frac{\hat{\beta_{0}}}{\sqrt{\hat{Var(\beta_{0})}}} = \frac{5739,7948}{1442,3545} = 3,9795 ,$$

no qual $  \sqrt{\hat{Var(\beta_{0})}}  $ é o desvio padrão do intercepto dado na tabela acima.

O quantil da distribuição T para a obtenção da região crítica é dado por $  t_{(0,95, 13)} = 1,770933  $. Como o p-valor associado ao teste,  $  \text{P-valor} = 2 P( t_{(0,95, 13)} \textgreater | \text{t} | ) = 0,0016  $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o intercepto é diferente de zero ao nível de significância de 5%.

Em relação ao coeficiente angular, temos que as hipóteses são:

$ H_{0} $ : Coeficiente angular é igual a zero.

$ H_{1} $ : Coeficiente angular é diferente de zero.

 A estatística de teste é dada por:

$$ T = \frac{\hat{\beta_{1}}}{\sqrt{\hat{Var(\beta_{1})}}} = \frac{2,5969}{0,03358} = 72,4499 ,$$

no qual $  \sqrt{\hat{Var(\beta_{1})}}  $ é o desvio padrão do coeficiente angular dado na tabela acima. 

O quantil da distribuição T para a obtenção da região crítica é dado por $  t_{(0,95, 13)} = 1,770933  $. Como o p-valor associado ao teste, $  \text{P-valor} = 2 P( t_{(0,95, 13)} \textgreater | \text{t} | ) = \ 0 \  $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o coeficiente angular é diferente de zero ao nível de significância de 5%.

Avaliamos também a significância dos parâmetros por meio do teste F da ANOVA. Vale ressaltar que temos um modelo de regressão simples, desta forma o teste F da ANOVA é equivalente ao teste T. A seguir, apresentamos a Tabela da ANOVA. 

Tabela ANOVA.

Fatores Graus de liberdade Soma dos quadrados Quadrado médio Estat. F P-Valor
Concentração 1 3127367965,4155 3127367965,4155 5248,9831 0
Resíduos 13 7745758,9845 595804,5373    
Total 14 31355113424      

Para testarmos a significância do coeficiente angular do modelo com o teste F da ANOVA, apresentamos as seguintes hipóteses:

$ H_{0} $ : Coeficiente angular é igual a zero.

$ H_{1} $ : Coeficiente angular é diferente de zero.

A estatística de teste é dada por:

$$ F_{OBS} = \frac{QMR}{QME} = \frac{ \frac{SQR}{1} }{ \frac{SQE}{13} } = \frac{\frac{3127367965,4155}{1}}{\frac{7745458,9845}{13} } = \frac{3127367965,4155}{595804,5373} = 5248,9831 $$

A região crítica para o teste F é dada por $  F_{(0,95, 1, 13)} = 4,667193  $. Como a estatística observada $ F_{OBS} \textgreater \ \text{4,667193} $ é maior que o quantil da distribuição para a determinação da região crítica (a estatística observada pertence a região crítica) e o p-valor associado ao teste $  \text{P-valor} = 2 P( F_{(0,95, 1, 13)} \textgreater F_{OBS} ) = 0  $, rejeitamos a hipótese nula ao nível de significância de 5%.   

A tabela a seguir, apresenta a análise exploratória dos resíduos.

Mínimo 1Q Mediana  Média 3Q Máximo
-1129 -444,7 -51,54 0 611 1534

Observando a tabela acima, notamos que os valores de mínimo e máximo, em módulo, não apresentam uma diferença notável, assim como a mediana e a média, o que nos dá indícios de que a distribuição dos resíduos é simétrica.

Além do teste de hipótese para o coeficiente linear, avaliamos também o impacto do intercepto na resposta analítica, que é dado na tabela a seguir.

Concentração Resposta Impacto do coeficiente linear (%)
31800 88269 6,5026
31680 86954 6,601
31600 88492 6,4862
36080 99580 6,4862
36600 101235 5,6698
36150 100228 5,7267
39641 108238 5,3029
40108 109725 5,2311
40190 110970 5,1724
43564 118102 4,86
43800 119044 4,8216
43776 118292 4,8522
47680 129714 4,425
47800 129481 4,4329
47241 130213 4,408

A partir da tabela acima, observamos que para todos os pontos de concentração, temos um impacto do coeficiente linear superior a 2%, valor definido como o máximo aceitável de impacto na quantificação. Além disso o resultado do impacto está em conformidade com o resultado do teste do intercepto. Desta forma o ideal seria quantificar os resultados da rotina com uma curva de calibração, mas caso seja utilizado ponto único será necessário investigar o impacto.

Vamos analisar o coeficiente de correlação de Pearson, como dito anteriormente, ele mede o grau de proporcionalidade entre a variável explicativa (concentração) e a varíavel resposta (área).

Desvio padrão dos resíduos  Graus de liberdade $ R^2 $ Coeficiente de correlação
771,8838 13 0,9975 0,9988

Temos que o coeficiente de determinação $ R^2 $ e o coeficiente de correlação $ r $ são dados por:

$$ R^2 = \frac{SQR}{SQT} = \frac{\hat{\beta_{1}}S_{xy}}{S_{yy}} = \frac{2,5969*1204279553}{3135113424} = 0,9975\ \text{e} \ r = \sqrt{R^{2}} = 0,9988 $$

Logo o critério da RDC em relação ao coeficiente é satisfeto, visto que $ r = 0,9988 $ está acima do valor especificado, 0,990, pela agência reguladora. Note que o coeficiente de determinação representa a relação sinal/ruído, em que $ SQR $ está relacionada ao sinal analítico e o ruído está relacionada ao $ SQT $.

Observando o gráfico de valores ajustados, notamos que a diferença entre a variável resposta e a reta ajustada é baixa, mas vale ressaltar que a magnitude da resposta (eixo y) é alta.

A seguir, analisamos as principais suposições impostas sobre os erros experimentais por meio do gráfico 4 em 1.

Observando o gráfico de resíduo padronizado vs valores ajustados, notamos que não temos possíveis outliers, isto é, nenhum dos pontos possui um valor alto de resíduo.

Observando o QQPlot, notamos que os pontos se aproximam da reta pontilhada - em azul -, e que todos os resultados estão contidos na banda de confiança, o que nos dá indícios de que a suposição de normalidade para os erros experimentais é satisfeita.

Observando o gráfico de resíduos X valores ajustados, notmaos que os pontos parecem se distribuir aleatoriamente, isto é, não observamos nenhum comportamento claro, como smile e cone. O que nos dá indícios de que a variância dos erros experimentais é homoscedástica. É interessante ressaltar que o comportamento mais comum é o de cone, este comportamento indica que conforme os valores ajustados aumentam os resíduos também aumentam. 

Observando o gráfico de resíduos X ordem de coleta, desejamos verificar se encontramos um comportamento nos pontos. Um comportamento pode significar sujeira na vidraria, sujeira na agulha, cansaço do analista, etc. Notamos que os pontos parecem se distribuir aleatoriamente, o que nos dá indícios da independência dos erros experimentais e que não tivemos nenhum comportamento como os exemplificados.

Para validar nossas suspeitas  a partir da análise gráfica, vamos verificar cada hipótese levantada por meio dos testes estatísticos.

A seguir, analisamos a normalidade dos erros experimentais, no qual as hipóteses são:

$ H_{0} $ : A distribuição dos erros experimentais é normal.

$ H_{1} $ : A distribuição dos erros experimentais não é normal.

Teste  Estatística P-Valor
Anderson-darling 0,1538 0,9446
Kolmogorov-Smirnov 0,0998 0,9542
Ryan-Joiner 0,9899 0,9241
Shapiro-Wilk 0,9759 0,9340

Aqui adotamos o teste de Shapiro-Wilk para avaliar a normalidade. Como o p-valor do teste de Shapiro-Wilk, p-valor 0,9340, é maior que 0,05, não rejeitamos a hipótese de normalidade dos erros experimentais ao nível de significância de 5%. Note que o resultado do teste de Shapiro-Wilk está em conformidade com a análise gráfica do QQPlot.

A seguir, analisamos a homoscedasticidade por meio do teste de Breusch-Pagan, no qual as hipóteses são:

$ H_{0} $ : As variâncias são iguais.

$ H_{1} $ : Pelo menos uma variância difere.

Estatística P-Valor
0,8020 0,3705

Como o p-valor do teste é maior que 0,05, não rejeitamos a hipótese de igualdade das variâncias ao nível de significância de 5%. Note que o resultado do teste está em conformidade com a análise gráfica dos resíduos X valores ajustados. Logo, temos um modelo homocedástico.

O teste de Breusch-Pagan é o que melhor se adequa ao nosso objetivo, visto que assumimos a suposição de normalidade para os erros experimentais. Os teste de Cochran e de Brown-Forsythe não se adequam ao nosso objetivo pois necessitam de grupos e, como os dados do exemplo foram coletados de forma independente, os testes em questão não poderiam ser realizados. Já o teste de Goldfeld-Quandt tem como limitação a exigência de amostras relativamente grandes.

A seguir, analismos os valores extremos. Para isto, avaliamos os resíduos padronizados e os resíduos studentizado.

Número obs. Concentração Resíduos Resíduos Studentizados Resíduos Padronizados
1 31800 -51,5386 -0,072 -0,075
2 31680 -1054,9132 -1,6342 -1,5384
3 31600 690,8371 1,01 1,0092
4 36080 144,8204 0,19 0,1975
5 36600 449,4434 0,5949 0,6102
6 36150 611,0388 0,8223 0,8327
7 39641 -444,6648 -0,5809 -05963
8 40108 -170,4072 -0,22 -0,2285
9 40190 861,6487 1,1721 1,1556
10 43564 -768,2201 -1,0512 -1,047
11 43800 -439,0835 -0,5843 -0,5997
12 43776 -1128,7584 -1,638 -1,5413
13 47680 155,027 0,216 0,2244
14 47800 -389,5984 -0,5499 -,05653
15 47341 1534,3689 2,6783 2,2054

Como critério para a análise serão considerados valores extremos na resposta as observações com resíduos studentizados e/ou padronizados mariores que 3, em módulo.

Observando a tabela acima e os gráficos de resíduos padronizado vs valores ajustados e resíduos studentizado vs valores ajustados, notamos que não existem resíduos studentizados e padronizados com valores maiores que três, em módulo, logo não temos outliers.

A seguir, analisamos os pontos influentes por meio das medidas DFFITS, DFBETA e a distância de Cook. Os critérios para análise dos pontos influentes são dados por:

Diagnóstico Fórmula Valor
DFFITS $ 2 \sqrt{(p+1)/n} $ 0,73
DCOOK $ 4/n $ 0,2667
DFBETA $ 2/\sqrt{n} $ 0,52

Observações DFFITS Critério
2 -0,84 $  \pm  $ 0,73
15 1,29 $  \pm  $ 0,73

 

Observações DCOOK Critério
2 0,3159 0,2667
15 0,5613 0,2667

 

Observações DFBETA Critério
2 0,6982 0,5164
15 1,033 0,5164

 

A partir dos critérios estabelecidos pelas medidas e pela observação dos gráficos das medidas, temos que as observações 2 e 15 são pontos influentes para todas as três medidas citadas.

Por fim, vamos analisar a independência das observações.

Observando o gráfico de resíduos X ordem de coleta, notamos que não existe uma tendência dos pontos, isto é, não temos sequências de pontos decrescentes ou crescentes, logo temos indícios de que não há dependência das observações. Para confirmarmos isto, vamos aplicar o teste de Durbin-Watson. As hipóteses do teste são:

$ H_{0} $ : As observações são independentes.

$ H_{1} $ : As observações não são independentes.

Estatística  P-Valor
2,0158 0,3943

Aplicando o teste de Durbin-Watson, obtemos um p-valor de 0,3943, valor maior que 0,05. Logo não rejeitamos a hipótese de independência das observações ao nível de significância de 5%.

Logo, os critérios da RDC 166 que foram atendidos são:

  • Coeficiente angular significativo ao nível de significância de 5%;
  • Coeficiente de correlação superior a 0,990;
  • Homoscedasticidade;
  • Normalidade dos erros experimentais;
  • Independência das observações.

Contudo não foi atendido o critério em relação ao coeficiente linear, visto que ele foi significativo a um nível de singificância de 5%, desta forma precisamos analisar o impacto do coeficiente linear. o impacto do coeficiente para cada observação mostrou-se superior a 3%, valor definido como máximo aceitável. 

 

 

 

 

 

 

 

 

 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]