Exemplo Linearidade: pesagens independentes

A seguir, apresentamos os dados coletados.

Concentração Área
12,1442 3,0575
12,1385 3,0408
12,1442 3,0358
13,6644 3,4189
13,6606 3,4071
13,6526 3,408
15,1759 3,7866
15,1683 3,7858
15,1835 3,7958
16,6912 4,1651
16,684 4,145
16,6859 4,1415
18,2019 4,5253
18,1996 4,524
18,1909 4,5363

 

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Antes de iniciar o estudo do parâmetro Linearidade, é interessante ressaltar que os dados são provenientes de soluções mães diferentes, isto é, para cada concentração ocorreu uma pesagem, assim os experimentos foram realizados de maneira independente. Dito isto, inciamos o estudo de linearidade. Neste exemplo, utilizamos a seguinte notação:

  • X: Concentração
  • Y: Área

Por meio do método de mínimos quadrados ordinários, estimamos os parâmetros do modelo, mas para estimar os parâmetros precisamos das seguintes quantidades:

  • $  \bar{X}  $ = 15,17237
  • $  \bar{Y}  $ = 3,7849
  • $  S_{xx}  $ = 68,74924
  • $  S_{yy}  $ = 4,123262
  • $  S_{xy}  $ = 16,83467
  Estimativa Desvio Padrão Estat.t P-Valor Limite inferior Limite superior
Intercepto 0,0696 0,0157 4,4228 0,0007 0,0356 0,1036
Concentração 0,2449 0,001 238,3242 0 0,2427 0,2471

Portanto, o modelo ajustado é:

Área = 0,0696 + 0,2449 * Concentração

Por meio da tabela acima, além das estimativas calculadas, podemos avaliar a significância dos parâmetros por meio do teste T, como visto no exemplo 1.2.1.1, logo as estatísticas de teste serão similares às do exemplo anterior.

Em relação ao parâmetro intercepto, temos que as hipóteses são:

$ H_{0} $ : Intercepto é igual a zero.

$ H_{1} $ : Intercepto é diferente de zero.

O quantil da distribuição T para a obtenção da região crítica é dado por $  t_{(0,95, 13)} = 1,770933  $. Como o p-valor associado ao teste,  $  \text{P-valor} = 2 P( t_{(0,95, 13)} \textgreater | \text{t} | ) = 0,0007  $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o intercepto é diferente de zero ao nível de significância de 5%.

Em relação ao coeficiente angular, temos que as hipóteses são:

$ H_{0} $ : Coeficiente angular é igual a zero.

$ H_{1} $ : Coeficiente angular é diferente de zero.

O quantil da distribuição T para a obtenção da região crítica é dado por $  t_{(0,95, 13)} = 1,770933  $. Como o p-valor associado ao teste, $  \text{P-valor} = 2 P( t_{(0,95, 13)} \textgreater | \text{t} | ) = \ 0 \  $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o coeficiente angular é diferente de zero ao nível de significância de 5%.

Avaliamos também a significância dos parâmetros por meio do teste F da ANOVA. Vale ressaltar que temos um modelo de regressão simples, desta forma o teste F da ANOVA é equivalente ao teste T.

A seguir, testamos a significância dos parâmetros do modelo. 

Tabela ANOVA

Fatores Graus de liberdade Soma dos quadrados Quadrado médio Estat. F P-Valor
Concentração 1 4,1223 4,1223 56798,4007 0
Resíduos 13 0,0009 0,0001    
Total 14 4,1232      

Para testarmos o coeficiente angular do modelo utilizamos o teste F da ANOVA, neste caso testamos as hipóteses:

$ H_{0} $ : Coeficiente angular é igual a zero.

$ H_{1} $ : Coeficiente angular é diferente de zero.

A região crítica para o teste F é dada por $  F_{(0,95, 1, 13)} = 4,667193  $. Como a estatística observada $  \ | \text{F} | \textgreater \ \text{4,667193}  $ é maior que o quantil da distribuição para a determinação da região crítica, isto é, a estatística observada pertence a região crítica, e o p-valor associado ao teste $  \text{P-valor} = 2 P( F_{(0,95, 1, 13)} \textgreater | \text{F} | ) = 0  $, rejeitamos a hipótese nula ao nível de significância de 5%.   

A tabela a seguir, apresenta a análise exploratória dos resíduos.

Mínimo 1Q Mediana  Média 3Q Máximo
-0,014 -0,0076 -0,0012 0 0,0082 0,0141

Observando a tabela acima, notamos que os valores da mediana e da média, em módulo, estão extremamente próximos, assim como os valores de mínimo e máximo, isto dá indícios de que a distribuição dos resíduos é simétrica.

Além do teste de hipótese para o coeficiente linear, avaliamos também o impacto do intercepto na resposta analítica. O impacto é dado na tabela a seguir.

Concentração Resposta Impacto do coeficiente linear (%)
12,1442 3,0575 2,2774
12,1385 3,0408 2,2899
12,1442 3,0358 2,2936
13,6644 3,4189 2,0366
13,6606 3,4071 2,0437
13,6526 3,408 2,0431
15,1759 3,7866 1,8389
15,1683 3,7858 1,8393
15,1835 3,7958 1,8344
16,6912 4,1651 1,6718
16,684 4,145 1,6799
16,6859 4,1415 1,6813
18,2019 4,5253 1,5387
18,1996 4,524 1,5391
18,1909 4,5363 1,535

A partir da tabela acima observamos que, para os pontos de concentração mais baixos, isto é, para os pontos 12,1442 à 13,6526, temos $ ICL_{i} \textgreater 2\% $, valor definido como o máximo aceitável de impacto na quantificação. Logo é recomendável que se utilize uma curva de calibração com no mínimo 2 pontos ao invés de um único ponto para padronização na rotina de análise. Caso se utilize ponto único, deve-se investigar o impacto.

A seguir, analisamos o coeficiente de correlação de Pearson.

Desvio padrão dos resíduos  Graus de liberdade $ R^2 $ Coeficiente de correlação
0,0085 13 0,9998 0,9999

Como o coefiente de correlação, $ r = 0,9999 $, é maior que 0,9900 conforme especificado pela agência reguladora, concluímos que existe uma relação linear adequada. Como dito no exemplo anterior, o coeficiente de determinação representa a relação sinal/ruído.

Observando o gráfico acima, notamos que a diferença entre a resposta e a reta ajustada é extremamente baixa.

A seguir, analisamos as principais suposições impostas sobre os erros experimentais por meio do gráfico 4 em 1.

Observando o gráfico de resíduo padronizado vs valores ajustados, notamos que não temos possíveis valores extremos, isto é, nenhum dos pontos possui um valor alto de resíduo.

Observando o QQPlot notamos que os pontos se aproximam da reta pontilhada - em azul -, e que todos os resultados estão contidos na banda de confiança, o que dá indícios de que a suposição de normalidade para os erros experimentais é satisfeita.

Observando o gráfico de resíduos X valores ajustados, notamos que os pontos não possuem um comportamento claro, como smile ou smirk. Logo temos indícios de que a variância dos erros experimentais é homoscedástica.

Observando o gráfico de resíduos X ordem de coleta, notamos que os pontos parecem se distribuir aleatoriamente, isto é, não temos nenhum comportamento aparente, como uma sequência de pontos crescente ou decrescente. Logo temos indícios da independência dos erros experimentais.

Para validar nossas suspeitas a partir da análise gráfica, verificaremos as hipóteses levantadas por meio de testes estatísticos.

A seguir, analisamos a normalidade dos erros experimentais, no qual as hipóteses são:

$ H_{0} $ : A distribuição dos erros experimentais é normal.

$ H_{1} $ : A distribuição dos erros experimentais não é normal.

Teste  Estatística P-Valor
Anderson-darling 0,1727 0,911
Kolmogorov-Smirnov 0,1073 0,913
Ryan-Joiner 0,9917 0,9585
Shapiro-Wilk 0,9748 0,9221

Aqui adotamos o teste de Shapiro-Wilk para avaliar a normalidade. Como o p-valor do teste de Shapiro-Wilk, p-valor 0,9221, é maior que 0,05, não rejeitamos a hipótese de normalidade dos erros experimentais ao nível de significância de 5%.

A seguir, analisamos a homoscedasticidade por meio do teste de Breusch-Pagan, no qual as hipóteses são:

$ H_{0} $ : As variâncias são iguais.

$ H_{1} $ : Pelo menos uma variância difere.

Estatística P-Valor
0,0383 0,8448

Como o p-valor do teste é maior que 0,05, não rejeitamos a hipótese de igualdade das variâncias ao nível de significância de 5%. Logo, temos um modelo homocedástico. Observe que o resultado do teste de Breusch-Pagan está em conformidade com a análise gráfica.

A seguir, analisamos os valores extremos. Para isto, avaliamos os resíduos padronizados e os resíduos studentizados.

Número obs. Concentração Resíduos Resíduos Studentizados Resíduos padronizados 
1 12,1442 0,0141 2,0742 1,8523
2 12,1385 -0,0012 -0,1509 -0,157
3 12,1442 -0,0076 -0,9953 -0,9957
4 13,6644 0,0033 0,3898 0,4031
5 13,6606 -0,0076 -0,9376 -0,9419
6 13,6526 -0,0048 -0,5742 -0,5896
7 15,1759 0,0008 0,098 0,1019
8 15,1683 0,0019 0,2217 0,2303
9 15,1835 0,0082 0,9941 0,9945
10 16,6912 0,0083 1,0286 1,0263
11 16,684 -0,01 -1,2717 -1,2426
12 16,6859 -0,014 -1,8991 -1,7332
13 18,2019 -0,0014 -0,1818 -0,189
14 18,1996 -0,0022 -0,2762 -0,2866
15 18,1909 0,0122 1,7243 1,6067

Como critério para a análise serão considerados valores extremos na resposta as observações com resíduos studentizados e/ou padronizados mariores que 3, em módulo.

Observando a tabela acima e os gráficos de resíduos padronizado vs valores ajustados e resíduos studentizado vs valores ajustados, notamos que não existem resíduos studentizados e padronizados com valores maiores que três, em módulo, logo não temos valores extremos.

A seguir, analisamos os pontos influentes por meio das medidas DFFITS, DFBETA e a distância de Cook. Os critérios para análise dos pontos influentes são dados por:

Diagnóstico Fórmula Valor
DFFITS $ 2 \sqrt{(p+1)/n} $ 0,73
DCOOK $ 4/n $ 0,2667
DFBETA $ 2/\sqrt{n} $ 0,52

Observações DFFITS Critério
1 1,04 $  \pm  $ 0,73
15 0,86 $  \pm  $ 0,73

 

Observações DCOOK Critério
1 0,429 0,2667
15 0,3211 0,2667

 

Observações DFBETA Critério
1 -0,847 0,5164
15 0,7015 0,5164

A partir dos critérios estabelecido pelas medidas e pela observação dos gráficos DFFITS, D-COOK e DFBETA, temos que as obervações 1 e 15 são pontos influentes.

A seguir, analisamos a independência das observações.

Obervando o gráfico acima, notamos que não existe nenhuma tendência aparente dos pontos, isto é, não temos sequências de pontos decrescentes ou crescentes. Logo temos indícios de que não há dependência das observações. Para validar esta suspeita iremos aplicar o teste de  Durbin-Watson. as hipóteses do teste são:

$ H_{0} $ : As observações são independentes.

$ H_{1} $ : As observações não são independentes.

Estatística  P-Valor
1,3885 0,0577

Aplicando o teste, obtemos um p-valor de 0,0577. Como o p-valor é maior que 0,05 não rejeitamos a hipótese de indenpendência das observações a um nível de significância de 5%.

Logo, os critérios da RDC 166 que foram atendidos são:

  • Coeficiente angular significativo ao nível de significância de 5%;
  • Coeficiente de correlção superior a 0,990;
  • Modelo homocedástico;
  • Normalidade dos erros experimentais;
  • Independência das observações.

Contudo o critério em relação ao intercepto não foi atendido, visto que este se mostrou significativo ao nível de significância de 5%.  É interessante ressaltar que o impacto mostrou-se, para os pontos de concentração mais baixos, superior a 2%, valor definido como o máximo aceitável. Desta forma deve-se investigar o impacto caso seja utilizado ponto único. 

 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]