1.10.2 - Análise de Diagnóstico

Você está aqui

Após estimarmos os parâmetros da curva de calibração, as suposições do modelo ajustado precisam ser validadas para que os resultados sejam confiáveis. Chamamos de Análise dos Resíduos um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos. Os  resíduos $ \varepsilon_i $ é dado pela diferença entre a variável resposta observada (Área $ Y_i $) e a variável resposta estimada $ \hat{Y}_i. $

 Ao estabelecer o modelo para curva de calibração, supomos que:

i) A relação matemática entre Y e X é linear (seção modelo estatístico para curva de calibração);

ii) Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória; 

iii) A média do erro é nula, ou seja, E(εi)=0. Desta forma, segue que


$$\mathbb{E}(Y_i|x_i)=\mathbb{E}(\beta_0+\beta_1 x_i+\varepsilon_i)=\beta_0+\beta_1 x_i+\mathbb{E}(\varepsilon_i)=\beta_0+\beta1 x_i$$

iv) Para um dado valor de x, a variância de $ \epsilon_i $ é sempre $ \sigma^2 $, isto é,


$$\text{Var}(\varepsilon_i)=\mathbb{E}(\varepsilon^2_i)+[\mathbb{E}(\varepsilon_i)]^2=\sigma^2$$

isto implica em:


$$\text{Var}(Y_i)=\mathbb{E}[(Y_i - \mathbb{E} (Y_i~|~x_i) )^2]=\mathbb{E}(\varepsilon^2_i)=\sigma^2$$

Então, podemos dizer que o erro é homocedástico (tem variância constante);

v) O erro de uma observação é independente do erro de outra observação (erros não correlacionados), isto é,


$$\text{Cov}(\varepsilon_i,\varepsilon_j)=0,\quad\text{para}~i\neq j$$

vi) Frequentemente, supomos que os erros tem distribuição Normal.

A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança.

Visando atender os requisitos do MAPA item 7.1.1.10 subitem ii e as disposições do modelo lde regressão linear, vamos realizar a análise de diagnósticos. Com isso, a primeira análise de diagnósticos é o teste de normalidade (para mais detalhes consulte o conteúdo teste de normalidade). A partir do software Action, obtemos os seguintes resultados:

Tabela 1.10.2.1: Teste de normalidade.

Figura 1.10.2.1: Gráfico da análise de resíduos.

Dos resultados obtidos pela tabela, temos que para qualquer estatística escolhida temos que os resíduos são normais. Assim, atendemos a suposição de normalidade dos resíduos.

Dos gráficos notamos que o nível de concentração de 1, pode afetar a normalidade dos resíduos, porém dos testes (tabela 1.10.2.1) notamos que os resíduos são normais. Do gráfico resíduos versus ordem de coleta não temos uma tendência, com isso temos indícios dos resíduos serem independentes. Por fim, analisando o gráfico de resíduos versus valores ajustados observamos uma variação pequena dos resíduos, com isso temos indícios de homoscedasticidade dos resíduos.

A seguir, vamos testar a independência dos resíduos.

Tabela 1.10.2.2: Teste de independência dos resíduos.

Para testarmos a independência dos resíduos vamos utilizar a estatística de Durbin-Watson (para mais detalhes consulte diagnóstico de independência). Logo, para nível de significância $ \alpha=0,05 $ não rejeitamos $ H_0 $ (p-valor$ = $0,0547). Portanto, podemos afirmar que com um nível de confiança de 95%, os resíduos são independentes.

Agora, vamos testar a suposição (iv), isto é, o teste de homoscedasticidade. Primeiramente, vamos apresentar a estatística de teste recomendada pelo MAPA.

 

Teste de Brown-Forsythe

 

O teste de Brown-Forsythe é utilizado para o teste de igualdade de variâncias, porém em certos casos utilizamos para testar a homoscedasticidade dos resíduos no caso de uma variável explicativa.

O teste $ F $ e o teste de Bartlett são muito sensíveis à suposição de que as populações subjacentes têm distribuição normal. Quando as distribuições subjacentes são não têm distribuição normal, tais testes podem extrapolar seu nível de significância nominal.

Levene propôs uma estatística para dados balanceados, que foi generalizada posteriormente para dados desbalanceados. A estatística é obtida à partir de uma ANOVA (1 fator) entre os grupos, em que cada observação foi substituída pelo seu desvio absoluto da sua média do grupo. No artigo Brown e Forsythe [10] esta estatística foi descrita para amostras muito pequenas, em que as correlações altas entre desvios no mesmo grupo fragilizam a validade do teste. Com isso, Brown e Forsythe consideraram a mediana ou 10 % da tri-média (mais robustas), como alternativas para a média no cálculo dos desvios absolutos.

Agora, vamos definir a estatística do teste, para isto seja $ x_{ij}=\mu_i+\varepsilon_{ij} $ para j-ésima observação ($ j=1,\dots,n_i $) no i-ésimo grupo ($ i=1,\dots,g $), em que a média $ \mu_i $ são desconhecidas e desiguais. Assumimos que $ \varepsilon_{ij} $ são independentes e identicamente distribuídos com média zero variância possivelmente desiguais. Para cada grupo, tomamos a mediana ($ \widetilde{x}_i $) e a variância amostral ($ s^2_i $). Seja os desvios absolutos


$$z_{ij}=|x_{ij}-\widetilde{x}_i|$$

Portanto, temos a seguinte estatística:


$$F_{BF}=\dfrac{\displaystyle\sum^g_{i=1}\frac{n_{i}(\overline{z}_{i.}-\overline{z}_{..})^2}{(g-1)}}{\frac{\displaystyle\sum^g_{i=1}\sum^{n_i}_{j=1}(z_{ij}-\overline{z}_{i.})^2}{\displaystyle\sum^g_{i=1}(n_i-1)}}$$

em que, $ \overline{z}_{i.}=\displaystyle\sum^g_{i=1}\frac{z_{ij}}{n_i} $$ \overline{z}_{..}=\frac{\displaystyle\sum^g_{i=1}\sum^{n_i}_{j=1}z_{ij}}{\displaystyle\sum^g_{i=1}n_i} $

Agora vamos calcular a estatística de Brown-Forsythe, para isto vamos fazer um sumário dos dados necessários.

Tabela 1.10.2.3: Sumário básico dos dados.

Com isso, calculamos $ \widetilde{x}_i $ e o tamanho da amostra $ n_i $ para cada nível de concentração. Agora, vamos calcular os desvios absolutos.

 

Concentração Área $ \widetilde{x}_i $ zij $ \overline{z}_i $ $ (z_{ij}-\overline{z}_i)^2 $
0,05 4,05E-06 3,00E-06 1,04829E-06 1,00E-06 2,33154E-15
0,05 3,12E-06 3,00E-06 1,20893E-07 1,00E-06 7,7283E-13
0,05 2,11E-06 3,00E-06 8,94803E-07 1,00E-06 1,10664E-14
0,1 2,86E-05 0,000029 3,52781E-07 2,00E-06 2,71333E-12
0,1 2,38E-05 0,000029 5,19687E-06 2,00E-06 1,022E-11
0,1 3,08E-05 0,000029 1,78221E-06 2,00E-06 4,74331E-14
0,5 0,000191 0,000194 2,72662E-06 3,00E-06 7,47356E-14
0,5 0,000194 0,000194 4,31653E-07 3,00E-06 6,59641E-12
0,5 0,000201 0,000194 6,62629E-06 3,00E-06 1,315E-11
1 0,000488 0,000485 3,27345E-06 0,000004 5,27876E-13
1 0,000476 0,000485 8,86904E-06 0,000004 2,37075E-11
1 0,000485 0,000485 1,05052E-07 0,000004 1,51706E-11
2 0,000907 0,000907 1,72542E-07 0,000008 6,12691E-11
2 0,000925 0,000907 1,75731E-05 0,000008 9,16435E-11
2 0,000901 0,000907 6,16094E-06 0,000008 3,38215E-12
    Média 3,68897E-06 soma 2,29289E-10

 

Tabela 1.10.2.4: Tabela auxiliar para calcularmos a estatística de Brown-Forsythe.

 Logo, da tabela obtemos os resultados de


$$z_{ij}=|x_{ij}-\widetilde{x}_i|$$

Por fim, calculamos a estatística de Brown-Forsythe, para isto observe a seguinte tabela:

 

Concentração $ \overline{Z}_i $ ni ni-1 Z.. g-1 Numerador $ \displaystyle\sum^g_{i=1}(z_{ij}-\overline{z}_i)^2 $ Denominador Estatística $ F_{BF} $
0,05 1,00E-06 3 2 3,68897E-06 4 5,42291E-12
0,1 2,00E-06 3 2 3,68897E-06 4 2,13946E-12
0,5 3,00E-06 3 2 3,68897E-06 4 3,56006E-13
1 0,000004 3 2 3,68897E-06 4 7,25564E-14
2 0,000008 3 2 3,68897E-06 4 1,39388E-11
    Soma 10     2,19297E-11 2,29289E-10 2,29289E-11 0,937442

 

Tabela 1.10.2.5: Teste de Brown-Forsythe.

 Logo, temos que


$$F_{BF}=\dfrac{\displaystyle\sum^g_{i=1}\frac{n_{i}(\overline{z}_{i.}-\overline{z}_{..})^2}{(g-1)}}{\frac{\displaystyle\sum^g_{i=1}\sum^{n_i}_{j=1}(z_{ij}-\overline{z}_{i.})^2}{\displaystyle\sum^g_{i=1}(n_i-1)}}=\dfrac{\text{numerador}}{\text{denominador}}=0,937442$$

O p-valor é dado por:

 

$$\text{p-valor}=P[F_{4,10}\textgreater F_0]=0,480942$$

Para nível de significância $ \alpha=0,05 $, obtemos que $ F_{0,05;4;10}=3,47. $ Portanto, com 95% de confiança, não rejeitamos $ H_0 $, ou seja, os resíduos são homocedásticos.

A seguir,  através do software Action, testamos a homoscedasticidade através das estatísticas de Breusch-Pagan e Goldfeld-Quandt (para mais detalhes consulte diagnóstico de homoscedasticidade).

 

Tabela 1.10.2.5: Teste de homoscedasticidade.

Através das tabelas notamos que para nível de significância $ \alpha=0,05 $, obtemos que com 95% de confiança, não rejeitamos $ H_0 $, ou seja, os resíduos são homoscedásticos para os testes de Breusch-Pagan e Brown-Forsythe (Teste de Levene modificado). Uma observação importante é que para o teste de Goldfeld-Quandt rejeitamos $ H_0, $ porém dentre as limitações deste teste é que necessitamos de uma amostra relativamente grande, o que não acontece com este exemplo. Portanto, podemos concluir que a homoscedasticidade dos resíduos (variância constante).

 

Diagnóstico de outliers e pontos influentes

 

A seguir, vamos analisar os outliers, que é uma observação extrema, ou seja, é um ponto com comportamento diferente dos demais. Se um outlier for influente, ele interfere sobre a função de regressão ajustada (a inclusão ou não do ponto modifica substancialmente os valores ajustados).

Mas uma observação ser considerada um outlier não quer dizer que consequentemente é um ponto influente. Por isso, um ponto pode ser um outlier em relação a Y ou aos X, e pode ou não ser um ponto influente. A detecção de pontos atípicos tem por finalidade identificar outliers com relação a X, outliers com relação a Y e observações influentes.

Primeiramente, vamos analisar os outliers em X, para isto observe os resultados obtidos pelo software Action:

Figura 1.10.2.2: Boxplot dos pontos de alavanca (Leverage).

Figura 1.10.2.3: Gráfico dos pontos de alavanca (leverage hii) versus nº da observação.

Do gráfico 1.10.2.2 notamos alguns indícios de observações podem alavancar o ajuste do modelo. Do gráfico 1.10.2.3 observamos que os pontos são o de concentração igual a 2. Notamos que ele está muito distante em relação a concentração de 1. Porém, pelo critério $ 2(p+1)/n= $0,4 temos que nenhum ponto é um outlier em X (Concentração).

Agora, vamos analisar os outliers em Y, para isto observe os resultados obtidos pelo software Action:

Figura 1.10.2.4: Gráfico dos resíduos padronizados versus valores ajustados.

Figura 1.10.2.5: Gráfico dos resíduos studentizados versus valores ajustados.

Dos gráficos 1.10.2.4 e 1.10.2.5 não observamos nenhum outlier em Y (Área).

Tabela 1.10.2.6: Teste de outliers.

Observamos da tabela 1.10.2.6 e do gráfico de resíduos studentizados versus ajustados 1.10.2.5, que a observação 10 é um outlier, porém do gráfico de resíduos padronizados versus ajustados 1.10.2.4 notamos que este ponto está nula zona nebulosa de ser ou não um outlier.

A seguir, vamos analisar os pontos influentes, para isto observe os resultados obtidos pelo software Action:

Vale lembrar que um ponto é influente, se sua exclusão do ajuste da regressão causa uma mudança substancial nos valores ajustados. DFFITS medem a influência que a observação i tem sobre seu próprio valor ajustado.  Pelo critério  DFFITS, obtemos que a observação 15 é um ponto influente, porém pelo critério da distância de Cook, não detectamos pontos influentes.

 

 

O DFBETA mede a influência da observação i sobre o coeficiente de X (Concentração). Pelo critério observamos que o ponto 15 é um ponto influente para o coeficiente de Concentração.

Um resumo geral da análise de diagnóstico é que os pontos 10, 11e 12 podem influenciar na normalidade dos resíduos. Já para análise de outliers em Y, temos que o ponto 10 é um outlier em Y (Concentração). Já o ponto 15 é um ponto influente que pode causar uma mudança substancial no ajuste do modelo.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]