Fora de Tendência

Você está aqui

Conforme preconizado na RDC $ 318 $, os resultados fora de tendência (ou seja, aqueles resultados que, durante a análise de tendência não foram coerentes com o comportamento observado) devem ter as causas para o desvio apresentadas. O motivo dessa requisição é a necessidade de avaliar o modelo como um todo e evitar distorções relacionadas a erros diversos, que podem comprometer a análise estatística. Para demonstrar que determinado resultado está fora da tendência, recomenda-se um teste estatístico adequado para apontar outliers.

Os outliers ou pontos influentes são identificados na Análise dos Resíduos do modelo. Os resíduos que são definidos como $ e_i=Y_i-\hat{Y}_i $, que corresponde a diferença entre o valor observado e o valor ajustado pelo modelo. Entretanto, para uma melhor detecção de outliers em Y, diversas formas "padronizadas" foram propostas. No caso do estudo de estabilidade, vamos utilizar os resíduos padronizados e os resíduos studentizados.

Resíduos Padronizado

Existem inúmeras maneiras de se expressar o vetor de resíduos "e" que nos será útil.  

$$e=Y-\hat{Y}=Y-X\hat{\beta}=Y - HY=(I-H)Y.$$

A matriz de covariâncias dos resíduos é,  

$$Cov[e]=Cov[(I-H)Y]=(I-H)Var(Y)(I-H)^\prime$$

$$=\sigma^2(I-H)(I-H)^\prime$$

$$=\sigma^2(I-H),$$

no qual $ H=X(X^\prime X)^{-1} X^\prime $ é a matriz chapéu (hat) e $ X $ a matriz do modelo.

Assim, definimos os resíduos padronizados por

$$\begin{equation*}r_{\imath}=\displaystyle\frac{e_i}{\sqrt{QME(1-h_{\imath\imath})}},~~~~~~~~~~i=1,2,\ldots,n,\end{equation*}$$

com $ \hat{\sigma}^2=QME $ e $ h_{ii} $ o $ i $-ésimo elemento da matriz chapéu $ H $.

Os resíduos padronizados tem variâncias constantes $ Var(r_i)=1 $ o que consequentemente torna muito prática a procura por outliers, que são observações distantes das demais. Em geral, as observações com resíduo padronizado fora do intervalo $ -3\leq r_i \leq 3 $ deve são considerados outliers ou pontos influentes.

Resíduo Studentizado

Um dos testes mais utilizados para detectar outlier é o teste da mudança na média. Suponha que a $ i $-ésima resposta é um candidato a outlier. Para todas as outras respostas assumimos que $ \mathbb{E} [Y \mid X=x_j] = x_j^\prime \beta $, mas para o caso $ i $ a função média é dada por $ \mathbb{E} [Y \mid X=x_i] = x_i^\prime \beta + \delta $. A resposta esperado para o caso $ i $ é modificada pelo parâmetro $ \delta $. Assim, podemos realizar o teste   \delta = 0 $ versus  \delta \ne 0 $ para verificar se a $ i $-ésima respota é um outlier. Assumimos que a variância é constante, isto é, $ Var(Y \mid X) = \sigma^2 $.

Resposta com valores altos de resíduos são candidatos a outlier, porém, nem toda observação com resíduo alto é um outlier. Resíduos alto devem ocorrer conforme a distribuição de probabilidade dos dados (normal). Além disso, nem todo outlier é ruim, pois o outlier é detectado em função do modelo ajustado, que pode não ser adequado aos dados.

Suponha que a observação $ i $ seja suspeita de ser um outlier. Para verificar esta suspeita procedemos da seguinte forma:

1) Tiramos a observação $ i $ dos dados ficando com as $ N-1 $ observações restantes;

2) Com os dados reduzidos, estimamos os parâmetros $ \beta $ e $ \sigma^2 $. Denotamos as estimativs por $ \beta_{(i)} $ e $ \sigma_{(i)} $ para evidenciar que retiramos a observação $ i $ do conjunto de dados. Neste caso, o estimador para $ \sigma^2_{(i)} $ tem $ N-1-p-1 $ graus de liberdade, para o modelo com o intercepto. Se denotarmos por $ p^\prime $ o número de linhas da matriz $ X $, obtemos que $ p^\prime = p+1 $ no caso com intercepto e $ p^\prime = p $ no caso sem o intercepto. Neste caso, temos que $ \hat{\sigma}^2_{(i)} $ tem $ N-p^{\prime} -1 $ graus de liberdade.

3) Para os dados sem a observação $ i $, calculamos o valor ajustado $ \hat{Y}_{i(i)} = x_i^\prime \beta_{(i)} $. Desde que a $ i $-ésima observação não foi utilizada para estimar os parâmetros $ \beta_{(i)} $ concluímos que $ Y_i $ e $ \hat{Y}_{i(i)} $ são independentes. Como consequência, obtemos que 

$$Var [Y_i - \hat{Y}_{i(i)}] = \sigma^2 + \sigma^2 x_i^\prime (X_{(i)}^\prime X_{(i)})^{-1} x_i,$$

no qual $ X_{(i)} $ é a matrix $ X $ sme a linha $ i $. A variância é estimada substituindo $ \sigma^2 $ por $ \hat{\sigma}^2_{(i)} $ na expressão acima.

4) Sabemos que $ \mathbb{E} [Y_i - \hat{Y}_{i(i)}] = \delta $ que é zero sob $ H_0 $ e diferente de zero sob $ H_1 $. Assumindo distribuição normal para os resíduos, temos que sob  \delta = 0 $, a estatística do teste

\[ t_i = \frac{Y_i - \hat{Y}_{i(i)}}{\hat{\sigma}\sqrt{1+x_i^\prime(X_{(i)}^\prime X_{(i)})^{-1} x_{i}}},\]

tem distribuição $ t $-Student com $ N-p^\prime -1 $ graus de liberdade. Esta estatística pode ser escrita na forma

\[ t_i = r_i \sqrt{\frac{N-p^\prime -1}{N-p^\prime -r_{i}^2}} = \frac{e_i}{\hat{\sigma}_{(i)} \sqrt{1-h_{ii}}},\]

nos quais $ e_i $ é o resíduo e $ r_i $ o resíduo padronizado. 

Na sequência, vamos mostrar que a fórmula acima é válida. Suponha que a matrix do modelo $ X $ tenha colunas linearmente independentes. Denotamos por $ X_{(i)} $ a matrix do modelo sem a linha $ i $. Sabemos que

\[ (X_{(i)}^\prime X_{(i)})^{-1} = (X^{\prime} X)^{-1} - \frac{(X^\prime X)^{-1} x_{i}^\prime x_i (X^\prime X)^{-1}}{1-h_{ii}}.\]

Esta fórmula é conhecida desde Gauss em 1821 e tem uma longa história de aplicações na estatística.  A partir desta fórmula, temos que 

\[\hat{\beta}_{(i)} = \hat{\beta} - \frac{(X^\prime X)^{-1} x_{i}^\prime e_i}{1-h_{ii}}.\]

Assim, uma estimativa da variância é dada por

\[ \hat{\sigma}^2_{(i)} = \hat{\sigma}^2} \left( \frac{N-p^\prime -1}{N-p^\prime - r_i^2}\right)^{-1},\]

o que nos leva à fórmula do resíduo studentizado $ t_i $. Observe que o resíduo padronizado $ r_i $ e o resíduo studentizado $ t_i $ carregam a mesma informação. Assim, ao considerarmos que o grau de liberdade $ N-p^\prime -1 $ é alto, sabemos que $ t_i $ se comporta aproximadamente como a distribuição normal e com isso, $ \mid t_i \mid \geq 3 $ é considerado uma observação extrema (outlier).

Análise Gráfica

Uma melhor maneira de visualizar o comportamento dos resíduos do modelo é através de uma análise gráfica. Após calculado os resíduos padronizados e studentizados, construímos um gráfico em que os valores dos resíduos são apresentados de acordo com os valores ajustados. Com o exemplo em estudo, calculamos os resíduos e contruímos os gráficos utilizando o apoio computacional do Action Stat.

 

 A linha pontilhada verde representa o intervalo (-3,3) em ambos os gráficos. Como temos nenhum resíduo fora dos intervalos, não identificamos pontos extremos ou outliers para esse caso.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]