3.4.2 Valores extremos na resposta: resíduos altos

Você está aqui

Em análise de regressão, a resposta observada de alguns casos pode não corresponder ao modelo ajustado aos dados, neste caso, dizemos que esta resposta é um outlier ou valor extremo. Em regressão linear simples, o gráfico de dispersão pode nos mostrar quais observações não correspondem ao modelo ajustado. Entretanto, quando lidamos com modelos de regressão múltipla, devemos realizar uma análise mais cuidadosa.  Os resíduos são definidos como $ e_i=Y_i-\hat{Y}_i $, que corresponde a diferença entre o valor observado e o valor ajustado pelo modelo. Entretanto, para uma melhor detecção de outliers em Y, diversas formas "padronizadas" foram propostas.

3.4.2.1 Resíduos Normalizado

O resíduo normalizado, $ d_i $, corresponde ao resíduo dividido pelo devio padrão estimado dos resíduos, $ \sqrt{QME} $

$$d_i=\frac{e_i}{\sqrt{QME}}.$$

Se os erros têm distribuição normal, então aproximadamente 95% dos resíduos normalizado $ (d_i) $ devem estar no intervalo de (-2,2). Resíduos fora desse intervalo podem indicar a presença de outliers.

3.4.2.2 Resíduos Padronizado

Existem inúmeras maneiras de se expressar o vetor de resíduos "e" que nos será útil.  

$$e=Y-\hat{Y}=Y-X\hat{\beta}=Y - HY=(I-H)Y.$$

A matriz de covariâncias dos resíduos é,  

$$Cov[e]=Cov[(I-H)Y]=(I-H)Var(Y)(I-H)^\prime$$

$$=\sigma^2(I-H)(I-H)^\prime$$

$$=\sigma^2(I-H),$$

no qual $ H=X(X^\prime X)^{-1} X^\prime $ é a matriz chapéu (hat) e $ X $ a matriz do modelo.

Assim, definimos os resíduos padronizados por

$$\begin{equation*}r_{\imath}=\displaystyle\frac{e_i}{\sqrt{QME(1-h_{\imath\imath})}},~~~~~~~~~~i=1,2,\ldots,n,\end{equation*}$$

com $ \hat{\sigma}^2=QME $ e $ h_{ii} $ o $ i $-ésimo elemento da matriz chapéu $ H $.

Os resíduos padronizados tem variâncias constantes $ Var(r_i)=1 $ o que consequentemente torna muito prática a procura por outliers, que são observações distantes das demais. Em geral, as observações com resíduo padronizado fora do intervalo $ -3\leq r_i \leq 3 $ deve são considerados outliers.

3.4.2.3 Resíduo Studentizado

Um dos testes mais utilizados para detectar outlier é o teste da mudança na média. Suponha que a $ i $-ésima resposta é um candidato a outlier. Para todas as outras respostas assumimos que $ \mathbb{E} [Y \mid X=x_j] = x_j^\prime \beta $, mas para o caso $ i $ a função média é dada por $ \mathbb{E} [Y \mid X=x_i] = x_i^\prime \beta + \delta $. A resposta esperado para o caso $ i $ é modificada pelo parâmetro $ \delta $. Assim, podemos realizar o teste   \delta = 0 $ versus  \delta \ne 0 $ para verificar se a $ i $-ésima respota é um outlier. Assumimos que a variância é constante, isto é, $ Var(Y \mid X) = \sigma^2 $.

Resposta com valores altos de resíduos são candidatos a outlier, porém, nem toda observação com resíduo alto é um outlier. Resíduos alto devem ocorrer conforme a distribuição de probabilidade dos dados (normal). Além disso, nem todo outlier é ruim, pois o outlier é detectado em função do modelo ajustado, que pode não ser adequado aos dados.

Suponha que a observação $ i $ seja suspeita de ser um outlier. Para verificar esta suspeita procedemos da seguinte forma:

1) Tiramos a observação $ i $ dos dados ficando com as $ n-1 $ observações restantes;

2) Com os dados reduzidos, estimamos os parâmetros $ \beta $ e $ \sigma^2 $. Denotamos as estimativs por $ \beta_{(i)} $ e $ \sigma_{(i)} $ para evidenciar que retiramos a observação $ i $ do conjunto de dados. Neste caso, o estimador para $ \sigma^2_{(i)} $ tem $ n-1-p-1 $ graus de liberdade, para o modelo com o intercepto. Se denotarmos por $ p^\prime $ o número de linhas da matriz $ X $, obtemos que $ p^\prime = p+1 $ no caso com intercepto e $ p^\prime = p $ no caso sem o intercepto. Neste caso, temos que $ \hat{\sigma}^2_{(i)} $ tem $ n-p^{\prime} -1 $ graus de liberdade.

3) Para os dados sem a observação $ i $, calculamos o valor ajustado $ \hat{Y}_{i(i)} = x_i^\prime \beta_{(i)} $. Desde que a $ i $-ésima observação não foi utilizada para estimar os parâmetros $ \beta_{(i)} $ concluímos que $ Y_i $ e $ \hat{Y}_{i(i)} $ são independentes. Como consequência, obtemos que 

$$Var [Y_i - \hat{Y}_{i(i)}] = \sigma^2 + \sigma^2 x_i^\prime (X_{(i)}^\prime X_{(i)})^{-1} x_i,$$

no qual $ X_{(i)} $ é a matrix $ X $ sem a linha $ i $. A variância é estimada substituindo $ \sigma^2 $ por $ \hat{\sigma}^2_{(i)} $ na expressão acima.

4) Sabemos que $ \mathbb{E} [Y_i - \hat{Y}_{i(i)}] = \delta $ que é zero sob $ H_0 $ e diferente de zero sob $ H_1 $. Assumindo distribuição normal para os resíduos, temos que sob  \delta = 0 $, a estatística do teste

\[ t_i = \frac{Y_i - \hat{Y}_{i(i)}}{\hat{\sigma}\sqrt{1+x_i^\prime(X_{(i)}^\prime X_{(i)})^{-1} x_{i}}},\]

tem distribuição $ t $-Student com $ n-p^\prime -1 $ graus de liberdade. Esta estatística pode ser escrita na forma

\[ t_i = r_i \sqrt{\frac{n-p^\prime -1}{n-p^\prime -r_{i}^2}} = \frac{e_i}{\hat{\sigma}_{(i)} \sqrt{1-h_{ii}}},\]

nos quais $ e_i $ é o resíduo e $ r_i $ o resíduo padronizado. 

Na sequência, vamos mostrar que a fórmula acima é válida. Suponha que a matrix do modelo $ X $ tenha colunas linearmente independentes. Denotamos por $ X_{(i)} $ a matrix do modelo sem a linha $ i $. Sabemos que

\[ (X_{(i)}^\prime X_{(i)})^{-1} = (X^{\prime} X)^{-1} - \frac{(X^\prime X)^{-1} x_{i}^\prime x_i (X^\prime X)^{-1}}{1-h_{ii}}.\]

Esta fórmula é conhecida desde Gauss em 1821 e tem uma longa história de aplicações na estatística.  A partir desta fórmula, temos que 

\[\hat{\beta}_{(i)} = \hat{\beta} - \frac{(X^\prime X)^{-1} x_{i}^\prime e_i}{1-h_{ii}}.\]

Assim, uma estimativa da variância é dada por

\[ \hat{\sigma}^2_{(i)} = \hat{\sigma}^2} \left( \frac{n-p^\prime -1}{n - p^\prime - r_i^2}\right)^{-1},\]

o que nos leva à fórmula do resíduo studentizado $ t_i $. Observe que o resíduo padronizado $ r_i $ e o resíduo studentizado $ t_i $ carregam a mesma informação. Assim, ao considerarmos que o grau de liberdade $ n - p^\prime -1 $ é alto, sabemos que $ t_i $ se comporta aproximadamente como a distribuição normal e com isso, $ \mid t_i \mid \geq 3 $ é considerado uma observação extrema (outlier).

Exemplo 3.4.2.1

Para os dados na "Motivação 1" vamos calcular os resíduos studentizados e padronizados.

 clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução: Como vimos em "Estimação dos Parâmetros do Modelo Linear", o QME do exemplo na motivação 1 é calculado no "Exemplo 1.2.2" e é dado por 2,286. Já a diagonal da matriz H foi calculada no "Diagnóstico de Outliers em X". Assim, os resíduos são:

e studentizados padronizados
-0,14 -0,100 -0,09
-0,14 -0,100 -0,093
-0,14 -0,100 -0,093
-1,14 -0,813 -0,754
-2,14 -1,526 -1,415
3,02 2 2
1,02 1 1
0,02 0,014 0,013
1,02 0,696 0,675
1,02 0,696 0,675
1,18 0,805 0,780
-2,82 -1,923 -1,865
-0,82 -1 -1
2,18 1,487 1,442
-0,82 -1 -1
0,34 0,242 0,225
0,34 0,242 0,225
0,34 0,242 0,225
-2,66 -1,897 -1,759
0,34 0,244 0,22

Tabela 3.4.2.1: Resíduos da Motivação 1.

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Exemplo 3.4.2.2

Usaremos novamente o exemplo da "Motivação 2" para fazer os resíduos padronizados e studentizados.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Solução: O QME neste caso foi calculado no "Exemplo 2.3.1" e é dado por $ QME=1.220,1 $. Além disso, a matriz H referente ao conjunto de dados é dada por

Desta forma, os resíduos são:

e  studentizados padronizados
30,35 1,092 0,869
15,48 0,553 0,443
-30,36 -1,052 -0,869
-23,23 -0,801 -0,665
5,34 0,16 0,153
-11,87 -0,365 -0,34
63,2 1,96 1,809
-25,01 -0,823 -0,716
-19,88 -0,651 -0,569
-37,09 -1,185 -1,062
-44,58 -1,442 -1,276
24,56 0,73 0,703
37,46 1,225 1,072
15,65 0,466 0,448

Tabela 3.4.2.2: Resíduos da Motivação 2.

Usando o software Action temos os seguintes resultados:

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]