3.4.1 Ponto de alavanca

Você está aqui

A localização dos pontos no espaço das variáveis explicativas é importante para determinarmos propriedades do modelo de regressão. Pontos de alavanca ou valores extremos na variável explicativa ($ X $) são detectados por meio da matriz chapéu $ H $. Detalhes sobre a matriz chapéu, clique aqui. A matriz hat é dada por

$$H=X(X^\prime X)X^\prime,$$

no qual $ X $ é a matriz das variáveis explicativas ou a matriz de planejamento. Sabemos que a matriz chapéu $ H $ determina a variâncias e as covariâncias da resposta estimada $ \hat{y} $ e dos resíduos $ e $,

$$Var(\hat{y})=\sigma^2H\quad \text{e} \quad Var(e)=\sigma^2(I-H).$$

Denotamos por $ h_{ii} $ é o i-ésimo elemento da diagonal principal da matriz chapéu $ H $, que é denominado ponto de alavanca (ou, leverage) da observação $ i $. Este elemento pode ser intepretado como a alavanca exercida pela i-ésima observação $ y_i $ na resposta prevista $ \hat{y}_i $. O ponto de alavanca $ h_{ii} $ pode ser calculado na forma

$$h_{ii}=x_i^{^\prime }(X^\prime X)^{-1}x_i,$$

em que $ x_i^\prime  $ é a i-ésima linha da matriz $ X $. A diagonal da matriz chapéu $ H $ é uma medida padronizada da distância da i-ésima observação para o centro do espaço definido pelas variáveis explicativa. Portanto, valor alto para $ h_{ii} $ significa que o ponto está distante das outras observações em relação às variáveis explicativas. 

Como $ \sum_{i=1}^nh_{ii}=posto(X)=p+1 $, a média dos $ h_{ii} $ é $ (p+1)/n $. É recomendado destacar as observações para as quais $ h_{ii}\textgreater 2(p+1)/n $. Também podemos identificar pontos de alavanca altos através do box-plot do vetor de $ h_ii $. É importante destacarmos que nem toda observação com $ h_{ii} $ alto é influente na análise de regressão. Observe que a diagonal da matriz chapéu avalia a localização da observação no espaço das variáveis explicativas. Como consequência, podemos ter observações com ponto de alavanca alto, mas nada influenciarem nas estimativas dos parâmetros. Assim, é nteressante avaliarmos os pontos de alavanca em conjunto com os resíduos padronizados ou studentizados. 

Exemplo 3.4.1.1

No exemplo da "Motivação 1", vamos calcular os valores de $ h_{ii} $ para verificar se alguma observação é um valor extremo em X.

Para o primeiro indivíduo, temos que $ x_1^{^\prime }=[1~~220] $, em que o primeiro valor é referente ao intercepto e o segundo é o valor da temperatura observada do indivíduo.

A matriz $ (X^\prime X)^{-1} $ é:

$$(X^\prime X)^{-1}~=\left[ \begin{array}{ccc}82,86~~~~-0,36\\-0,36~~~~0,0016\\\end{array}\right]$$

Com isso,

$$h_{11}=[1~~~~220]\left[ \begin{array}{ccc}82,86~~~~-0,36\\-0,36~~~~0,0016\\\end{array}\right]\left[\begin{array}{ccc}1\\220\\\end{array}\right]=0,14.$$

Para as demais observações calculamos os valores de $ h_{ii} $ de forma análoga e obtemos os seguintes valores:

$ h_{ii} $ valores
$ h_{1} $ 0,14
$ h_{2} $ 0,14
$ h_{3} $ 0,14
$ h_{4} $ 0,14
$ h_{5} $ 0,14
$ h_{6} $ 0,06
$ h_{7} $ 0,06
$ h_{8} $ 0,06
$ h_{9} $ 0,06
$ h_{10} $ 0,06
$ h_{11} $ 0,06
$ h_{12} $ 0,06
$ h_{13} $ 0,06
$ h_{14} $ 0,06
$ h_{15} $ 0,06
$ h_{16} $ 0,14
$ h_{17} $ 0,14
$ h_{18} $ 0,14
$ h_{19} $ 0,14
$ h_{20} $ 0,14

Tabela 3.4.1.1: Valores da diagonal principal da matriz H da Motivação 1.

Usando o software Action temos o seguinte resultado:

Figura 3.4.1.1: Gráfico dos valores de $ h_{ii} $ considerando os dados do exemplo na Motivação 1.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Observamos pela Tabela 3.4.1.1 e pela Figura 3.4.1.1 que nenhum $ h_{ii} $ é maior do que 2(p+1)/n=2(2)/20= 0,2. Por isso, temos que nenhuma observação é considerada outlier em X. 

Exemplo 3.4.1.2

Para o exemplo na "Motivação 2"  vamos calcular a diagonal principal da matriz H ($ h_{ii} $) para verificar se alguma observação é um outlier em X. Consideramos os dados transformados.

Para o primeiro indivíduo, temos que $ x_1^\prime=[1~~-1~~-1] $, em que o primeiro valor é referente ao intercepto, o segundo referente ao tempo e o terceiro é referente à dose de íons. Além disso, 

Assim,

Calculando o $ h_{ii} $ para as outras observações obtemos os seguintes valores:

$ h_{i} $ valores
$ h_{1} $ 0,36744
$ h_{2} $ 0,35801
$ h_{3} $ 0,316927
$ h_{4} $ 0,310215
$ h_{5} $ 0,092191
$ h_{6} $ 0,133456
$ h_{7} $ 0,147617
$ h_{8} $ 0,242964
$ h_{9} $ 0,234893
$ h_{10} $ 0,19677
$ h_{11} $ 0,216595
$ h_{12} $ 0,072974
$ h_{13} $ 0,233037
$ h_{14} $ 0,07691

Tabela 3.4.1.2: Valores da diagonal principal da matriz H. 

Usando o software Action temos o seguinte resultado:

Figura 3.4.1.2: Gráfico dos valores de $ h_{ii} $ considerando os dados do exemplo na Motivação 2.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Observamos pela Tabela 3.4.1.2 e pela Figura 3.4.1.2 que nenhum $ h_{ii} $ é maior do que 2(p+1)/n=2(3)/14= 0,428. Por isso, temos que nenhuma observação é considerada outlier em X.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]