3.4.1 Ponto de alavanca

Você está aqui

A localização dos pontos no espaço das variáveis explicativas é importante para determinarmos propriedades do modelo de regressão. Pontos de alavanca ou valores extremos na variável explicativa ($X$) são detectados por meio da matriz chapéu $H$. Detalhes sobre a matriz chapéu, clique aqui. A matriz hat é dada por $$H=X(X^\prime X)X^\prime,$$ no qual $X$ é a matriz das variáveis explicativas ou a matriz de planejamento. Sabemos que a matriz chapéu $H$ determina a variâncias e as covariâncias da resposta estimada $\hat{y}$ e dos resíduos $e$, $$Var(\hat{y})=\sigma^2H\quad \text{e} \quad Var(e)=\sigma^2(I-H).$$

Denotamos por $h_{ii}$ é o i-ésimo elemento da diagonal principal da matriz chapéu $H$, que é denominado ponto de alavanca (ou, leverage) da observação $i$. Este elemento pode ser intepretado como a alavanca exercida pela i-ésima observação $y_i$ na resposta prevista $\hat{y}_i$. O ponto de alavanca $h_{ii}$ pode ser calculado na forma $$h_{ii}=x_i^{^\prime }(X^\prime X)^{-1}x_i,$$ em que $x_i^\prime $ é a i-ésima linha da matriz $X$. A diagonal da matriz chapéu $H$ é uma medida padronizada da distância da i-ésima observação para o centro do espaço definido pelas variáveis explicativa. Portanto, valor alto para $h_{ii}$ significa que o ponto está distante das outras observações em relação às variáveis explicativas. 

Como $\sum_{i=1}^nh_{ii}=posto(X)=p+1$, a média dos $h_{ii}$ é $(p+1)/n$. É recomendado destacar as observações para as quais $h_{ii}\textgreater 2(p+1)/n$. Também podemos identificar pontos de alavanca altos através do box-plot do vetor de $h_ii$. É importante destacarmos que nem toda observação com $h_{ii}$ alto é influente na análise de regressão. Observe que a diagonal da matriz chapéu avalia a localização da observação no espaço das variáveis explicativas. Como consequência, podemos ter observações com ponto de alavanca alto, mas nada influenciarem nas estimativas dos parâmetros. Assim, é nteressante avaliarmos os pontos de alavanca em conjunto com os resíduos padronizados ou studentizados. 

Exemplo 3.4.1.1

No exemplo da "Motivação 1", vamos calcular os valores de $h_{ii}$ para verificar se alguma observação é um valor extremo em X.

Para o primeiro indivíduo, temos que $x_1^{^\prime }=[1~~220]$, em que o primeiro valor é referente ao intercepto e o segundo é o valor da temperatura observada do indivíduo.

A matriz $(X^\prime X)^{-1}$ é: $$(X^\prime X)^{-1}~=\left[ \begin{array}{ccc}82,86~~~~-0,36\\-0,36~~~~0,0016\\\end{array}\right]$$

Com isso, $$h_{11}=[1~~~~220]\left[ \begin{array}{ccc}82,86~~~~-0,36\\-0,36~~~~0,0016\\\end{array}\right]\left[\begin{array}{ccc}1\\220\\\end{array}\right]=0,14.$$

Para as demais observações calculamos os valores de $h_{ii}$ de forma análoga e obtemos os seguintes valores:

$h_{ii}$ valores
$h_{1}$ 0,14
$h_{2}$ 0,14
$h_{3}$ 0,14
$h_{4}$ 0,14
$h_{5}$ 0,14
$h_{6}$ 0,06
$h_{7}$ 0,06
$h_{8}$ 0,06
$h_{9}$ 0,06
$h_{10}$ 0,06
$h_{11}$ 0,06
$h_{12}$ 0,06
$h_{13}$ 0,06
$h_{14}$ 0,06
$h_{15}$ 0,06
$h_{16}$ 0,14
$h_{17}$ 0,14
$h_{18}$ 0,14
$h_{19}$ 0,14
$h_{20}$ 0,14

Tabela 3.4.1.1: Valores da diagonal principal da matriz H da Motivação 1.

Usando o software Action temos o seguinte resultado:

Figura 3.4.1.1: Gráfico dos valores de $h_{ii}$ considerando os dados do exemplo na Motivação 1.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Observamos pela Tabela 3.4.1.1 e pela Figura 3.4.1.1 que nenhum $h_{ii}$ é maior do que 2(p+1)/n=2(2)/20= 0,2. Por isso, temos que nenhuma observação é considerada outlier em X. 

Exemplo 3.4.1.2

Para o exemplo na "Motivação 2"  vamos calcular a diagonal principal da matriz H ($h_{ii}$) para verificar se alguma observação é um outlier em X. Consideramos os dados transformados.

Para o primeiro indivíduo, temos que $x_1^\prime=[1~~-1~~-1]$, em que o primeiro valor é referente ao intercepto, o segundo referente ao tempo e o terceiro é referente à dose de íons. Além disso, 

Assim,

Calculando o $h_{ii}$ para as outras observações obtemos os seguintes valores:

$h_{i}$ valores
$h_{1}$ 0,36744
$h_{2}$ 0,35801
$h_{3}$ 0,316927
$h_{4}$ 0,310215
$h_{5}$ 0,092191
$h_{6}$ 0,133456
$h_{7}$ 0,147617
$h_{8}$ 0,242964
$h_{9}$ 0,234893
$h_{10}$ 0,19677
$h_{11}$ 0,216595
$h_{12}$ 0,072974
$h_{13}$ 0,233037
$h_{14}$ 0,07691

Tabela 3.4.1.2: Valores da diagonal principal da matriz H. 

Usando o software Action temos o seguinte resultado:

Figura 3.4.1.2: Gráfico dos valores de $h_{ii}$ considerando os dados do exemplo na Motivação 2.

 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Observamos pela Tabela 3.4.1.2 e pela Figura 3.4.1.2 que nenhum $h_{ii}$ é maior do que 2(p+1)/n=2(3)/14= 0,428. Por isso, temos que nenhuma observação é considerada outlier em X.

Análise de Regressão

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]