4.3.1 - Método do núcleo (Kernel)

O método do Kernel é um método não paramétrico para estimação de curvas de densidades onde cada observação é ponderada pela distância em relação a um valor central, o núcleo. A ideia é centrar cada observação x onde se queira estimar a densidade, uma janela b que define a vizinhança de x e os pontos que pertencem à estimação.

Estimação de densidade

A probabilidade de que um vetor x, retirado de uma função de densidade desconhecida p(x), cair dentro de uma região R é dada por


$$\widehat{P} = \int_{R}p(x^\prime)dx^\prime$$

Considerando que R seja contínua e pequena de forma que p(x) não varia, teremos


$$\widehat{P} = \int_{R}p(x^\prime)dx^\prime = p(x) \ast V$$

onde V é o volume de R.

Se retiramos n pontos de maneira independente de p(x) então a probabilidade de que k deles caiam na região R é dada pela lei binomial


$$P_{k}= \left(\begin{matrix}n \cr k \end{matrix}\right) P^{k}(1-P)^{n-k}$$

Temos também que o número médio de pontos caindo em R é dado pela esperança matemática de k, ou seja, E[k] = nP. Considerando n grande, temos


$$\widehat{P} = p(x) \ast V~~~~~\mbox{e}~~~~~\widehat{P} = \dfrac{k}{n}$$

Então,


$$\widehat{p}(x) \ast V = \dfrac{k}{n}$$

Logo, a estimação da densidade p(x) é dada por


$$\widehat{p}(x) \approx \dfrac{k/n}{V}$$

Se as regiões Ri não tem intersecção, temos um histograma como abaixo.

Em problemas reais existem duas alternativas para estimação da densidade:

  • Escolher um valor fixo de k e determinar o volume V a partir dos dados,
  • Fixar o volume V e determinar k a partir dos dados (Janela de Parzen).

Janela de Parzen

Nesta abordagem fixamos o tamanho da região R para estimar a densidade, fixamos o volume V e determinamos o correspondente k a partir dos dados de aprendizagem e assumimos que a região R é um hipercubo de tamanho h cujo volume é hd.

Para estimar a densidade no ponto x simplesmente centramos R em x, contamos o número de observações em R e substituímos na equação


$$p(x) \approx \dfrac{k/n}{V}$$

Por exemplo,

Podemos definir uma expressão para encontrar a quantidade de pontos que caem em R, a qual é definida como função de Kernel ou Parzen window.

Considerando que temos os exemplos x1, x2, ..., xn, então

Exemplo 4.3.1.1:

Janela de Parzen em 1D.

Suponha que temos 7 observações D = {2, 3, 4, 8, 10, 11, 12} e o tamanho da janela é h = 3. Vamos estimar a densidade em x = 1.

Para ver o formato da função podemos estimar todas as densidades.

A janela é usada na realidade para interpolação, cada observação xi contribui para o resultado da densidade em x, se x está perto bastante de xi.

 

Janela de Parzen: kernel Gaussiano

Uma alternativa a janela quadrada usada até então é a janela Gaussiana. Nesse caso, os pontos que estão próximos a xi recebem um peso maior. A estimação da densidade é então suavizada

Exemplo 4.3.1.2:

Voltando ao Exemplo 4.3.1.1, em que D = {2, 3, 4, 8, 10, 11, 12}. Se considerarmos agora h = 1, teremos

Janelas de Parzen N(0, 1)

Figura 4.3.1.1: Poucas observações e h pequeno.

 

Figura 4.3.1.2: Muitas observações e h pequeno.

 

Outros kernels utilizados

Apesar do kernel Gaussiano ser mais frequentemente utilizado há várias escolhas entre kernels como mostrado na tabela abaixo.

Tabela 4.3.1.1: Diferentes tipos de funções de densidade φ(u).

Kernel $ \varphi(u) $
Uniforme $ \dfrac{1}{2}I(\mid u\mid \leq 1) $
Triangular $ (1-\mid u\mid)(\mid u\mid\leq 1) $
Epanechnikov $ \dfrac{3}{4}(1-u^{2})^{2}I(\mid u\mid \leq 1) $
Quadrático $ \dfrac{15}{16}(1-u^{2})^{2}I(\mid u\mid\leq 1) $
Triweight $ \dfrac{35}{32}(1-u^{2})^{3}I(\mid u\mid\leq 1) $
Cosseno $ \dfrac{\pi}{4}cos\left(\dfrac{\pi}{2}u\right)I(\mid u\mid\leq 1) $

 

Exemplo 4.3.1.3:

Acompanhamos a medição de torque do parafuso de fixação das rodas do terceiro eixo do lado direito do ônibus . A cada duas horas, um especialista da qualidade realiza a medição do torque do parafuso em cinco eixos. Os limites de especificação para essa peça são: LSE = 720 e LIE = 480. Avaliar a capacidade e performance do processo.

Tabela 9.13: Fixação das rodas do terceiro eixo lado direito - Mercedes-Benz.

Subgrupo Coleta de dados
X1 X2 X3 X4 X5
1 623,00 589,00 618,00 620,00 613,00
2 618,00 604,00 594,00 618,00 606,00
3 637,00 584,00 608,00 608,00 608,00
4 618,00 635,00 618,00 630,00 608,00
5 587,00 606,00 604,00 616,00 608,00
6 608,00 601,00 601,00 606,00 580,00
7 599,00 589,00 664,00 618,00 728,00
8 584,00 637,00 599,00 628,00 606,00
9 584,00 606,00 587,00 584,00 620,00
10 623,00 632,00 604,00 580,00 601,00
11 589,00 611,00 599,00 592,00 589,00
12 592,00 726,00 580,00 589,00 618,00
13 604,00 613,00 599,00 611,00 599,00
14 611,00 596,00 611,00 580,00 613,00
15 589,00 709,00 592,00 625,00 687,00
16 628,00 592,00 608,00 637,00 656,00
17 606,00 584,00 604,00 592,00 620,00
18 613,00 604,00 618,00 592,00 584,00
19 596,00 587,00 613,00 618,00 592,00
20 581,00 604,00 580,00 611,00 613,00
21 608,00 623,00 604,00 584,00 606,00
22 616,00 599,00 616,00 714,00 611,00
23 632,00 618,00 611,00 584,00 592,00
24 620,00 587,00 580,00 613,00 608,00
25 608,00 582,00 599,00 604,00 604,00

clique aqui para efetuar o download dos dados utilizados nesse exemplo

 

Observando o papel de probabilidade a seguir vemos que os dados não seguem nenhuma distribuição conhecida testada.

Figura 4.3.1.3: QQplot.

Portanto, vamos utilizar o método do núcleo (Kernel) para fazer uma análise de performance do processo.

A seguir temos os resultados obtidos pelo Software Action para esse exemplo.

 

Figura 4.3.1.4: Gráfico da análise de performance do processo - Método do núcleo.

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Dúvidas sobre esse conteúdo? Comente:

Análise de Capacidade

Sobre o Portal Action

O Portal Action é mantido por Estatcamp - Consultoria Estatística e Qualidade e por DIGUP - Desenvolvimento de Sistemas e Consultoria Estatística, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook