4.3.1 - Estimação não paramétrica de densidades: método do núcleo

Você está aqui

Em situações que os dados não se ajustam em alguma distribuição conhecida (por exemplo a distribuição normal, Weibull, exponencial, log-normal), utilizam-se técnicas não paramétricas para ajustar uma densidade aos dados. O método de estimação de densidades através de um núcleo (Kernel) é uma técnica não paramétrica para estimação de curvas de densidades no qual cada observação é ponderada pela distância em relação a um valor central, o núcleo. A ideia é centrar cada observação x onde se queira estimar a densidade, uma janela b que define a vizinhança de x e os pontos que pertencem à estimação.

Estimação não paramétrica de Densidade por núcleo (kernel)

O Histograma é a forma mais antiga e utilizada para estimar a função densidade de probabilidade. Dado uma origem $ x_0 $ e um tamanho de janela $ h $ define-se as janelas do histograma pelos intervalos $ [x_0 + mh, x_0 + (m+1)h) $  para inteiros positivos e negativos $ m $.

$$\widehat{f}(x)=\dfrac{1}{nh}$$

Dada uma função núcleo $ K $ não negativa tal que:

$$\int_{-\infty}^{\infty} K(x)dy = 1$$

O estimador do núcleo para função densidade de probabilidade é dado:

$$\widehat{f}(x)=\dfrac{1}{nh} \sum_{i=1}^{n} K\left(\dfrac{x-x_i}{h}\right)$$

A função núcleo mais utilizada é denominada núcleo gaussiano e sua função é dada pela distribuição normal padrão:

$$K(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\dfrac{x^2}{2}}$$

Exemplo 4.3.1.1: Dada uma amostra aleatória $ X_1,X_2,...,X_{10} $ deseja-se estimar a função densidade não paramétrica utilizando o método de Kernel Gaussiano no intervalo de $ [-4;4,05] $ com uma janela de $ h=0,35 $, ou seja observam-se 24 valores $ x $.

Observação Dados
$ X_1 $  -0,05
$ X_2 $ 0,47
$ X_3 $ -3,02
$ X_4 $ 0,1
$ X_5 $ 0,91
$ X_6 $  -0,6
$ X_7 $  0,21
$ X_8 $ 0,77
$ X_9 $  -0,15
$ X_10 $  2,05

 

 

[-4,00;4,05] $
-4
-3,65
-3,30
-2,95
-2,6
-2,25
-1,9
-1,55
-1,2
-0,85
-0,5
-0,15
0,2
0,55
0,9
1,25
1,6
1,95
2,3
2,65
3
3,35
3,7
4,05

Portanto incialmente podemos calcular $ \sum_{i=1}^{n}K\left(\dfrac{x-X_i}{h}\right) $

$$\sum_{i=1}^{10}K\left(\dfrac{x_1-X_i}{0,35}\right) = \sum_{i=1}^{10}K\left(\dfrac{-4-X_i}{0,35} \right) = 0,008038$$

$$\sum_{i=1}^{10}K\left(\dfrac{x_2-X_i}{0,35}\right) = \sum_{i=1}^{10}K\left(\dfrac{-3,65-X_i}{0,35} \right) = 0,079734$$

$$\vdots$$

$$\sum_{i=1}^{10}K\left(\dfrac{x_{24}-X_i}{0,35}\right) = \sum_{i=1}^{10}K\left(\dfrac{4,05-X_i}{0,35} \right) = 0,00000003$$

Assim, pode-se calcular a densidade estimada:

$$\widehat{f}(x)=\dfrac{1}{nh} \sum_{i=1}^{n} K\left(\dfrac{x_1-x_i}{h}\right) =\dfrac{1}{3,5} \sum_{i=1}^{10} K\left(\dfrac{-4-x_i}{0,35}\right)= 0,0022997$$

$$\widehat{f}(x)=\dfrac{1}{nh} \sum_{i=1}^{n} K\left(\dfrac{x_2-x_i}{h}\right) =\dfrac{1}{3,5} \sum_{i=1}^{10} K\left(\dfrac{-3,65-x_i}{0,35}\right) =0,022781 $$

$$\vdots$$

$$\widehat{f}(x)=\dfrac{1}{nh} \sum_{i=1}^{n} K\left(\dfrac{x_{24}-x_i}{h}\right) =\dfrac{1}{3,5} \sum_{i=1}^{10} K\left(\dfrac{4,05-x_i}{0,35}\right) =0,00000001$$

Depois de estimada a densidade, segue-se com a análise de porformance de forma usual.

Exemplo 4.3.1.2:

Acompanhamos a medição de torque do parafuso de fixação das rodas do terceiro eixo do lado direito do ônibus . A cada duas horas, um especialista da qualidade realiza a medição do torque do parafuso em cinco eixos. Os limites de especificação para essa peça são: LSE = 720 e LIE = 480. Avaliar a capacidade e performance do processo.

Tabela 9.13: Fixação das rodas do terceiro eixo lado direito - Mercedes-Benz.

Subgrupo Coleta de dados
X1 X2 X3 X4 X5
1 623,00 589,00 618,00 620,00 613,00
2 618,00 604,00 594,00 618,00 606,00
3 637,00 584,00 608,00 608,00 608,00
4 618,00 635,00 618,00 630,00 608,00
5 587,00 606,00 604,00 616,00 608,00
6 608,00 601,00 601,00 606,00 580,00
7 599,00 589,00 664,00 618,00 728,00
8 584,00 637,00 599,00 628,00 606,00
9 584,00 606,00 587,00 584,00 620,00
10 623,00 632,00 604,00 580,00 601,00
11 589,00 611,00 599,00 592,00 589,00
12 592,00 726,00 580,00 589,00 618,00
13 604,00 613,00 599,00 611,00 599,00
14 611,00 596,00 611,00 580,00 613,00
15 589,00 709,00 592,00 625,00 687,00
16 628,00 592,00 608,00 637,00 656,00
17 606,00 584,00 604,00 592,00 620,00
18 613,00 604,00 618,00 592,00 584,00
19 596,00 587,00 613,00 618,00 592,00
20 581,00 604,00 580,00 611,00 613,00
21 608,00 623,00 604,00 584,00 606,00
22 616,00 599,00 616,00 714,00 611,00
23 632,00 618,00 611,00 584,00 592,00
24 620,00 587,00 580,00 613,00 608,00
25 608,00 582,00 599,00 604,00 604,00

clique aqui para efetuar o download dos dados utilizados nesse exemplo

 

Observando o papel de probabilidade a seguir vemos que os dados não seguem nenhuma distribuição conhecida testada.

Figura 4.3.1.3: QQplot.

Portanto, vamos utilizar o método do núcleo (Kernel) para fazer uma análise de performance do processo.

A seguir temos os resultados obtidos pelo Software Action para esse exemplo.

 

Figura 4.3.1.4: Gráfico da análise de performance do processo - Método do núcleo.

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Análise de Capacidade

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]