6.2 - Teste de Kolmogorov-Smirnov

Você está aqui

Grande parte dos problemas que encontramos em estatística são tratados com a hipótese que os dados são retirados de uma população com uma distribuição de probabilidade específica. O formato desta distribuição pode ser um dos objetivos da análise. Por exemplo, suponha que um pequeno número de observações foram retiradas de uma população com distribuição desconhecida e que estamos interessados em testar hipóteses sobre a média desta população. O teste paramétrico tradicional, baseado na distribuição t-student, é obtido sob o hipótese de que a população tem distribuição normal. Nesse sentido, surge a necessidade de certificarmos se essa suposição pode ser assumida. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar nossas análise. Para dar suporte a esta suposição, consideramos, dentre outros, o teste de Kolmogorov - Smirnov.

O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipóteses: 

 \hbox{Os dados não seguem uma distribuição normal.}\end{array}\right.\]

Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância.

Considere uma amostra aleatória simples $ X_1, X_2 , \cdots , X_n $ de uma população com função de distribuição acumulada contínua $ F_X $ desconhecida. A estatística utilizada para o teste é: 

\[D_n=\sup_x|F(x)-F_n(x)|\]

Esta função corresponde a distância máxima vertical entre os gráficos de $ F(x) $ e $ F_n(x) $ sobre a amplitude dos possíveis valores de $ x $. Em $ D_n $ temos que

  • $ F(x) $ representa a função de distribuição acumulada assumida para os dados;
  • $ F_n(x) $ representa a função de distribuição acumulada empírica dos dados.

Neste caso, queremos testar a hipótese  F_X = F $ contra a hipótese alternativa  F_X \neq F $. Para isto, tomamos $ X_{(1)}, X_{(2)}, \cdots , X_{(n)} $ as observações aleatórias ordenadas de forma crescente da população com função de distribuição contínua $ F_X $. No caso de análise da normalidade dos dados, assumimos $ F $ a função de distribuição da normal.

A função de distribuição acumulada assumida para os dados é definida por $ F(x_{(i)}) = \mathbb{P}(X\leq x_{(i)}) $ e a função de distribuição acumulada empírica é definida por uma função escada, dada pela fórmula: 

\[F_n(x)=\frac{1}{n}\sum_{i=1}^n I_{\{(-\infty,x]\}}(x_{(i)})\]

onde $ I_A $ é a função indicadora. A função indicadora é definida da seguinte forma: 

\[I_{A}=\left\{\begin{array}{l} 1; \ \hbox{se} \ x\in A \\ 0; \ \hbox{caso contrário}\end{array}\right.\]

Observe que a função da distribuição empírica $ F_n(x) $ corresponde à proporção de valores menores ou iguais a $ x $. Tal função também pode ser escrita da seguinte forma 

\[\begin{equation*}F_{n}(x)=\left\{\begin{array}{l}0,\mbox{se}~x\textless x_{(1)}\\\frac{k}{n},\mbox{se}~x_{(k)}\leq x\textless x_{(k + 1)}\\1,\hbox{se}~x\textgreater~x_{(n)}\end{array}~~(12)\right.\end{equation*}\]

Sob $ H_0 $, a distribuição assintótica da estatística de kolmogorov-Smirnov é dada por 

\[\lim_{n \rightarrow \infty}P\left[\sqrt{n} D_n \leq x\right] = 1-2 \sum_{j=1}^{\infty} (-1)^{j-1} exp^{-2j^2x^2}.\]

 

Esta distribuição assintótica é válida quando temos conhecimento completo sobre a distribuição de $ H_0 $, entretanto, na prática, $ H_0 $ especifica uma famíla de distribuições de probabilidade. Neste caso, a distribuição assintótica da estatística de Kolmogorov-Smirnov não conhecida e foi determinada via simulação.

Como a função de distribuição empírica $ F_n $ é descontínua e a função de distribuição hipotética é contínua, vamos considerar duas outras estatísticas: 

\[D^+=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i)})|\]


\[D^-=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i-1)})|\]

para calcularmos a estatística de kolmogorov-Smirnov. Essas estatísticas medem as distâncias (vertical) entre os gráficos das duas funções, teórica e empírica, nos pontos $ x_{(i-1)} $ e $ x_{(i)} $. Com isso, podemos utilizar como estatística de teste 

\[D_n=\max(D^+,D^-)\]

Se $ D_n $ é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com $ (1-\alpha)100\% $ de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.

Resumo das estatísticas de teste.

x(ordenado) $ F_{n}(x)  $ $ F(x)=\mathbb{P}\left(z_{(i)}\leq\frac{\displaystyle x_{(i)}- \overline{x}}{\displaystyle s} \right) $ $ \mid F(x_{i)})-F_{n}(x_{(i)})\mid $ $ \mid F(x_{(i)})-F_{n}(x_{(i-1)})\mid $

$ x_{(1)}  $

$ x_{(2)}  $

$ \vdots $

$ \frac{1}{n} $

$ \frac{2}{n} $

$ \vdots $

$ F(x)=\mathbb{P}\left(z_{(1)} \leq\frac{\displaystyle x_{(1)}-\overline{x}}{\displaystyle s}\right) $

$ F(x)=\mathbb{P}\left(z_{(2)} \leq\frac{\displaystyle x_{(2)}-\overline{x}}{\displaystyle s}\right) $

$ \vdots $

$ \mid F(x_{(1)})-F_{n}(x_{(1)})\mid $

$ \mid F(x_{(2)})-F_{n}(x_{(2)})\mid $

$ \vdots $

$ \mid F(x_{(1)})-0) \mid $

$ \mid F(x_{(2)})-F_{n}(x_{(1)})\mid $

$ \vdots $

$ \vdots $

$ x_{(n-1)} $

$ x_{(n)} $

$ \frac{n-1}{n} $

$ 1 $

$ F(x)=\mathbb{P} \left(z_{(n)} \leq \frac{\displaystyle x_{(n-1)}-\overline{x}}{\displaystyle s}\right)  $

$ F(x)=\mathbb{P} \left(z_{(n - 1)}\leq\frac{\displaystyle x_{(n)}-\overline{x}}{\displaystyle s}\right) $

$ \mid F(x_{(n-1)})-F_{n}x_{(n-1)})\mid $

$  \mid F(x_{(n)})-F_{n}(x_{(n)})\mid $

$ \mid F(x_{(n-1)})-F_{n}(x_{(n-2)})\mid  $

$ \mid F(x_{(n)})-F_{n}(x_{(n-1)})\mid $

Tabela 6.2.1: Estatísticas de teste.

OBS: O valor de $ \mathbb{P}\left(Z_{(i)}\leq\frac{x_{(i)}-\bar{x}}{s}\right) $ é encontrado na tabela da distribuição normal padrão.

A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov $ (D_n) $ é dada a seguir.

  Nível de Significância $ \alpha $
n 0,2 0,1 0,05 0,01
     
5 0,45 0,51 0,56 0,67
10 0,32 0,37 0,41 0,49
15 0,27 0,30 0,34 0,40
20 0,23 0,26 0,29 0,36
25 0,21 0,24 0,27 0,32
30 0,19 0,22 0,24 0,29
35 0,18 0,20 0,23 0,27
40 0,17 0,19 0,21 0,25
45 0,16 0,18 0,20 0,24
50 0,15 0,17 0,19 0,23
Valores maiores $ \frac{1,07}{\sqrt{n}} $ $ \frac{1,22}{\sqrt{n}} $ $ \frac{1,36}{\sqrt{n}} $ $ \frac{1,63}{\sqrt{n}} $

Exemplo 6.2.1:

Avaliar a normalidade dos dados referente a medição de 10 peças.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

1,90642
2,10288
1,52229
2,61826
1,42738
2,22488
1,69742
3,15435
1,98492
1,99568

Solução:

Após ordenarmos os dados, obtemos o valor de $ F_n(x_{(i)}) $ fazendo a razão entre a posição $ i $ e o valor total de dados, $ n $. O valor de $ F(x_{(i)}) $ é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação 

\[Z_{(i)}=\frac{x_{(i)}-\overline{x}}{s}\]

onde $ \overline{x} $ é a média aritmética e $ s $ é o desvio padrão dos dados.

Dados $ F_n(x) $ empírica $ F(x) $ teórica $ |F(x_{(i)})-F_n(x_{(i)})| $ $ |F(x_{(i)})-F_n(x_{(i-1)})| $
1,42738 0,1 0,1086547 0,0086547 0,1086547
1,52229 0,2 0,1469448 0,0530552 0,0469448
1,69742 0,3 0,2388688 0,0611312 0,0388688
1,90642 0,4 0,3803466 0,0196534 0,0803466
1,98492 0,5 0,4394702 0,0605298 0,0394702
1,99568 0,6 0,4477126 0,1522874 0,0522874
2,10288 0,7 0,5304822 0,1695178 0,0695178
2,22488 0,8 0,6229025 0,1770975 0,0770975
2,61826 0,9 0,8590611 0,0409389 0,0590611
3,15435 1,0 0,9828237 0,0171763 0,0828237
Máximo  0,1770975 0,1086547

Com isso, 

\[D_n=\max(0,1770975;0,1086547)=0,1770975.\]

Considerando $ \alpha = 0,05 $ e $ n = 10 $, encontramos pela tabela  de valores críticos  o valor $ 0,41 $. Como $ D_n = 0,1770975 \ \textless \ 0,41 $, não temos evidências para rejeitar a hipótese de normalidade dos dados.

Veja a seguir os resultados obtidos pelo software Action.

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

 

Inferência

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]