- (16) 3376-2047
- [email protected]
- Portfólio de Serviços
- AT
Grande parte dos problemas que encontramos em estatística são tratados com a hipótese que os dados são retirados de uma população com uma distribuição de probabilidade específica. O formato desta distribuição pode ser um dos objetivos da análise. Por exemplo, suponha que um pequeno número de observações foram retiradas de uma população com distribuição desconhecida e que estamos interessados em testar hipóteses sobre a média desta população. O teste paramétrico tradicional, baseado na distribuição t-student, é obtido sob o hipótese de que a população tem distribuição normal. Nesse sentido, surge a necessidade de certificarmos se essa suposição pode ser assumida. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar nossas análise. Para dar suporte a esta suposição, consideramos, dentre outros, o teste de Kolmogorov - Smirnov.
O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipóteses: \[\left\{\begin{array}{l} H_0: \hbox{Os dados seguem uma distribuição normal} \\ H_1: \hbox{Os dados não seguem uma distribuição normal.}\end{array}\right.\]
Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância.
Considere uma amostra aleatória simples $X_1, X_2 , \cdots , X_n$ de uma população com função de distribuição acumulada contínua $F_X$ desconhecida. A estatística utilizada para o teste é: \[D_n=\sup_x|F(x)-F_n(x)|\]
Esta função corresponde a distância máxima vertical entre os gráficos de $F(x)$ e $F_n(x)$ sobre a amplitude dos possíveis valores de $x$. Em $D_n$ temos que
Neste caso, queremos testar a hipótese $H_0 : F_X = F$ contra a hipótese alternativa $H_1 : F_X \neq F$. Para isto, tomamos $X_{(1)}, X_{(2)}, \cdots , X_{(n)}$ as observações aleatórias ordenadas de forma crescente da população com função de distribuição contínua $F_X$. No caso de análise da normalidade dos dados, assumimos $F$ a função de distribuição da normal.
A função de distribuição acumulada assumida para os dados é definida por $F(x_{(i)}) = \mathbb{P}(X\leq x_{(i)})$ e a função de distribuição acumulada empírica é definida por uma função escada, dada pela fórmula: \[F_n(x)=\frac{1}{n}\sum_{i=1}^n I_{\{(-\infty,x]\}}(x_{(i)})\]
onde $I_A$ é a função indicadora. A função indicadora é definida da seguinte forma: \[I_{A}=\left\{\begin{array}{l} 1; \ \hbox{se} \ x\in A \\ 0; \ \hbox{caso contrário}\end{array}\right.\]
Observe que a função da distribuição empírica $F_n(x)$ corresponde à proporção de valores menores ou iguais a $x$. Tal função também pode ser escrita da seguinte forma \[\begin{equation*}F_{n}(x)=\left\{\begin{array}{l}0,\mbox{se}~x\textless x_{(1)}\\\frac{k}{n},\mbox{se}~x_{(k)}\leq x\textless x_{(k + 1)}\\1,\hbox{se}~x\textgreater~x_{(n)}\end{array}~~(12)\right.\end{equation*}\]
Sob $H_0$, a distribuição assintótica da estatística de kolmogorov-Smirnov é dada por \[\lim_{n \rightarrow \infty}P\left[\sqrt{n} D_n \leq x\right] = 1-2 \sum_{j=1}^{\infty} (-1)^{j-1} exp^{-2j^2x^2}.\]
Esta distribuição assintótica é válida quando temos conhecimento completo sobre a distribuição de $H_0$, entretanto, na prática, $H_0$ especifica uma famíla de distribuições de probabilidade. Neste caso, a distribuição assintótica da estatística de Kolmogorov-Smirnov não conhecida e foi determinada via simulação.
Como a função de distribuição empírica $F_n$ é descontínua e a função de distribuição hipotética é contínua, vamos considerar duas outras estatísticas: \[D^+=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i)})|\]
\[D^-=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i-1)})|\]
para calcularmos a estatística de kolmogorov-Smirnov. Essas estatísticas medem as distâncias (vertical) entre os gráficos das duas funções, teórica e empírica, nos pontos $x_{(i-1)}$ e $x_{(i)}$. Com isso, podemos utilizar como estatística de teste \[D_n=\max(D^+,D^-)\]
Se $D_n$ é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com $(1-\alpha)100\%$ de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.
Resumo das estatísticas de teste.
x(ordenado) | $F_{n}(x) $ | $F(x)=\mathbb{P}\left(z_{(i)}\leq\frac{\displaystyle x_{(i)}- \overline{x}}{\displaystyle s} \right)$ | $\mid F(x_{i)})-F_{n}(x_{(i)})\mid$ | $\mid F(x_{(i)})-F_{n}(x_{(i-1)})\mid$ |
$x_{(1)} $ $x_{(2)} $ $\vdots$ |
$\frac{1}{n}$ $\frac{2}{n}$ $\vdots$ |
$F(x)=\mathbb{P}\left(z_{(1)} \leq\frac{\displaystyle x_{(1)}-\overline{x}}{\displaystyle s}\right)$ $F(x)=\mathbb{P}\left(z_{(2)} \leq\frac{\displaystyle x_{(2)}-\overline{x}}{\displaystyle s}\right)$ $\vdots$ |
$\mid F(x_{(1)})-F_{n}(x_{(1)})\mid$ $\mid F(x_{(2)})-F_{n}(x_{(2)})\mid$ $\vdots$ |
$\mid F(x_{(1)})-0) \mid$ $\mid F(x_{(2)})-F_{n}(x_{(1)})\mid$ $\vdots$ |
$\vdots$ $x_{(n-1)}$ $x_{(n)}$ |
$\frac{n-1}{n}$ $1$ |
$F(x)=\mathbb{P} \left(z_{(n)} \leq \frac{\displaystyle x_{(n-1)}-\overline{x}}{\displaystyle s}\right) $ $F(x)=\mathbb{P} \left(z_{(n - 1)}\leq\frac{\displaystyle x_{(n)}-\overline{x}}{\displaystyle s}\right)$ |
$\mid F(x_{(n-1)})-F_{n}x_{(n-1)})\mid$ $ \mid F(x_{(n)})-F_{n}(x_{(n)})\mid$ |
$\mid F(x_{(n-1)})-F_{n}(x_{(n-2)})\mid $ $\mid F(x_{(n)})-F_{n}(x_{(n-1)})\mid$ |
Tabela 6.2.1: Estatísticas de teste.
OBS: O valor de $\mathbb{P}\left(Z_{(i)}\leq\frac{x_{(i)}-\bar{x}}{s}\right)$ é encontrado na tabela da distribuição normal padrão.
A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov $(D_n)$ é dada a seguir.
Nível de Significância $\alpha$ | ||||
n | 0,2 | 0,1 | 0,05 | 0,01 |
5 | 0,45 | 0,51 | 0,56 | 0,67 |
10 | 0,32 | 0,37 | 0,41 | 0,49 |
15 | 0,27 | 0,30 | 0,34 | 0,40 |
20 | 0,23 | 0,26 | 0,29 | 0,36 |
25 | 0,21 | 0,24 | 0,27 | 0,32 |
30 | 0,19 | 0,22 | 0,24 | 0,29 |
35 | 0,18 | 0,20 | 0,23 | 0,27 |
40 | 0,17 | 0,19 | 0,21 | 0,25 |
45 | 0,16 | 0,18 | 0,20 | 0,24 |
50 | 0,15 | 0,17 | 0,19 | 0,23 |
Valores maiores | $\frac{1,07}{\sqrt{n}}$ | $\frac{1,22}{\sqrt{n}}$ | $\frac{1,36}{\sqrt{n}}$ | $\frac{1,63}{\sqrt{n}}$ |
Avaliar a normalidade dos dados referente a medição de 10 peças.
clique aqui para efetuar o download dos dados utilizados nesse exemplo
1,90642 |
2,10288 |
1,52229 |
2,61826 |
1,42738 |
2,22488 |
1,69742 |
3,15435 |
1,98492 |
1,99568 |
Após ordenarmos os dados, obtemos o valor de $F_n(x_{(i)})$ fazendo a razão entre a posição $i$ e o valor total de dados, $n$. O valor de $F(x_{(i)})$ é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação \[Z_{(i)}=\frac{x_{(i)}-\overline{x}}{s}\]
onde $\overline{x}$ é a média aritmética e $s$ é o desvio padrão dos dados.
Dados | $F_n(x)$ empírica | $F(x)$ teórica | $|F(x_{(i)})-F_n(x_{(i)})|$ | $|F(x_{(i)})-F_n(x_{(i-1)})|$ |
1,42738 | 0,1 | 0,1086547 | 0,0086547 | 0,1086547 |
1,52229 | 0,2 | 0,1469448 | 0,0530552 | 0,0469448 |
1,69742 | 0,3 | 0,2388688 | 0,0611312 | 0,0388688 |
1,90642 | 0,4 | 0,3803466 | 0,0196534 | 0,0803466 |
1,98492 | 0,5 | 0,4394702 | 0,0605298 | 0,0394702 |
1,99568 | 0,6 | 0,4477126 | 0,1522874 | 0,0522874 |
2,10288 | 0,7 | 0,5304822 | 0,1695178 | 0,0695178 |
2,22488 | 0,8 | 0,6229025 | 0,1770975 | 0,0770975 |
2,61826 | 0,9 | 0,8590611 | 0,0409389 | 0,0590611 |
3,15435 | 1,0 | 0,9828237 | 0,0171763 | 0,0828237 |
Máximo | 0,1770975 | 0,1086547 |
Com isso, \[D_n=\max(0,1770975;0,1086547)=0,1770975.\]
Considerando $\alpha = 0,05$ e $n = 10$, encontramos pela tabela de valores críticos o valor $0,41$. Como $D_n = 0,1770975 \ \textless \ 0,41$, não temos evidências para rejeitar a hipótese de normalidade dos dados.
Veja a seguir os resultados obtidos pelo software Action.
![]() |
Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. |
O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.