2.2 - Medidas de dispersão

Você está aqui

Considere o exemplo de duas linha de produção de uma peça. A medida média do comprimento da peça é de 75cm e ambas as linhas estão produzindo peças com médias próximas desse valor. Podemos considerar que as peças produzidas por ambas as linhas são adequadas?

Amplitude

A amplitude é definida como sendo a diferença entre o maior e o menor valor do conjunto de dados. Denotaremos a amplitude por R. Portanto, consideremos o conjunto de dados ordenado

$$X_{(1)}\leq X_{(2)}\leq X_{(3)}\leq \cdots \leq X_{(n-1)}\leq X_{(n)}$$

A amplitude R dos dados é dada por:

$$R = X_{(n)} - X_{(1)}$$

Exemplo 2.2.1:

 

Considere o Exemplo 2.1.3. Qual a amplitude deste conjunto de dados?

clique aqui para efetuar o download dos dados utilizados nesse exemplo

Como o valor máximo do conjunto é 72 e o valor mínimo é 60, temos que a amplitude é:

R = 72 - 60 = 12.

Utilizando o Action, temos o seguinte resultado

Informação Valor
Amplitude 12

 

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

É claro que as peças produzidas pela primeira linha de produção são melhores que a segunda. Isso ocorre porque a dispersão dos elementos em torno da média é menor, ou seja, os elementos estão mais concentrados em torno da média na primeira linha de produção.

Como queremos avaliar a dispersão dos dados em torno da média, esse valor estará relacionado com a distância dos dados em relação à média. Essa distância será chamada de desvio, $ d_i $.

$$d_i = X_i - \overline{X}$$

No exemplo da imagem acima, temos

$$d_1 + d_2 + d_3 + d_4 = 0$$

O qual nos levaria à conclusão errada de que não existe variação entre os dados. Desta forma, precisamos de alguns medidas estatísticas para poder estudar a dispersão dos dados de forma correta.

Dispersão é sinônimo de variação ou variabilidade. Para medir a dispersão, duas medidas são usadas mais frequentemente: a amplitude e o desvio padrão.Para definirmos desvio padrão é necessário definir variância. A notação mais comumente usada é:

s2 - variância amostral.

σ2 - variância populacional.

s - desvio padrão amostral.

σ - desvio padrão populacional.

 

Variância populacional

A variância de uma população {x1,...,xN} de N elementos é a medida de dispersão definida como a média do quadrado dos desvios dos elementos em relação à média populacional μ. Ou seja, a variância populacional é dada por:

$ \displaystyle\sigma^2=\sum_{i=1}^N\frac{(x_i-\mu)^2}{N} $

 

Variância amostral

A variância de uma amostra {x1,...,xn} de n elementos é definida como a soma ao quadrado dos desvios dos elementos em relação à sua média $ \overline{x} $ dividido por (n-1). Ou seja, a variância amostral é dada por:

$ \displaystyle s^2=\sum_{i=1}^n\frac{(x_i-\overline{x})^2}{n-1} $

Ao utilizarmos a média amostral como estimador de m para calcularmos a variância amostral, perdemos 1 grau de liberdade em relação à variância populacional.

 

Desvio padrão populacional

Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados, pode causar problemas de interpretação. O desvio padrão populacional de um conjunto de dados é igual à raiz quadrada da variância populacional. Desta forma, o desvio padrão populacional é dado por:

$ \displaystyle\sigma=\sqrt{\sigma^2}=\sqrt{\sum_{i=1}^N\frac{(x_i-\mu)^2}{N}} $

 

Desvio padrão amostral

O desvio padrão amostral de um conjunto de dados é igual à raiz quadrada da variância amostral. Desta forma, o desvio padrão amostral é dado por:

$ \displaystyle s=\sqrt{s^2}=\sqrt{\sum_{i=1}^n\frac{(x_i-\overline{x})^2}{n-1}} $

O desvio padrão indica em média qual sera o "erro" (desvio) cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados (no caso, a média).

Exemplo 2.2.2:

Considere novamente os dados do Exemplo 2.1.3. Calcule o desvio padrão dos dados.

clique aqui para efetuar o download dos dados utilizados nesse exemplo

 

Para calcularmos o desvio padrão devemos primeiramente calcular a média $ \overline{x} $, isto é:

$ \displaystyle\overline{x}=\frac{65+72+70+72+60+67+69+68}{8}=67,875 $

Agora vamos subtrair $ \overline{x} $ de cada valor, elevar os resultados ao quadrado e somá-los. Então dividimos o total dos quadrados pelo número de valores menos 1, ou seja, por (n-1) e extraímos a raiz quadrada:

$ (x-\overline{x}) $ $ (x-\overline{x})^2 $
65-67,875 = -2,875 (-2,875)2 = 8,265625
72-67,875 = 4,125 (4,125)2 = 17,015625
70-67,875 = 2,125 (2,125)2 = 4,515625
72-67,875 = 4,125

(4,125)2 = 17,015625

60-67,875 = -7,875 (-7,875)2 = 62,015625
67-67,875 = -0,875 (-0,875)2 = 0,765625
69-67,875 = 1,125 (1,125)2 = 1,265625
68-67,875 = 0,125 (0,125)2 = 0,015625
  Total = 110,875

 

$ \displaystyle\frac{110,875}{7}=15,83929\Rightarrow s=\sqrt{15,83929}\Rightarrow s=3,97986 $

Portanto, o desvio padrão é 3,97986.

Utilizando o Action, temos o seguinte resultado

Informação Valor
Desvio-padrão 3,97986

 

Exemplo 2.2.3:

Consideremos o Exemplo 2.1.5, em que foram contabilizados o número de pessoas atendidas pela ortopedia durante os 30 dias de um mês. Os valores observados estão apresentados na tabela a seguir.

Número de pessoas atendidas pela ortopedia
119 118 125 115 107
128 133 133 121 101
118 143 126 117 141
109 135 115 115 119
131 116 115 124 134
140 129 129 115 119

 

Vimos que $ \overline{X} = 123 $

Calculando a variância, temos:

$$S^2 = \dfrac{\sum_{i=1}^n \left(X_i - \overline{X}\righ)^2}{n-1} = \dfrac{\sum_{i=1}^n\left(X_i - 123)^2}{30-1} = \dfrac{(119-123)^2 + (118-123)^2 + \cdots + (119-123)^2}{29} = 106,7586$$

O desvio padrão é dado por

$$S = \sqrt{S^2} = \sqrt{106,7586} = 10,3324$$

Observamos que o desvio-padrão representa pouco menos de 10% do valor da média.

O calculo da amplitude é dado por


$$R = X_{(30)} - X_{(1)} = 143 - 101 = 42$$

Portanto, o tamanho do intervalo em que os dados estão inseridos é de 42.

Coeficiente de variação

O desvio padrão é bastante afetado pela magnitude dos dados, ou seja, ele não é uma medida resistente. Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação, que é definido como a razão entre o desvio padrão, $ S $, e a média amostral.

Usualmente expresso em porcentagem, o coeficiente de variação é dado pela expressão:


$$CV= \dfrac{S}{\overline{X}}100\%$$

Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]