Quanto spread é Não nos dados?

Quando se trabalha com estatísticas de dados grandes, você identifica a propagação de um conjunto de dados do centro, com várias medidas diferentes de resumo: variância, desvio padrão, quartis, intervalo interquartílico (II).

Variação é o desvio médio quadrático entre os elementos do conjunto de dados e a média. Para uma amostra de dados, a variação é calculada assim:

image0.jpg

Onde

  • xEu é o valor de um único elemento na amostra.

    image1.jpg
  • é a média da amostra.

  • n é o tamanho da amostra.

O desvio padrão é a raiz quadrada da variância. Para a maioria das aplicações, o desvio padrão é mais conveniente de usar do que a variância como medida da propagação. Isso porque variância é medido em quadrado unidades, enquanto que o desvio padrão é medida nas mesmas unidades como os dados. Por exemplo, a variância de um conjunto de dados consistindo de preços seria medido em dólares quadrado, eo desvio padrão seria medido em dólares. O desvio padrão é a medida mais amplamente utilizado da propagação em um conjunto de dados.

Quartis dividir um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) Divide os dados em o menor de 25 por cento das observações e a maior de 75 por cento (25 por cento das observações são menos que Q1, e 75 por cento são Melhor que Q1). O segundo quartil (Q2) Divide os dados para o menor de 50 por cento das observações e a maior de 50 por cento. O terceiro quartil (Q3) Divide os dados para o menor de 75 por cento das observações e a maior de 25 por cento. O intervalo interquartil (IQR) é igual à diferença entre o terceiro eo primeiro quartil:

image2.jpg

O IQR representa a média 50 por cento dos dados.

Os quartis de um conjunto de dados são melhor ilustrado com um gráfico de caixa. A figura a seguir mostra um gráfico de caixa dos retornos diários para ExxonMobil em 2013.

gráfico de caixa de retornos diários para estoque ExxonMobil em 2013.
gráfico de caixa de retornos diários para estoque ExxonMobil em 2013.

O gráfico de caixa mostra várias estatísticas-chave para os retornos da ExxonMobil:

image4.jpg

O rendimento mínimo é mostrada em um gráfico como um ponto único na parte inferior da parcela (uma caixa de espectáculos de enredo discrepantes como pontos individuais). Q1 como é mostrado na parte inferior da caixa, Q2 é a linha preta sólida no meio da caixa, e Q3 representa a parte superior da caixa. O retorno máximo é mostrado como um único ponto no topo da trama.

menu