Testes gráfica de dados Outliers

Identificar valores discrepantes de dados não é uma questão cut-and-dried. Não pode haver discordância sobre o que faz e não se qualifica como um outlier. A definição de um outlier depende da distribuição de probabilidade assumida de uma população. Por exemplo, se a população realmente é normalmente distribuída, o gráfico de um conjunto de dados deve ter o mesmo formato da assinatura de sino - se isso não acontecer, que pode ser um sinal de que existem valores extremos nos dados.

Você pode usar três técnicas gráficas para identificar valores atípicos:

  • histogramas

  • Os diagramas de caixa

  • QQ-plots

histogramas

UMA histograma é um gráfico utilizado para representar visualmente uma distribuição de probabilidade com uma série de barras verticais. O eixo horizontal mostra valores ou intervalos de valores para a variável a ser estudada, eo eixo vertical mostra as frequências correspondentes desses valores.

Como exemplo, a Standard and Poor índice 500 (SP 500) é um índice de mercado de ações, que representa os preços das 500 maiores estoques nos EUA, ponderados pelo seu respectivo valor de mercado. Uma das ações capitalização de mercado é igual ao preço por vezes compartilham o número de ações em circulação.

A figura mostra um histograma dos retornos diários para o Standard and Poor índice do mercado de 500 ações durante os anos de 2009-2013.

Um histograma dos retornos diários para o S & P 500 2009-2013.
Um histograma dos retornos diários para o SP 500 de 2009-2013.

De acordo com este histograma, a maioria dos retornos foram próximas de zero durante este período. Retorno acima de 0,01 (1 por cento) ou abaixo -0.01 (-1 por cento) ocorreram com pouca frequência. No entanto, para os retornos que ocorreram fora da pequena faixa de cerca de 0, a ocorrência de retornos negativos superaram a ocorrência de retornos positivos, como visto pelo comprimento extremo da cauda esquerda.

A forma do histograma mostra que a distribuição de volta para o padrão e pobre de 500 durante este período é provável que seja normal. Um problema é que a distribuição normal é simétrica em relação à sua média, ao passo que o histograma mostra que a distribuição dos retornos é enviesada negativamente (Isto é, há um desequilíbrio entre retornos negativos e positivos, com mais negativo do que retornos positivos).

Os diagramas de caixa

UMA gráfico de caixa mostra a distribuição de um conjunto de dados dentro de uma caixa. A caixa tem por base quartis, que são como percentis exceto que há apenas quatro deles. O gráfico de caixa está estruturado da seguinte forma:

  • A parte superior da caixa representa o terceiro quartil (Ou quartil superior) (Q3) Dos dados. Isto é equivalente ao percentil 75.

  • A parte inferior da caixa representa o primeiro quartil (Ou quartil inferior) (Q1) Dos dados. Isto é equivalente ao percentil 25.

  • O meio da caixa (mostrado com uma linha a) representa o segundo quartil (Q2) Dos dados (também conhecidos como o mediana).

O primeiro quartil de um conjunto de dados é um valor que é maior do que 25 por cento dos elementos do conjunto de dados e menos do que os 75 por cento restantes. O segundo quartil (isto é, a mediana) é um valor que é maior do que 50 por cento dos elementos e menos do que os 50 por cento restantes. O terceiro quartil é um valor que é maior do que 75 por cento dos elementos e menos do que os 25 por cento restantes.

o intervalo interquartil (IQR) é definida como a diferença entre os primeiros e terceiros quartis:

IQR = Q3 - Q1

o IQR é usado como uma medida de dispersão, ou como espalhar-se os dados estão sobre o centro. Ele também pode ser usado para identificar os valores aberrantes.

Para um gráfico de caixa, existem linhas acima e abaixo da caixa. A linha superior representa o valor máximo em um conjunto de dados, excluindo valores extremos. A linha inferior representa o valor mínimo em um conjunto de dados, novamente excluindo valores extremos. Os pontos individuais mostrados acima e abaixo dessas linhas são os outliers no conjunto de dados.

Quando você estiver usando um gráfico de caixa, um outlier é definido da seguinte forma:

  • Se um ponto de dados é a seguir Q1 - 1,5 (IQR), considera-se ser um outlier.

  • Se um ponto de dados acima é Q3 + 1,5 (IQR), considera-se ser um outlier.

A figura a seguir mostra um gráfico de caixa dos retornos diários para o índice do mercado de ações SP 500 durante os anos de 2009-2013.

Um gráfico de caixa dos retornos diários para o S & P 500 a partir de 2009-2013.
Um gráfico de caixa dos retornos diários para o SP 500 de 2009-2013.

O gráfico de caixa mostra que existe um outlier que é significativamente maior do que o resto dos retornos no conjunto de dados. Há também quatro valores extremos, que são significativamente menores do que o resto dos retornos no conjunto de dados. A existência destes valores extremos mostra que o conjunto de dados não podem ser distribuídos normalmente.

QQ-plots

Você pode plotar os dados da amostra com um QQ-plot (Abreviação de enredo quantil-quantil). Este ponto compara os quantis dos dados de amostra com os quantis de uma distribuição de probabilidades especificado, como o normal.

quantis são usados ​​para dividir um conjunto de dados em grupos de tamanhos iguais com base no valor de uma variável numérica particular. Existem vários tipos de quantis, incluindo o seguinte:

  • percentis dividir um conjunto de dados em 100 grupos iguais, cada um correspondente a uma percentagem do total. Por exemplo, se um grupo de 1.000 alunos leva um exame padronizado, e 200 deles recebem uma pontuação abaixo de 300, em seguida, 300 seria o percentil 20 deste conjunto de dados. Isto indica que 20 por cento dos estudantes pontuaram abaixo de 300, enquanto que os 80 por cento restantes marcou superior a 300.

  • decis dividir um conjunto de dados em dez grupos iguais, cada um representando 10 por cento do total. Por exemplo, o quarto decil corresponde ao percentil 40.

  • quartis dividir um conjunto de dados em quatro grupos iguais, cada um representando 25 por cento do total. Por exemplo, o terceiro quartil corresponde ao percentil 75.

A figura a seguir mostra um QQ-plot dos retornos diários para o SP 500 ações índice de mercado durante 2009-2013, em comparação com a distribuição normal:

Um QQ-plot dos retornos diários para o S & P 500 2009-2013.
Um QQ-plot dos retornos diários para o SP 500 de 2009-2013.

A linha sólida no gráfico representa os quantis da distribuição normal. 0 representa o significado, portanto, metade dos valores são inferiores a 0, e a outra metade está acima dele. Cerca de 95 por cento dos valores estão abaixo dos 2 (2 representa dois desvios padrão acima da média), ao passo que 5 por cento dos valores estão abaixo de -2 (-2 representa dois desvios padrão abaixo da média). Se os SP retornos foram distribuídos normalmente, seus quantiles deve recair sobre a linha.

Os pontos no gráfico são as observações reais no conjunto de dados SP 500. Para os quantis normais que são maiores do que 2 (isto é, dois desvios padrão acima da média), o SP 500 retornos estão acima da linha, o que indica que a cauda direita é também "gordura" para ser consistente com a distribuição normal. Para quantis normais que estão abaixo de -1 (isto é, um desvio padrão abaixo do valor médio), o SP 500 retornos estão abaixo da linha, o que indica que a cauda esquerda também é muito gorda para ser consistente com a distribuição normal.

Em geral, a distribuição de volta para a SP 500 parece ser uma distribuição de cauda de gordura, o que significa que os resultados extremos são muito mais propensos do que seria o caso com a distribuição normal.

menu