Testes de Hipóteses para dados Outliers

Computadores e Software / Big Data / Ciência dados

Vários testes estatísticos formais que são projetados para detectar valores atípicos de dados. Três destes assumir a forma de testes de hipóteses. Um teste de hipóteses é um procedimento para determinar se uma proposta pode ser rejeitada com base em dados de amostra. Os testes de hipóteses envolvem sempre comparando uma estatística de teste a partir dos dados para uma distribuição adequada para determinar se uma dada hipótese é suportada pelos dados.

Teste de grubbs
O teste do qui-quadrado
Teste q de dixon

Teste de Grubbs

Com um teste de Grubbs, você assumir que o conjunto de dados que está sendo testado para valores extremos é normalmente distribuída. As hipóteses nula e alternativa são as seguintes:

H₀: Não existem valores aberrantes.

H₁: Existe, pelo menos, um valor aberrante.

A estatística de teste é como se segue:

Onde

G = A estatística de teste para o teste de Grubbs

Yi = Um único elemento no conjunto de dados que está sendo testado

Y = A média da amostra

s = O desvio padrão da amostra

A estatística de teste produz o elemento da amostra que está mais afastada da média da amostra (positivo ou negativo), expresso como desvios padrão. Por exemplo, se a média da amostra é 5, o maior elemento de amostra é 11, e o desvio padrão da amostra é 2, então a estatística de teste seria (11 - 5) / 2 = 6/2 = 3 desvios padrão de distância da média .

O valor crítico é a seguinte:

Onde

n é o tamanho da amostra retirada da população.

t é um valor retirado do t de Student-Distribuição por isso tem uma área de cauda direita igual ao nível de significância e n - 2 graus de liberdade (df).

O ensaio pode ser conduzido para determinar se existe um outlier, se o valor máximo é um outlier, se o valor mínimo é um outlier, e assim por diante.

Por exemplo, o seguinte mostra os resultados da aplicação do teste de Grubbs para o SP 500 retornos 2009-2013. O teste é realizado para encontrar um único outlier. os resultados do teste de Grubbs para um outlier:

Dados: SPReturns

L = 3,8509, L = 0,9404, p = 0,01177

hipótese alternativa: O mais baixo valor -0,0253283545257448 é um outlier

Com um nível de significância igual a 0,05 e um valor p de 0,01177, o p-valor está abaixo do nível de significância. Portanto, a hipótese nula de não discrepantes é rejeitada. Além disso, o ensaio indica que o valor mínimo no conjunto de dados é um outlier.

O teste do qui-quadrado

Você pode testar para valores discrepantes com a distribuição qui-quadrado. As hipóteses nula e alternativa são as seguintes:

H₀: Não existem valores aberrantes.

H₁: Existe, pelo menos, um valor aberrante.

A estatística de teste baseia-se nas diferenças entre os membros do conjunto de dados reais de um e os membros correspondentes de uma distribuição de probabilidade assumida, tais como o normal.

Por exemplo, a seguir mostra os resultados da aplicação do teste do qui-quadrado para a SP 500 retornos 2009-2013:

O teste do qui-quadrado para outlier

Dados: SPReturns

X-quadrado = 14,8292, p = 0,01177

hipótese alternativa: O mais baixo valor -0,0253283545257448 é um outlier

teste Q de Dixon

Com teste Q de Dixon, você assume o conjunto de dados que está sendo testado para valores extremos é normalmente distribuída. As hipóteses nula e alternativa são as seguintes:

H₀: Não existem valores aberrantes.

H₁: Existe, pelo menos, um valor aberrante.

A estatística de teste é como se segue:

lacuna refere-se ao valor absoluto da diferença entre um valor aberrante e o próximo valor mais próximo do conjunto de dados. Alcance refere-se à diferença entre o maior valor no conjunto de dados e o valor mais baixo no conjunto de dados.

Uma das desvantagens para teste Q de Dixon é que você pode aplicá-lo apenas a uma amostra contendo entre 3 e 30 observações.

A seguir mostra os resultados da aplicação do teste Q de Dixon ao SP 500 retornos durante os primeiros 30 dias de negociação de 2009:

teste de Dixon para valores extremos

Dados: SPR

Q = 0,4359, p = 0,03185

hipótese alternativa: O mais baixo valor -0,0116057775514049 é um outlier

Com um nível de significância igual a 0,05 e um valor p de 0,03185, o p-valor está abaixo do nível de significância. Portanto, a hipótese nula de não discrepantes é rejeitada. Além disso, o ensaio indica que o valor mínimo no conjunto de dados é um outlier.

Testes de Hipóteses para dados Outliers

Teste de Grubbs

O teste do qui-quadrado

teste Q de Dixon

Semelhante

menu