Resumir dados agrupado com bares, caixas e Bigodes

Às vezes você quer mostrar como uma variável varia de um grupo de indivíduos para outro. Por exemplo, os níveis sanguíneos de algumas enzimas variam entre as diferentes raças. Dois tipos de gráficos são comumente usados ​​para essa finalidade: gráficos de barras e gráficos de box-and-suiças.

Gráficos de barra

Uma maneira simples de mostrar e comparar as médias de vários grupos de dados é com um gráfico de barras, como a mostrada, onde a altura da barra para cada corrida é igual à média (ou mediana ou média geométrica) valor do nível de enzima para que corrida.

image0.jpg

E o gráfico de barras torna-se ainda mais informativo se você indicar a disseminação de valores para cada corrida por linhas colocando representam um desvio padrão acima e abaixo dos topos das barras. Estas linhas são sempre referidos como barras de erro (Uma escolha infeliz de palavras que podem causar confusão quando barras de erro são adicionados a um gráfico de barras).

Mas, mesmo com barras de erro, um gráfico de barras ainda não dá uma imagem muito boa da distribuição de enzima níveis dentro de cada grupo. São os valores distorcidos? Existem valores discrepantes? A média e SD pode não ser muito informativa, se os valores são distribuídos log-normalmente ou de outra maneira incomum.

Idealmente, você quer mostrar um histograma para cada grupo de indivíduos, mas isso pode levar até maneira muito espaço. O que você deveria fazer? Continue lendo para descobrir.

gráficos Box-e-suiças

Felizmente, um outro tipo de gráfico chamado gráfico de caixa-and-bigodes (ou BW, ou apenas Caixa enredo) Mostra - em muito pouco espaço - um monte de informações sobre a distribuição de números em um ou mais grupos de indivíduos. Um enredo simples BW dos mesmos dados de enzimas ilustrado com um gráfico de barras anterior é mostrado abaixo, à esquerda.

image1.jpg

A figura BW para cada grupo geralmente tem as seguintes partes:

  • Uma caixa que mede o intervalo interquartil (IQR), estendendo-se desde o primeiro quartil (25 percentil) para o terceiro quartil (percentil 75) de dados, e, por conseguinte, que engloba a média 50 por cento dos dados

  • Uma linha horizontal de espessura, desenhada na mediana (50 percentil), que, muitas vezes coloca-lo no ou perto do meio da caixa

  • As linhas tracejadas (filamentos) que se estendem para fora para o ponto de dados mais distante que não é mais do que 1,5 vezes o IQR longe da caixa de

  • Os pontos que se encontram fora dos bigodes, considerados valores discrepantes

lotes BW fornecer um resumo útil do distribuição. A mediana que não está localizado perto do meio da caixa indica uma distribuição assimétrica.

Alguns software extrai as diferentes partes de um lote BW de acordo com regras diferentes (a linha horizontal pode estar na média, em vez da caixa de median- podem representar a média # 177- 1 padrão deviation- os bigodes pode estender-se para fora para o mais distante outliers- e assim por diante). Sempre verifique a documentação do software e fornecer a descrição das partes sempre que apresentar um enredo BW.

Alguns software oferece várias melhorias para o enredo básico BW. A figura à direita do gráfico de caixa simples ilustra dois desses enfeites que você pode considerar o uso de:

  • largura variável: As larguras das caixas pode ser dimensionado para indicar o tamanho relativo de cada grupo. Você pode ver que há um número consideravelmente menor asiáticos e "outros" que os brancos ou negros.

  • entalhes: A caixa pode ter ranhuras, que indicam a incerteza na estimativa da mediana. Se dois grupos têm entalhes que não se sobrepõem, eles provavelmente têm significativamente diferentes medianas. Brancos e "outros" têm níveis de enzimas medianos semelhantes, ao passo que os asiáticos têm níveis significativamente mais elevados e os negros têm níveis significativamente mais baixos.

menu