Stem-and-Folha Lotes: técnica gráfica de dados estatísticos

UMA enredo tronco e folhas é um dispositivo gráfico em que a distribuição de um conjunto de dados é organizado pelo valor numérico das observações do conjunto de dados. O diagrama consiste de uma "haste", mostrando as diferentes categorias dos dados, e uma "folha", que mostra os valores das observações individuais no conjunto de dados.

Por exemplo, o seguinte é um diagrama de caule e folhas para os preços diários de ações da Microsoft a partir de 01 de janeiro de 2013 a 31 de Dezembro de 2013. Os preços variam de $ 25,16 a $ 38,14:

image0.jpg

Na trama caule e folhas, cada linha representa um único categoria- para este conjunto de dados, cada categoria é um valor em dólar. Por exemplo, a categoria 32 consiste de todos os preços entre US $ 32,00 e US $ 32,99. Cada preço para ações da Microsoft é cotado em dólares e centavos. O lado esquerdo da barra mostra os dólares (hastes) - o lado direito da barra mostra os centavos (as folhas), após o arredondamento para uma aproximação de 10 centavos. Por exemplo, um preço de US $ 32,23 é arredondado para US $ 32,20, e este aparece como um 2 à direita; lado da barra para a categoria 32. Um preço de US $ 33,48 é arredondado para $ 33.50- este aparece como um 5 à direita; lado da barra para a categoria 33.

Usando esta técnica, é fácil ver quantos preços caem em cada categoria. Por exemplo, houve 14 dias de negociação no conjunto de dados em que o preço das ações da Microsoft era entre US $ 25,00 e US $ 25,99. Havia três dias de negociação em que o preço das ações da Microsoft era entre US $ 29,00 e US $ 29,99. Um preço entre US $ 33,00 e US $ 33,99 ocorreram com mais frequência, e um preço entre US $ 38,00 e US $ 38,99 foi o mais pouco frequente durante o ano.

Uma das vantagens de um diagrama de caule e folhas é que é fácil identificar o modo de um conjunto de dados. (Lembre-se que o modo é o valor que ocorre mais freqüentemente em um conjunto de dados.) Se você olhar apenas para os intervalos de dólar, então é fácil de detectar quais intervalo contém o maior número de observações - aquele com maior folha. Neste caso, o preço na gama 33 ($ 33.00- $ 33,99) seria considerado o modo porque contém a maior parte das observações.

Outra vantagem deste diagrama é que discrepantes são fáceis de detectar. Um outlier é uma observação em um conjunto de dados que é significativamente maior ou menor do que as outras observações no conjunto de dados. Um outlier seria indicado por um grande fosso entre o primeiro ou o último haste ea uma ao lado mais próximo. (Capítulo 10 fala mais sobre valores atípicos.)

Uma desvantagem diagramas para conter e folhas é que eles tornam-se difíceis de interpretar para grandes conjuntos de dados porque o tamanho da folha torna-se difícil.

menu