Como criar subgrupos de Dados em R

o cortar()

função em R cria caixas de igual tamanho (por padrão) em seus dados e, em seguida, classifica cada elemento em seu bin apropriado.

Se isso soa como um bocado, não se preocupe. Alguns exemplos devem fazer este vir a vida.

Como usar o corte para criar um número fixo de subgrupos

Para ilustrar a utilização de cortar(), ter um olhar para o conjunto de dados built-in state.x77, uma matriz com várias colunas e uma linha para cada estado nos Estados Unidos:

> Cabeça (state.x77) População Renda Analfabetismo Vida Exp Murder HS Grad Geada AreaAlabama 3615 36242,1 69,05 15,1 41,3 20 50708Alaska 365 63151,5 69,31 11,3 66,7 152 566432Arizona 2212 45301,8 70,55 7,8 58,1 15 113417Arkansas 2110 33781,9 70,66 10,1 39,9 65 51945California 21198 51141,1 71,71 10,3 62,6 20 156361Colorado 2541 48840,7 72,06 6,8 63,9 166 103766

Você quer trabalhar com a coluna chamada geada. Para extrair esta coluna, tente o seguinte:

> geada lt; - state.x77 [ "Geada"]> cabeça (geada, 5) Alabama Alaska Arizona Arkansas California20152 15 65 20

Você tem agora um novo objeto, geada, um vector chamado numérico. Agora usa cortar() para criar três caixas em seus dados:

> Corte (geada, 3, include.lowest = TRUE) [1] [-0.188,62.6] (125.188] [-0.188,62.6] (62.6,125] [5] [-0.188,62.6] (125.188] (125.188 ] (62.6,125] .... [45] (125.188] (62.6,125] [-0.188,62.6] (62.6,125] [49] (125,188] (125,188] Níveis: [-0.188,62.6] ( 62.6,125] (125188]

O resultado é um factor com três níveis. Os nomes dos níveis de parecer um pouco complicado, mas eles dizem que em notação matemática conjunto quais são os limites de suas caixas são. Por exemplo, o primeiro bin contém os estados que têm geada entre -0.188 e 62,8 dias.

Na realidade, é claro, nenhum dos estados terá geada em dias negativos - R está sendo matematicamente conservadora e adiciona um pouco de estofamento.

Observe o argumento include.lowest = TRUE para cortar(). O valor padrão para este argumento é include.lowest = FALSE, que por vezes pode causar R ignorar o valor mais baixo em seus dados.

Como adicionar etiquetas para cortar

Os nomes de níveis não são muito amigável, por isso, especificar algumas melhores nomes com a etiquetas argumento:

> Corte (geada, 3, include.lowest = true, rótulos = c ( "Low", "Med", "High")) [1] Baixo Alto Baixo Médio Baixo Alto Alto Med Baixo Baixo Baixo .... [45 ] Alto Med Baixo Med Alto HighLevels: Baixa Alto Med

Agora você tem um fator que classifica estados em baixo, médio e alto, dependendo do número de dias de geada que recebem.

Como utilizar a tabela para contar o número de observações

Uma peça interessante de análise é para contar quantos estados estão em cada suporte. Você pode fazer isso com o mesa() função, que simplesmente conta o número de observações em cada nível do seu fator.

> x lt; - corte (geada, 3, include.lowest = true, rótulos = c ( "Low", "Med", "High"))> mesa (x) XLow Med High11 19 20

menu