Como procurar várias palavras em R

Ao trabalhar com texto em R, você pode precisar de encontrar palavras ou padrões dentro do texto. Imagine que você tem uma lista dos estados nos Estados Unidos, e você quer saber quais nomes de estado consistem em duas palavras.

Para encontrar substrings, você pode usar o grep () função, que leva dois argumentos essenciais:

  • padrão: O padrão que você deseja encontrar.

  • x: O vector de caracteres que você deseja pesquisar.

Então, como você encontra os nomes de todos os estados com mais de uma palavra? Isso é fácil quando você percebe que você pode enquadrar a questão por encontrar todos aqueles estados que contêm um espaço:

> State.name [grep ( "", state.name)] [1] "New Hampshire" "New Jersey" [3] "Novo México" "New York" [5] "Carolina do Norte" "North Dakota" [7 ] "Rhode Island" "South Carolina" [9] "Dakota do Sul" "West Virginia"

Os resultados incluem todos os estados que têm nomes de duas palavras, como Nova Jersey, Nova York, Carolina do Norte, Dakota do Sul e West Virginia.

Você pode ver a partir desta lista que não existem nomes de estado que contêm Leste. Você pode confirmar isso fazendo uma outra descoberta:

> State.name [grep ( "East", state.name)] caracteres (0)

Quando o resultado de uma operação de caráter é um vetor vazio (isto é, não há nada nele), R representa como caracteres (0). Similarmente, um vazio, ou de comprimento zero, vetor numérico está representado com inteiro (0) ou numérico (0).

R faz uma distinção entre NULO e um vector vazio. NULO geralmente significa que algo está indefinido. Este é sutilmente diferente de algo que está vazio. Por exemplo, um vector de caracteres que acontece não ter ainda elementos é um vector de caracteres, representado pela caracteres (0).

menu