Hadoop Pig and Pig Latin para Big Data

O poder ea flexibilidade do Hadoop para dados grandes são imediatamente visíveis para os desenvolvedores de software principalmente porque o ecossistema Hadoop foi construído por desenvolvedores, para desenvolvedores. No entanto, nem todo mundo é um desenvolvedor de software. Porco foi projetado para fazer Hadoop mais acessível e utilizável por nondevelopers.

Pig é um ambiente interativo, ou baseada em script, a execução apoiando Pig Latin, uma linguagem utilizada para expressar os fluxos de dados. A linguagem Pig Latin suporta o carregamento e processamento de dados de entrada com uma série de operadores que transformam os dados de entrada e produzir a saída desejada.

O ambiente de execução Pig tem dois modos:

  • Modo local: Todos os scripts são executados em uma única máquina. Hadoop MapReduce e HDFS não são necessários.

  • Hadoop: Também chamado de modo MapReduce, todos os scripts são executados em um determinado cluster Hadoop.

Debaixo das cobertas, Porco cria um conjunto de mapa e reduzir postos de trabalho. O usuário é absolvido das preocupações de escrever código, compilação, embalagem, apresentação e recuperar os resultados. Em muitos aspectos, Pig é análogo ao SQL no mundo RDBMS.

A linguagem Pig Latin fornece uma forma abstrata para obter respostas de big data, concentrando-se nos dados e não a estrutura de um programa de software personalizado. Porco faz prototipagem muito simples. Por exemplo, você pode executar um script Pig em uma pequena representação de seu ambiente de dados grande para garantir que você está obtendo os resultados desejados antes de se comprometer a processar todos os dados.

programas de suínos pode ser executado de três maneiras diferentes, todos eles compatíveis com o modo local e Hadoop:

  • Script: Basta um arquivo contendo comandos Latino de porco, identificado pela .porco sufixo (por exemplo, file.pig ou myscript.pig). Os comandos são interpretados por Pig e executados em ordem seqüencial.

  • Grunhido: Grunt é um interpretador de comandos. Você pode digitar Pig Latin na linha de comando grunhido e Grunt irá executar o comando em seu nome. Isto é muito útil para prototipagem e Nº 147-E se # 148- cenários.

  • incorporado: programas de suínos pode ser executado como parte de um programa Java.

Pig Latin tem uma sintaxe muito rico. Ele suporta os operadores para as seguintes operações:

  • Carregando e armazenamento de dados

  • Transmissão de dados

  • Filtrando dados

  • Agrupamento e juntando dados

  • classificação de dados

  • Combinando e os dados de divisão

Pig Latin também suporta uma grande variedade de tipos, expressões, funções, operadores de diagnóstico, macros e comandos do sistema de arquivos.

Para obter mais exemplos, visite o site Pig dentro Apache.com.

menu