Pig Latin em programas de porco do Hadoop

Computadores e Software / Big Data / Gestão de dados

Pig Latin é o idioma para programas de porco. Pig traduz o script Pig Latin em trabalhos MapReduce que ele pode ser executado dentro do cluster Hadoop. Quando chega com Pig Latin, a equipe de desenvolvimento seguido três princípios fundamentais de projeto:

Mantenha-o simples. Pig Latin fornece um método simplificado para interagir com Java MapReduce. É uma abstração, em outras palavras, que simplifica a criação de programas paralelos no cluster Hadoop para fluxos de dados e análise. As tarefas complexas podem requerer uma série de transformações de dados interligados - tais como séries são codificados fluxo de dados sequências.
Escrevendo transformação de dados e flui como scripts Latino de porco em vez de programas Java MapReduce torna esses programas mais fácil de escrever, compreender e manter, porque a) você não tem que escrever o trabalho em Java, b) você não tem que pensar em termos de MapReduce, e c) você não precisa vir para cima com código personalizado para suportar tipos de dados ricos.
Pig Latin fornece uma linguagem mais simples de explorar seu cluster Hadoop, tornando assim mais fácil para mais pessoas para aproveitar o poder do Hadoop e se tornar produtivo mais cedo.
Torná-lo inteligente. Você deve se lembrar que o Pig Latin Compiler faz o trabalho de transformar um programa Pig Latin em uma série de postos de trabalho Java MapReduce. O truque é ter certeza de que o compilador pode otimizar a execução destes trabalhos Java MapReduce automaticamente, permitindo que o usuário se concentrar em semântica em vez de como otimizar e acessar os dados.
Para youSQL tipos lá fora, esta discussão vai soar familiar. SQL é configurado como uma consulta declarativa que você usa para acessar dados estruturados armazenados em um RDBMS. O motor RDBMS primeiro traduz a consulta a um método de acesso de dados e, em seguida, olha para as estatísticas e gera uma série de abordagens de acesso a dados. O otimizador baseado em custo escolhe a abordagem mais eficiente para a execução.
Não limitar o desenvolvimento. Faça Pig extensível para que desenvolvedores possam adicionar funções para resolver seus problemas de negócios específicos.

armazéns de dados RDBMS tradicionais fazem uso do padrão de processamento de dados ETL, onde você edados Xtract de fontes externas, transform-lo para atender às suas necessidades operacionais, e em seguida euoad-lo para o destino final, quer se trate de uma loja operacional de dados, um armazém de dados, ou de outra variante do banco de dados.

No entanto, com grandes dados, você normalmente quer reduzir a quantidade de dados que você se locomover, assim você acaba trazendo o processamento para os dados em si.

O idioma para os fluxos de dados de porco, portanto, leva um passe na abordagem ETL de idade, e vai com ELT em vez disso: EXtract os dados de seus várias fontes, euOAD-lo em HDFS, e em seguida transform-lo como necessário para preparar os dados para análise posterior.

Pig Latin em programas de porco do Hadoop

Semelhante

menu