A arquitetura Pig in Hadoop

Computadores e Software / Big Data / Gestão de dados

# 147 Simples # 148- muitas vezes significa # 147 elegante # 148- quando se trata de esses desenhos de arquitectura para que a nova mansão do Vale do Silício que tenha planeado para quando o dinheiro começa a rolar após a implementação Hadoop. O mesmo princípio aplica-se a arquitetura de software. Pig é composta de dois (conta-os, dois) componentes:

A própria linguagem: Como prova de que os programadores têm um senso de humor, a linguagem de programação para o porco é conhecido como Pig Latin, uma linguagem de alto nível que permite gravar programas de processamento e análise de dados.
O compilador Pig Latin: O compilador Pig Latin converte o código Pig Latin em código executável. O código executável é quer sob a forma de trabalhos de MapReduce ou pode gerar um processo em que uma instância Hadoop virtual é criado para executar o código do porco em um único nó.
A sequência de programas MapReduce permite que os programas de porco para fazer o processamento e análise de dados em paralelo, aproveitando Hadoop MapReduce e HDFS. Executar o trabalho Pig na instância Hadoop virtual é uma estratégia útil para testar seus scripts Pig.

A figura mostra como o porco relaciona-se com o ecossistema Hadoop.

programas de suínos pode ser executado em v1 MapReduce ou MapReduce v2 sem qualquer alteração de código, independentemente de qual modo o cluster está em execução. No entanto, os scripts de porco também pode executar usando a API Tez vez. Apache Tez fornece uma estrutura de execução mais eficiente do que MapReduce. FIO permite que não sejam MapReduce (como Tez) frameworks de aplicativos para rodar em Hadoop. Hive também pode executar contra o quadro Tez.

A arquitetura Pig in Hadoop

Semelhante

menu