Script com Pig Latin no Hadoop

Hadoop é um ecossistema rico e de rápida evolução com um conjunto crescente de novas aplicações. Ao invés de tentar manter-se com todos os requisitos para novas capacidades, Pig é projetado para ser extensível via funções definidas pelo usuário, também conhecido como UDFs.

UDFs podem ser escritos em uma série de linguagens de programação, incluindo Java, Python e javascript. Os desenvolvedores também estão postando e partilha de uma crescente coleção de UDFs online. (Procure Piggy e DataFu, para citar apenas dois exemplos de tais coleções on-line.) Alguns dos Pig UDFs que fazem parte desses repositórios são funções de carga / armazenamento (XML, por exemplo), as funções de data e hora, texto, matemática, e Status de funções.

Pig, também pode ser incorporado em línguas hospedeiras, tais como Java, Python e javascript, o que lhe permite integrar Porco com suas aplicações existentes. Ele também ajuda a superar as limitações na linguagem Pig. Uma das limitações mais citados é que porco não suporta demonstrações de fluxo de controle: if / else, while loop, loop for, e condição.

Pig suporta nativamente fluxo de dados, mas precisa ser incorporado dentro de outro idioma para fornecer fluxo de controle. Há vantagens e desvantagens, no entanto de incorporação de porco em uma linguagem de controle de fluxo. Por exemplo, se uma declaração Pig é incorporado em um loop, cada vez que o itera loop e executa a instrução Pig, isso faz com que um trabalho de MapReduce separada para executar.

menu