Modos locais e distribuídas de executar scripts Pig em Hadoop
Antes que você possa executar o seu primeiro roteiro Porco no Hadoop, você precisa ter uma alça sobre como programas de porco pode ser empacotado com o servidor Pig.
Pig tem dois modos de execução de scripts:
Modo local: Todos os scripts são executados em uma única máquina sem a necessidade de Hadoop MapReduce e HDFS. Isto pode ser útil para desenvolver e testar a lógica Pig. Se você estiver usando um pequeno conjunto de dados para o desenvolvedor ou testar seu código, em seguida, o modo local poderia ser mais rápido do que ir através da infra-estrutura MapReduce.
modo local não requer Hadoop. Quando executado no modo local, o programa Pig é executado no contexto de uma Máquina Virtual Java local, e acesso a dados é através do sistema de uma única máquina de arquivos local. O modo local é na verdade uma simulação local do MapReduce na classe LocalJobRunner do Hadoop.
modo de MapReduce (também conhecido como modo Hadoop): Pig é executado no cluster Hadoop. Neste caso, o Script Pig é convertido em uma série de trabalhos de MapReduce, que depois são executados no cluster do Hadoop.

Se você tem um terabyte de dados que você deseja executar operações em e você quer desenvolver interativamente um programa, você pode em breve encontrar coisas abrandar consideravelmente, e você pode começar a crescer o seu armazenamento. modo local permite que você trabalhe com um subconjunto de dados de uma forma mais interativa para que você possa descobrir a lógica (e trabalhar os bugs) do seu programa de porco.
Depois de ter coisas configurar como deseja que eles e suas operações estão funcionando sem problemas, você pode, em seguida, executar o script contra os dados completos definidos usando o modo MapReduce.
Sobre o autor
Gerenciamento de Big Data com Hadoop: HDFS e MapReduce Hadoop, uma estrutura de software de código aberto, usa HDFS (Hadoop Distributed File System) e MapReduce para analisar os dados grandes em clusters de commodities hardware, ou seja, em um ambiente de computação distribuída.O Hadoop Distributed…
Pig Latin em programas de porco do Hadoop Pig Latin é o idioma para programas de porco. Pig traduz o script Pig Latin em trabalhos MapReduce que ele pode ser executado dentro do cluster Hadoop. Quando chega com Pig Latin, a equipe de desenvolvimento seguido três princípios fundamentais…
Interfaces Script Pig in Hadoop A linguagem de programação Pig é projetado para lidar com qualquer tipo de dados jogou o seu caminho - estruturado, semi-estruturado, dados não estruturados, o nome dele. programas de suínos podem ser embalados em três maneiras…
Executando aplicativos Antes Hadoop 2 Porque muitas implantações Hadoop existentes ainda ainda não estão usando mais um recurso Negociador (FIO), dê uma rápida olhada em como Hadoop conseguiu seu processamento de dados antes dos dias de Hadoop 2. Concentre-se no papel que…
Correndo modelos estatísticos no MapReduce do Hadoop Convertendo modelos estatísticos para executar em paralelo é uma tarefa desafiadora. No paradigma tradicional para a programação paralela, o acesso à memória é regulado através do uso de tópicos - sub-processos criados pelo sistema…
O Apache Hadoop Ecossistema Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não…
A importância de MapReduce no Hadoop Para a maioria da história do Hadoop, MapReduce tem sido o único jogo na cidade quando se trata de processamento de dados. A disponibilidade de MapReduce tem sido a razão para o sucesso do Hadoop e, ao mesmo tempo, um fator importante em limitar…
O fluxo do aplicativo MapReduce no Hadoop Na sua essência, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída entre nós escravos de um cluster do Hadoop. O conceito chave aqui é dividir e conquistar.…
A Origem e Design do Hadoop Então, o que exatamente é essa coisa com o nome engraçado - Hadoop? Na sua essência, o Hadoop é uma estrutura para o armazenamento de dados em grandes aglomerados de mercadoria hardware - hardware de computador todos os dias que é acessível e…
A arquitetura Pig in Hadoop # 147 Simples # 148- muitas vezes significa # 147 elegante # 148- quando se trata de esses desenhos de arquitectura para que a nova mansão do Vale do Silício que tenha planeado para quando o dinheiro começa a rolar após a implementação Hadoop.…
A arquitetura fio em Hadoop FIO, para aqueles que estão chegando nesta festa particular, representa mais um recurso negociador, uma ferramenta que permite que outras estruturas de processamento de dados para rodar em Hadoop. A glória de fios é que ele apresenta Hadoop com…
Porque você deve usar o Hadoop para Big Data? inovadores de motores de busca como Yahoo! e Google foram confrontados com um problema de dados pântano. Eles precisavam encontrar uma maneira de fazer sentido das enormes quantidades de dados que seus motores estavam coletando. Estas empresas…