O fluxo do aplicativo MapReduce no Hadoop
Na sua essência, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída entre nós escravos de um cluster do Hadoop. O conceito chave aqui é dividir e conquistar. Especificamente, você quer quebrar um grande conjunto de dados em vários pedaços menores e processá-los em paralelo com o mesmo algoritmo.
Com o Hadoop Distributed File System (HDFS), os arquivos já estão divididos em pedaços de tamanho. MapReduce é o que você usa para processar todas as peças.
aplicativos MapReduce ter várias fases, conforme o estipulado nesta lista:
Determinar os conjuntos de dados exactos para processar a partir dos blocos de dados. Trata-se de calcular onde os registros a serem processados estão localizados dentro dos blocos de dados.
Execute o algoritmo especificado contra cada registro no conjunto de dados até que todos os registros são processados.
A instância individual do aplicativo em execução contra um bloco de dados em um conjunto de dados é conhecido como um tarefa mapeador. (Esta é a parte mapeamento do MapReduce.)
Localmente realizar uma redução provisória da saída de cada mapeador.
(As saídas são provisoriamente combinados, por outras palavras.) Esta fase é opcional dado que, nalguns casos comuns, não é desejável.
Com base em requisitos de particionamento, grupo das partições aplicáveis de dados de conjuntos de resultados de cada Mapper.
Resumem-se os conjuntos de resultados a partir dos mapeadores em um único conjunto de resultados - a parte do MapReduce Reduzir.
Uma instância individual do aplicativo em execução contra dados de saída do mapeador é conhecido como um tarefa redutor. (Por mais estranho que possa parecer, uma vez que # 147 Reduzir # 148- é parte do nome do MapReduce, esta fase pode ser aplicações opcional- sem um redutor são conhecidos como empregos só de mapa, que pode ser útil quando não há necessidade de combinar os conjuntos de resultados das tarefas do mapa.)
Sobre o autor
Gerenciamento de Big Data com Hadoop: HDFS e MapReduce Hadoop, uma estrutura de software de código aberto, usa HDFS (Hadoop Distributed File System) e MapReduce para analisar os dados grandes em clusters de commodities hardware, ou seja, em um ambiente de computação distribuída.O Hadoop Distributed…
Executando aplicativos Antes Hadoop 2 Porque muitas implantações Hadoop existentes ainda ainda não estão usando mais um recurso Negociador (FIO), dê uma rápida olhada em como Hadoop conseguiu seu processamento de dados antes dos dias de Hadoop 2. Concentre-se no papel que…
Correndo modelos estatísticos no MapReduce do Hadoop Convertendo modelos estatísticos para executar em paralelo é uma tarefa desafiadora. No paradigma tradicional para a programação paralela, o acesso à memória é regulado através do uso de tópicos - sub-processos criados pelo sistema…
O Apache Hadoop Ecossistema Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não…
A importância de MapReduce no Hadoop Para a maioria da história do Hadoop, MapReduce tem sido o único jogo na cidade quando se trata de processamento de dados. A disponibilidade de MapReduce tem sido a razão para o sucesso do Hadoop e, ao mesmo tempo, um fator importante em limitar…
A Fase Mapa de Fluxo de Aplicativos MapReduce do Hadoop Uma aplicação MapReduce processa os dados em separações de entrada em um registro por registro base e que cada ficha é entendida por ser um MapReduce valor chave par. Após as divisões de entrada foram calculados, as tarefas mapeador pode…
A Origem e Design do Hadoop Então, o que exatamente é essa coisa com o nome engraçado - Hadoop? Na sua essência, o Hadoop é uma estrutura para o armazenamento de dados em grandes aglomerados de mercadoria hardware - hardware de computador todos os dias que é acessível e…
A arquitetura Pig in Hadoop # 147 Simples # 148- muitas vezes significa # 147 elegante # 148- quando se trata de esses desenhos de arquitectura para que a nova mansão do Vale do Silício que tenha planeado para quando o dinheiro começa a rolar após a implementação Hadoop.…
A Reduzir Fase do fluxo de aplicativo MapReduce do Hadoop A Reduzir processos em fase as teclas e suas listas individuais de valores, de modo que o que normalmente é devolvido à aplicação cliente é um conjunto de pares de chave / valor. Aqui está o golpe por golpe até agora: Um grande conjunto de…
A fase aleatória de fluxo de aplicativo MapReduce do Hadoop Após a fase de Mapa e antes do início da fase de Reduzir é um processo de transferência, como conhecido embaralhar e classificar. Aqui, os dados das tarefas mapeador é preparado e mudou-se para os gânglios, onde as tarefas redutor serão…
Como usar o Apache Hadoop para análise preditiva Apache Hadoop é uma plataforma de software livre, open-source para escrever e executar aplicações que processam uma grande quantidade de dados para análise preditiva. Ele permite um processamento paralelo distribuído de grandes conjuntos de…
Porque você deve usar o Hadoop para Big Data? inovadores de motores de busca como Yahoo! e Google foram confrontados com um problema de dados pântano. Eles precisavam encontrar uma maneira de fazer sentido das enormes quantidades de dados que seus motores estavam coletando. Estas empresas…