O fluxo do aplicativo MapReduce no Hadoop

Computadores e Software / Big Data / Gestão de dados

Na sua essência, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída entre nós escravos de um cluster do Hadoop. O conceito chave aqui é dividir e conquistar. Especificamente, você quer quebrar um grande conjunto de dados em vários pedaços menores e processá-los em paralelo com o mesmo algoritmo.

Com o Hadoop Distributed File System (HDFS), os arquivos já estão divididos em pedaços de tamanho. MapReduce é o que você usa para processar todas as peças.

aplicativos MapReduce ter várias fases, conforme o estipulado nesta lista:

Determinar os conjuntos de dados exactos para processar a partir dos blocos de dados. Trata-se de calcular onde os registros a serem processados estão localizados dentro dos blocos de dados.
Execute o algoritmo especificado contra cada registro no conjunto de dados até que todos os registros são processados.
A instância individual do aplicativo em execução contra um bloco de dados em um conjunto de dados é conhecido como um tarefa mapeador. (Esta é a parte mapeamento do MapReduce.)
Localmente realizar uma redução provisória da saída de cada mapeador.
(As saídas são provisoriamente combinados, por outras palavras.) Esta fase é opcional dado que, nalguns casos comuns, não é desejável.
Com base em requisitos de particionamento, grupo das partições aplicáveis de dados de conjuntos de resultados de cada Mapper.
Resumem-se os conjuntos de resultados a partir dos mapeadores em um único conjunto de resultados - a parte do MapReduce Reduzir.
Uma instância individual do aplicativo em execução contra dados de saída do mapeador é conhecido como um tarefa redutor. (Por mais estranho que possa parecer, uma vez que # 147 Reduzir # 148- é parte do nome do MapReduce, esta fase pode ser aplicações opcional- sem um redutor são conhecidos como empregos só de mapa, que pode ser útil quando não há necessidade de combinar os conjuntos de resultados das tarefas do mapa.)

O fluxo do aplicativo MapReduce no Hadoop

Semelhante

menu