O fluxo do aplicativo MapReduce no Hadoop

Na sua essência, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída entre nós escravos de um cluster do Hadoop. O conceito chave aqui é dividir e conquistar. Especificamente, você quer quebrar um grande conjunto de dados em vários pedaços menores e processá-los em paralelo com o mesmo algoritmo.

Com o Hadoop Distributed File System (HDFS), os arquivos já estão divididos em pedaços de tamanho. MapReduce é o que você usa para processar todas as peças.

aplicativos MapReduce ter várias fases, conforme o estipulado nesta lista:

  1. Determinar os conjuntos de dados exactos para processar a partir dos blocos de dados. Trata-se de calcular onde os registros a serem processados ​​estão localizados dentro dos blocos de dados.


  2. Execute o algoritmo especificado contra cada registro no conjunto de dados até que todos os registros são processados.

    A instância individual do aplicativo em execução contra um bloco de dados em um conjunto de dados é conhecido como um tarefa mapeador. (Esta é a parte mapeamento do MapReduce.)

  3. Localmente realizar uma redução provisória da saída de cada mapeador.

    (As saídas são provisoriamente combinados, por outras palavras.) Esta fase é opcional dado que, nalguns casos comuns, não é desejável.

  4. Com base em requisitos de particionamento, grupo das partições aplicáveis ​​de dados de conjuntos de resultados de cada Mapper.

  5. Resumem-se os conjuntos de resultados a partir dos mapeadores em um único conjunto de resultados - a parte do MapReduce Reduzir.

    Uma instância individual do aplicativo em execução contra dados de saída do mapeador é conhecido como um tarefa redutor. (Por mais estranho que possa parecer, uma vez que # 147 Reduzir # 148- é parte do nome do MapReduce, esta fase pode ser aplicações opcional- sem um redutor são conhecidos como empregos só de mapa, que pode ser útil quando não há necessidade de combinar os conjuntos de resultados das tarefas do mapa.)

» » » » O fluxo do aplicativo MapReduce no Hadoop