Gerenciamento de Big Data com Hadoop: HDFS e MapReduce

Hadoop, uma estrutura de software de código aberto, usa HDFS (Hadoop Distributed File System) e MapReduce para analisar os dados grandes em clusters de commodities hardware, ou seja, em um ambiente de computação distribuída.

O Hadoop Distributed File System (HDFS) foi desenvolvido para permitir que as empresas a gerir mais facilmente grandes volumes de dados de maneira simples e pragmática. Hadoop permite grandes problemas para ser decomposto em elementos menores, de modo que a análise pode ser feito rapidamente e com baixo custo. HDFS é uma abordagem versátil, resistente, em cluster para o gerenciamento de arquivos em um ambiente de dados grande.

HDFS não é o destino final para os arquivos. Pelo contrário, é um "serviço" de dados que oferece um conjunto exclusivo de capacidades necessárias quando os volumes e velocidade de dados são elevados.

MapReduce é uma estrutura de software que permite aos desenvolvedores escrever programas que podem processar grandes quantidades de dados não estruturados em paralelo através de um grupo distribuído de processadores. MapReduce foi concebido pelo Google como uma forma de execução de forma eficiente um conjunto de funções de encontro a uma grande quantidade de dados em modo de lote.

O "mapa" componente distribui o problema de programação ou tarefas através de um grande número de sistemas e lida com a colocação das tarefas de uma forma que equilibra a carga e gere a recuperação de falhas. Após a computação distribuída é concluída, outra função chamada "reduzir" agrega todos os elementos de volta juntos para obter um resultado. Um exemplo de uso MapReduce seria determinar quantas páginas de um livro são escritos em cada um dos 50 idiomas diferentes.

» » » » Gerenciamento de Big Data com Hadoop: HDFS e MapReduce