O Apache Hadoop Ecossistema

Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não todos) desses projetos são hospedados pela Apache Software Foundation. A tabela lista alguns destes projectos.

Projectos relacionados com Hadoop
Nome do ProjetoDescrição
AmbariUm conjunto integrado de ferramentas de administração do Hadoop forinstalling, monitoramento e manutenção de um cluster Hadoop. Alsoincluded são ferramentas para adicionar ou remover nós escravos.
AvroUm quadro para a serialização eficiente (uma espécie oftransformation) de dados em um formato binário compacto
calhaUm serviço de fluxo de dados para a circulação de grandes volumes de logdata em Hadoop
HBaseUm banco de dados colunar distribuída que usa HDFS para itsunderlying armazenamento. Com HBase, você pode armazenar dados em tabelas extremelylarge com estruturas de coluna variável.
HCatalogUm serviço para fornecer uma visão relacional dos dados armazenados inHadoop, incluindo uma abordagem padrão para dados tabulares
colméiaUm armazém de dados distribuído para dados que são armazenados no HDFS-também fornece uma linguagem de consulta que é baseada em SQL (HiveQL)
MatizA interface de administração Hadoop com ferramentas GUI úteis forbrowsing arquivos, emitindo consultas Hive e porco, e desenvolver Oozieworkflows
cornacaUma biblioteca de aprendizagem de máquina algoritmos estatísticos que wereimplemented em MapReduce e pode rodar nativamente no Hadoop
OozieUma ferramenta de gerenciamento de fluxo de trabalho que pode lidar com o agendamento andchaining conjunto de aplicações Hadoop
PorcoUma plataforma para a análise de grandes conjuntos de dados que runson HDFS e com uma camada de infra-estrutura consiste de um compilerthat produz sequências de programas MapReduce e uma layerconsisting linguagem da linguagem de consulta chamada Pig Latin
SqoopUma ferramenta para mover de forma eficiente grandes quantidades de bases de dados betweenrelational dados e HDFS
ZooKeeperA interface simples para a coordenação centralizada de serviços (tais como nomeação, configuração e sincronização) usado aplicações bydistributed

O ecossistema Hadoop e suas distribuições comerciais continuam a evoluir, com tecnologias e ferramentas novas ou melhoradas emergentes o tempo todo.

A figura mostra os diversos projetos do ecossistema Hadoop e como eles se relacionam com um outro:

image0.jpg

menu