O Apache Hadoop Ecossistema

Computadores e Software / Big Data / Gestão de dados

Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não todos) desses projetos são hospedados pela Apache Software Foundation. A tabela lista alguns destes projectos.

Projectos relacionados com Hadoop
Nome do Projeto	Descrição
Ambari	Um conjunto integrado de ferramentas de administração do Hadoop forinstalling, monitoramento e manutenção de um cluster Hadoop. Alsoincluded são ferramentas para adicionar ou remover nós escravos.
Avro	Um quadro para a serialização eficiente (uma espécie oftransformation) de dados em um formato binário compacto
calha	Um serviço de fluxo de dados para a circulação de grandes volumes de logdata em Hadoop
HBase	Um banco de dados colunar distribuída que usa HDFS para itsunderlying armazenamento. Com HBase, você pode armazenar dados em tabelas extremelylarge com estruturas de coluna variável.
HCatalog	Um serviço para fornecer uma visão relacional dos dados armazenados inHadoop, incluindo uma abordagem padrão para dados tabulares
colméia	Um armazém de dados distribuído para dados que são armazenados no HDFS-também fornece uma linguagem de consulta que é baseada em SQL (HiveQL)
Matiz	A interface de administração Hadoop com ferramentas GUI úteis forbrowsing arquivos, emitindo consultas Hive e porco, e desenvolver Oozieworkflows
cornaca	Uma biblioteca de aprendizagem de máquina algoritmos estatísticos que wereimplemented em MapReduce e pode rodar nativamente no Hadoop
Oozie	Uma ferramenta de gerenciamento de fluxo de trabalho que pode lidar com o agendamento andchaining conjunto de aplicações Hadoop
Porco	Uma plataforma para a análise de grandes conjuntos de dados que runson HDFS e com uma camada de infra-estrutura consiste de um compilerthat produz sequências de programas MapReduce e uma layerconsisting linguagem da linguagem de consulta chamada Pig Latin
Sqoop	Uma ferramenta para mover de forma eficiente grandes quantidades de bases de dados betweenrelational dados e HDFS
ZooKeeper	A interface simples para a coordenação centralizada de serviços (tais como nomeação, configuração e sincronização) usado aplicações bydistributed

O ecossistema Hadoop e suas distribuições comerciais continuam a evoluir, com tecnologias e ferramentas novas ou melhoradas emergentes o tempo todo.

A figura mostra os diversos projetos do ecossistema Hadoop e como eles se relacionam com um outro:

O Apache Hadoop Ecossistema

Semelhante

menu