O Apache Hadoop Ecossistema
Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não todos) desses projetos são hospedados pela Apache Software Foundation. A tabela lista alguns destes projectos.
Projectos relacionados com HadoopNome do Projeto | Descrição |
---|
Ambari | Um conjunto integrado de ferramentas de administração do Hadoop forinstalling, monitoramento e manutenção de um cluster Hadoop. Alsoincluded são ferramentas para adicionar ou remover nós escravos. |
Avro | Um quadro para a serialização eficiente (uma espécie oftransformation) de dados em um formato binário compacto |
calha | Um serviço de fluxo de dados para a circulação de grandes volumes de logdata em Hadoop |
HBase | Um banco de dados colunar distribuída que usa HDFS para itsunderlying armazenamento. Com HBase, você pode armazenar dados em tabelas extremelylarge com estruturas de coluna variável. |
HCatalog | Um serviço para fornecer uma visão relacional dos dados armazenados inHadoop, incluindo uma abordagem padrão para dados tabulares |
colméia | Um armazém de dados distribuído para dados que são armazenados no HDFS-também fornece uma linguagem de consulta que é baseada em SQL (HiveQL) |
Matiz | A interface de administração Hadoop com ferramentas GUI úteis forbrowsing arquivos, emitindo consultas Hive e porco, e desenvolver Oozieworkflows |
cornaca | Uma biblioteca de aprendizagem de máquina algoritmos estatísticos que wereimplemented em MapReduce e pode rodar nativamente no Hadoop |
Oozie | Uma ferramenta de gerenciamento de fluxo de trabalho que pode lidar com o agendamento andchaining conjunto de aplicações Hadoop |
Porco | Uma plataforma para a análise de grandes conjuntos de dados que runson HDFS e com uma camada de infra-estrutura consiste de um compilerthat produz sequências de programas MapReduce e uma layerconsisting linguagem da linguagem de consulta chamada Pig Latin |
Sqoop | Uma ferramenta para mover de forma eficiente grandes quantidades de bases de dados betweenrelational dados e HDFS |
ZooKeeper | A interface simples para a coordenação centralizada de serviços (tais como nomeação, configuração e sincronização) usado aplicações bydistributed |
O ecossistema Hadoop e suas distribuições comerciais continuam a evoluir, com tecnologias e ferramentas novas ou melhoradas emergentes o tempo todo.
A figura mostra os diversos projetos do ecossistema Hadoop e como eles se relacionam com um outro:
Sobre o autor
Sistema Hadoop Distributed File (HDFS) Federação A solução para expandir clusters Hadoop indefinidamente é federado NameNode. Antes Hadoop 2 entrou em cena, clusters Hadoop tinha que viver com o fato de que NameNode colocou limites sobre o grau em que eles poderiam escalar. Poucos grupos foram…
Hadoop Sqoop para Big Data Sqoop (SQL-to-Hadoop) é uma ferramenta de dados grande que oferece a capacidade de extrair dados de armazenamentos de dados não-Hadoop, transformar os dados em uma forma utilizável pelo Hadoop, e depois carregar os dados no HDFS. Este processo é…
Gerenciamento de Big Data com Hadoop: HDFS e MapReduce Hadoop, uma estrutura de software de código aberto, usa HDFS (Hadoop Distributed File System) e MapReduce para analisar os dados grandes em clusters de commodities hardware, ou seja, em um ambiente de computação distribuída.O Hadoop Distributed…
Bases de dados de processamento massivamente paralelo Para proporcionar uma melhor compreensão das alternativas SQL-on-Hadoop para Hive, pode ser útil rever uma cartilha sobre processamento paralelo (MPP) de bancos de dados em primeiro lugar.Apache Hive é mergulhado em cima do Hadoop Distributed…
HAWQ Pivotal e Hadoop Em 2010, a EMC e VMware, líderes de mercado no fornecimento de TI como um serviço via computação em nuvem, adquiriu Greenplum Corporation, as pessoas que tinham trazido com sucesso o produto Greenplum MPP Data Warehouse (DW) para o mercado. Mais…
Executando aplicativos Antes Hadoop 2 Porque muitas implantações Hadoop existentes ainda ainda não estão usando mais um recurso Negociador (FIO), dê uma rápida olhada em como Hadoop conseguiu seu processamento de dados antes dos dias de Hadoop 2. Concentre-se no papel que…
Estruturado de armazenamento de dados e processamento no Hadoop Ao considerar as capacidades do Hadoop para trabalhar com dados estruturados (ou trabalhando com dados de qualquer tipo, para que o assunto), lembre-se características centrais da Hadoop: Hadoop é, em primeiro lugar, uma plataforma de…
A importância de MapReduce no Hadoop Para a maioria da história do Hadoop, MapReduce tem sido o único jogo na cidade quando se trata de processamento de dados. A disponibilidade de MapReduce tem sido a razão para o sucesso do Hadoop e, ao mesmo tempo, um fator importante em limitar…
A Origem e Design do Hadoop Então, o que exatamente é essa coisa com o nome engraçado - Hadoop? Na sua essência, o Hadoop é uma estrutura para o armazenamento de dados em grandes aglomerados de mercadoria hardware - hardware de computador todos os dias que é acessível e…
A arquitetura Pig in Hadoop # 147 Simples # 148- muitas vezes significa # 147 elegante # 148- quando se trata de esses desenhos de arquitectura para que a nova mansão do Vale do Silício que tenha planeado para quando o dinheiro começa a rolar após a implementação Hadoop.…
A arquitetura fio em Hadoop FIO, para aqueles que estão chegando nesta festa particular, representa mais um recurso negociador, uma ferramenta que permite que outras estruturas de processamento de dados para rodar em Hadoop. A glória de fios é que ele apresenta Hadoop com…
Porque você deve usar o Hadoop para Big Data? inovadores de motores de busca como Yahoo! e Google foram confrontados com um problema de dados pântano. Eles precisavam encontrar uma maneira de fazer sentido das enormes quantidades de dados que seus motores estavam coletando. Estas empresas…