Comparando Hadoop Distribuições

Você verá que o ecossistema Hadoop tem muitos componentes, todos os quais existem como seus próprios projetos Apache. Porque Hadoop tem crescido consideravelmente, e enfrenta alguns mais significativas mudanças, versões diferentes desses componentes da comunidade de código aberto pode não ser totalmente compatível com outros componentes. Isto coloca dificuldades consideráveis ​​para as pessoas que procuram obter um começo independente com Hadoop baixar e compilar projetos diretamente do Apache.

Red Hat é, para muitas pessoas, o modelo de como fazer dinheiro com sucesso no mercado de software de código aberto. O Red Hat tem feito é tomar Linux (um sistema operacional de código aberto), agrupar todos os seus componentes necessários, construir uma instalação simples, e fornecer suporte pago a todos os clientes.

Da mesma maneira que a Red Hat tem proporcionado uma embalagem prática para Linux, um número de empresas têm incluído Hadoop e algumas tecnologias relacionadas em suas próprias distribuições Hadoop. Esta lista descreve os mais proeminentes:

  • Cloudera: Talvez o jogador mais conhecido no campo, Cloudera é capaz de reivindicar Doug Cutting, co-fundador do Hadoop, como seu arquiteto-chefe. Cloudera é visto por muitas pessoas como o líder de mercado no espaço Hadoop porque liberou a primeira distribuição Hadoop comercial e é um contribuinte altamente ativa de código para o ecossistema Hadoop.

    Cloudera Enterprise um produto posicionado pela Cloudera no centro do que ele chama o # 147 Enterprise Data Hub, # 148- inclui a distribuição Cloudera para Hadoop (CDH), uma distribuição baseada em open-source do Hadoop e seus projetos relacionados, bem como a sua proprietária Gerente de Cloudera. Também está incluída uma assinatura de suporte técnico para os principais componentes do CDH.

    modelo de negócio principal da Cloudera tem sido baseado em sua capacidade de alavancar sua popular distribuição CDH e fornecer serviços pagos e suporte. No outono de 2013, Cloudera anunciou formalmente que está se concentrando em adição de componentes de valor agregado de propriedade no topo do open source Hadoop para agir como um diferenciador.

    Além disso, Cloudera tornou uma prática comum para acelerar a adoção do código-fonte alfa e de nível beta aberto para o mais recente Hadoop libera. A sua abordagem é levar componentes que considere ser maduro e equipar-los para as bibliotecas de código aberto prontos para produção existentes que estão incluídos na sua distribuição.

  • EMC: HD Pivotal, a distribuição Apache Hadoop da EMC, nativamente integra a tecnologia da EMC massivamente paralelo de processamento (MPP) de banco de dados (anteriormente conhecido como Greenplum, e agora conhecido como HAWQ) com o Apache Hadoop. O resultado é uma distribuição Hadoop de alto desempenho com o processamento SQL verdadeiro para Hadoop. consultas baseadas em SQL e outras ferramentas de inteligência de negócios pode ser usado para analisar os dados que são armazenados no HDFS.

  • Hortonworks: Outro jogador importante no mercado Hadoop, Hortonworks tem o maior número de committers e contribuidores de código para os componentes do ecossistema Hadoop. (Committers são os guardiões de projetos Apache e têm o poder de aprovar alterações no código.)

    Hortonworks é um spin-off da Yahoo !, que era o motorista corporativo original do projeto Hadoop porque precisava de uma plataforma de grande escala para apoiar o seu negócio de motores de busca. De todos os fornecedores de distribuição do Hadoop, Hortonworks é o mais comprometido com o movimento de código aberto, baseado no volume do trabalho de desenvolvimento que contribui para a comunidade, e porque todos os seus esforços de desenvolvimento são (eventualmente) dobrado na base de código-fonte aberto.

    O modelo de negócio Hortonworks é baseada em sua capacidade de alavancar sua popular distribuição HDP e fornecer serviços pagos e suporte. No entanto, ele não vende software proprietário. Em vez disso, a empresa apoia com entusiasmo a idéia de trabalhar dentro da comunidade de código aberto para desenvolver soluções que atendam os requisitos de recursos empresariais (por exemplo, processamento de consulta mais rápida com Hive).

    Hortonworks forjou uma série de relacionamentos com empresas estabelecidas na indústria de gestão de dados: Teradata, Microsoft, Informática, e SAS, por exemplo. Embora estas empresas não têm os seus próprios, em casa ofertas Hadoop, eles colaboram com Hortonworks para fornecer soluções Hadoop integradas com seus próprios conjuntos de produtos.

    A oferta Hortonworks Hadoop é a Plataforma de Dados Hortonworks (HDP), que inclui Hadoop, bem como ferramentas e projetos relacionados. Também ao contrário de Cloudera, Hortonworks libera apenas versões HDP com código de nível de produção a partir da comunidade de código aberto.

  • IBM: Big Blue oferece uma gama de ofertas de Hadoop, com o foco em torno de valor acrescentado em cima do Hadoop pilha de código aberto.

  • Intel: Distribuição Intel para o Apache Hadoop (Intel Distribuição) fornece processamento e gestão de dados distribuídos para aplicações empresariais que analisam os dados grandes.

    As principais características incluem excelente desempenho com otimizações para os processadores Intel Xeon, armazenamento SSD Intel e Intel 10GbE Networking segurança de dados por meio de criptografia e descriptografia em HDFS e controle de acesso baseado em função, com granularidade em nível de célula em HBase- suporte melhorado desempenho- consulta Hive para a análise estatística com um conector para R, o pacote-estatística open source popular e gráficos analíticos através da Intel Graph Builder.

  • MapR: Para uma distribuição completa para Apache Hadoop e projetos relacionados que é independente da Apache Software Foundation, não procure mais, MapR. Gozando sem dependências Java ou dependência no sistema de arquivos Linux, MapR está sendo promovido como a única distribuição Hadoop que fornece proteção completa de dados, sem pontos únicos de falha, e significativas vantagens de facilidade de uso.

    Três edições MapR estão disponíveis: M3, M5 e M7. O M3 Edition é gratuito e está disponível para a produção ilimitada uso-MapR M5 é um software de assinatura de nível intermediário offering- e MapR M7 é uma distribuição completa para Apache Hadoop e HBase que inclui porco, Hive, Sqoop, e muito mais.

menu