Nós de borda em Hadoop Clusters

nós de borda são a interface entre o cluster Hadoop e a rede externa. Por esta razão, eles são por vezes referido como porta de entrada

nodos. Mais comumente, nós de borda são usados ​​para executar aplicativos cliente e ferramentas de administração do cluster.

Eles também são muitas vezes utilizados como áreas de preparação de dados que estão sendo transferidos para o cluster Hadoop. Como tal, Oozie, Porco, Sqoop e ferramentas de gestão, tais como Hue e Ambari correr bem lá. A figura mostra os processos que podem ser executados em nós de borda.

image0.jpg

nós de borda são muitas vezes negligenciados no Hadoop arquitetura de hardware discussões. Esta situação é lamentável, porque nós de borda servir a um propósito importante em um cluster Hadoop, e eles têm requisitos de hardware que são diferentes de nós mestre e nós escravos.

Em geral, é uma boa idéia para minimizar as implantações de ferramentas de administração sobre nós mestre e nós escravos para garantir que os serviços de Hadoop críticos como o NameNode têm tão pouco a competição por recursos quanto possível.

Você deve evitar colocar um utilitário de transferência de dados como Sqoop em nada, mas um nó de extremidade, como os volumes de transferência de dados de alta podia arriscar a capacidade dos serviços Hadoop no mesmo nó de se comunicar. A troca de serviços mensagens Hadoop são seu sangue, tão alta latência significa que todo o nó pode ser cortado do cluster.

A figura mostra dois nós de borda, mas para muitos clusters Hadoop um único nó de borda seria suficiente. nós de borda adicionais são mais comumente necessários quando o volume de dados a serem transferidos dentro ou fora do cluster é demais para um único servidor de manusear.

armazenamento recomendada

Para nós de borda em um cluster Hadoop, usar o armazenamento de classe empresarial. Para nós de borda focados em ferramentas de administração e aplicações cliente executando, use quatro unidades de 900GB SAS, juntamente com um controlador de disco rígido RAID configurado para RAID 1 + 0.

nós de borda voltadas para a ingestão de dados, obviamente, precisam de muito mais espaço de armazenamento, para que possa adicionar unidades para o nó de extremidade. Neste caso, utilizar unidades LFF SAS porque capacidades muito maiores estão disponíveis, em comparação com drives SAS menor fator de forma.

processadores recomendadas

Um nó de borda de uso geral seria bem servida por uma configuração do processador similar ao utilizado para nós escravos - especificamente, um servidor dual-soquete com processadores Ivy Bridge com clock de entre 2 e 2,5 GHz.

memória recomendada

Para a maioria das cargas de trabalho em nós de borda, 48GB de RAM é suficiente.

rede recomendada

Para permitir a comunicação entre a rede externa eo cluster Hadoop, nós de borda precisam ser multi-homed para a sub-rede privada do cluster Hadoop, bem como na rede corporativa.

Um computador com diversas bases é aquele que tem dedicado ligações a várias redes. Esta é uma ilustração prática da razão pela qual nós de borda são perfeitamente adequados para a interação com o mundo fora do cluster Hadoop. Mantendo seu cluster Hadoop em sua própria sub-rede privada é uma excelente prática, assim que estes nós de borda servir como uma janela controlada dentro do cluster.

Para nós de borda que servem o propósito de execução de aplicativos clientes ou ferramentas de administração, dois pares de conexões de rede 1GbE ligados são recomendados: um par para se conectar ao cluster Hadoop e outro par para a rede externa.

nós de borda orientada para manipulação de altas taxas de transferência de dados de entrada e saída vai precisar de dois (ou mais) pares de conectores de rede 10GbE ligados: um par para se conectar ao cluster Hadoop e outro par para a rede externa ou dados específicos ingerir fontes.

menu