Fatores de forma implantação alternativos para Hadoop

Embora Hadoop funciona melhor quando ele é instalado em um computador físico, em que o tratamento tem acesso direto ao armazenamento dedicado e redes, Hadoop tem implementações alternativas. E embora eles são menos eficientes do que o hardware dedicado, em certos casos, as alternativas são opções que valem a pena.

servidores virtualizados

A grande tendência em centros de TI ao longo da última década é a virtualização, onde um grande servidor pode hospedar vários # máquinas 147 virtuais # 148- que parecem e agem como máquinas individuais. No lugar de hardware dedicado, todo o conjunto de aplicações e repositórios de uma organização é implantado em hardware virtualizado.

Esta abordagem tem muitas vantagens: A centralização da TI simplifica a manutenção, o investimento em TI é maximizada por causa do menor número de ciclos de CPU não utilizados e a pegada global hardware é menor, resultando em um menor custo total de propriedade.

Organizações em que as implantações de TI são totalmente virtualizados, por vezes, obriga que cada nova aplicação seguem este modelo. Embora Hadoop pode ser implementado desta maneira, essencialmente, como um cluster virtual (com nós mestre virtuais e nós escravos virtuais), o desempenho sofre, em parte porque para a maioria dos ambientes virtualizados, o armazenamento é baseado em SAN e não está ligado localmente.

Porque Hadoop é projetado para funcionar melhor quando todos os núcleos de CPU disponíveis são capazes de ter acesso rápido a girar de forma independente discos, um gargalo é criado como todo o mapa e tarefas reduzir iniciar o processamento de dados através da rede limitada entre a CPUs e SAN. Uma vez que o grau de isolamento entre os recursos de servidores virtualizados é limitado (servidores virtuais compartilham recursos com os outros), as cargas de trabalho do Hadoop também pode ser afetada por outra atividade.

Quando o desempenho do seu servidor virtual é afetado pela carga de trabalho de outro servidor, que é realmente conhecido em círculos de TI como um # 147 barulhenta vizinho # 148- problema!

ambientes virtuais podem ser bastante úteis, embora, em alguns casos. Por exemplo, se sua organização precisa para completar uma análise exploratória de uma só vez de um grande conjunto de dados, você pode facilmente criar um cluster temporária em seu ambiente virtualizado. Este método é muitas vezes uma maneira mais rápida para obter a aprovação interna do que para aguentar as dificuldades burocráticas de aquisição de novo hardware dedicado.

Como você experimentar com Hadoop, muitas vezes você executá-lo em suas máquinas portáteis através de uma máquina virtual (VM). Hadoop é extremamente lento neste tipo de ambiente, mas se você estiver usando pequenos conjuntos de dados, é uma ferramenta de aprendizagem e teste valioso.

implantações de nuvem

Variações de ambientes virtualizados são provedores de computação em nuvem, como Amazon, Rackspace e IBM SoftLayer. A maioria dos grandes provedores de nuvem pública têm agora MapReduce do Hadoop ou ofertas disponíveis para uso. Mais uma vez, o seu desempenho é inferior ao implantar seu cluster em um hardware dedicado, mas está melhorando.

Os provedores de nuvem estão fazendo ambientes Hadoop otimizados disponível onde nós escravos ter anexado localmente armazenamento e rede dedicada. Além disso, hypervisors estão se tornando muito mais eficiente, com sobrecarga reduzida e latência.

Não considerar uma solução de nuvem para aplicações de longo prazo, porque o custo de alugar recursos de computação em nuvem é significativamente maior do que a de possuir e manter um sistema comparável. Com um provedor de nuvem, você está pagando por conveniência e por ser capaz de descarregar a sobrecarga de provisionamento de hardware. No entanto, a nuvem é uma plataforma ideal para tarefas de testes, educação e processamento de dados de uma só vez.

Além de considerações de desempenho e custo, você tem considerações regulatórias com implantações de nuvens públicas. Se você tiver dados sensíveis, que devem ser armazenadas em casa ou no país, a implementação de nuvem pública não é uma opção. Em casos como este, onde você precisa a conveniência de uma implantação baseada em nuvem, uma nuvem privada é uma boa opção, se estiver disponível.

menu