Hadoop como um Queryable Arquivo de Cold Data Warehouse

Uma multidão de estudos mostram que a maioria dos dados em um data warehouse empresarial raramente é consultado. fornecedores de banco de dados têm respondido a essas observações através da implementação de seus próprios métodos para separar o que os dados são colocados em locais onde.

Um método ordena o universo dados em denominações de quente, morno ou frio, onde quente dados (às vezes chamados ativo de dados) é utilizado frequentemente, caloroso dados é utilizado de vez em tempo e frio dados é raramente usado. A solução proposta por muitos vendedores é para armazenar os dados frios sobre discos mais lentos dentro dos recintos de armazenamento de dados ou para criar estratégias de cache inteligente para manter os dados quentes na memória, entre outros.

O problema com esta abordagem é que, apesar de armazenamento mais lento é utilizado, ainda é caro para armazenar, dados raramente usados ​​frias em um armazém. Os custos aqui decorre de hardware e licenciamento de software. Ao mesmo tempo, os dados de frio e frequentemente dormente é arquivada para a fita.

Este modelo tradicional de arquivamento de dados quebra quando você deseja consultar todos os dados frios de uma forma rentável e relativamente eficiente - sem ter que solicitar fitas antigas, em outras palavras.

Se você olhar para as características de custo e operacionais do Hadoop, de fato, parece que ele está prestes a se tornar a nova fita de backup. Hadoop é barato, em grande parte porque os sistemas Hadoop são projetados para usar um grau inferior de hardware do que aquilo que é normalmente implantado em sistemas de data warehouse. Outra significativa redução de custos é o licenciamento de software.

licenças comerciais de distribuição do Hadoop exigem uma fração do custo de licenças de software de armazenamento de dados relacionais, que são famosos por serem caros. Do ponto de vista operacional, o Hadoop é projetado para escalar facilmente apenas através da adição de nós escravos adicionais a um cluster existente. E, como nós escravos são adicionados e conjuntos de dados crescer em volume, estruturas de processamento de dados do Hadoop ativar suas aplicações para lidar perfeitamente o aumento da carga de trabalho.

Hadoop representa uma maneira simples, flexível e barata para empurrar processamento através de literalmente milhares de servidores.

Com sua arquitetura escalável e de baixo custo, Hadoop parece ser uma escolha perfeita para o arquivamento de dados do warehouse. . . exceto por um pequeno problema: a maioria do mundo de TI é executado em SQL e SQL em seu próprio não joga bem com Hadoop.

Claro, o movimento NoSQL mais Hadoop-friendly está vivo e bem, mas a maioria dos usuários de poder agora usar SQL por meio de comuns, conjuntos de ferramentas off-the-shelf que geram consultas SQL sob o capô - produtos tais como Tableau, Microsoft Excel, e IBM Cognos BI.

É verdade que o ecossistema Hadoop Hive inclui, mas Hive suporta apenas um subconjunto de SQL, e embora o desempenho está melhorando (juntamente com suporte SQL), não é assim tão rápido em responder a consultas menores como sistemas relacionais são. Recentemente, tem havido grandes progressos em torno do acesso SQL para Hadoop, que abriu o caminho para o Hadoop para se tornar o novo destino para os arquivos de armazenamento de dados on-line.

Dependendo do fornecedor do Hadoop, SQL (ou SQL-like) APIs estão se tornando disponíveis para que os mais comuns de relatórios e ferramentas de análise off-the-shelf pode perfeitamente emitir SQL que executa em dados armazenados no Hadoop. Por exemplo, a IBM tem o seu SQL API Big, Cloudera tem Impala, ea própria colmeia, através da iniciativa Hortonworks Stinger, está se tornando cada vez mais compatível com SQL.

Apesar de vários pontos de vista existem (alguns têm por objectivo reforçar Hive- alguns, para estender Hive- e outros, para fornecer uma alternativa), todas estas soluções tentar resolver duas questões: MapReduce é uma má solução para executar consultas menores, e acesso SQL é - por enquanto - a chave para permitir que os trabalhadores de TI a usar suas habilidades SQL existentes para obter valor a partir dos dados armazenados no Hadoop.

menu