Colunar bancos de dados em um ambiente de dados Big

bases de dados colunar pode ser muito útil em seu projeto de dados grande. Bancos de dados relacionais são linha orientada, como os dados em cada linha de uma tabela é armazenada em conjunto. Numa colunar, ou base de dados orientada a coluna, os dados são armazenados através linhas. Embora isso possa parecer uma distinção trivial, é a característica subjacente mais importante de bancos de dados colunar.

É muito fácil de adicionar colunas, e eles podem ser adicionados linha por linha, oferecendo grande flexibilidade, desempenho e escalabilidade. Quando você tem volume e variedade de dados, você pode querer usar um banco de dados colunar. É muito adaptable- você simplesmente continuar a adicionar colunas.

Uma das bases de dados colunar mais populares é HBase. É, também, é um projeto no Apache Software Foundation distribuído sob a v2.0 Apache Software License. HBase usa o sistema de arquivos Hadoop e motor de MapReduce para suas necessidades de armazenamento de dados centrais.

O design do HBase é modelado em BigTable do Google. Portanto, implementações do HBase são altamente escaláveis, escasso, distribuídos, persistentes multidimensionais mapas ordenadas. O mapa é indexado por uma chave de linha, de coluna de chave, e uma timestamp- cada valor no mapa é um array de bytes não interpretada.

Quando a sua aplicação de dados grande requer aleatório, acesso em tempo real dados de leitura / gravação, HBase é uma solução muito boa. Ele é frequentemente usado para armazenar resultados para processamento analítico mais tarde.

Características importantes do HBase incluem o seguinte:

  • Consistência: Apesar de não ser um # 147-ACID # 148- implementação, HBase oferece fortemente consistente lê e escreve e não se baseia em um modelo, eventualmente, consistente. Isto significa que você pode usá-lo para os requisitos de alta velocidade, desde que você não precisa do # Características 147-extras # 148- oferecido pelo RDBMS como suporte a transações completo ou colunas digitados.

  • sharding: Porque os dados são distribuídos pelo sistema de arquivos de suporte, HBase oferece, divisão automática transparente e redistribuição de seu conteúdo.

  • Alta disponibilidade: Através da implementação de servidores região, HBase suporta LAN e WAN failover e recuperação. No centro, há um servidor principal responsável por monitorar os servidores região e todos os metadados para o cluster.

  • API do cliente: HBase oferece acesso programático através de uma API Java.

  • Suporte para operações de TI: Implementadores pode expor o desempenho e outras métricas através de um conjunto de páginas web embutidas.

implementações HBase são mais adequados para

  • De alto volume, recolha de dados incrementais e processamento

  • troca de informações em tempo real (por exemplo, mensagens)

  • mudando frequentemente servir conteúdo

menu