Hadoop e Hive

Para fazer uma longa história curta, Hive fornece Hadoop com uma ponte para o mundo do RDBMS e fornece um dialeto SQL conhecido como Hive Query Language (HiveQL), que pode ser usado para executar tarefas SQL-like. Essa é a grande notícia, mas não há mais a colmeia que satisfaça os olhos, como se costuma dizer, ou mais aplicações dessa nova tecnologia do que você pode apresentar em um passo do elevador padrão.

Por exemplo, Hive também torna possível o conceito conhecido como data warehouse empresarial (EDW) aumento, um caso de uso principal para o Apache Hadoop, onde armazéns de dados são configurados como RDBMSs construído especificamente para a análise de dados e relatórios.

Agora, alguns especialistas argumentam que Hadoop (com Hive, HBase, Sqoop, e seus amigos sortidas) pode substituir o EDW. No entanto, o Apache Hadoop é uma grande Adição para a empresa e que pode aumentar e complementar EDWs existentes. Hive, HBase, e Sqoop permitir EDW aumento.


Intimamente associada com a tecnologia RDBMS / EDW é extrair, transformar e tecnologia de carregamento (ETL). Para entender o que ETL faz, que ajuda a saber que, em muitos casos de uso, os dados podem não ser imediatamente carregado no banco de dados relacional - ele deve primeiro ser extraído de sua fonte nativa, transformada em um formato adequado, e depois carregado no RDBMS ou EDW.



Por exemplo, uma empresa ou uma organização pode extrair dados de texto não estruturados a partir de um fórum na Internet, transformar os dados em um formato estruturado que é tanto útil e valioso, e depois carregar os dados estruturados em seu EDW.

Você pode ver que Hive é uma poderosa ferramenta de ETL em seu próprio direito, juntamente com o grande jogador neste reino: Apache Pig. Mais uma vez, os usuários podem tentar configurar Hive e Pig como a novas ferramentas de ETL para o centro de dados. (Deixe-os tentar.)

Tal como acontece com o debate sobre EDW contra o Apache Hadoop, estas tecnologias Apache Hadoop não são diretas substituiçãos para ferramentas de ETL existente, mas em vez disso são novas e poderosas ferramentas de ETL para ser usado quando necessário.

Por último, mas não menos importante, Apache Hive lhe dá poderosas ferramentas analíticas, todos no âmbito da HiveQL. Estas ferramentas devem olhar e sentir bastante familiar para os profissionais de TI que entendem como usar SQL.