A opção híbrida Dados Preprocess em Hadoop

Além de ter de armazenar grandes volumes de dados frio, uma pressão que você vê em armazéns de dados tradicionais é que quantidades de recursos de processamento crescente estão sendo usados ​​para transformação de cargas de trabalho (ELT).

A idéia por trás usando Hadoop como um motor de pré-processamento para lidar com a transformação de dados significa que os ciclos de processamento preciosas são liberados, permitindo que o data warehouse para aderir ao seu propósito original: Responda às perguntas de negócios repetidos para suportar aplicações analíticas. Mais uma vez, você está vendo como Hadoop pode complementar as implementações tradicionais de data warehouse e aumentar a sua produtividade.

Talvez uma pequena, lâmpada imaginária acendeu-se sobre sua cabeça e você está pensando, # 147 Hey, talvez haja estamos algumas tarefas de transformação perfeitamente adequado para a capacidade de processamento de dados do Hadoop, mas eu sei que há também um monte de trabalho de transformação rica em algébrica, passo-a-passo as tarefas que executa o SQL em um motor de banco de dados relacional seria a melhor escolha. Não seria legal se eu poderia correr SQL em Hadoop # 148?;

SQL em Hadoop já está aqui. Com a capacidade de emitir consultas SQL em relação aos dados no Hadoop, você não está preso com apenas uma abordagem de ETL para seus fluxos de dados - você também pode implantar aplicativos ELT-like.

Outra abordagem híbrida a considerar é para onde correr a sua lógica de transformação: em Hadoop ou no armazém de dados? Embora algumas organizações estão preocupadas com a execução de tudo, mas de análise em seus armazéns, a verdade é que bancos de dados relacionais são excelentes na execução de SQL, e poderia ser um lugar mais prático para executar uma transformação de Hadoop.

menu