Google Dremel e Hadoop

Para a maioria das pessoas, o termo Dremel traz à mente um prático de alta velocidade, ferramenta de baixo torque que funciona bem para uma variedade de tarefas em casa. Mas você sabia que o Google criou um Dremel? Em vez de produzir outro handheld ferramenta mecânica, no entanto, o Google escolheu uma ferramenta de software rápida destinada à análise interativa de dados grandes.

Tal como acontece com outras tecnologias do Google que inspiraram partes do ecossistema Hadoop, como MapReduce, o Google File System (HDFS), e BigTable (veja HBase), o Google desenvolveu Dremel para uso interno e, em seguida, publicou um artigo descrevendo o propósito e design da tecnologia . (Em outras palavras, Dremel não é algo que você pode baixar e usar em seu cluster Hadoop.)

Google usa Dremel para uma variedade de tarefas, incluindo a análise de documentos web-rastreada, detecção de spam e-mail, trabalhando através de relatórios de falhas de aplicação, e muito mais. serviço BigQuery do Google realmente usa Dremel.

Google projetado tecnologia MapReduce para processamento em lote mais conjuntos enormes de dados. Como suas necessidades evoluiu, assim como sua tecnologia e Google decidiu criar Dremel para melhorar o desempenho de consultas interativas contra grandes conjuntos de dados.

A abordagem MapReduce fornece tolerância a escalabilidade e consulta falha, mas é fundamentalmente um sistema baseado em lote, para que os tempos de resposta para consultas menores (consultas que envolvem apenas uma pequena parte de todo um conjunto de dados, por exemplo) muitas vezes não são o que os usuários esperam.

Então, o Google desenvolveu uma tecnologia de execução de consulta projetado para consultas interativas, que é executado em servidores intermediários no topo do sistema de arquivos do Google (GFS). (Lembre-se, GFS foi a inspiração para Apache HDFS, que é o sistema de arquivos do Hadoop.)

Semelhante a colmeia, Dremel usa uma linguagem SQL-like (familiar para a maioria dos programadores) e emprega um layout de dados colunar. Dremel fornece resposta de consulta rápida, interativa, preservando a tolerância escalabilidade e falha encontrada no Apache Hive. No whitepaper Dremel, o Google explica como ele pode realizar consultas de agregação dentro de segundos sobre mesas com um trilhão de linhas - não é mau de todo.

Então, o Google tem a sua tecnologia de Dremel, que ele usa internamente, mas depois há todas as tecnologias # 147 inspirados pelo # 148- Dremel (tipo de como todos aqueles perfumes # 147 inspirados pelo # 148- Drakkar Noir).

menu