Hadoop Sqoop para Big Data

Sqoop (SQL-to-Hadoop) é uma ferramenta de dados grande que oferece a capacidade de extrair dados de armazenamentos de dados não-Hadoop, transformar os dados em uma forma utilizável pelo Hadoop, e depois carregar os dados no HDFS. Este processo é chamado de ETL, por Extract, Transform, and Load.

Embora a obtenção de dados em Hadoop é crítica para a transformação usando MapReduce, também é crítico para obter dados de Hadoop e a uma fonte de dados externa para a utilização em outros tipos de aplicação. Sqoop é capaz de fazer isso também.

Embora seja por vezes necessário para mover os dados em tempo real, é mais frequentemente necessário para carregar ou descarregar os dados em grandes quantidades. Como Pig, Sqoop é um interpretador de linha de comando. Você digita os comandos Sqoop para o intérprete e eles são executados um de cada vez. Quatro principais características são encontradas em Sqoop:

  • importação em massa: Sqoop pode importar tabelas individuais ou bases de dados inteiras em HDFS. Os dados são armazenados nos diretórios nativas e arquivos no sistema de arquivos HDFS.

  • Entrada direta: Sqoop pode importar e mapear SQL (relacional) bancos de dados diretamente em Hive e HBase.

  • interacção de dados: Sqoop pode gerar classes Java para que você possa interagir com os dados de programação.

  • exportação de dados: Sqoop pode exportar dados diretamente do HDFS em um banco de dados relacional usando uma definição de tabela de destino com base nas especificações do banco de dados de destino.

Sqoop funciona olhando para o banco de dados que deseja importar e selecionar uma função apropriada de importação para os dados de origem. Depois que ele reconhece a entrada, ele, em seguida, lê os metadados para a tabela (ou banco de dados) e cria uma definição de classe de seus requisitos de entrada.

Você pode forçar Sqoop que ser muito seletivos para que você obtenha apenas as colunas que você está procurando antes de entrada em vez de fazer uma entrada inteira e, em seguida, à procura de seus dados. Isso pode economizar tempo considerável. A importação real a partir da base de dados externa para HDFS é realizado por um trabalho de MapReduce criado nos bastidores por Sqoop.

Sqoop é uma ferramenta eficaz para não-programadores. O outro ponto importante a ser observado é a dependência de tecnologias subjacentes como HDFS e MapReduce. Você vê isso várias vezes ao longo do elemento do ecossistema Hadoop.

menu