A Zona Landing Hadoop-Based

Quando você tenta decifrar o que um ambiente de análise pode parecer no futuro, você tropeça através do padrão do tempo zona de aterragem baseados em Hadoop e outra vez. Na verdade, ele não é mais sequer uma discussão de futuros e orientada porque a zona de aterragem tornou-se a forma que o futuro as empresas agora tentar salvar os custos de TI e fornecer uma plataforma para análise de dados inovador.

Então o que exatamente é a zona de aterragem? No nível mais básico, a zona de aterragem é apenas o lugar central onde os dados vai pousar em sua empresa - extracções semanais de dados de bancos de dados operacionais, por exemplo, ou a partir de arquivos de log de geração de sistemas. Hadoop é um repositório útil em que a aterrar de dados, por estas razões:

  • Ele pode lidar com todos os tipos de dados.

  • É facilmente escalável.

  • Ele é barato.

  • Depois de terra de dados no Hadoop, você tem a flexibilidade para consultar, analisar ou processar os dados em uma variedade de maneiras.

    image0.jpg

Este diagrama mostra apenas parte da história e não é de forma completa. Afinal, você precisa saber como os dados se move da zona de aterragem para o armazém de dados, e assim por diante.

O ponto de partida para a discussão sobre a modernização um armazém de dados tem que ser como as organizações usam data warehouses e os desafios departamentos de TI enfrentam com eles.

Na década de 1980, uma vez que as organizações se tornaram bons em armazenar suas informações operacionais em bancos de dados relacionais (transações de vendas, por exemplo, ou status da cadeia de suprimentos), líderes empresariais começaram a querer relatórios gerados a partir destes dados relacionais. As lojas relacionais primeiros eram bancos de dados operacionais e foram projetados para on-line Transaction Processing (OLTP), de modo que os registros podem ser inseridos, atualizados ou apagados o mais rapidamente possível.

Esta é uma arquitetura impraticável para comunicação em larga escala e análise, de forma Relational Online Analytical Processing (ROLAP) bancos de dados foram desenvolvidos para atender a essa necessidade. Isto levou à evolução de todo um novo tipo de RDBMS: a armazém de dados, que é uma entidade separada e vive ao lado de armazenamentos de dados operacionais de uma organização.

Isso se resume a usar ferramentas específicas para uma maior eficiência: você tem lojas operacionais de dados, que são projetados para processar de forma eficiente as transações e data warehouses, que são projetados para suportar análises e relatórios repetido.

Os armazéns de dados estão sob crescente estresse, porém, pelas seguintes razões:

  • O aumento da demanda para manter longos períodos de dados on-line.

  • Aumento da procura de recursos de processamento para transformar dados para uso em outros armazéns e data marts.

  • Aumento da procura de análises inovadoras, que exige que os analistas de fazer perguntas sobre os dados do armazém, no topo da elaboração regular de relatórios que já está sendo feito. Isso pode incorrer processamento adicional significativo.

Na figura, você pode ver o armazém de dados apresenta-se como o principal recurso para os vários tipos de análise listadas no lado direito da figura. Aqui você também vê o conceito de uma zona de aterragem representada, onde Hadoop irá armazenar dados de uma variedade de fontes de dados de entrada.

Para habilitar uma zona de aterrissagem Hadoop, você vai precisar para assegurar que você pode escrever dados das várias fontes de dados para HDFS. Para bancos de dados relacionais, uma boa solução seria a utilização de Sqoop.

Mas o desembarque dos dados é apenas o começo.

Quando você está se movendo dados de muitas fontes em sua zona de aterragem, uma questão que você vai inevitavelmente correr em é a qualidade dos dados. É comum que as empresas têm muitas bases de dados operacionais, onde detalhes importantes são diferentes, por exemplo, que um cliente pode ser conhecido como # 147-D. deRoos # 148- em um banco de dados e # 147 Dirk deRoos # 148- em outro.

Outro problema de qualidade encontra-se em sistemas onde há uma forte dependência de entrada manual de dados, seja de clientes ou funcionários - aqui, não é incomum encontrar os primeiros nomes e sobrenomes trocadas ou outra desinformação nos campos de dados.

questões de qualidade de dados são um grande negócio para ambientes de data warehouse, e é por isso que um monte de esforço vai para as etapas de limpeza e validação de dados de outros sistemas são processados ​​como ele é carregado para o armazém. Tudo se resume a Confiar em: Se os dados que você está fazendo perguntas de encontro é sujo, você não pode confiar as respostas em seus relatórios.

Assim, enquanto há um enorme potencial em ter acesso a muitos conjuntos de dados diferentes a partir de diferentes fontes em sua zona de aterragem Hadoop, você tem de levar em consideração a qualidade dos dados e quanto você pode confiar nos dados.

menu